सेंट्रल प्रोसेसिंग यूनिट

 सेंट्रल प्रोसेसिंग यूनिट (Central Processing Unit (CPU)) , एक इलेक्ट्रॉनिक परिपथ तंत्र है, जो कंप्यूटर प्रोग्राम से युक्त निर्देशों को निष्पादित करता है। इसे सेंट्रल प्रोसेसर, मुख्य प्रोसेसर या सिर्फ प्रोसेसर भी कहा जाता है। सीपीयू (CPU), प्रोग्राम में निर्देशों द्वारा निर्दिष्ट बुनियादी अंकगणित, तर्क, नियंत्रण और इनपुट/आउटपुट (I/O) का संचालन करता है। यह मुख्य मेमोरी और इनपुट/आउटपुट परिपथ तंत्र जैसे बाहरी घटकों और ग्राफिक्स प्रोसेसिंग यूनिट (GPU) जैसे विशेष प्रोसेसर के विपरीत है।

सीपीयू (CPU) का रूप, संरचना और कार्यान्वयन समय के साथ बदल गया है, लेकिन उनका मौलिक संचालन लगभग अपरिवर्तित ही रहता है। एक सीपीयू (CPU) के प्रमुख घटकों में अंकगणित-तर्क इकाई (arithmetic-logic unit(ALU)), जो अंकगणित और तर्क का संचालन करता है, प्रोसेसर रजिस्टर, जो एएलयू (ALU) को संचालनों (operands) की आपूर्ति करता है और एएलयू (ALU) संचालन के परिणामों को संग्रहीत करता है, और एक नियंत्रण इकाई, जो एएलयू (ALU), रजिस्टरों और अन्य घटकों के समन्वित संचालन को मेमोरी से निर्देशित करके, डिकोडिंग और निर्देशों के निष्पादन को व्यवस्थित करती है, अदि सम्मिलित हैं।

अधिकांश आधुनिक सीपीयू (CPU) एकीकृत सर्किट माइक्रोप्रोसेसरों पर प्रयुक्त होते हैं, जिसमें एक आईसी (IC) चिप पर एक या एक से अधिक सीपीयू (CPU) होते हैं। कई सीपीयू वाले माइक्रोप्रोसेसर चिप मल्टी-कोर प्रोसेसर होते हैं। एकल भौतिक सीपीयू (प्रोसेसर कोर) को अतिरिक्त आभासी या तार्किक सीपीयू (CPU) बनाने के लिए बहु-स्तरीय भी किया जा सकता है।

सीपीयू (CPU) वाले एक आईसी (IC) चिप में मेमोरी, परिधीय अंतरपृष्ठ और कंप्यूटर के अन्य घटक भी हो सकते हैं; ऐसे एकीकृत उपकरणों को विभिन्न रूप से माइक्रोकंट्रोलर या चिप पर तंत्र (SoC) कहा जाता है।

सरणी (array) प्रोसेसर या वेक्टर प्रोसेसर में कई प्रोसेसर होते हैं जो बिना किसी इकाई को केंद्रीय मानते हुए समानांतर कार्य करते हैं। आभासी सीपीयू (CPU) गतिशील समेकित कम्प्यूटेशनल संसाधनों का एक पृथक्करण है।

इतिहास
ईएनआईएसी (ENIAC) जैसे प्रारंभिक कंप्यूटरों को अलग-अलग कार्यों को करने के लिए भौतिक रूप से पुनः तारित किया जाना था, जिसके कारण इन मशीनों को "फिक्स्ड-प्रोग्राम कंप्यूटर (fixed-program-computer)" कहा जाने लगा। "सेंट्रल प्रोसेसिंग यूनिट" शब्द का उपयोग वर्ष 1955 के पहले से किया गया था। चूंकि सीपीयू (CPU) शब्द को सामान्यतः सॉफ्टवेयर (कंप्यूटर प्रोग्राम) निष्पादन के लिए एक उपकरण के रूप में परिभाषित किया जाता है, इसलिए उचित रूप से सीपीयू (CPU) कहे जा सकने वाले सबसे प्रारम्भिक उपकरण का आगमन संग्रहीत-प्रोग्राम कंप्यूटर (stored-program computer) के आविष्कार के साथ हुआ था।

जे. प्रेस्पर एकर्ट (J. Presper Eckert) और जॉन विलियम मौचली (John William Mauchly) के ईएनआईएसी (ENIAC) की संरचना में एक संग्रहीत-प्रोग्राम कंप्यूटर का विचार पहले से ही उपस्थित था, लेकिन प्रारंभ में इसे छोड़ दिया गया था, जिससे इसे शीघ्रता से समाप्त किया जा सके। ईएनआईएसी (ENIAC) के निर्माण से पूर्व 30 जून, 1945 को गणितज्ञ जॉन वॉन न्यूमैन ने ईडीवीएसी (EDVAC) पर एक रिपोर्ट का पहला मसौदा शीर्षक वाला पृष्ठ वितरित किया। यह एक संग्रहीत-प्रोग्राम कंप्यूटर की रूपरेखा थी जो अंततः अगस्त 1949 में पूरी हो गई। ईडीवीएसी (EDVAC) को विभिन्न प्रकार के निर्देशों (या संचालन) की एक निश्चित संख्या को निष्पादित करने के लिए निर्मित किया गया था। गौरतलब है कि ईडीवीएसी (EDVAC) के लिए लिखे गए प्रोग्राम को कंप्यूटर की भौतिक वायरिंग द्वारा निर्दिष्ट करने के स्थान पर उच्च गति कंप्यूटर मेमोरी में संग्रहीत किया जाना था। इसने ईएनआईएसी (ENIAC) की एक गंभीर सीमा को पार कर लिया, जो नया कार्य करन हेतु कंप्यूटर को पुन: कॉन्फ़िगर करने के लिए आवश्यक काफी समय और प्रयास था।। वॉन न्यूमैन की संरचना के साथ, ईडीवीएसी (EDVAC) द्वारा चलाए जाने वाले प्रोग्राम को केवल मेमोरी की सामग्री को बदलकर बदला जा सकता है। ईडीवीएसी (EDVAC) पहला संगृहीत-प्रोग्राम कंप्यूटर नहीं था, क्योंकि मैनचेस्टर बेबी नामक एक छोटे पैमाने के प्रायोगिक संगृहीत प्रोग्राम कंप्यूटर ने अपना पहला प्रोग्राम 21 जून 1948 को और मैनचेस्टर मार्क-1 ने 16-17 जून 1949 की रात के दौरान अपना पहला प्रोग्राम संचालित किया।

प्रारंभिक सीपीयू (CPU) की संरचना पारंपरिक थी, जिनका उपयोग बड़े और कभी-कभी विशिष्ट कंप्यूटर के हिस्से के रूप में किया जाता था। हालांकि, किसी विशेष अनुप्रयोग के लिए पारम्परिक सीपीयू (CPU) की इस संरचना पद्धति ने बड़ी मात्रा में उत्पादित बहुउद्देश्यीय प्रोसेसर के विकास के लिए काफी हद तक मार्ग प्रशस्त किया है। यह मानकीकरण असतत ट्रांजिस्टर मेनफ्रेम और मिनीकंप्यूटर के युग में शुरू हुआ और एकीकृत परिपथ के लोकप्रिय होने के साथ तेजी से बढ़ा है। आईसी (IC) ने तीव्र गति से जटिल सीपीयू (CPU) को नैनोमीटर के क्रम पर सहनशीलता के लिए संरचना और निर्मित करने की अनुमति दी है। सीपीयू (CPU) के लघुकरण और मानकीकरण ने समर्पित कंप्यूटिंग मशीनों के सीमित अनुप्रयोग ने आधुनिक जीवन में अत्यधिक डिजिटल उपकरणों की उपस्थिति में वृद्धि की है। आधुनिक माइक्रोप्रोसेसर ऑटोमोबाइल से लेकर सेलफोन, और कभी-कभी खिलौनों जैसी इलेक्ट्रॉनिक उपकरणों में दिखाई देते हैं।

जबकि वॉन न्यूमैन को प्रायः ईडीवीएसी (EDVAC) की अपनी संरचना के कारण संग्रहीत-प्रोग्राम कंप्यूटर की संरचना का श्रेय दिया जाता है, और संरचना को वॉन न्यूमैन निर्माणकला के रूप में जाना जाता है; कोनराड ज़ूस जैसे अन्य लोगों ने उनके पहले इसी तरह के विचारों का सुझाव दिया था और उन्हें प्रयुक्त किया था। ईडीवीएसी (EDVAC) से पहले पूर्ण, हार्वर्ड मार्क-प्रथम की तथाकथित हार्वर्ड वास्तुकला ने इलेक्ट्रॉनिक मेमोरी के स्थान पर छिद्रित पेपर टेप का उपयोग करके एक संग्रहीत-कार्यक्रम संरचना का भी उपयोग किया। वॉन न्यूमैन और हार्वर्ड वास्तुकला के बीच महत्वपूर्ण अंतर यह है कि बाद वाला सीपीयू (CPU) निर्देशों और डेटा के भंडारण और उपचार को अलग करता है, जबकि पूर्व वाला दोनों के लिए समान मेमोरी का उपयोग करता है। अधिकांश आधुनिक सीपीयू (CPU) मुख्य रूप से संरचना में वॉन न्यूमैन हैं, लेकिन हार्वर्ड वास्तुकला वाले सीपीयू (CPU) को भी विशेष रूप से अन्तर्निहित अनुप्रयोगों में देखा जाता है; उदाहरण के लिए, एटमेल एवीआर माइक्रोकंट्रोलर (Atmel AVR Microcontroller) हार्वर्ड वास्तुकला प्रोसेसर हैं।

रिले और निर्वात नली (ऊष्मापन नली) सामान्यतः स्विचिंग तत्वों के रूप में उपयोग किए जाते थे; एक उपयोगी कंप्यूटर के लिए हजारों या दसियों हज़ार स्विचिंग उपकरणों की आवश्यकता होती है। सिस्टम की समग्र गति स्विच की गति पर निर्भर करती है। ईडीवीएसी (EDVAC) जैसे निर्वात नली कंप्यूटर विफलताओं के बीच औसतन आठ घंटे तक चलते थे, जबकि हार्वर्ड मार्क-प्रथम जैसे (धीमे, लेकिन पहले) रिले कंप्यूटर बहुत कम ही विफल होते थे। अंत में, महत्वपूर्ण गति लाभ के सामान्यतः विश्वसनीयता की समस्याओं से अधिक होने के कारण नली-आधारित सीपीयू (CPU) प्रमुख हो गए। इनमें से अधिकांश प्रारम्भिक समकालीन सीपीयू (CPU) आधुनिक माइक्रोइलेक्ट्रॉनिक संरचनाओं की तुलना में कम घड़ी स्पंदों पर चलते थे। इस समय 100 किलोहर्ट्ज़ से 4 मेगाहर्ट्ज तक की घड़ी संकेत आवृत्तियाँ बहुत सामान्य थीं, जो बड़े पैमाने पर स्विचिंग उपकरणों की गति से सीमित थीं, जिनके साथ उन्हें बनाया गया था।

ट्रांजिस्टर सीपीयू (Transistor CPUs)
विभिन्न प्रौद्योगिकियों द्वारा छोटे और अधिक विश्वसनीय इलेक्ट्रॉनिक उपकरणों के निर्माण की सुविधा प्रदान करने के कारण सीपीयू (CPU) की संरचना की जटिलता में वृद्धि हुई। इस तरह का पहला सुधार ट्रांजिस्टर के आगमन के साथ हुआ। 1950 और 1960 के दशक के दौरान ट्रांजिस्टरीकृत सीपीयू (transistorised CPU) को अब निर्वात नली और रिले जैसे भारी, अविश्वसनीय और नाजुक स्विचिंग तत्वों से नहीं बनाया जाना था। इस सुधार के साथ असतत (एकल) घटकों वाले एक या कई मुद्रित परिपथ बोर्डों पर अधिक जटिल और विश्वसनीय सीपीयू (CPU) बनाए गए थे।

आईबीएम (IBM) ने वर्ष 1964 में अपना आईबीएम सिस्टम/360 (IBM system/360) कंप्यूटर निर्माणकला प्रस्तुत किया जिसका उपयोग कंप्यूटरों की एक श्रृंखला में किया गया था जो एक ही प्रोग्राम को अलग-अलग गति और प्रदर्शन के साथ चलाने में सक्षम थे। यह ऐसे समय में महत्वपूर्ण था जब अधिकांश इलेक्ट्रॉनिक कंप्यूटर, यहाँ तक ​​कि एक ही निर्माता द्वारा बनाए गए कंप्यूटर भी एक दूसरे के साथ असंगत थे। आईबीएम (IBM) ने इस सुधार को सुविधाजनक बनाने के लिए एक माइक्रोप्रोग्राम (प्रायः "माइक्रोकोड") की अवधारणा का उपयोग किया, जो अभी भी आधुनिक सीपीयू (CPU) में व्यापक उपयोग के रूप में दिखता है। सिस्टम/360 निर्माणकला इतनी लोकप्रिय थी कि इसने दशकों तक मेनफ्रेम कंप्यूटर बाजार पर अपना दबदबा बनाया और एक ऐसी विरासत छोड़ी जो अभी भी आईबीएम ज़ेडश्रृंखला (IBM zSeries) जैसे समान आधुनिक कंप्यूटरों द्वारा जारी है।  डिजिटल उपकरण निगम (DEC) ने वर्ष 1965 में वैज्ञानिक और अनुसंधान बाजारों, पीडीपी-8 (PDP-8) के उद्देश्य से एक और प्रभावशाली कंप्यूटर प्रस्तुत किया। अपने पूर्ववर्तियों की तुलना में ट्रांजिस्टर-आधारित कंप्यूटरों के कई विशिष्ट लाभ थे। बढ़ी हुई विश्वसनीयता और कम बिजली की खपत को सुविधाजनक बनाने के अतिरिक्त ट्रांजिस्टर ने एक टनली या रिले की तुलना में ट्रांजिस्टर के कम स्विचिंग समय के कारण सीपीयू (CPU) को बहुत अधिक गति से संचालित करने की अनुमति दी। स्विचिंग तत्वों की बढ़ी हुई विश्वसनीयता और नाटकीय रूप से बढ़ी हुई गति इस अवधि के दौरान दसियों मेगाहर्ट्ज़ में सीपीयू (CPU) घड़ी दर आसानी से प्राप्त की गई थी, जो इस समय तक लगभग विशेष रूप से ट्रांजिस्टर थे। इसके अतिरिक्त, जब असतत ट्रांजिस्टर और आईसी सीपीयू (IC CPU) भारी उपयोग में थे, तब एकल निर्देश, एकाधिक डेटा (सिम) वेक्टर प्रोसेसर जैसे नए उच्च-प्रदर्शन संरचना दिखाई देने लगे। इन प्रारंभिक प्रयोगात्मक संरचनाओं ने बाद में क्रे आईएनसी (Cray Inc.) और फुजित्सु लिमिटेड (Fujitsu Ltd) द्वारा बनाए गए विशेष सुपर कंप्यूटरों के युग को जन्म दिया।

छोटे पैमाने पर एकीकरण सीपीयू (Small scale integration CPUs)
इस अवधि के दौरान, एक सघन स्थान में कई परस्पर संयोजित ट्रांजिस्टर के निर्माण की एक विधि विकसित की गई थी। एकीकृत परिपथ (आईसी) ने बड़ी संख्या में ट्रांजिस्टर को एकल अर्धचालक-आधारित डाई, या "चिप" पर निर्मित करने की अनुमति दी। सर्वप्रथम केवल नॉर गेटों (NOR gates) जैसे बहुत ही बुनियादी गैर-विशिष्ट डिजिटल परिपथों को आईसी (IC) में छोटा किया गया था। इन "निर्माण खंड (building block)" आईसी (IC) पर आधारित सीपीयू (CPU) को सामान्यतः "छोटे पैमाने पर एकीकरण (SSI)" उपकरण कहा जाता है। एसएसआई आईसी (SSI IC), जैसे कि अपोलो गाइडेंस कंप्यूटर में उपयोग किए जाने वाले, सामान्यतः कुछ दर्जन ट्रांजिस्टर होते हैं। एसएसआई आईसी (SSI IC) से एक संपूर्ण सीपीयू (CPU) बनाने के लिए हजारों एकल चिपों की आवश्यकता होती है, लेकिन फिर भी इनमें पहले के असतत ट्रांजिस्टर संरचनाओं की तुलना में बहुत कम जगह और बिजली की खपत होती है।

सिस्टम/360 का अनुपालक आईबीएम सिस्टम/360 (IBM system/360) ठोस तार्किक तकनीक असतत-ट्रांजिस्टर मॉड्यूल के स्थान पर एसएसआई आईसी (SSI IC) का उपयोग करता है। डीईसी पीडीपी-8/I (DEC's PDP-8/I)और केआई10 पीडीपी-10 (KI10 PDP-10) को भी पीडीपी-8 (PDP-8) और पीडीपी-10 (PDP-10) द्वारा उपयोग किए जाने वाले एकल ट्रांजिस्टर से एसएसआई आईसी (SSI IC) में बदल दिया गया, और उनकी अत्यंत लोकप्रिय पीडीपी-11 (PDP-11) लाइन मूल रूप से एसएसआई आईसी (SSI IC) के साथ बनाई गई थी, लेकिन अंततः इनके व्यावहारिक हो जाने पर इन्हें एलएसआई (LSI) घटकों के साथ लागू किया गया।

बड़े पैमाने पर एकीकरण सीपीयू (Large scale integration CPUs)
ली बॉयसेल ने वर्ष 1967 के "घोषणापत्र" सहित प्रभावशाली लेख प्रकाशित किए, जिसमें वर्णन किया गया था कि अपेक्षाकृत कम संख्या में बड़े पैमाने के एकीकरण परिपथ (LSI) से 32-बिट मेनफ्रेम कंप्यूटर का समकक्ष कैसे बनाया जाए। एलएसआई चिपों (LSI chips) (जो सौ या अधिक गेट वाले चिप होते हैं) के निर्माण की एकमात्र विधि यह थी कि उन्हें धातु-ऑक्साइड-अर्धचालक (MOS), अर्धचालक निर्माण प्रक्रिया जैसे पीएमओएस तर्क (PMOS logic), एनएमओएस तर्क (NMOS logic), या तो सीएमओएस तर्क (CMOS logic) का उपयोग करके बनाना था। हालाँकि, कुछ कंपनियों ने द्विध्रुवी संधि ट्रांजिस्टर के मॉस चिप (MOS chips) की तुलना में तेज़ होने के कारण 1970 के दशक तक द्विध्रुवी ट्रांजिस्टर-ट्रांजिस्टर तर्क (TTL) चिपों से प्रोसेसर का निर्माण जारी रखा, जबकि डेटाप्वाइंट(Datapoint) जैसी कुछ कंपनियों ने 1980 के दशक चिप टीटीएल चिपों से (TTL chips) प्रोसेसर का निर्माण जारी रखा। मॉस आईसी (MOS IC) 1960 के दशक में धीमे थे और प्रारंभ में केवल उन अनुप्रयोगों में उपयोगी माने जाते थे जिन्हें कम शक्ति की आवश्यकता होती थी। वर्ष 1968 में फेयरचाइल्ड अर्धचालक में फेडरिको फागिन द्वारा सिलिकॉन-गेट एमओएस (MOS) तकनीक के विकास के बाद, 1970 के दशक के प्रारंभ में एमओएस आईसी (MOS IC) ने बड़े पैमाने पर द्विध्रुवी टीटीएल को मानक चिप प्रौद्योगिकी के रूप में प्रतिस्थापित कर दिया।

माइक्रोइलेक्ट्रॉनिक तकनीक की उन्नति के साथ-साथ आईसी (IC) पर अधिक संख्या में ट्रांजिस्टर रखे गये, जिससे एक पूर्ण सीपीयू के लिए आवश्यक एकल आईसी की संख्या कम हो गई। एमएसआई (MSI) और एलएसआई (LSI) एकीकृत परिपथ ने ट्रांजिस्टर की संख्या बढ़ाकर सैकड़ों और फिर हजारों कर दी। एक संपूर्ण सीपीयू (CPU) के निर्माण के लिए आवश्यक आईसी (IC) की संख्या को वर्ष 1968 तक घटाकर आठ अलग-अलग प्रकार की 24 आईसी (IC) कर दिया गया, जिसमें प्रत्येक आईसी (IC) में लगभग 1000 मॉस्फेट(MOSFET) होते थे। पीडीपी-11 (PDP-11) के पहले एलएसआई (LSI) कार्यान्वयन में अपने एसएसआई (SSI) और एमएसआई (MSI) पूर्ववर्तियों के विपरीत केवल चार एलएसआई (LSI) एकीकृत परिपथों से बना एक सीपीयू (CPU) सम्मिलित था।

माइक्रोप्रोसेसर (Microprocessor)
माइक्रोप्रोसेसरों को पहली बार प्रस्तुत किये जाने के कारण उन्होंने अन्य सभी सेन्ट्रल प्रोसेसिंग यूनिट (CPU) कार्यान्वयन विधियों को लगभग पूरी तरह से पीछे छोड़ दिया है। व्यावसायिक रूप से उपलब्ध पहला माइक्रोप्रोसेसर, इंटेल 4004 (intel 4004) वर्ष 1971 में बनाया गया, था, और इंटेल 8080 (intel 8080), वर्ष 1974 में बनाया गया पहला व्यापक रूप से इस्तेमाल किया जाने वाला माइक्रोप्रोसेसर था। उस समय के मेनफ्रेम और मिनीकंप्यूटर निर्माताओं ने अपने पुराने कंप्यूटर वास्तुकला को उन्नत करने के लिए स्वामित्व आईसी विकास कार्यक्रम (proprietary IC development programs) शुरू किए, और अंततः निर्मित निर्देश सेट संगत माइक्रोप्रोसेसर अपने पुराने हार्डवेयर और सॉफ़्टवेयर के साथ पिछड़े-संगत थे। सर्वव्यापी व्यक्तिगत कंप्यूटर के आगमन और अंतिम सफलता के साथ संयुक्त, सीपीयू (CPU) शब्द अब लगभग विशेष रूप से माइक्रोप्रोसेसरों पर प्रयुक्त होता है। एक ही प्रोसेसिंग चिप में कई सीपीयू (डिनोटेड कोर) को जोड़ा जा सकता है।

सीपीयू (CPU) की पिछली पीढ़ियों को एक या अधिक परिपथ बोर्डों पर असतत घटकों और कई छोटे एकीकृत परिपथों के रूप में प्रयुक्त किया गया था। दूसरी ओर, माइक्रोप्रोसेसर, बहुत कम संख्या में (सामान्यतः एक) आईसी (IC) पर निर्मित सीपीयू (CPU) होते हैं। एक ही डाई पर लागू होने के परिणामस्वरूप समग्र छोटे सीपीयू आकार, कम गेट पराश्रयी धारिता जैसे भौतिक कारकों के कारण तेजी से स्विचिंग समय के लिय उत्तरदायी होते हैं। इसने समकालिक माइक्रोप्रोसेसरों को दसियों मेगाहर्ट्ज़ से लेकर कई गीगाहर्ट्ज़ तक की घड़ी दर रखने की अनुमति दी है। इसके अतिरिक्त, एक आईसी (IC) पर अत्यधिक छोटे ट्रांजिस्टर बनाने की क्षमता ने एकल सीपीयू (CPU) में ट्रांजिस्टर की जटिलता और संख्या को कई गुना बढ़ा दिया है। व्यापक रूप से देखी गई इस प्रवृत्ति का वर्णन मूर के नियम द्वारा किया गया है, जो वर्ष 2016 तक सीपीयू (और अन्य आईसी (IC)) जटिलता के विकास का काफी सटीक भविष्यवक्ता साबित हुआ था।

जबकि वर्ष 1950 के बाद से सीपीयू की जटिलता, आकार, निर्माण और सामान्य रूप में काफी परिवर्तन आया है, लेकिन मूल संरचना और कार्य बिल्कुल भी नहीं बदले हैं। आज लगभग सभी सामान्य सीपीयू (CPU) को वॉन न्यूमैन संगृहीत-प्रोग्राम मशीन के रूप में बहुत सटीक रूप से वर्णित किया जा सकता है। चूंकि मूर के नियम के अब लागू न होने के कारण एकीकृत परिपथ ट्रांजिस्टर प्रौद्योगिकी की सीमाओं के बारे में चिंताएँ उत्पन्न हुई हैं। इलेक्ट्रॉनिक गेटों के अत्यधिक लघुकरण के कारण विद्युत्-स्थानान्तरण (electromigration) और सबथ्रेशोल्ड रिसाव (subthreshold leakage) जैसी घटनाओं के प्रभाव बहुत अधिक महत्वपूर्ण हो गए हैं।  ये नई चिंताएं कई कारकों में से हैं, जिसके कारण शोधकर्ताओं ने क्वांटम कंप्यूटर (quantum computer) जैसे कंप्यूटिंग के नए तरीकों की जांच के साथ ही समानांतरवाद और अन्य तरीकों के उपयोग का विस्तार किया, जो चिरसम्मत वॉन न्यूमैन मॉडल (classical von Neumann model) की उपयोगिता को बढ़ाते हैं।

संचालन (Operation)
अधिकांश सीपीयू (CPU) का मौलिक संचालन संग्रहीत निर्देशों के अनुक्रम को निष्पादित करना है, जिसे प्रोग्राम (program) कहा जाता है, चाहे वे किसी भी भौतिक रूप में हों। निष्पादित किए जाने वाले निर्देश किसी प्रकार की कंप्यूटर मेमोरी में रखे जाते हैं। लगभग सभी सीपीयू (CPU) अपने संचालन में प्राप्त करना (fetch), डिकोड करना (decode) और निष्पादित करना (execute) आदि चरणों का पालन करते हैं, जिन्हें सामूहिक रूप से निर्देश चक्र के रूप में जाना जाता है।

एक निर्देश के निष्पादन के बाद, पूरी प्रक्रिया दोहराई जाती है, साथ ही अगले निर्देश चक्र के साथ सामान्य रूप से प्रोग्राम काउंटर में बढ़े हुए मूल्य के कारण अगला-इन-सीक्वेंस (next-in-sequence) निर्देश प्राप्त होता है। एक जम्प निर्देश (jump instruction) निष्पादित किये जाने पर प्रोग्राम काउंटर को उस निर्देश के पते को शामिल करने के लिए संशोधित करना पड़ता है, जिस पर वह जम्प (jump) कर गया था और प्रोग्राम निष्पादन सामान्य रूप से जारी रहता है। अधिक जटिल सीपीयू (CPU) में, एक साथ कई निर्देश प्राप्त किए जा सकते हैं, डिकोड किए जा सकते हैं और निष्पादित भी किए जा सकते हैं। यह भाग सामान्यतः "क्लासिक आरआईएससी पाइपलाइन (classic RISC pipeline)" के रूप में जाने जाने वाले विषय का वर्णन करता है, जो कई इलेक्ट्रॉनिक उपकरणों (प्रायः माइक्रोकंट्रोलर) में उपयोग किए जाने वाले साधारण सीपीयू (CPU) में काफी प्रचलित है। यह काफी हद तक सीपीयू कैश (CPU cache) की महत्वपूर्ण भूमिका और इस प्रकार पाइपलाइन के पहुँच स्तर की उपेक्षा करता है।

कुछ निर्देश सीधे परिणाम डेटा उत्पन्न करने के स्थान पर प्रोग्राम काउंटर में हेरफेर करते हैं; इस तरह के निर्देशों को सामान्यतः "जम्प (jump)" कहा जाता है और चक्र (loop), सशर्त कार्यक्रम निष्पादन (सशर्त जम्प के उपयोग के माध्यम से), और कार्यों के अस्तित्व जैसे कार्यक्रम-व्यवहार की सुविधा प्रदान करते हैं। कुछ प्रोसेसरों में, कुछ अन्य निर्देश "ध्वज (flags)" रजिस्टर में बिट्स की स्थिति को बदलते हैं। इन ध्वजों (flags) का उपयोग किसी कार्यक्रम के व्यवहार को प्रभावित करने के लिए किया जा सकता है, क्योंकि वे अक्सर विभिन्न कार्यों के परिणाम का संकेत देते हैं। उदाहरण के लिए, ऐसे प्रोसेसर में एक "तुलना" निर्देश दो मानों का मूल्यांकन करता है और फ़्लैग रजिस्टर में बिट्स को यह इंगित करने के लिए निर्धारित या साफ़ करता है, कि कौन सा मान बड़ा है या क्या वे बराबर हैं; इनमें में से एक ध्वज का उपयोग प्रोग्राम प्रवाह को निर्धारित करने के लिए विलंबित जम्प निर्देश (later jump instruction) द्वारा किया जा सकता है।

प्राप्त करना (Fetch)
प्रोग्राम मेमोरी से एक संख्या या संख्याओं के अनुक्रम द्वारा प्रदर्शित एक निर्देश को पुनः प्राप्त करना प्राप्त करने (fetch) की प्रक्रिया में सम्मिलित है। प्रोग्राम मेमोरी में निर्देश का स्थान (पता), प्रोग्राम काउंटर (पीसी (PC); जिसे इंटेल x86 माइक्रोप्रोसेसरों में "इंस्ट्रक्शन प्वाइंटर" कहा जाता है) द्वारा निर्धारित किया जाता है, जो एक संख्या को संगृहीत करता है जो प्राप्त किए जाने वाले अगले निर्देश के पते की पहचान करता है। पीसी (PC) को एक निर्देश प्राप्त होने के बाद निर्देश की लंबाई तक बढ़ाया जाता है, जिससे इसमें अनुक्रम में अगले निर्देश का पता सम्मिलित हो। प्रायः प्राप्त किए जाने वाले निर्देश को अपेक्षाकृत धीमी मेमोरी से पुनर्प्राप्त किया जाना चाहिए, जिससे सीपीयू (CPU) वापसी के निर्देश की प्रतीक्षा करते समय रुक जाता है। कैश (cache) और पाइपलाइन निर्माणकला द्वारा आधुनिक प्रोसेसर में इस मुद्दे को काफी हद तक संबोधित किया गया है।(नीचे देखें)

डिकोड करना (Decode)
सीपीयू (CPU) द्वारा मेमोरी से प्राप्त निर्देश सीपीयू (CPU) के कार्य का निर्धारण करता है। डिकोड चरण में, निर्देश डिकोडर के रूप में ज्ञात बाइनरी डिकोडर परिपथ तंत्र द्वारा निष्पादित निर्देश को संकेत में परिवर्तित किया जाता है जो सीपीयू (CPU) के अन्य भागों को नियंत्रित करता है।

जिस तरह से निर्देश की व्याख्या की जाती है वह सीपीयू (CPU) के निर्देश सेट निर्माणकला (ISA) द्वारा परिभाषित किया जाता है। प्रायः, निर्देश के भीतर ओपकोड (opcode) के रूप में जाना जाने वाला बिट्स का एक समूह (अर्थात, एक "फ़ील्ड"), यह इंगित करता है कि कौन सा संचालन किया जाना है, जबकि संकार्य (operands) जैसे शेष फ़ील्ड सामान्यतः संचालन के लिए आवश्यक पूरक जानकारी प्रदान करते हैं। उन संकार्य (operands) को एक स्थिर मान (तत्काल मान) के रूप में निर्दिष्ट किया जा सकता है, या एक प्रोसेसर रजिस्टर या मेमोरी एड्रेस जैसे किसी मान के स्थान के रूप में हो सकता है, जैसा कि कुछ एड्रेसिंग मोड (addressing mode) द्वारा निर्धारित किया जाता है।

कुछ सीपीयू संरचनाओं में निर्देश डिकोडर को सख्त-तारित (hardwired), अपरिवर्तनीय द्विआधारी डिकोडर परिपथ के रूप में प्रयुक्त किया जाता है। जबकि अन्य सीपीयू संरचनाओं में, एक माइक्रोप्रोग्राम (microprogram) का उपयोग सीपीयू विन्यास संकेतों के समूह में निर्देशों का अनुवाद करने के लिए किया जाता है जो कि कई घड़ी की नाड़ी (clock pulse) पर क्रमिक रूप से प्रयुक्त होते हैं। कुछ मामलों में माइक्रोप्रोग्राम को संगृहीत करने वाली मेमोरी फिर से लिखने योग्य होती है, जिससे सीपीयू (CPU) द्वारा निर्देशों को डिकोड करने के तरीके को बदलना संभव हो जाता है।।

निष्पादित करना (Execute)
प्राप्त करने और डीकोड चरणों के बाद, निष्पादन चरण निष्पादित किया जाता है। इसमें सीपीयू निर्माणकला (CPU architecture) के आधार पर एकल क्रिया या क्रियाओं का अनुक्रम शामिल हो सकता है। नियंत्रण संकेत, प्रत्येक क्रिया के दौरान सीपीयू (CPU) के विभिन्न भागों को विद्युत रूप से सक्षम या अक्षम करते हैं, जिससे वे वांछित संचालन के सभी या एक भाग को निष्पादित कर सकें। तब सामान्यतः घड़ी स्पंद के जवाब में क्रिया पूरी हो जाती है। त्वरित पहुंच के लिए बाद के निर्देशों द्वारा परिणाम प्रायः आंतरिक सीपीयू रजिस्टर में लिखे जाते हैं। जबकि अन्य मामलों में परिणाम धीमे, लेकिन कम खर्चीले और उच्च क्षमता वाली मुख्य मेमोरी में लिखे जा सकते हैं।

उदाहरण के लिए, यदि एक अतिरिक्त निर्देश निष्पादित किया जाना है, तो ऑपरेंड (संख्याओं को संक्षेप में) वाले रजिस्टर सक्रिय होते हैं, जैसे कि अंकगणितीय तर्क इकाई (एएलयू) के हिस्से जो अतिरिक्त प्रदर्शन करते हैं। जब घड़ी में स्पंदन होता है, तो संकार्य (operands) स्त्रोत रजिस्टर से एएलयू (ALU) में प्रवाहित होता है, और योग इसके आउटपुट पर दिखाई देता है। अनुक्रम घड़ी स्पंदनों पर, अन्य घटकों को आउटपुट (संचालन का योग) को संग्रहण (जैसे, एक रजिस्टर या मेमोरी) में स्थानांतरित करने के लिए सक्षम (और अक्षम) किया जाता है। यदि परिणामी योग बहुत बड़ा है (अर्थात, यह ALU के आउटपुट शब्द आकार से बड़ा है), तो एक अंकगणितीय अतिप्रवाह ध्वज सेट किया जाता है, जो अगले संचालन को प्रभावित करता है।

संरचना और कार्यान्वयन (Structure and implementation)
सीपीयू के परिपथ तंत्र में सख्त तारित, बुनियादी संचालन का एक समूह होता है जिसे वह संचालित कर सकता है, जिसे निर्देश समूह कहा जाता है। इस तरह के संचालन में दो संख्याओं को जोड़ना या घटाना, दो संख्याओं की तुलना करना, या एक प्रोग्राम के किसी भिन्न भाग में जम्पिंग जैसे प्रोग्राम सम्मिलित हो सकते हैं। प्रत्येक निर्देश को बिटों के एक अद्वितीय संयोजन द्वारा दर्शाया जाता है, जिसे मशीन की भाषा में ओपकोड (opcode) के रूप में जाना जाता है। एक निर्देश को संसाधित करते समय, सीपीयू (CPU), ओपकोड (एक द्विआधारी डिकोडर के माध्यम से) को नियंत्रण संकेतों में डिकोड करता है, जो सीपीयू (CPU) के व्यवहार को व्यवस्थित करता है। एक पूर्ण मशीन भाषा निर्देश में एक ओपकोड (opcode) और कई मामलों में, अतिरिक्त बिट होते हैं, जो संचालन के लिए तर्क निर्दिष्ट करते हैं (उदाहरण के लिए, एक अतिरिक्त संचालन के मामले में संख्याओं का योग किया जाना है)। जटिलता के पैमाने पर जाने पर, मशीन भाषा, प्रोग्राम मशीन भाषा निर्देशों का एक संग्रह होता है जिसे सीपीयू (CPU) निष्पादित करता है।

प्रत्येक निर्देश के लिए वास्तविक गणित का संचालन सीपीयू (CPU) के प्रोसेसर के भीतर एक संयोजन तर्क परिपथ द्वारा किया जाता है जिसे अंकगणित-तर्क इकाई (arithmetic logic unit) या एएलयू (ALU) के रूप में जाना जाता है। सामान्य तौर पर, एक निर्देश को मेमोरी से प्राप्त करके सीपीयू (CPU) एक संचालन के लिए अपने एएलयू (ALU) का उपयोग करके परिणाम को मेमोरी में संग्रहीत करके निष्पादित करता है। पूर्णांक गणित (integer mathematics) और तर्क संचालन (logic operations) के निर्देशों के अतिरिक्त मेमोरी से डेटा लोड करने और इसे वापस संग्रहीत करने के लिए, शाखा संचालन और सीपीयू की फ्लोटिंग-प्वाइंट यूनिट (FPU) द्वारा निष्पादित फ्लोटिंग-प्वाइंट संख्याओं पर गणितीय संचालन जैसे कई अन्य मशीन निर्देश मौजूद हैं।

नियंत्रण इकाई (Control Unit)
नियंत्रण इकाई (CU), सीपीयू (CPU) का एक घटक होता है जो प्रोसेसर के संचालन को निर्देशित करता है। यह कंप्यूटर की मेमोरी, अंकगणित और तर्क इकाई और इनपुट और आउटपुट उपकरण को प्रोसेसर को भेजे गए निर्देशों का उत्तर देने की विधि के बारे में बताता है।

यह समय और नियंत्रण संकेत प्रदान करके अन्य इकाइयों के संचालन को निर्देशित करता है। अधिकांश कंप्यूटर संसाधनों का प्रबंधन सीयू (CU) द्वारा किया जाता है। यह सीपीयू (CPU) और अन्य उपकरणों के बीच डेटा के प्रवाह को निर्देशित करता है। जॉन वॉन न्यूमैन ने नियंत्रण इकाई को वॉन न्यूमैन वास्तुकला के हिस्से के रूप में सम्मिलित किया। नियंत्रण इकाई, आधुनिक कंप्यूटर संरचनाओं में सामान्यतः सीपीयू (CPU) का एक आंतरिक भाग होता है, इसके प्रारंभ होने के बाद से इसकी समग्र भूमिका और संचालन अपरिवर्तित रहता है।

अंकगणितीय तर्क इकाई (Arithmetic logic unit)
अंकगणितीय तर्क इकाई (ALU) प्रोसेसर के भीतर एक अंकीय परिपथ होता है, जो पूर्णांक अंकगणित और बिटवार तर्क संचालन निष्पादित करता है। एएलयू (ALU) के इनपुट, वह डेटा शब्द होते हैं जिन्हें संचालित किया जाना होता है, इन्हें संकार्य (operand) कहा जाता है, पिछले संचालन से स्थिति की सूचना और नियंत्रण इकाई से एक कोड यह दर्शाता है कि कौन सा संचालन करना है। निष्पादित किए जा रहे निर्देश के आधार पर संकार्य (operands) आंतरिक सीपीयू रजिस्टरों, बाहरी मेमोरी, या एएलयू द्वारा उत्पन्न स्थिरांक से हो सकते हैं।

जब सभी इनपुट संकेत एएलयू परिपथ तंत्र के माध्यम से व्यवस्थित और प्रचारित हो जाते हैं, तो प्रदर्शित किए गए संचालन का परिणाम एएलयू (ALU) के आउटपुट पर दिखाई देता है। एक डेटा शब्द, जिसे एक रजिस्टर या मेमोरी में संग्रहीत किया जा सकता है, और स्थिति की जानकारी, जो सामान्यतः इस उद्देश्य के लिए आरक्षित एक विशेष आंतरिक सीपीयू रजिस्टर में संग्रहीत होती है; परिणाम में ये दोनों घटक उपस्थित होते हैं।

पता पीढ़ी इकाई (Address generation unit)
पता जनरेशन यूनिट (AGU), जिसे कभी -कभी पता कम्प्यूटेशन यूनिट (ACU) भी कहा जाता है, सीपीयू (CPU) के अंदर एक निष्पादन इकाई होती है जो सीपीयू (CPU) द्वारा मुख्य मेमोरी तक पहुंचने के लिए उपयोग किए गए पतों की गणना करती है। अन्य शेष सीपीयू (CPU) के समानांतर संचालित अलग-अलग परिपथ तंत्र द्वारा नियंत्रित पते की गणना करके विभिन्न मशीन निर्देशों को निष्पादित करने के लिए आवश्यक सीपीयू चक्रों की संख्या को कम किया जा सकता है, जिससे प्रदर्शन में सुधार होता है।

विभिन्न संचालनों के दौरान सीपीयू (CPU) को मेमोरी से डेटा लाने के लिए आवश्यक मेमोरी पते की गणना की आवश्यकता होती है; उदाहरण के लिए, सीपीयू (CPU) द्वारा वास्तविक मेमोरी स्थानों से डेटा प्राप्त करने से पहले सरणी तत्वों की इन-मेमोरी स्थिति की गणना की जानी चाहिए। उन पता-पीढ़ी की गणनाओं में जोड़, घटाव, मोडुलो संचालन, या बिट बदलाव जैसे अलग-अलग पूर्णांक अंकगणितीय संचालन सम्मिलित होते हैं। प्रायः, एक मेमोरी पते की गणना में एक से अधिक सामान्य-उद्देश्य वाले मशीन निर्देश सम्मिलित होते हैं, जिनकी शीघ्रता से डिकोडिंग और निष्पादन आवश्यक नहीं है। एक एजीयू (AGU) को एक सीपीयू (CPU) संरचना में सम्मिलित करके विभिन्न एड्रेस-जनरेशन गणनाओं को एजीयू (AGU) का उपयोग करने वाले विशेष निर्देशों को प्रस्तुत करने के साथ बाकी सीपीयू (CPU) से लोड किया जा सकता है, और प्रायः एक एकल सीपीयू (CPU) चक्र में जल्दी से निष्पादित किया जा सकता है।

एजीयू (AGU) की क्षमताएँ एक विशेष सीपीयू (CPU) और उसकी वास्तुकला पर निर्भर करती हैं। इस प्रकार, कुछ एजीयू (AGU) अधिक पता-गणना संचालन को प्रयुक्त करते हैं और उजागर करते हैं, जबकि कुछ में अधिक उन्नत विशेष निर्देश भी सम्मिलित होते हैं जो एक समय में कई संकार्य (operand) पर काम कर सकते हैं। कुछ सीपीयू (CPU) वास्तुकला में कई एजीयू (AGU) सम्मिलित होते हैं, इसलिए एक से अधिक एड्रेस-गणना संचालन को एक साथ निष्पादित किया जा सकता है, जो उन्नत सीपीयू (CPU) संरचनाओं की उत्तम-स्तर प्रकृति के कारण आगे के प्रदर्शन में सुधार लाता है। उदाहरण के लिए, इंटेल (intel) अपने सैंडी ब्रिज (Sandy Bridge) और हैसवेल सूक्ष्म-वास्तुकला (Haswell microarchitectures) में कई एजीयू (AGU) को सम्मिलित करता है, जो समानांतर में कई मेमोरी-पहुँच निर्देशों को निष्पादित करने की अनुमति देकर सीपीयू (CPU) मेमोरी उपतंत्र की बैंडविड्थ को बढ़ाता है।

मेमोरी मैनेजमेंट यूनिट (Memory management unit)
कई स्मार्टफोन और डेस्कटॉप, लैपटॉप, सर्वर कंप्यूटर जैसे माइक्रोप्रोसेसरों में एक मेमोरी प्रबंधन इकाई होती है, जो तार्किक पतों को मेमोरी सुरक्षा और पृष्ठता क्षमता प्रदान करते हुए भौतिक रैम (RAM) पतों में अनुवाद करती है, जो आभासी मेमोरी के लिए उपयोगी है। विशेष रूप से माइक्रोकंट्रोलर जैसे सरल प्रोसेसर में सामान्यतः एमएमयू (MMU) सम्मिलित नहीं होता है।

कैश (Cache)
सीपीयू कैश (CPU Cache) एक हार्डवेयर कैश है, जिसका उपयोग मुख्य मेमोरी से डेटा तक पहुंचने के लिए कंप्यूटर के सीपीयू (CPU) द्वारा औसत लागत (समय या ऊर्जा) को कम करने के लिए किया जाता है। कैश (cache), प्रोसेसर कोर के करीब एक छोटी और तेज मेमोरी होती है, जो प्रायः उपयोग किए जाने वाले मुख्य मेमोरी स्थानों से डेटा की प्रतियाँ संग्रहीत करती है। अधिकांश सीपीयू में अलग-अलग निर्देश और डेटा कैश जैसे स्वतंत्र कैश (cache) होते हैं, जहाँ डेटा कैश को सामान्यतः अधिक कैश स्तरों (L1, L2, L3, L4 आदि) के पदानुक्रम के रूप में व्यवस्थित किया जाता है।।

कुछ विशेष अपवादों के साथ सभी आधुनिक (तेज़) सीपीयू (CPU) में सीपीयू कैश (CPU cache) के कई स्तर होते हैं। कैश (cache) का उपयोग करने वाले पहले सीपीयू (CPU) में कैश का केवल एक स्तर होता था; इसे बाद के स्तर 1 कैश के विपरीत, एल1डी (L1d) (डेटा के लिए) और एल1आई (L1i) (निर्देशों के लिए) में विभाजित नहीं किया गया था। कैश वाले लगभग सभी मौजूदा सीपीयू (CPU) में विभाजित L1 कैश होता है। उनके पास L2 कैश और बड़े प्रोसेसरों के लिए L3 कैश भी होते हैं। L2 कैश सामान्यतः विभाजित नहीं होता है और पहले से ही विभाजित L1 कैश के लिए एक सामान्य भंडार के रूप में कार्य करता है। बहु-कोर प्रोसेसर के प्रत्येक कोर में एक समर्पित L2 कैश होता है और सामान्यतः कोर के बीच साझा नहीं किया जाता है। L3 और उच्च-स्तरीय कैश को कोर के बीच साझा किया जाता है और ये विभाजित नहीं होते हैं। एक L4 कैश वर्तमान में असामान्य है, जो सामान्यतः स्थैतिक रैंडम-एक्सेस मेमोरी (SRAM) या एक अलग डाई या चिप के स्थान पर गतिशील रैंडम-एक्सेस मेमोरी (DRAM) पर स्थित होता है। ऐतिहासिक रूप से L1 के साथ भी ऐसा ही था, जबकि बड़ी चिपों ने अंतिम स्तर के संभावित अपवाद के साथ सामान्यतः सभी कैश स्तरों के साथ इसे एकीकरण की अनुमति दी है। कैश का प्रत्येक अतिरिक्त स्तर बड़ा होता है और इसे अलग तरह से अनुकूलित किया जाता है।

ऊपर वर्णित सबसे महत्वपूर्ण कैश के "कैश आकार" में नहीं गिने जाने वाले कैश के अतिरिक्त अनुवाद लुकसाइड बफर (TLB) जैसे अन्य प्रकार के कैश मौजूद हैं, जो कि अधिकांश सीपीयू (CPU) के मेमोरी प्रबंधन इकाई (MMU) का हिस्सा होते हैं।

कैश आमतौर पर दो 2, 8, 16 आदि KiB या MiB की घातों के आकार में होते हैं। हालांकि आईबीएम ज़ेड13 (IBM z13) में 96 KiB L1 निर्देश कैश है।।

घड़ी दर (Clock rate)
अधिकांश सीपीयू (CPU) समकक्ष परिपथ होते हैं, अर्थात् वे अपने अनुक्रमिक संचालन को गति देने के लिए एक घड़ी संकेत का उपयोग करता है। घड़ी संकेत एक बाह्य दोलक परिपथ द्वारा निर्मित होता है, जो एक आवधिक वर्ग तरंग के रूप में प्रत्येक सेकंड में लगातार संख्या में स्पंद उत्पन्न करता है। घडी स्पंद की आवृत्ति सीपीयू द्वारा निर्देशों के निष्पादन की दर का निर्धारण करती है और परिणामस्वरूप, घड़ी जितनी तेज होगी, सीपीयू प्रत्येक सेकंड में उतने ही अधिक निर्देश निष्पादित करेगा।

घड़ी की आवर्तकाल सीपीयू के माध्यम से सभी संकेतों के प्रचार (स्थानांतरित) के लिए, सीपीयू के उचित संचालन को सुनिश्चित करने के लिए आवश्यक अधिकतम समय से अधिक होता है। घड़ी के आवर्तकाल को सबसे निकृष्टम-मामले के प्रसार विलंब से ऊपर एक मान पर निर्धारित करने में, पूरे सीपीयू की संरचना करना और इसके बढ़ते और गिरने वाले घड़ी संकेतों के "किनारों" के आसपास डेटा ले जाने के तरीके की संरचना संभव है। यह सीपीयू (CPU) को एक संरचना परिप्रेक्ष्य और एक घटक-गणना परिप्रेक्ष्य दोनों में महत्वपूर्ण रूप से सरल बनाने का लाभ है। हालाँकि, इसका नुकसान भी है कि पूरा सीपीयू (CPU), इसके कुछ हिस्से बहुत तेज होने के बावजूद भी अपने सबसे धीमे तत्वों पर प्रतीक्षा करता है। सीपीयू (CPU) समांतरता बढ़ाने के विभिन्न तरीकों से काफी हद तक इस सीमा की क्षतिपूर्ति की गई है। (नीचे देखें)

हालाँकि, वास्तु सुधार अकेले विश्व स्तर पर समकक्ष सीपीयू (CPU) की सभी कमियों को दूर नहीं करते हैं। उदाहरण के लिए, एक घड़ी संकेत किसी अन्य विद्युत संकेत की विलंबता के अधीन है। तेजी से जटिल सीपीयू (CPU) में उच्च घड़ी दर पूरे यूनिट में घड़ी के संकेत को चरण (सिंक्रोनाइज़) में रखना अधिक कठिन बना देती है। इसमें कई आधुनिक सीपीयू (CPU) को एक ही संकेत में देरी से बचने के लिए कई समान घड़ी संकेतों की आवश्यकता होती है, जिससे सीपीयू (CPU) नष्ट हो जाता है। एक अन्य प्रमुख मुद्दा घड़ी की दरें नाटकीय रूप से बढ़ने के साथ सीपीयू (CPU) द्वारा नष्ट की जाने वाली ऊष्मा की मात्रा है। लगातार बदलती घड़ी कई घटकों को परस्पर बदलने करने का कारण बनती है चाहे वे उस समय उपयोग किए जा रहे हों या नहीं। सामान्यतः एक घटक जो स्विच कर रहा है, एक स्थिर अवस्था में एक तत्व की तुलना में अधिक ऊर्जा का उपयोग करता है। इसलिए, जैसे-जैसे घड़ी की दर बढ़ती है, वैसे-वैसे ऊर्जा की खपत भी होती है, जिससे सीपीयू को सीपीयू शीतलन समाधान के रूप में अधिक ऊष्मा अपव्यय की आवश्यकता होती है।

अनावश्यक घटकों के स्विचिंग से निपटने की विधि को घड़ी गेटिंग (Clock gating) कहा जाता है, जिसमें घड़ी के संकेत द्वारा अनावश्यक घटकों को प्रभावी रूप से अक्षम करना सम्मिलित है। हालांकि, इसे प्रायः प्रयुक्त करना मुश्किल माना जाता है और इसलिए बहुत कम-शक्ति वाली संरचनाओं के बाहर सामान्य उपयोग नहीं दिखता है। एक उल्लेखनीय हाल ही की, व्यापक घड़ी गेटिंग का उपयोग करने वाली सीपीयू संरचना आईबीएम पॉवरपीसी-आधारित ज़ेनान (IBM PowerPC-based Xenon) है, जिसका उपयोग एक्सबॉक्स 360 (Xbox 360) में किया जाता है; इस प्रकार, एक्सबॉक्स 360 (Xbox 360) की शक्ति आवश्यकताएँ बहुत कम हो जाती हैं।

घड़ी-हीन सीपीयू (Clockless CPUs)
घड़ी संकेत को पूरी तरह से हटाना, वैश्विक घड़ी संकेत के साथ कुछ समस्याओं का समाधान करने की एक अन्य विधि है। संरचना प्रक्रिया, वैश्विक घडी संकेत (global clock signal) को हटाते समय कई मायनों में काफी जटिल हो जाती है, अतुल्यकालिक (या घड़ीहीन) संरचना समान समकालिक संरचनाओं की तुलना में बिजली की खपत और गर्मी अपव्यय में उल्लेखनीय लाभ उठाते हैं। संपूर्ण अतुल्यकालिक सीपीयू (CPU) को कुछ हद तक असामान्य होते हुए भी वैश्विक घड़ी संकेत का उपयोग किए बिना बनाया गया है। इसके दो उल्लेखनीय उदाहरण एआरएम अनुरूप एएमयूएलईटी (ARM compliant AMULET) और एमआईपीएस आर3000 अनुरूप मिनीएमआईपीएस (MIPS R3000 compliants MiniMIPS) हैं।

घडी संकेत को पूरी तरह से हटाने के स्थान पर, कुछ सीपीयू संरचनाएँ उपकरण के कुछ हिस्सों को अतुल्यकालिक होने की अनुमति देते हैं, जैसे कि कुछ अंकगणितीय प्रदर्शन लाभ प्राप्त करने के लिए उत्तम-स्तर पाइपलाइनिंग के संयोजन के साथ अतुल्यकालिक एएलयू (ALU) का उपयोग करना। हालांकि यह पूरी तरह से स्पष्ट नहीं है कि पूरी तरह से अतुल्यकालिक संरचनाएँ अपने समकक्ष प्रतिपक्षों की तुलना में तुलनीय या बेहतर स्तर पर प्रदर्शन कर सकते हैं, यह स्पष्ट है कि वे सरल गणित कार्यों में निम्नतम उत्कृष्ट प्रदर्शन करते हैं। उनकी उत्कृष्ट बिजली खपत और गर्मी अपव्यय गुणों के साथ यह, उन्हें अन्तर्निहित कंप्यूटरों के लिए अधिक उपयुक्त बनाता है।

विभव नियामक मॉड्यूल (Voltage regulator module)
कई आधुनिक सीपीयू में एक डाई-एकीकृत सामर्थ्य प्रबंधन मॉड्यूल होता है, जो सीपीयू परिपथ तंत्र की माँग के अनुसार विभव आपूर्ति को नियंत्रित करता है, जिससे यह प्रदर्शन और बिजली की खपत के बीच संतुलन स्थापित रखता है।

पूर्णांक परिसर (Integer Range)
प्रत्येक सीपीयू (CPU) एक विशिष्ट तरीके से संख्यात्मक मानों का प्रदर्शन करता है। उदाहरण के लिए, कुछ प्रारंभिक डिजिटल कंप्यूटरों ने संख्याओं को परिचित दशमलव (आधार 10) अंक प्रणाली मान के रूप में दर्शाया है, और अन्य ने अधिक असामान्य अभ्यावेदन जैसे कि टर्नरी (आधार तीन) को नियोजित किया है। लगभग सभी आधुनिक सीपीयू (CPU) द्विआधारी रूप में संख्याओं का प्रदर्शन करते हैं, जिसमें प्रत्येक अंक को कुछ दो-मूल्यवान भौतिक मात्रा जैसे "उच्च" या "निम्न" विभव द्वारा दर्शाया जाता है।

संख्यात्मक प्रदर्शन से संबंधित पूर्णांक संख्याओं का आकार और सटीकता है जो एक सीपीयू (CPU) प्रतिनिधित्व कर सकता है। एक द्विआधारी सीपीयू (Binary CPU) के सम्बन्ध में, यह बिट की संख्या (एक द्विआधारी एन्कोडेड पूर्णांक के महत्वपूर्ण अंक) द्वारा मापा जाता है, जिसे सीपीयू (CPU) एक संचालन में संसाधित कर सकता है, जिसे सामान्यतः शब्द आकार, बिट चौड़ाई, डेटा पथ चौड़ाई, पूर्णांक परिशुद्धता या पूर्णांक आकार कहा जाता है।, । एक सीपीयू (CPU) का पूर्णांक आकार पूर्णांक मानों की सीमा को निर्धारित करता है जो इसे सीधे संचालित कर सकता है। उदाहरण के लिए, एक 8-बिट सीपीयू (CPU) आठ बिट द्वारा दर्शाए गए पूर्णांकों में सीधे फेरबदल कर सकता है, जिसमें 256 (28) असतत पूर्णांक मान होते हैं।

पूर्णांक श्रेणी उन मेमोरी स्थानों की संख्या (पता (address), एक विशिष्ट मेमोरी स्थान का प्रतिनिधित्व करने वाला एक पूर्णांक मान है) को भी प्रभावित कर सकती है जिन्हें सीपीयू (CPU) सीधे संबोधित कर सकता है । उदाहरण के लिए, यदि एक द्विआधारी सीपीयू (Binary CPU) मेमोरी के पते का प्रतिनिधित्व करने के लिए 32 बिट का उपयोग करता है तो यह सीधे 232 मेमोरी स्थान को संबोधित कर सकता है। इस सीमा को नज़रंदाज़ करने और कई अन्य कारणों से, कुछ सीपीयू (CPU), बैंक स्विचिंग (bank switching) जैसी क्रियाविधि का उपयोग करते हैं जो अतिरिक्त मेमोरी को संबोधित करने की अनुमति देते हैं।

बड़े शब्द आकार वाले सीपीयू (CPU) को अधिक परिपथ तंत्रों की आवश्यकता होती है और इसके परिणामस्वरूप ये शारीरिक रूप से बड़े, अधिक लागत वाले और अधिक बिजली की खपत वाले होते हैं, और इसलिए अधिक ऊष्मा उत्पन्न होती है। परिणामस्वरूप, बहुत बड़े शब्द आकार (जैसे 16, 32, 64, यहां तक ​​​​कि 128-बिट) वाले सीपीयू (CPU) उपलब्ध होने के बावजूद, छोटे 4- या 8-बिट माइक्रोकंट्रोलर सामान्यतः आधुनिक अनुप्रयोगों में उपयोग किए जाते हैं। हालांकि, उच्च प्रदर्शन की आवश्यकता होने पर बड़े शब्द आकार (बड़े डेटा परिसर और पता स्थान) के लाभ, इससे होने वाली हानि से अधिक हो सकते हैं। आकार और लागत को कम करने के लिए एक सीपीयू (CPU) में आंतरिक डेटा पथ, शब्द आकार से छोटे हो सकते हैं। उदाहरण के लिए, भले ही आईबीएम सिस्टम/360 निर्देश सेट (IBM System/360 instruction set), एक 32-बिट निर्देश सेट था, सिस्टम/360 (System/360) मॉडल 30 (model 30) और मॉडल 40 (model 40) में अंकगणितीय तार्किक इकाई में 8-बिट डेटा पथ थे, ताकि 32-बिट जोड़ने के लिए चार चक्रों (संकार्य (operands) के प्रत्येक 8 बिट के लिए एक चक्र) की आवश्यकता हो, और भले ही मोटोरोला 68000 (Motorola 68000) श्रृंखला निर्देश सेट,एक 32-बिट निर्देश सेट था, और मोटोरोला 68000 (Motorola 68000) और मोटोरोला 68010 (Motorola 68010) में अंकगणितीय तार्किक इकाई में 16-बिट डेटा पथ थे, ताकि एक 32-बिट जोड़ने के लिए दो चक्रों की आवश्यकता हो।

दोनों, निम्न और उच्च बिट लंबाई द्वारा प्रदान किए गए कुछ लाभों को प्राप्त करने के लिए, कई निर्देश सेटों में पूर्णांक और फ़्लोटिंग-प्वाइंट डेटा के लिए अलग-अलग बिट चौड़ाई होती है, जिससे सीपीयू (CPU) उस निर्देश को लागू करने की अनुमति देता है, जो उपकरण के विभिन्न हिस्सों के लिए अलग-अलग बिट चौड़ाई रखता है। उदाहरण के लिए, आईबीएम सिस्टम/360 निर्देश सेट (IBM System/360 instruction set) मुख्य रूप से 32-बिट था, लेकिन फ्लोटिंग-प्वाइंट संख्याओं में अधिक सटीकता और सीमा की सुविधा के लिए 64-बिट फ़्लोटिंग-प्वाइंट मानों का समर्थन करता था। सिस्टम/360 मॉडल 65 (System/360 model 65) में दशमलव और स्थिर-प्वाइंट द्विआधारी अंकगणित के लिए 8-बिट योजक और फ्लोटिंग-प्वाइंट अंकगणित के लिए 60-बिट योजक था। कई बाद की सीपीयू संरचनाएँ (CPU Designs) समान मिश्रित बिट चौड़ाई का उपयोग करती हैं, विशेषतया, जब प्रोसेसर सामान्य प्रयोजन के उपयोग के लिए होता है जहाँ पूर्णांक और फ्लोटिंग-प्वाइंट क्षमता का उचित संतुलन आवश्यक होता है।

समानांतरवाद (Parallelism)
पिछले खंड में प्रस्तुत किए गए सीपीयू (CPU) के मूल संचालन का विवरण, सीपीयू (CPU) के सबसे सरल रूप का वर्णन करता है। सामान्यतः उप-पैमानिक (subscalar) के रूप में प्रचलित सीपीयू (CPU) एक समय में एक या दो डेटा पर एक निर्देश को संचालित और निष्पादित करता है, जो प्रति घड़ी चक्र (आईपीसी (IPC) <1) में एक से कम निर्देश है।

यह प्रक्रिया उप-पैमानिक सीपीयू (subscalar CPU) में एक अंतर्निहित अक्षमता उत्पन्न करती है। एक समय में केवल एक ही निर्देश के निष्पादन के कारण पूरे सीपीयू को अगले निर्देश पर आगे बढ़ने से पहले उस निर्देश के पूर्ण होने की प्रतीक्षा करनी चाहिए। परिणामस्वरूप, उप-पैमानिक सीपीयू (subscalar CPU) निर्देशों पर विलंबित हो जाता है जो निष्पादन को पूरा करने के लिए एक से अधिक घड़ी चक्र लेता है। यहाँ तक ​​कि एक मार्ग को लटकाए जाने के स्थान पर दूसरी निष्पादन इकाई (नीचे देखें) को जोड़ने से भी प्रदर्शन में बहुत सुधार नहीं होता है; अतः अब दो मार्ग विलंबित कर दिए गए हैं और अप्रयुक्त ट्रांजिस्टरों की संख्या बढ़ा दी गई है। सीपीयू के निष्पादन संसाधन द्वारा एक समय में केवल एक निर्देश पर काम करने वाली यह संरचना केवल पैमानिक प्रदर्शन (एक निर्देश प्रति घड़ी चक्र, आईपीसी (IPC) = 1) तक पहुंच सकती है। हालांकि, प्रदर्शन लगभग सदैव उप-पैमानिक (प्रति घड़ी चक्र में एक निर्देश से कम, आईपीसी (IPC) <1) होता है।

पैमानिक और बेहतर प्रदर्शन प्राप्त करने के प्रयासों के परिणामस्वरूप विभिन्न प्रकार की संरचना पद्धतियाँ सामने विकसित हुई हैं, जो सीपीयू (CPU) को कम रैखिक रूप से और समानांतर में अधिक व्यवहार करने का कारण बनती हैं। सीपीयू (CPU) में समानता का जिक्र करते समय इन संरचना तकनीकों को वर्गीकृत करने के लिए सामान्यतः दो शब्दों का उपयोग किया जाता है:
 * निर्देश-स्तरीय समानांतरवाद (ILP), जो सीपीयू (CPU) के भीतर निर्देश निष्पादन की दर को बढ़ाने का प्रयास करता है, अर्थात, ऑन-डाई निष्पादन संसाधनों के उपयोग को बढ़ाने के लिए प्रयुक्त होता है;
 * कार्य-स्तरीय समानांतरवाद (TLP), जिसका उद्देश्य सीपीयू (CPU) द्वारा एक साथ निष्पादित होने वाले थ्रेड्स (threads) या प्रक्रियाओं की संख्या को बढ़ाना है।

प्रत्येक कार्यप्रणाली दोनों तरीकों से भिन्न होती है जिसमें उन्हें लागू किया जाता है, साथ ही सापेक्ष प्रभावशीलता का उपयोग वे एक अनुप्रयोग के लिए सीपीयू (CPU) के प्रदर्शन को बढ़ाने में करते हैं।

निर्देश-स्तर समानांतरवाद (Instruction-level parallelism)
पूर्व निर्देश के निष्पादन के पूरा होने से पहले निर्देश लाने और डिकोडिंग के पहले चरण को शुरू करना, बढ़ी हुई समानता के लिए सबसे सरल तरीकों में से एक है। यह एक तकनीक है जिसे निर्देश पाइपलाइनिंग (instruction pipelining) के रूप में जाना जाता है, और लगभग सभी आधुनिक सामान्य प्रयोजन सीपीयू (CPU) में इसका उपयोग किया जाता है। पाइपलाइनिंग, निष्पादन पथ को असतत चरणों में तोड़कर एक समय में कई निर्देशों को निष्पादित करने की अनुमति देता है। इस पृथक्करण की तुलना एक एकत्रण रेखा (assembly line) से की जा सकती है, जिसमें एक निर्देश प्रत्येक चरण में तब तक पूरा किया जाता है जब तक कि वह निष्पादन पाइपलाइन से बाहर नहीं निकल जाता और सेवानिवृत्त नहीं हो जाता।

हालाँकि, पाइपलाइनिंग एक ऐसी स्थिति की संभावना का परिचय देती है, जहाँ अगले संचालन को पूरा करने के लिए पिछले संचालन के परिणाम की आवश्यकता होती है; जिसे प्रायः डेटा निर्भरता संघर्ष (data dependency conflict) कहा जाता है। इसलिए पाइपलाइन किए गए प्रोसेसर को इस प्रकार की स्थितियों की जाँच करनी चाहिए और यदआवश्यक होने पर पाइपलाइन के एक हिस्से में देरी करनी चाहिए। एक पाइपलाइनयुक्त प्रोसेसर अत्यधिक अदिश हो सकता है, जो केवल एक चरण में एक से अधिक घड़ी चक्र व्यय करने वाले निर्देश, पाइपलाइन स्टॉल (pipeline stall) द्वारा बाधित होता है।

सीपीयू (CPU) घटकों के निष्क्रिय समय में कमी आने का कारण निर्देश पाइपलाइनिंग में सुधार है। सुपरस्केलर कही जाने वाली संरचनाओं में एक लंबी निर्देश पाइपलाइन और लोड-स्टोर इकाइयां (load–store units (LSU)), अंकगणित-तर्क इकाइयां (arithmetic–logic units(ALU)), फ़्लोटिंग-प्वाइंट इकाइयां (floating-point units) और पता उत्पादन इकाइयां (address generation units) जैसी कई समान निष्पादन इकाइयाँ सम्मिलित हैं। एक सुपरस्केलर पाइपलाइन में, निर्देशों को पढ़ा जाता है और एक प्रेषक (dispatcher) तक पहुँचाया जाता है, जो यह तय करता है कि निर्देशों को समानांतर (एक साथ) में निष्पादित किया जा सकता है या नहीं। यदि ऐसा है, तो उन्हें निष्पादन इकाइयों में भेज दिया जाता है, जिसके परिणामस्वरूप उनका सामानांतर में निष्पादन होता है। सामान्यतः, एक सुपरस्केलर सीपीयू (superscalar CPU) द्वारा एक चक्र में पूरे होने वाले निर्देशों की संख्या, निष्पादन इकाइयों को एक साथ भेजने जाने वाले निर्देशों की संख्या की क्षमता पर निर्भर करती है।

सुपरस्केलर सीपीयू वास्तुकला (superscalar CPU architecture) की संरचना में सबसे कठिन कार्य एक प्रभावी प्रेषक को बनाना है। प्रेषक को शीघ्रता से यह निर्धारित करने में सक्षम होना चाहिए कि क्या निर्देश समानांतर में निष्पादित किए जा सकते हैं, साथ ही क्या उन्हें इस तरह से प्रेषित किया जा सकता है कि जितनी संभव हो उतनी निष्पादन इकाइयों को व्यस्त रखा जा सके। इसके लिए आवश्यक है कि निर्देश पाइपलाइन को जितनी बार संभव हो, उन्हें भर दिया जाए और इसके लिए महत्वपूर्ण मात्रा में सीपीयू कैश (CPU cache) की आवश्यकता हो। यह उच्च स्तर के प्रदर्शन को बनाए रखने के लिए शाखा की भविष्यवाणी, अनुमान निष्पादन, रजिस्टर का नाम बदलने, ऑर्डर के बाहर निष्पादन और लेनदेन संबंधी मेमोरी जैसी खतरे से बचने वाली तकनीकों को भी महत्वपूर्ण बनाता है। सशर्त निर्देश शाखा (या पथ) की भविष्यवाणी करने का प्रयास करके, सीपीयू (CPU) उस समय की संख्या को कम कर सकता है जब तक कि पूरी पाइपलाइन को सशर्त निर्देश पूरा होने तक प्रतीक्षा करनी चाहिए। अनुमान निष्पादन प्रायः कोड के कुछ हिस्सों को निष्पादित करके सामान्य प्रदर्शन वृद्धि प्रदान करता है जो सशर्त संचालन पूरा होने के बाद आवश्यक नहीं हो सकता है। ऑर्डर के बाहर निष्पादन कुछ हद तक उस क्रम को पुनर्व्यवस्थित करता है जिसमें डेटा निर्भरता के कारण देरी को कम करने के लिए निर्देश निष्पादित किए जाते हैं। एकल निर्देश स्ट्रीम, बहु-डेटा स्ट्रीम के सम्बन्ध में एक ऐसी स्थिति, जब एक ही प्रकार के बहुत सारे डेटा को प्रोसेस करना पड़ता है, तब आधुनिक प्रोसेसर पाइपलाइन के कुछ हिस्सों को निष्क्रिय कर सकते हैं ताकि जब एक ही निर्देश को कई बार निष्पादित किया जाए, तो सीपीयू प्राप्त करने (fetch) और डीकोड (decode) चरणों को छोड़ देता है और इस प्रकार यह विशेष रूप से वीडियो निर्माण सॉफ्टवेयर और फोटो प्रोसेसिंग जैसे अत्यधिक नीरस (monotonous) प्रोग्राम इंजन के अवसरों पर प्रदर्शन को बढ़ाता है।

जब सीपीयू (CPU) का केवल एक भाग सुपरस्केलर होता है, तो वह भाग निर्धारित स्टॉल के कारण प्रदर्शन दंड से ग्रस्त नहीं होता है। इंटेल पी5 पेंटियम (P5 Pentium) में दो सुपरस्केलर एएलयू (ALU) थे जो प्रत्येक घड़ी चक्र में एक निर्देश स्वीकार कर सकते थे, लेकिन इसका एफपीयू (FPU) ऐसा करने में सक्षम नहीं था। इस प्रकार पी5 पूर्णांक सुपरस्केलर था, लेकिन फ्लोटिंग प्वाइंट सुपरस्केलर नहीं था। पी5 वास्तुकला के लिए इन्टेल (Intel) के अनुक्रम, पी6 ने अपनी फ्लोटिंग-प्वाइंट सुविधाओं में सुपरस्केलर क्षमताएँ जोड़ीं।

सरल पाइपलाइनिंग और सुपरस्केलर संरचना, सीपीयू (CPU) के आईएलपी (ILP) को प्रति घड़ी चक्र में एक निर्देश से अधिक दरों पर निर्देशों को निष्पादित करने की अनुमति देकर बढ़ाते हैं। अधिकांश आधुनिक सीपीयू (CPU) संरचनाएँ कम से कम कुछ हद तक सुपरस्केलर होती हैं, और पिछले दशक में बनाये गए लगभग सभी सामान्य प्रयोजन सीपीयू (CPU) सुपरस्केलर होते थे। बाद के वर्षों में उच्च-आईएलपी कंप्यूटरों को बनाने में कुछ अवधारणाओं को सीपीयू (CPU) के हार्डवेयर से हटाकर इसके सॉफ्टवेयर अंतर्प्रष्ठ या निर्देश सेट वास्तुकला (ISA) में स्थानांतरित कर दिया गया है। बहुत लंबे निर्देश शब्द (VLIW) की रणनीति के कारण कुछ आईएलपी (ILP) सीधे सॉफ्टवेयर द्वारा निहित हो जाते हैं, जो आईएलपी (ILP) को प्रोत्साहित करने में सीपीयू (CPU) के काम को कम करते हैं और इस प्रकार संरचना की जटिलता को कम करते हैं।

कार्य-स्तरीय समानांतरवाद (Task-level parallelism)
समानांतर में कई थ्रेड्स (threads) या प्रक्रियाओं को निष्पादित करना, प्रदर्शन प्राप्त करने की एक अन्य रणनीति है। अनुसंधान के इस क्षेत्र को समानांतर कंप्यूटिंग (parallel computing) के रूप में जाना जाता है। इस रणनीति को फ्लिन के वर्गीकरण में बहु-निर्देश स्ट्रीम, बहु-डेटा स्ट्रीम (MIMD) के रूप में जाना जाता है।

मल्टीप्रोसेसिंग (MP), इस उद्देश्य के लिए इस्तेमाल की जाने वाली एक तकनीक थी। इस तकनीक की प्रारंभिक विशेषता को सममित मल्टीप्रोसेसिंग (SMP) के रूप में जाना जाता है, जहाँ सीपीयू (CPU) की एक छोटी संख्या, उनके मेमोरी तंत्र का एक सुसंगत दृश्य साझा करती है। इस योजना में प्रत्येक सीपीयू (CPU) के पास एक अतिरिक्त हार्डवेयर होता है, जो मेमोरी के लगातार अद्यतित (up-to date) दृश्य को बनाए रखने का कार्य करता है। सीपीयू (CPU) मेमोरी के पुराने दृश्यों से बचकर एक ही प्रोग्राम में सहयोग कर सकते हैं और प्रोग्राम एक सीपीयू (CPU) से दूसरे सीपीयू (CPU) में प्रवासित कर सकते हैं। अल्पमात्रा से अधिक सहयोग करने वाले सीपीयू (CPU) की संख्या बढ़ाने के लिए, 1990 के दशक में गैर-समरूप मेमोरी एक्सेस (NUMA) और निर्देशिका-आधारित सुसंगतता प्रोटोकॉल जैसी योजनाएं शुरू की गईं। एसएमपी (SMP) तंत्र कम संख्या में सीपीयू (CPU) तक सीमित हैं जबकि गैर-समरूप मेमोरी एक्सेस (NUMA) तंत्र हजारों प्रोसेसर के साथ बनाए गए हैं। प्रारंभ में, मल्टीप्रोसेसिंग (multiprocessing) को प्रोसेसर के बीच अंतर्संयोजन लागू करने के लिए कई असतत सीपीयू (discrete CPU) और बोर्डों का उपयोग करके बनाया गया था। जब प्रोसेसर और उनके अंतर्संयोजन सभी एक ही चिप पर प्रयुक्त होते हैं, तो तकनीक को चिप-स्तरीय मल्टीप्रोसेसिंग (CMP) और एकल चिप को मल्टी-कोर प्रोसेसर (Multi core processor) के रूप में जाना जाता है।

बाद में यह माना गया कि बारीक अन्न समानता एक ही कार्यक्रम के साथ मौजूद थी। एक एकल प्रोग्राम में कई थ्रेड (या फ़ंक्शन) हो सकते हैं जिन्हें अलग से या समानांतर में निष्पादित किया जा सकता है। इस तकनीक के कुछ प्रारम्भिक उदाहरणों में, जैसे सीधे मेमोरी पहुँच को कंप्यूटेशन थ्रेड से अलग थ्रेड के रूप में, इनपुट/आउटपुट प्रोसेसिंग को प्रयुक्त किया गया है। इस तकनीक के लिए एक अधिक सामान्य दृष्टिकोण 1970 के दशक में प्रस्तुत किया गया था, जब तंत्र को समानांतर में कई संगणना थ्रेड चलाने के लिए बनाया गया था। इस तकनीक को मल्टी-थ्रेडिंग (Multi Threading(MT)) के रूप में जाना जाता है। मल्टीप्रोसेसिंग (multiprocessing) की तुलना में इस दृष्टिकोण को अधिक लागत प्रभावी माना जाता है, क्योंकि एमपी (MP) के सम्बन्ध में पूरे सीपीयू (CPU) के विपरीत सीपीयू (CPU) के भीतर केवल कुछ ही घटकों को एमटी (MT) का समर्थन करने के लिए दोहराया जाता है। एमटी (MT) में, कैश (cache) सहित निष्पादन इकाइयों और मेमोरी तंत्र को कई थ्रेड (thread) के मध्य साझा किया जाता है। एमटी (MT) का नकारात्मक पक्ष यह है कि एमपी (MP) की तुलना में मल्टीथ्रेडिंग (multithreading) के लिए हार्डवेयर समर्थन सॉफ्टवेयर को अधिक दिखाई देता है और इस प्रकार पर्यवेक्षक सॉफ्टवेयर (supervisor software) जैसे संचालन तंत्र को एमटी (MT) का समर्थन करने के लिए बड़े बदलावों से गुजरना पड़ता है। अस्थायी मल्टीथ्रेडिंग (temporal multithreading) नामक एक प्रकार के एमटी (MT) को वहाँ प्रयुक्त किया गया था, जहाँ एक थ्रेड को तब तक निष्पादित किया जाता है जब तक कि बाहरी मेमोरी से डेटा के वापस आने की प्रतीक्षा में यह ठप न हो जाए। इस योजना में, सीपीयू (CPU) तुरंत संचालन के लिए तैयार दूसरे थ्रेड पर स्विच करेगा; यह स्विच प्रायः एक सीपीयू घड़ी चक्र में किया जाता है, जैसे कि अल्ट्रास्पार्क टी1 (UltraSPARC T1)। समकालिक मल्टीथ्रेडिंग (simultaneous multi-threading), एक अन्य प्रकार का एमटी (MT) है, जहाँ एक सीपीयू घड़ी चक्र के भीतर कई थ्रेडों से निर्देश समानांतर में निष्पादित होते हैं।

1970 के दशक से 2000 के दशक के प्रारंभ सहित कई दशकों तक, उच्च निष्पादन सामान्य प्रयोजन सीपीयू (CPU) को बनाने में मुख्य रूप से पाइपलाइनिंग (pipelining), कैश (cache), सुपरस्केलर निष्पादन (super-scalar execution), ऑर्डर के बाहर निष्पादन (out-of-order execution) आदि जैसी प्रौद्योगिकियों के माध्यम से उच्च आईएलपी (ILP) प्राप्त करने पर ध्यान केंद्रित किया गया था। इस प्रवृत्ति की परिणति इंटेल पेंटियम 4 (Pentium 4) जैसे पावर-हंगरी सीपीयू (power hungry CPUs) में बड़े पैमाने पर हुई। 2000 के दशक की शुरुआत तक, सीपीयू संचालित आवृत्तियों और मुख्य मेमोरी संचालित आवृत्तियों के बीच बढ़ती असमानता के साथ-साथ अधिक गूढ़ ILP तकनीकों के लिए सीपीयू सामर्थ्य अपव्यय बढ़ने के कारण सीपीयू निर्माणकों को आईएलपी (ILP) तकनीकों से उच्च प्रदर्शन प्राप्त करने से रोक दिया गया था।

तब सीपीयू निर्माणकों ने लेनदेन प्रसंस्करण जैसे वाणिज्यिक कंप्यूटिंग बाजारों से विचारों को उधार लिया, जहाँ थ्रूपुट कंप्यूटिंग (throughput computing) के नाम से जाने जाने वाले कई कार्यक्रमों का समग्र प्रदर्शन एकल थ्रेड या प्रक्रिया के प्रदर्शन से अधिक महत्वपूर्ण था।

इस तीव्र उलटफेर का साक्ष्य दोहरे और अधिक कोर प्रोसेसर संरचनाओं के प्रसार से है और विशेष रूप से, इंटेल (Intel) के नयी संरचनाएँ इसके निम्न सुपरस्केलर पी6 वास्तुकला (superscalar P6 architecture) से मिलती जुलती हैं। कई प्रोसेसर परिवारों में बाद की संरचनाएँ सीएमपी (CMP) का प्रदर्शन करती हैं, जिसमें एक्स86-64 ओपर्टन (x86-64 Opteron) और एथलॉन 64 एक्स2 (Athlon 64 X2), स्पार्क अल्ट्रास्पार्क टी1 (SPARC UltraSPARC T1), आईबीएम पावर 4 और पावर 5 (IBM POWER4 and POWER5), साथ ही एक्सबॉक्स 360 के ट्रिपल-कोर पावरपीसी संरचना (Xbox 360's triple-core PowerPC design) और प्लेस्टेशन 3 का 7-कोर सेल माइक्रोप्रोसेसर (PlayStation 3's 7-core Cell microprocessor) जैसे कई वीडियो गेम कंसोल सीपीयू अदि सम्मिलित हैं।

डेटा समानांतरवाद (Data parallelism)
प्रोसेसर का एक असामान्य लेकिन तीव्रता से बढ़ता महत्वपूर्ण प्रतिमान (और वास्तव में, सामान्य रूप से कंप्यूटिंग) डेटा समानता से संबंधित है। सभी पूर्वचर्चित प्रोसेसर को किसी न किसी प्रकार के पैमानिक उपकरण के रूप में संदर्भित किया जाता है। जैसा कि नाम से पता चलता है, सदिश प्रोसेसर (vector processor) एक निर्देश के संदर्भ में डेटा के कई टुकड़ों से निपटते हैं। यह अदिश प्रोसेसर (scalar processor) के विपरीत है, जो प्रत्येक निर्देश के लिए डेटा के एक टुकड़े से निपटता है। फ्लिन के वर्गीकरण का उपयोग करते हुए, डेटा से निपटने की इन दो योजनाओं को समान्यतः एकल निर्देश धारा, विभिन्न डेटा धारा (SIMD) और एकल निर्देश धारा, एकल डेटा धारा (SISD) के रूप में जाना जाता है। डेटा के सदिश से निपटने वाले प्रोसेसर बनाने में महान उपयोगिता उन कार्यों को अनुकूलित करने में निहित है जिनके लिए डेटा के बड़े समूह पर एक ही संचालन (उदाहरण के लिए, एक योग या एक डॉट उत्पाद) की आवश्यकता होती है। इस प्रकार के कार्यों के कुछ प्रारम्भिक उदाहरणों में मल्टीमीडिया एप्लिकेशन (छवियाँ, वीडियो और ध्वनि), साथ ही कई प्रकार के वैज्ञानिक और अभियांत्रिकी कार्य सम्मिलित हैं। जबकि एक अदिश प्रोसेसर को डेटा के एक समूह में प्रत्येक निर्देश और मान को प्राप्त करने, डिकोड करने और निष्पादित करने की पूरी प्रक्रिया को पूर्ण करना होगा, एक सदिश प्रोसेसर एक निर्देश के साथ तुलनात्मक रूप से बड़े डेटा पर एक ही संचालन कर सकता है। यह एप्लिकेशन को कई चरणों की आवश्यकता पड़ने पर ही संभव है, जो एक संचालन को डेटा के बड़े समूह पर लागू करते हैं।

क्रे-1 (Cray-1) जैसे अधिकांश प्रारंभिक सदिश प्रोसेसर लगभग विशेष रूप से वैज्ञानिक अनुसंधान और क्रिप्टोग्राफी (cryptography) अनुप्रयोगों से जुड़े थे। हालाँकि, मल्टीमीडिया के बड़े पैमाने पर डिजिटल मीडिया में स्थानान्तरण के कारण सामान्य प्रयोजन के प्रोसेसर में कुछ प्रकार के एसआईएमडी (SIMD) की आवश्यकता महत्वपूर्ण हो गई है। चलायमान बिंदु इकाइयों (floating point units) को सम्मिलित करने के कुछ ही समय बाद सामान्य-प्रयोजन प्रोसेसर में यह सामान्य होना शुरू हो गया, और एसआईएमडी (SIMD) निष्पादन इकाइयों के लिए विनिर्देश और कार्यान्वयन भी सामान्य-उद्देश्य वाले प्रोसेसर के लिए दिखाई देने लगे। इनमें से एचपी (HP) का मल्टीमीडिया एक्सेलेरेशन एक्सटेंशन (Multimedia Acceleration extensions (MAX)) और इन्टेल (Intel) का एमएमएक्स (MMX) जैसे कुछ प्रारंभिक एसआईएमडी (SIMD) विनिर्देश केवल पूर्णांक थे। यह कुछ सॉफ्टवेयर विकासकों के लिए एक महत्वपूर्ण बाधा साबित हुई, क्योंकि सिम (Sim) से लाभान्वित होने वाले कई एप्लिकेशन मुख्य रूप से फ्लोटिंग-पॉइंट नंबरों से संचालित होते हैं। विकासकों ने प्रगतिशील रूप से इन प्रारम्भिक संरचनाओं को कुछ सामान्य आधुनिक एसआईएमडी (SIMD) विनिर्देशों में परिष्कृत और पुनर्निर्मित किया, जो सामान्यतः एक निर्देश समूह वास्तुकला (ISA) से जुड़े होते हैं। इन्टेल (Intel) का स्ट्रीमिंग एसआईएमडी एक्सटेंशन (Streaming SIMD Extensions (SSE)) और पावरपीसी (PowerPC) से संबंधित एल्टीवेक (AltiVec)(VMX) जैसे कुछ उपकरण उल्लेखनीय आधुनिक उदाहरणों में सम्मिलित हैं।

हार्डवेयर प्रदर्शन काउंटर (Hardware performance counter)
कई आधुनिक वास्तुकला (अन्तर्निहित वाले सहित) में प्रायः हार्डवेयर प्रदर्शन काउंटर (HPC) सम्मिलित होते हैं, जो निम्न-स्तरीय (निर्देश-स्तर) संग्रह, बेंचमार्किंग (benchmarking), डिबगिंग (debugging) या चल रहे सॉफ़्टवेयर आव्यूह के विश्लेषण को सक्षम बनाता है। सॉफ़्टवेयर की असामान्य या संदिग्ध गतिविधि की खोज और विश्लेषण करने के लिए भी एचपीसी (HPC) का उपयोग किया जा सकता है, जैसे कि रिटर्न-ओरिएंटेड प्रोग्रामिंग (ROP) या सिग्रेटर्न-ओरिएंटेड प्रोग्रामिंग (SROP) कार्य आदि। यह सामान्यतः सॉफ्टवेयर-सुरक्षा टीमों द्वारा दुर्भावनापूर्ण द्विआधारी कार्यक्रमों का आँकलन करने और खोजने के लिए किया जाता है।

आईबीएम (IBM), इंटेल (Intel), एएमडी (AMD), और एआरएम (ARM) जैसे कई प्रमुख विक्रेता सॉफ्टवेयर अंतर्प्रष्ठ प्रदान करते हैं, जो सामान्यतः सी/सी++ (C/C++) में लिखा जाता है। जिनका उपयोग आव्यूह प्राप्त करने हेतु सीपीयू रजिस्टरों से डेटा एकत्र करने के लिए किया जा सकता है। कर्नेल और एप्लिकेशन चलाने वाले संचालन तंत्र (Operating system) विक्रेता सीपीयू (CPU) घटनाओं को रिकॉर्ड करने, बेंचमार्क करने या ट्रेस करने के लिए perf(लिनक्स) जैसे सॉफ़्टवेयर भी प्रदान करते हैं।

आभासी सीपीयू (Virtual CPUs)
सीपीयू संचालन को आभासी सेंट्रल प्रोसेसिंग यूनिट (vCPUs ) में उप-विभाजित करना क्लाउड कंप्यूटिंग (cloud computing) में सम्मिलित हो सकता है।

होस्ट (Host), एक भौतिक मशीन का आभासी समकक्ष है, जिस पर एक आभासी तंत्र कार्य करता है। जब कई भौतिक मशीनें मिलकर कार्य करती हैं और समग्र रूप से प्रबंधित होती हैं, तो समूहीकृत कंप्यूटिंग और मेमोरी संसाधन एक समूह (cluster) बनाते हैं। कुछ प्रणालियों में समूह में गतिशील रूप से जोड़ना और निकालना संभव है। होस्ट और समूह स्तर पर उपलब्ध संसाधनों को बारीक कणिकता (granularity) के साथ संसाधन पूल में विभाजित किया जा सकता है।

प्रदर्शन
एक प्रोसेसर का प्रदर्शन या गति कई अन्य कारकों पर निर्भर करता है, जिनमें घड़ी की दर (सामान्यतः हर्ट्ज के गुणकों में) और निर्देश प्रति घड़ी (IPC), जो एक साथ प्रति सेकंड निर्देशों (IPS) के कारक हैं, जिसका प्रदर्शन सीपीयू (CPU) कर सकता है। रिपोर्ट किए गए कई आईपीएस (IPS) मूल्यों ने कुछ शाखाओं के साथ कृत्रिम निर्देश अनुक्रमों पर "पीक (Peak)" निष्पादन दर का प्रतिनिधित्व किया है, जबकि यथार्थवादी कार्यभार में निर्देशों और अनुप्रयोगों का मिश्रण होता है, जिनमें से कुछ को दूसरों की तुलना में निष्पादित करने में अधिक समय लगता है। एमआईपीएस (MIPS) गणना में मुश्किल से माना जाने वाला एक मुद्दा, मेमोरी पदानुक्रम का प्रदर्शन भी प्रोसेसर के प्रदर्शन को बहुत प्रभावित करता है। इन समस्याओं के कारण, विभिन्न मानकीकृत परीक्षणों को सामान्यतः उपयोग किए जाने वाले अनुप्रयोगों में वास्तविक प्रभावी प्रदर्शन को मापने के प्रयास के लिए विकसित किया गया है, जिन्हें प्रायः इस उद्देश्य के लिए "बेंचमार्क" कहा जाता है, जैसे स्पेकआईएनटी (SPECint)।

मल्टी-कोर प्रोसेसर (multi-core processor) का उपयोग करके कंप्यूटर के प्रसंस्करण प्रदर्शन को बढ़ाया जाता है, जो अनिवार्य रूप से दो या दो से अधिक व्यक्तिगत प्रोसेसर (इस अर्थ में कोर) को एक एकीकृत परिपथ में जोड़ता है। आदर्श रूप से, एक द्वि-कोर प्रोसेसर (dual core processor), एकल कोर प्रोसेसर (single core processor) से लगभग दोगुना शक्तिशाली होता है। व्यवहार में, अपूर्ण सॉफ़्टवेयर एल्गोरिदम (software algorithm) और कार्यान्वयन के कारण, प्रदर्शन लाभ बहुत कम, केवल लगभग 50% होता है। एक प्रोसेसर में कोरों की संख्या (अर्थात ड्यूल-कोर, क्वाड-कोर, आदि) में वृद्धि से कार्यभार बढ़ जाता है जिसे संभाला जा सकता है। इसका अर्थ यह है कि प्रोसेसर अब कई अतुल्यकालिक (asynchronous) घटनाओं, अवरोधों आदि को संभाल सकता है, जो अत्यधिक होने पर सीपीयू पर भारी पड़ सकता है। इन कोरों को एक प्रसंस्करण संयंत्र में अलग-अलग तलों के रूप में माना जा सकता है, जिनमें प्रत्येक तल एक अलग कार्य को संभालता है। कभी-कभी, ये कोर उसी तरह के कार्यों को संभालते हैं, जैसे कि उनके आस-पास के कोर, अगर सूचना को संभालने के लिए पर्याप्त नहीं हैं।

आधुनिक सीपीयू (CPU) की एक साथ बहुस्तरीयता और अनकोर (uncore) जैसी विशिष्ट क्षमताओं के कारण, जिसमें वास्तविक सीपीयू (CPU) संसाधनों को साझा करना सम्मिलित है, जबकि उपयोग में वृद्धि, प्रदर्शन स्तर की निगरानी और हार्डवेयर का उपयोग धीरे-धीरे एक अधिक जटिल कार्य बन गया है। प्रतिक्रिया के रूप में, कुछ सीपीयू (CPU) अतिरिक्त हार्डवेयर तर्क प्रयुक्त करते हैं जो सीपीयू (CPU) के विभिन्न भागों के वास्तविक उपयोग की निगरानी करता है और विभिन्न काउंटरों को सॉफ्टवेयर के लिए सुलभता प्रदान करता है; इसका एक उदाहरण इंटेल की परफॉर्मेंस काउंटर मॉनिटर (Performance Counter Monitor) तकनीक है।

यह भी देखें

 * पता मोड (addressing mode)
 * एएमडी (AMD) त्वरित प्रसंस्करण इकाई
 * सीआईएससी (CISC)
 * कंप्यूटर बस
 * कंप्यूटर अभियांत्रिकी
 * सीपीयू कोर वोल्टेज
 * सीपीयू सॉकेट (CPU socket)
 * डिजिटल सिग्नल प्रोसेसर
 * जीपीयू (GPU)
 * अनुदेश सेट की सूची
 * संरक्षण की रिंग
 * आरआईएससी (RISC)
 * धारा प्रसंस्करण
 * सही प्रदर्शन सूचकांक
 * टीपीयू (TPU)
 * प्रतीक्षा अवस्था

बाहरी संबंध

 * 25 Microchips that shook the world – an article by the Institute of Electrical and Electronics Engineers.
 * 25 Microchips that shook the world – an article by the Institute of Electrical and Electronics Engineers.

]