सेंट्रल प्रोसेसिंग यूनिट

 सेंट्रल प्रोसेसिंग यूनिट (Central Processing Unit (CPU)) , एक इलेक्ट्रॉनिक परिपथ तंत्र है, जो कंप्यूटर प्रोग्राम से युक्त निर्देशों को निष्पादित करता है। इसे सेंट्रल प्रोसेसर, मुख्य प्रोसेसर या सिर्फ प्रोसेसर भी कहा जाता है। सीपीयू (CPU), प्रोग्राम में निर्देशों द्वारा निर्दिष्ट बुनियादी अंकगणित, तर्क, नियंत्रण और इनपुट/आउटपुट (I/O) का संचालन करता है। यह मुख्य मेमोरी और इनपुट/आउटपुट परिपथ तंत्र जैसे बाहरी घटकों और ग्राफिक्स प्रोसेसिंग यूनिट (GPU) जैसे विशेष प्रोसेसर के विपरीत है।

सीपीयू (CPU) का रूप, संरचना और कार्यान्वयन समय के साथ बदल गया है, लेकिन उनका मौलिक संचालन लगभग अपरिवर्तित ही रहता है। एक सीपीयू (CPU) के प्रमुख घटकों में अंकगणित-तर्क इकाई (arithmetic-logic unit(ALU)), जो अंकगणित और तर्क का संचालन करता है, प्रोसेसर रजिस्टर, जो एएलयू (ALU) को संचालनों (operands) की आपूर्ति करता है और एएलयू (ALU) संचालन के परिणामों को संग्रहीत करता है, और एक नियंत्रण इकाई, जो एएलयू (ALU), रजिस्टरों और अन्य घटकों के समन्वित संचालन को मेमोरी से निर्देशित करके, डिकोडिंग और निर्देशों के निष्पादन को व्यवस्थित करती है, अदि सम्मिलित हैं।

अधिकांश आधुनिक सीपीयू (CPU) एकीकृत सर्किट माइक्रोप्रोसेसरों पर प्रयुक्त होते हैं, जिसमें एक आईसी (IC) चिप पर एक या एक से अधिक सीपीयू (CPU) होते हैं। कई सीपीयू वाले माइक्रोप्रोसेसर चिप मल्टी-कोर प्रोसेसर होते हैं। एकल भौतिक सीपीयू (प्रोसेसर कोर) को अतिरिक्त आभासी या तार्किक सीपीयू (CPU) बनाने के लिए बहु-स्तरीय भी किया जा सकता है।

सीपीयू (CPU) वाले एक आईसी (IC) चिप में मेमोरी, परिधीय अंतरपृष्ठ और कंप्यूटर के अन्य घटक भी हो सकते हैं; ऐसे एकीकृत उपकरणों को विभिन्न रूप से माइक्रोकंट्रोलर या चिप पर तंत्र (SoC) कहा जाता है।

सरणी (array) प्रोसेसर या वेक्टर प्रोसेसर में कई प्रोसेसर होते हैं जो बिना किसी इकाई को केंद्रीय मानते हुए समानांतर कार्य करते हैं। आभासी सीपीयू (CPU) गतिशील समेकित कम्प्यूटेशनल संसाधनों का एक पृथक्करण है।

इतिहास
ईएनआईएसी (ENIAC) जैसे प्रारंभिक कंप्यूटरों को अलग-अलग कार्यों को करने के लिए भौतिक रूप से पुनः तारित किया जाना था, जिसके कारण इन मशीनों को "फिक्स्ड-प्रोग्राम कंप्यूटर (fixed-program-computer)" कहा जाने लगा। "सेंट्रल प्रोसेसिंग यूनिट" शब्द का उपयोग वर्ष 1955 के पहले से किया गया था। चूंकि सीपीयू (CPU) शब्द को सामान्यतः सॉफ्टवेयर (कंप्यूटर प्रोग्राम) निष्पादन के लिए एक उपकरण के रूप में परिभाषित किया जाता है, इसलिए उचित रूप से सीपीयू (CPU) कहे जा सकने वाले सबसे प्रारम्भिक उपकरण का आगमन संग्रहीत-प्रोग्राम कंप्यूटर (stored-program computer) के आविष्कार के साथ हुआ था।

जे. प्रेस्पर एकर्ट (J. Presper Eckert) और जॉन विलियम मौचली (John William Mauchly) के ईएनआईएसी (ENIAC) की संरचना में एक संग्रहीत-प्रोग्राम कंप्यूटर का विचार पहले से ही उपस्थित था, लेकिन प्रारंभ में इसे छोड़ दिया गया था, जिससे इसे शीघ्रता से समाप्त किया जा सके। ईएनआईएसी (ENIAC) के निर्माण से पूर्व 30 जून, 1945 को गणितज्ञ जॉन वॉन न्यूमैन ने ईडीवीएसी (EDVAC) पर एक रिपोर्ट का पहला मसौदा शीर्षक वाला पृष्ठ वितरित किया। यह एक संग्रहीत-प्रोग्राम कंप्यूटर की रूपरेखा थी जो अंततः अगस्त 1949 में पूरी हो गई। ईडीवीएसी (EDVAC) को विभिन्न प्रकार के निर्देशों (या संचालन) की एक निश्चित संख्या को निष्पादित करने के लिए निर्मित किया गया था। गौरतलब है कि ईडीवीएसी (EDVAC) के लिए लिखे गए प्रोग्राम को कंप्यूटर की भौतिक वायरिंग द्वारा निर्दिष्ट करने के स्थान पर उच्च गति कंप्यूटर मेमोरी में संग्रहीत किया जाना था। इसने ईएनआईएसी (ENIAC) की एक गंभीर सीमा को पार कर लिया, जो नया कार्य करन हेतु कंप्यूटर को पुन: कॉन्फ़िगर करने के लिए आवश्यक काफी समय और प्रयास था।। वॉन न्यूमैन की संरचना के साथ, ईडीवीएसी (EDVAC) द्वारा चलाए जाने वाले प्रोग्राम को केवल मेमोरी की सामग्री को बदलकर बदला जा सकता है। ईडीवीएसी (EDVAC) पहला संगृहीत-प्रोग्राम कंप्यूटर नहीं था, क्योंकि मैनचेस्टर बेबी नामक एक छोटे पैमाने के प्रायोगिक संगृहीत प्रोग्राम कंप्यूटर ने अपना पहला प्रोग्राम 21 जून 1948 को और मैनचेस्टर मार्क-1 ने 16-17 जून 1949 की रात के दौरान अपना पहला प्रोग्राम संचालित किया।

प्रारंभिक सीपीयू (CPU) की संरचना पारंपरिक थी, जिनका उपयोग बड़े और कभी-कभी विशिष्ट कंप्यूटर के हिस्से के रूप में किया जाता था। हालांकि, किसी विशेष अनुप्रयोग के लिए पारम्परिक सीपीयू (CPU) की इस संरचना पद्धति ने बड़ी मात्रा में उत्पादित बहुउद्देश्यीय प्रोसेसर के विकास के लिए काफी हद तक मार्ग प्रशस्त किया है। यह मानकीकरण असतत ट्रांजिस्टर मेनफ्रेम और मिनीकंप्यूटर के युग में शुरू हुआ और एकीकृत परिपथ के लोकप्रिय होने के साथ तेजी से बढ़ा है। आईसी (IC) ने तीव्र गति से जटिल सीपीयू (CPU) को नैनोमीटर के क्रम पर सहनशीलता के लिए संरचना और निर्मित करने की अनुमति दी है। सीपीयू (CPU) के लघुकरण और मानकीकरण ने समर्पित कंप्यूटिंग मशीनों के सीमित अनुप्रयोग ने आधुनिक जीवन में अत्यधिक डिजिटल उपकरणों की उपस्थिति में वृद्धि की है। आधुनिक माइक्रोप्रोसेसर ऑटोमोबाइल से लेकर सेलफोन, और कभी-कभी खिलौनों जैसी इलेक्ट्रॉनिक उपकरणों में दिखाई देते हैं।

जबकि वॉन न्यूमैन को प्रायः ईडीवीएसी (EDVAC) की अपनी संरचना के कारण संग्रहीत-प्रोग्राम कंप्यूटर की संरचना का श्रेय दिया जाता है, और संरचना को वॉन न्यूमैन निर्माणकला के रूप में जाना जाता है; कोनराड ज़ूस जैसे अन्य लोगों ने उनके पहले इसी तरह के विचारों का सुझाव दिया था और उन्हें प्रयुक्त किया था। ईडीवीएसी (EDVAC) से पहले पूर्ण, हार्वर्ड मार्क-प्रथम की तथाकथित हार्वर्ड वास्तुकला ने इलेक्ट्रॉनिक मेमोरी के स्थान पर छिद्रित पेपर टेप का उपयोग करके एक संग्रहीत-कार्यक्रम संरचना का भी उपयोग किया। वॉन न्यूमैन और हार्वर्ड वास्तुकला के बीच महत्वपूर्ण अंतर यह है कि बाद वाला सीपीयू (CPU) निर्देशों और डेटा के भंडारण और उपचार को अलग करता है, जबकि पूर्व वाला दोनों के लिए समान मेमोरी का उपयोग करता है। अधिकांश आधुनिक सीपीयू (CPU) मुख्य रूप से संरचना में वॉन न्यूमैन हैं, लेकिन हार्वर्ड वास्तुकला वाले सीपीयू (CPU) को भी विशेष रूप से अन्तर्निहित अनुप्रयोगों में देखा जाता है; उदाहरण के लिए, एटमेल एवीआर माइक्रोकंट्रोलर (Atmel AVR Microcontroller) हार्वर्ड वास्तुकला प्रोसेसर हैं।

रिले और निर्वात नली (ऊष्मापन नली) सामान्यतः स्विचिंग तत्वों के रूप में उपयोग किए जाते थे; एक उपयोगी कंप्यूटर के लिए हजारों या दसियों हज़ार स्विचिंग उपकरणों की आवश्यकता होती है। सिस्टम की समग्र गति स्विच की गति पर निर्भर करती है। ईडीवीएसी (EDVAC) जैसे निर्वात नली कंप्यूटर विफलताओं के बीच औसतन आठ घंटे तक चलते थे, जबकि हार्वर्ड मार्क-प्रथम जैसे (धीमे, लेकिन पहले) रिले कंप्यूटर बहुत कम ही विफल होते थे। अंत में, महत्वपूर्ण गति लाभ के सामान्यतः विश्वसनीयता की समस्याओं से अधिक होने के कारण नली-आधारित सीपीयू (CPU) प्रमुख हो गए। इनमें से अधिकांश प्रारम्भिक समकालीन सीपीयू (CPU) आधुनिक माइक्रोइलेक्ट्रॉनिक संरचनाओं की तुलना में कम घड़ी स्पंदों पर चलते थे। इस समय 100 किलोहर्ट्ज़ से 4 मेगाहर्ट्ज तक की घड़ी संकेत आवृत्तियाँ बहुत सामान्य थीं, जो बड़े पैमाने पर स्विचिंग उपकरणों की गति से सीमित थीं, जिनके साथ उन्हें बनाया गया था।

ट्रांजिस्टर सीपीयू (Transistor CPUs)
विभिन्न प्रौद्योगिकियों द्वारा छोटे और अधिक विश्वसनीय इलेक्ट्रॉनिक उपकरणों के निर्माण की सुविधा प्रदान करने के कारण सीपीयू (CPU) की संरचना की जटिलता में वृद्धि हुई। इस तरह का पहला सुधार ट्रांजिस्टर के आगमन के साथ हुआ। 1950 और 1960 के दशक के दौरान ट्रांजिस्टरीकृत सीपीयू (transistorised CPU) को अब निर्वात नली और रिले जैसे भारी, अविश्वसनीय और नाजुक स्विचिंग तत्वों से नहीं बनाया जाना था। इस सुधार के साथ असतत (एकल) घटकों वाले एक या कई मुद्रित परिपथ बोर्डों पर अधिक जटिल और विश्वसनीय सीपीयू (CPU) बनाए गए थे।

आईबीएम (IBM) ने वर्ष 1964 में अपना आईबीएम सिस्टम/360 (IBM system/360) कंप्यूटर निर्माणकला प्रस्तुत किया जिसका उपयोग कंप्यूटरों की एक श्रृंखला में किया गया था जो एक ही प्रोग्राम को अलग-अलग गति और प्रदर्शन के साथ चलाने में सक्षम थे। यह ऐसे समय में महत्वपूर्ण था जब अधिकांश इलेक्ट्रॉनिक कंप्यूटर, यहाँ तक ​​कि एक ही निर्माता द्वारा बनाए गए कंप्यूटर भी एक दूसरे के साथ असंगत थे। आईबीएम (IBM) ने इस सुधार को सुविधाजनक बनाने के लिए एक माइक्रोप्रोग्राम (प्रायः "माइक्रोकोड") की अवधारणा का उपयोग किया, जो अभी भी आधुनिक सीपीयू (CPU) में व्यापक उपयोग के रूप में दिखता है। सिस्टम/360 निर्माणकला इतनी लोकप्रिय थी कि इसने दशकों तक मेनफ्रेम कंप्यूटर बाजार पर अपना दबदबा बनाया और एक ऐसी विरासत छोड़ी जो अभी भी आईबीएम ज़ेडश्रृंखला (IBM zSeries) जैसे समान आधुनिक कंप्यूटरों द्वारा जारी है।  डिजिटल उपकरण निगम (DEC) ने वर्ष 1965 में वैज्ञानिक और अनुसंधान बाजारों, पीडीपी-8 (PDP-8) के उद्देश्य से एक और प्रभावशाली कंप्यूटर प्रस्तुत किया। अपने पूर्ववर्तियों की तुलना में ट्रांजिस्टर-आधारित कंप्यूटरों के कई विशिष्ट लाभ थे। बढ़ी हुई विश्वसनीयता और कम बिजली की खपत को सुविधाजनक बनाने के अतिरिक्त ट्रांजिस्टर ने एक टनली या रिले की तुलना में ट्रांजिस्टर के कम स्विचिंग समय के कारण सीपीयू (CPU) को बहुत अधिक गति से संचालित करने की अनुमति दी। स्विचिंग तत्वों की बढ़ी हुई विश्वसनीयता और नाटकीय रूप से बढ़ी हुई गति इस अवधि के दौरान दसियों मेगाहर्ट्ज़ में सीपीयू (CPU) घड़ी दर आसानी से प्राप्त की गई थी, जो इस समय तक लगभग विशेष रूप से ट्रांजिस्टर थे। इसके अतिरिक्त, जब असतत ट्रांजिस्टर और आईसी सीपीयू (IC CPU) भारी उपयोग में थे, तब एकल निर्देश, एकाधिक डेटा (सिम) वेक्टर प्रोसेसर जैसे नए उच्च-प्रदर्शन संरचना दिखाई देने लगे। इन प्रारंभिक प्रयोगात्मक संरचनाओं ने बाद में क्रे आईएनसी (Cray Inc.) और फुजित्सु लिमिटेड (Fujitsu Ltd) द्वारा बनाए गए विशेष सुपर कंप्यूटरों के युग को जन्म दिया।

छोटे पैमाने पर एकीकरण सीपीयू (Small scale integration CPUs)
इस अवधि के दौरान, एक सघन स्थान में कई परस्पर संयोजित ट्रांजिस्टर के निर्माण की एक विधि विकसित की गई थी। एकीकृत परिपथ (आईसी) ने बड़ी संख्या में ट्रांजिस्टर को एकल अर्धचालक-आधारित डाई, या "चिप" पर निर्मित करने की अनुमति दी। सर्वप्रथम केवल नॉर गेटों (NOR gates) जैसे बहुत ही बुनियादी गैर-विशिष्ट डिजिटल परिपथों को आईसी (IC) में छोटा किया गया था। इन "निर्माण खंड (building block)" आईसी (IC) पर आधारित सीपीयू (CPU) को सामान्यतः "छोटे पैमाने पर एकीकरण (SSI)" उपकरण कहा जाता है। एसएसआई आईसी (SSI IC), जैसे कि अपोलो गाइडेंस कंप्यूटर में उपयोग किए जाने वाले, सामान्यतः कुछ दर्जन ट्रांजिस्टर होते हैं। एसएसआई आईसी (SSI IC) से एक संपूर्ण सीपीयू (CPU) बनाने के लिए हजारों एकल चिपों की आवश्यकता होती है, लेकिन फिर भी इनमें पहले के असतत ट्रांजिस्टर संरचनाओं की तुलना में बहुत कम जगह और बिजली की खपत होती है।

सिस्टम/360 का अनुपालक आईबीएम सिस्टम/360 (IBM system/360) ठोस तार्किक तकनीक असतत-ट्रांजिस्टर मॉड्यूल के स्थान पर एसएसआई आईसी (SSI IC) का उपयोग करता है। डीईसी पीडीपी-8/I (DEC's PDP-8/I)और केआई10 पीडीपी-10 (KI10 PDP-10) को भी पीडीपी-8 (PDP-8) और पीडीपी-10 (PDP-10) द्वारा उपयोग किए जाने वाले एकल ट्रांजिस्टर से एसएसआई आईसी (SSI IC) में बदल दिया गया, और उनकी अत्यंत लोकप्रिय पीडीपी-11 (PDP-11) लाइन मूल रूप से एसएसआई आईसी (SSI IC) के साथ बनाई गई थी, लेकिन अंततः इनके व्यावहारिक हो जाने पर इन्हें एलएसआई (LSI) घटकों के साथ लागू किया गया।

बड़े पैमाने पर एकीकरण सीपीयू (Large scale integration CPUs)
ली बॉयसेल ने वर्ष 1967 के "घोषणापत्र" सहित प्रभावशाली लेख प्रकाशित किए, जिसमें वर्णन किया गया था कि अपेक्षाकृत कम संख्या में बड़े पैमाने के एकीकरण परिपथ (LSI) से 32-बिट मेनफ्रेम कंप्यूटर का समकक्ष कैसे बनाया जाए। एलएसआई चिपों (LSI chips) (जो सौ या अधिक गेट वाले चिप होते हैं) के निर्माण की एकमात्र विधि यह थी कि उन्हें धातु-ऑक्साइड-अर्धचालक (MOS), अर्धचालक निर्माण प्रक्रिया जैसे पीएमओएस तर्क (PMOS logic), एनएमओएस तर्क (NMOS logic), या तो सीएमओएस तर्क (CMOS logic) का उपयोग करके बनाना था। हालाँकि, कुछ कंपनियों ने द्विध्रुवी संधि ट्रांजिस्टर के मॉस चिप (MOS chips) की तुलना में तेज़ होने के कारण 1970 के दशक तक द्विध्रुवी ट्रांजिस्टर-ट्रांजिस्टर तर्क (TTL) चिपों से प्रोसेसर का निर्माण जारी रखा, जबकि डेटाप्वाइंट(Datapoint) जैसी कुछ कंपनियों ने 1980 के दशक चिप टीटीएल चिपों से (TTL chips) प्रोसेसर का निर्माण जारी रखा। मॉस आईसी (MOS IC) 1960 के दशक में धीमे थे और प्रारंभ में केवल उन अनुप्रयोगों में उपयोगी माने जाते थे जिन्हें कम शक्ति की आवश्यकता होती थी। वर्ष 1968 में फेयरचाइल्ड अर्धचालक में फेडरिको फागिन द्वारा सिलिकॉन-गेट एमओएस (MOS) तकनीक के विकास के बाद, 1970 के दशक के प्रारंभ में एमओएस आईसी (MOS IC) ने बड़े पैमाने पर द्विध्रुवी टीटीएल को मानक चिप प्रौद्योगिकी के रूप में प्रतिस्थापित कर दिया।

माइक्रोइलेक्ट्रॉनिक तकनीक की उन्नति के साथ-साथ आईसी (IC) पर अधिक संख्या में ट्रांजिस्टर रखे गये, जिससे एक पूर्ण सीपीयू के लिए आवश्यक एकल आईसी की संख्या कम हो गई। एमएसआई (MSI) और एलएसआई (LSI) एकीकृत परिपथ ने ट्रांजिस्टर की संख्या बढ़ाकर सैकड़ों और फिर हजारों कर दी। एक संपूर्ण सीपीयू (CPU) के निर्माण के लिए आवश्यक आईसी (IC) की संख्या को वर्ष 1968 तक घटाकर आठ अलग-अलग प्रकार की 24 आईसी (IC) कर दिया गया, जिसमें प्रत्येक आईसी (IC) में लगभग 1000 मॉस्फेट(MOSFET) होते थे। पीडीपी-11 (PDP-11) के पहले एलएसआई (LSI) कार्यान्वयन में अपने एसएसआई (SSI) और एमएसआई (MSI) पूर्ववर्तियों के विपरीत केवल चार एलएसआई (LSI) एकीकृत परिपथों से बना एक सीपीयू (CPU) सम्मिलित था।

माइक्रोप्रोसेसर (Microprocessor)
माइक्रोप्रोसेसरों को पहली बार प्रस्तुत किये जाने के कारण उन्होंने अन्य सभी सेन्ट्रल प्रोसेसिंग यूनिट (CPU) कार्यान्वयन विधियों को लगभग पूरी तरह से पीछे छोड़ दिया है। व्यावसायिक रूप से उपलब्ध पहला माइक्रोप्रोसेसर, इंटेल 4004 (intel 4004) वर्ष 1971 में बनाया गया, था, और इंटेल 8080 (intel 8080), वर्ष 1974 में बनाया गया पहला व्यापक रूप से इस्तेमाल किया जाने वाला माइक्रोप्रोसेसर था। उस समय के मेनफ्रेम और मिनीकंप्यूटर निर्माताओं ने अपने पुराने कंप्यूटर वास्तुकला को उन्नत करने के लिए स्वामित्व आईसी विकास कार्यक्रम (proprietary IC development programs) शुरू किए, और अंततः निर्मित निर्देश सेट संगत माइक्रोप्रोसेसर अपने पुराने हार्डवेयर और सॉफ़्टवेयर के साथ पिछड़े-संगत थे। सर्वव्यापी व्यक्तिगत कंप्यूटर के आगमन और अंतिम सफलता के साथ संयुक्त, सीपीयू (CPU) शब्द अब लगभग विशेष रूप से माइक्रोप्रोसेसरों पर प्रयुक्त होता है। एक ही प्रोसेसिंग चिप में कई सीपीयू (डिनोटेड कोर) को जोड़ा जा सकता है।

सीपीयू (CPU) की पिछली पीढ़ियों को एक या अधिक परिपथ बोर्डों पर असतत घटकों और कई छोटे एकीकृत परिपथों के रूप में प्रयुक्त किया गया था। दूसरी ओर, माइक्रोप्रोसेसर, बहुत कम संख्या में (सामान्यतः एक) आईसी (IC) पर निर्मित सीपीयू (CPU) होते हैं। एक ही डाई पर लागू होने के परिणामस्वरूप समग्र छोटे सीपीयू आकार, कम गेट पराश्रयी धारिता जैसे भौतिक कारकों के कारण तेजी से स्विचिंग समय के लिय उत्तरदायी होते हैं। इसने समकालिक माइक्रोप्रोसेसरों को दसियों मेगाहर्ट्ज़ से लेकर कई गीगाहर्ट्ज़ तक की घड़ी दर रखने की अनुमति दी है। इसके अतिरिक्त, एक आईसी (IC) पर अत्यधिक छोटे ट्रांजिस्टर बनाने की क्षमता ने एकल सीपीयू (CPU) में ट्रांजिस्टर की जटिलता और संख्या को कई गुना बढ़ा दिया है। व्यापक रूप से देखी गई इस प्रवृत्ति का वर्णन मूर के नियम द्वारा किया गया है, जो वर्ष 2016 तक सीपीयू (और अन्य आईसी (IC)) जटिलता के विकास का काफी सटीक भविष्यवक्ता साबित हुआ था।

जबकि वर्ष 1950 के बाद से सीपीयू की जटिलता, आकार, निर्माण और सामान्य रूप में काफी परिवर्तन आया है, लेकिन मूल संरचना और कार्य बिल्कुल भी नहीं बदले हैं। आज लगभग सभी सामान्य सीपीयू (CPU) को वॉन न्यूमैन संगृहीत-प्रोग्राम मशीन के रूप में बहुत सटीक रूप से वर्णित किया जा सकता है। चूंकि मूर के नियम के अब लागू न होने के कारण एकीकृत परिपथ ट्रांजिस्टर प्रौद्योगिकी की सीमाओं के बारे में चिंताएँ उत्पन्न हुई हैं। इलेक्ट्रॉनिक गेटों के अत्यधिक लघुकरण के कारण विद्युत्-स्थानान्तरण (electromigration) और सबथ्रेशोल्ड रिसाव (subthreshold leakage) जैसी घटनाओं के प्रभाव बहुत अधिक महत्वपूर्ण हो गए हैं।  ये नई चिंताएं कई कारकों में से हैं, जिसके कारण शोधकर्ताओं ने क्वांटम कंप्यूटर (quantum computer) जैसे कंप्यूटिंग के नए तरीकों की जांच के साथ ही समानांतरवाद और अन्य तरीकों के उपयोग का विस्तार किया, जो चिरसम्मत वॉन न्यूमैन मॉडल (classical von Neumann model) की उपयोगिता को बढ़ाते हैं।

संचालन (Operation)
अधिकांश सीपीयू (CPU) का मौलिक संचालन संग्रहीत निर्देशों के अनुक्रम को निष्पादित करना है, जिसे प्रोग्राम (program) कहा जाता है, चाहे वे किसी भी भौतिक रूप में हों। निष्पादित किए जाने वाले निर्देश किसी प्रकार की कंप्यूटर मेमोरी में रखे जाते हैं। लगभग सभी सीपीयू (CPU) अपने संचालन में प्राप्त करना (fetch), डिकोड करना (decode) और निष्पादित करना (execute) आदि चरणों का पालन करते हैं, जिन्हें सामूहिक रूप से निर्देश चक्र के रूप में जाना जाता है।

एक निर्देश के निष्पादन के बाद, पूरी प्रक्रिया दोहराई जाती है, साथ ही अगले निर्देश चक्र के साथ सामान्य रूप से प्रोग्राम काउंटर में बढ़े हुए मूल्य के कारण अगला-इन-सीक्वेंस (next-in-sequence) निर्देश प्राप्त होता है। एक जम्प निर्देश (jump instruction) निष्पादित किये जाने पर प्रोग्राम काउंटर को उस निर्देश के पते को शामिल करने के लिए संशोधित करना पड़ता है, जिस पर वह जम्प (jump) कर गया था और प्रोग्राम निष्पादन सामान्य रूप से जारी रहता है। अधिक जटिल सीपीयू (CPU) में, एक साथ कई निर्देश प्राप्त किए जा सकते हैं, डिकोड किए जा सकते हैं और निष्पादित भी किए जा सकते हैं। यह भाग सामान्यतः "क्लासिक आरआईएससी पाइपलाइन (classic RISC pipeline)" के रूप में जाने जाने वाले विषय का वर्णन करता है, जो कई इलेक्ट्रॉनिक उपकरणों (प्रायः माइक्रोकंट्रोलर) में उपयोग किए जाने वाले साधारण सीपीयू (CPU) में काफी प्रचलित है। यह काफी हद तक सीपीयू कैश (CPU cache) की महत्वपूर्ण भूमिका और इस प्रकार पाइपलाइन के पहुँच स्तर की उपेक्षा करता है।

कुछ निर्देश सीधे परिणाम डेटा उत्पन्न करने के स्थान पर प्रोग्राम काउंटर में हेरफेर करते हैं; इस तरह के निर्देशों को सामान्यतः "जम्प (jump)" कहा जाता है और चक्र (loop), सशर्त कार्यक्रम निष्पादन (सशर्त जम्प के उपयोग के माध्यम से), और कार्यों के अस्तित्व जैसे कार्यक्रम-व्यवहार की सुविधा प्रदान करते हैं। कुछ प्रोसेसरों में, कुछ अन्य निर्देश "ध्वज (flags)" रजिस्टर में बिट्स की स्थिति को बदलते हैं। इन ध्वजों (flags) का उपयोग किसी कार्यक्रम के व्यवहार को प्रभावित करने के लिए किया जा सकता है, क्योंकि वे अक्सर विभिन्न कार्यों के परिणाम का संकेत देते हैं। उदाहरण के लिए, ऐसे प्रोसेसर में एक "तुलना" निर्देश दो मानों का मूल्यांकन करता है और फ़्लैग रजिस्टर में बिट्स को यह इंगित करने के लिए निर्धारित या साफ़ करता है, कि कौन सा मान बड़ा है या क्या वे बराबर हैं; इनमें में से एक ध्वज का उपयोग प्रोग्राम प्रवाह को निर्धारित करने के लिए विलंबित जम्प निर्देश (later jump instruction) द्वारा किया जा सकता है।

प्राप्त करना (Fetch)
प्रोग्राम मेमोरी से एक संख्या या संख्याओं के अनुक्रम द्वारा प्रदर्शित एक निर्देश को पुनः प्राप्त करना प्राप्त करने (fetch) की प्रक्रिया में सम्मिलित है। प्रोग्राम मेमोरी में निर्देश का स्थान (पता), प्रोग्राम काउंटर (पीसी (PC); जिसे इंटेल x86 माइक्रोप्रोसेसरों में "इंस्ट्रक्शन प्वाइंटर" कहा जाता है) द्वारा निर्धारित किया जाता है, जो एक संख्या को संगृहीत करता है जो प्राप्त किए जाने वाले अगले निर्देश के पते की पहचान करता है। पीसी (PC) को एक निर्देश प्राप्त होने के बाद निर्देश की लंबाई तक बढ़ाया जाता है, जिससे इसमें अनुक्रम में अगले निर्देश का पता सम्मिलित हो। प्रायः प्राप्त किए जाने वाले निर्देश को अपेक्षाकृत धीमी मेमोरी से पुनर्प्राप्त किया जाना चाहिए, जिससे सीपीयू (CPU) वापसी के निर्देश की प्रतीक्षा करते समय रुक जाता है। कैश (cache) और पाइपलाइन निर्माणकला द्वारा आधुनिक प्रोसेसर में इस मुद्दे को काफी हद तक संबोधित किया गया है।(नीचे देखें)

डिकोड करना (Decode)
सीपीयू (CPU) द्वारा मेमोरी से प्राप्त निर्देश सीपीयू (CPU) के कार्य का निर्धारण करता है। डिकोड चरण में, निर्देश डिकोडर के रूप में ज्ञात बाइनरी डिकोडर परिपथ तंत्र द्वारा निष्पादित निर्देश को संकेत में परिवर्तित किया जाता है जो सीपीयू (CPU) के अन्य भागों को नियंत्रित करता है।

जिस तरह से निर्देश की व्याख्या की जाती है वह सीपीयू (CPU) के निर्देश सेट निर्माणकला (ISA) द्वारा परिभाषित किया जाता है। प्रायः, निर्देश के भीतर ओपकोड (opcode) के रूप में जाना जाने वाला बिट्स का एक समूह (अर्थात, एक "फ़ील्ड"), यह इंगित करता है कि कौन सा संचालन किया जाना है, जबकि संकार्य (operands) जैसे शेष फ़ील्ड सामान्यतः संचालन के लिए आवश्यक पूरक जानकारी प्रदान करते हैं। उन संकार्य (operands) को एक स्थिर मान (तत्काल मान) के रूप में निर्दिष्ट किया जा सकता है, या एक प्रोसेसर रजिस्टर या मेमोरी एड्रेस जैसे किसी मान के स्थान के रूप में हो सकता है, जैसा कि कुछ एड्रेसिंग मोड (addressing mode) द्वारा निर्धारित किया जाता है।

कुछ सीपीयू संरचनाओं में निर्देश डिकोडर को सख्त-तारित (hardwired), अपरिवर्तनीय द्विआधारी डिकोडर परिपथ के रूप में प्रयुक्त किया जाता है। जबकि अन्य सीपीयू संरचनाओं में, एक माइक्रोप्रोग्राम (microprogram) का उपयोग सीपीयू विन्यास संकेतों के समूह में निर्देशों का अनुवाद करने के लिए किया जाता है जो कि कई घड़ी की नाड़ी (clock pulse) पर क्रमिक रूप से प्रयुक्त होते हैं। कुछ मामलों में माइक्रोप्रोग्राम को संगृहीत करने वाली मेमोरी फिर से लिखने योग्य होती है, जिससे सीपीयू (CPU) द्वारा निर्देशों को डिकोड करने के तरीके को बदलना संभव हो जाता है।।

निष्पादित करना (Execute)
प्राप्त करने और डीकोड चरणों के बाद, निष्पादन चरण निष्पादित किया जाता है। इसमें सीपीयू निर्माणकला (CPU architecture) के आधार पर एकल क्रिया या क्रियाओं का अनुक्रम शामिल हो सकता है। नियंत्रण संकेत, प्रत्येक क्रिया के दौरान सीपीयू (CPU) के विभिन्न भागों को विद्युत रूप से सक्षम या अक्षम करते हैं, जिससे वे वांछित संचालन के सभी या एक भाग को निष्पादित कर सकें। तब सामान्यतः घड़ी स्पंद के जवाब में क्रिया पूरी हो जाती है। त्वरित पहुंच के लिए बाद के निर्देशों द्वारा परिणाम प्रायः आंतरिक सीपीयू रजिस्टर में लिखे जाते हैं। जबकि अन्य मामलों में परिणाम धीमे, लेकिन कम खर्चीले और उच्च क्षमता वाली मुख्य मेमोरी में लिखे जा सकते हैं।

उदाहरण के लिए, यदि एक अतिरिक्त निर्देश निष्पादित किया जाना है, तो ऑपरेंड (संख्याओं को संक्षेप में) वाले रजिस्टर सक्रिय होते हैं, जैसे कि अंकगणितीय तर्क इकाई (एएलयू) के हिस्से जो अतिरिक्त प्रदर्शन करते हैं। जब घड़ी में स्पंदन होता है, तो संकार्य (operands) स्त्रोत रजिस्टर से एएलयू (ALU) में प्रवाहित होता है, और योग इसके आउटपुट पर दिखाई देता है। अनुक्रम घड़ी स्पंदनों पर, अन्य घटकों को आउटपुट (संचालन का योग) को संग्रहण (जैसे, एक रजिस्टर या मेमोरी) में स्थानांतरित करने के लिए सक्षम (और अक्षम) किया जाता है। यदि परिणामी योग बहुत बड़ा है (अर्थात, यह ALU के आउटपुट शब्द आकार से बड़ा है), तो एक अंकगणितीय अतिप्रवाह ध्वज सेट किया जाता है, जो अगले संचालन को प्रभावित करता है।

संरचना और कार्यान्वयन (Structure and implementation)
सीपीयू के परिपथ तंत्र में सख्त तारित, बुनियादी संचालन का एक समूह होता है जिसे वह संचालित कर सकता है, जिसे निर्देश समूह कहा जाता है। इस तरह के संचालन में दो संख्याओं को जोड़ना या घटाना, दो संख्याओं की तुलना करना, या एक प्रोग्राम के किसी भिन्न भाग में जम्पिंग जैसे प्रोग्राम सम्मिलित हो सकते हैं। प्रत्येक निर्देश को बिटों के एक अद्वितीय संयोजन द्वारा दर्शाया जाता है, जिसे मशीन की भाषा में ओपकोड (opcode) के रूप में जाना जाता है। एक निर्देश को संसाधित करते समय, सीपीयू (CPU), ओपकोड (एक द्विआधारी डिकोडर के माध्यम से) को नियंत्रण संकेतों में डिकोड करता है, जो सीपीयू (CPU) के व्यवहार को व्यवस्थित करता है। एक पूर्ण मशीन भाषा निर्देश में एक ओपकोड (opcode) और कई मामलों में, अतिरिक्त बिट होते हैं, जो संचालन के लिए तर्क निर्दिष्ट करते हैं (उदाहरण के लिए, एक अतिरिक्त संचालन के मामले में संख्याओं का योग किया जाना है)। जटिलता के पैमाने पर जाने पर, मशीन भाषा, प्रोग्राम मशीन भाषा निर्देशों का एक संग्रह होता है जिसे सीपीयू (CPU) निष्पादित करता है।

प्रत्येक निर्देश के लिए वास्तविक गणित का संचालन सीपीयू (CPU) के प्रोसेसर के भीतर एक संयोजन तर्क परिपथ द्वारा किया जाता है जिसे अंकगणित-तर्क इकाई (arithmetic logic unit) या एएलयू (ALU) के रूप में जाना जाता है। सामान्य तौर पर, एक निर्देश को मेमोरी से प्राप्त करके सीपीयू (CPU) एक संचालन के लिए अपने एएलयू (ALU) का उपयोग करके परिणाम को मेमोरी में संग्रहीत करके निष्पादित करता है। पूर्णांक गणित (integer mathematics) और तर्क संचालन (logic operations) के निर्देशों के अतिरिक्त मेमोरी से डेटा लोड करने और इसे वापस संग्रहीत करने के लिए, शाखा संचालन और सीपीयू की फ्लोटिंग-प्वाइंट यूनिट (FPU) द्वारा निष्पादित फ्लोटिंग-प्वाइंट संख्याओं पर गणितीय संचालन जैसे कई अन्य मशीन निर्देश मौजूद हैं।

नियंत्रण इकाई (Control Unit)
नियंत्रण इकाई (CU), सीपीयू (CPU) का एक घटक होता है जो प्रोसेसर के संचालन को निर्देशित करता है। यह कंप्यूटर की मेमोरी, अंकगणित और तर्क इकाई और इनपुट और आउटपुट उपकरण को प्रोसेसर को भेजे गए निर्देशों का उत्तर देने की विधि के बारे में बताता है।

यह समय और नियंत्रण संकेत प्रदान करके अन्य इकाइयों के संचालन को निर्देशित करता है। अधिकांश कंप्यूटर संसाधनों का प्रबंधन सीयू (CU) द्वारा किया जाता है। यह सीपीयू (CPU) और अन्य उपकरणों के बीच डेटा के प्रवाह को निर्देशित करता है। जॉन वॉन न्यूमैन ने नियंत्रण इकाई को वॉन न्यूमैन वास्तुकला के हिस्से के रूप में सम्मिलित किया। नियंत्रण इकाई, आधुनिक कंप्यूटर संरचनाओं में सामान्यतः सीपीयू (CPU) का एक आंतरिक भाग होता है, इसके प्रारंभ होने के बाद से इसकी समग्र भूमिका और संचालन अपरिवर्तित रहता है।

अंकगणितीय तर्क इकाई (Arithmetic logic unit)
अंकगणितीय तर्क इकाई (ALU) प्रोसेसर के भीतर एक अंकीय परिपथ होता है, जो पूर्णांक अंकगणित और बिटवार तर्क संचालन निष्पादित करता है। एएलयू (ALU) के इनपुट, वह डेटा शब्द होते हैं जिन्हें संचालित किया जाना होता है, इन्हें संकार्य (operand) कहा जाता है, पिछले संचालन से स्थिति की सूचना और नियंत्रण इकाई से एक कोड यह दर्शाता है कि कौन सा संचालन करना है। निष्पादित किए जा रहे निर्देश के आधार पर संकार्य (operands) आंतरिक सीपीयू रजिस्टरों, बाहरी मेमोरी, या एएलयू द्वारा उत्पन्न स्थिरांक से हो सकते हैं।

जब सभी इनपुट संकेत एएलयू परिपथ तंत्र के माध्यम से व्यवस्थित और प्रचारित हो जाते हैं, तो प्रदर्शित किए गए संचालन का परिणाम एएलयू (ALU) के आउटपुट पर दिखाई देता है। एक डेटा शब्द, जिसे एक रजिस्टर या मेमोरी में संग्रहीत किया जा सकता है, और स्थिति की जानकारी, जो सामान्यतः इस उद्देश्य के लिए आरक्षित एक विशेष आंतरिक सीपीयू रजिस्टर में संग्रहीत होती है; परिणाम में ये दोनों घटक उपस्थित होते हैं।

पता पीढ़ी इकाई (Address generation unit)
पता जनरेशन यूनिट (AGU), जिसे कभी -कभी पता कम्प्यूटेशन यूनिट (ACU) भी कहा जाता है, सीपीयू (CPU) के अंदर एक निष्पादन इकाई होती है जो सीपीयू (CPU) द्वारा मुख्य मेमोरी तक पहुंचने के लिए उपयोग किए गए पतों की गणना करती है। अन्य शेष सीपीयू (CPU) के समानांतर संचालित अलग-अलग परिपथ तंत्र द्वारा नियंत्रित पते की गणना करके विभिन्न मशीन निर्देशों को निष्पादित करने के लिए आवश्यक सीपीयू चक्रों की संख्या को कम किया जा सकता है, जिससे प्रदर्शन में सुधार होता है।

विभिन्न संचालनों के दौरान सीपीयू (CPU) को मेमोरी से डेटा लाने के लिए आवश्यक मेमोरी पते की गणना की आवश्यकता होती है; उदाहरण के लिए, सीपीयू (CPU) द्वारा वास्तविक मेमोरी स्थानों से डेटा प्राप्त करने से पहले सरणी तत्वों की इन-मेमोरी स्थिति की गणना की जानी चाहिए। उन पता-पीढ़ी की गणनाओं में जोड़, घटाव, मोडुलो संचालन, या बिट बदलाव जैसे अलग-अलग पूर्णांक अंकगणितीय संचालन सम्मिलित होते हैं। प्रायः, एक मेमोरी पते की गणना में एक से अधिक सामान्य-उद्देश्य वाले मशीन निर्देश सम्मिलित होते हैं, जिनकी शीघ्रता से डिकोडिंग और निष्पादन आवश्यक नहीं है। एक एजीयू (AGU) को एक सीपीयू (CPU) संरचना में सम्मिलित करके विभिन्न एड्रेस-जनरेशन गणनाओं को एजीयू (AGU) का उपयोग करने वाले विशेष निर्देशों को प्रस्तुत करने के साथ बाकी सीपीयू (CPU) से लोड किया जा सकता है, और प्रायः एक एकल सीपीयू (CPU) चक्र में जल्दी से निष्पादित किया जा सकता है।

एजीयू (AGU) की क्षमताएँ एक विशेष सीपीयू (CPU) और उसकी वास्तुकला पर निर्भर करती हैं। इस प्रकार, कुछ एजीयू (AGU) अधिक पता-गणना संचालन को प्रयुक्त करते हैं और उजागर करते हैं, जबकि कुछ में अधिक उन्नत विशेष निर्देश भी सम्मिलित होते हैं जो एक समय में कई संकार्य (operand) पर काम कर सकते हैं। कुछ सीपीयू (CPU) वास्तुकला में कई एजीयू (AGU) सम्मिलित होते हैं, इसलिए एक से अधिक एड्रेस-गणना संचालन को एक साथ निष्पादित किया जा सकता है, जो उन्नत सीपीयू (CPU) संरचनाओं की उत्तम-स्तर प्रकृति के कारण आगे के प्रदर्शन में सुधार लाता है। उदाहरण के लिए, इंटेल (intel) अपने सैंडी ब्रिज (Sandy Bridge) और हैसवेल सूक्ष्म-वास्तुकला (Haswell microarchitectures) में कई एजीयू (AGU) को सम्मिलित करता है, जो समानांतर में कई मेमोरी-पहुँच निर्देशों को निष्पादित करने की अनुमति देकर सीपीयू (CPU) मेमोरी उपतंत्र की बैंडविड्थ को बढ़ाता है।

मेमोरी मैनेजमेंट यूनिट (Memory management unit)
कई स्मार्टफोन और डेस्कटॉप, लैपटॉप, सर्वर कंप्यूटर जैसे माइक्रोप्रोसेसरों में एक मेमोरी प्रबंधन इकाई होती है, जो तार्किक पतों को मेमोरी सुरक्षा और पृष्ठता क्षमता प्रदान करते हुए भौतिक रैम (RAM) पतों में अनुवाद करती है, जो आभासी मेमोरी के लिए उपयोगी है। विशेष रूप से माइक्रोकंट्रोलर जैसे सरल प्रोसेसर में सामान्यतः एमएमयू (MMU) सम्मिलित नहीं होता है।

कैश (Cache)
सीपीयू कैश (CPU Cache) एक हार्डवेयर कैश है, जिसका उपयोग मुख्य मेमोरी से डेटा तक पहुंचने के लिए कंप्यूटर के सीपीयू (CPU) द्वारा औसत लागत (समय या ऊर्जा) को कम करने के लिए किया जाता है। कैश (cache), प्रोसेसर कोर के करीब एक छोटी और तेज मेमोरी होती है, जो प्रायः उपयोग किए जाने वाले मुख्य मेमोरी स्थानों से डेटा की प्रतियाँ संग्रहीत करती है। अधिकांश सीपीयू में अलग-अलग निर्देश और डेटा कैश जैसे स्वतंत्र कैश (cache) होते हैं, जहाँ डेटा कैश को सामान्यतः अधिक कैश स्तरों (L1, L2, L3, L4 आदि) के पदानुक्रम के रूप में व्यवस्थित किया जाता है।।

कुछ विशेष अपवादों के साथ सभी आधुनिक (तेज़) सीपीयू (CPU) में सीपीयू कैश (CPU cache) के कई स्तर होते हैं। कैश (cache) का उपयोग करने वाले पहले सीपीयू (CPU) में कैश का केवल एक स्तर होता था; इसे बाद के स्तर 1 कैश के विपरीत, एल1डी (L1d) (डेटा के लिए) और एल1आई (L1i) (निर्देशों के लिए) में विभाजित नहीं किया गया था। कैश वाले लगभग सभी मौजूदा सीपीयू (CPU) में विभाजित L1 कैश होता है। उनके पास L2 कैश और बड़े प्रोसेसरों के लिए L3 कैश भी होते हैं। L2 कैश सामान्यतः विभाजित नहीं होता है और पहले से ही विभाजित L1 कैश के लिए एक सामान्य भंडार के रूप में कार्य करता है। बहु-कोर प्रोसेसर के प्रत्येक कोर में एक समर्पित L2 कैश होता है और सामान्यतः कोर के बीच साझा नहीं किया जाता है। L3 और उच्च-स्तरीय कैश को कोर के बीच साझा किया जाता है और ये विभाजित नहीं होते हैं। एक L4 कैश वर्तमान में असामान्य है, जो सामान्यतः स्थैतिक रैंडम-एक्सेस मेमोरी (SRAM) या एक अलग डाई या चिप के स्थान पर गतिशील रैंडम-एक्सेस मेमोरी (DRAM) पर स्थित होता है। ऐतिहासिक रूप से L1 के साथ भी ऐसा ही था, जबकि बड़ी चिपों ने अंतिम स्तर के संभावित अपवाद के साथ सामान्यतः सभी कैश स्तरों के साथ इसे एकीकरण की अनुमति दी है। कैश का प्रत्येक अतिरिक्त स्तर बड़ा होता है और इसे अलग तरह से अनुकूलित किया जाता है।

ऊपर वर्णित सबसे महत्वपूर्ण कैश के "कैश आकार" में नहीं गिने जाने वाले कैश के अतिरिक्त अनुवाद लुकसाइड बफर (TLB) जैसे अन्य प्रकार के कैश मौजूद हैं, जो कि अधिकांश सीपीयू (CPU) के मेमोरी प्रबंधन इकाई (MMU) का हिस्सा होते हैं।

कैश आमतौर पर दो 2, 8, 16 आदि KiB या MiB की घातों के आकार में होते हैं। हालांकि आईबीएम ज़ेड13 (IBM z13) में 96 KiB L1 निर्देश कैश है।।

घड़ी दर (Clock rate)
अधिकांश सीपीयू (CPU) समकक्ष परिपथ होते हैं, अर्थात् वे अपने अनुक्रमिक संचालन को गति देने के लिए एक घड़ी संकेत का उपयोग करता है। घड़ी संकेत एक बाह्य दोलक परिपथ द्वारा निर्मित होता है, जो एक आवधिक वर्ग तरंग के रूप में प्रत्येक सेकंड में लगातार संख्या में स्पंद उत्पन्न करता है। घडी स्पंद की आवृत्ति सीपीयू द्वारा निर्देशों के निष्पादन की दर का निर्धारण करती है और परिणामस्वरूप, घड़ी जितनी तेज होगी, सीपीयू प्रत्येक सेकंड में उतने ही अधिक निर्देश निष्पादित करेगा।

घड़ी की आवर्तकाल सीपीयू के माध्यम से सभी संकेतों के प्रचार (स्थानांतरित) के लिए, सीपीयू के उचित संचालन को सुनिश्चित करने के लिए आवश्यक अधिकतम समय से अधिक होता है। घड़ी के आवर्तकाल को सबसे निकृष्टम-मामले के प्रसार विलंब से ऊपर एक मान पर निर्धारित करने में, पूरे सीपीयू की संरचना करना और इसके बढ़ते और गिरने वाले घड़ी संकेतों के "किनारों" के आसपास डेटा ले जाने के तरीके की संरचना संभव है। यह सीपीयू (CPU) को एक संरचना परिप्रेक्ष्य और एक घटक-गणना परिप्रेक्ष्य दोनों में महत्वपूर्ण रूप से सरल बनाने का लाभ है। हालाँकि, इसका नुकसान भी है कि पूरा सीपीयू (CPU), इसके कुछ हिस्से बहुत तेज होने के बावजूद भी अपने सबसे धीमे तत्वों पर प्रतीक्षा करता है। सीपीयू (CPU) समांतरता बढ़ाने के विभिन्न तरीकों से काफी हद तक इस सीमा की क्षतिपूर्ति की गई है। (नीचे देखें)

हालाँकि, वास्तु सुधार अकेले विश्व स्तर पर समकक्ष सीपीयू (CPU) की सभी कमियों को दूर नहीं करते हैं। उदाहरण के लिए, एक घड़ी संकेत किसी अन्य विद्युत संकेत की विलंबता के अधीन है। तेजी से जटिल सीपीयू (CPU) में उच्च घड़ी दर पूरे यूनिट में घड़ी के संकेत को चरण (सिंक्रोनाइज़) में रखना अधिक कठिन बना देती है। इसमें कई आधुनिक सीपीयू (CPU) को एक ही संकेत में देरी से बचने के लिए कई समान घड़ी संकेतों की आवश्यकता होती है, जिससे सीपीयू (CPU) नष्ट हो जाता है। एक अन्य प्रमुख मुद्दा घड़ी की दरें नाटकीय रूप से बढ़ने के साथ सीपीयू (CPU) द्वारा नष्ट की जाने वाली ऊष्मा की मात्रा है। लगातार बदलती घड़ी कई घटकों को परस्पर बदलने करने का कारण बनती है चाहे वे उस समय उपयोग किए जा रहे हों या नहीं। सामान्यतः एक घटक जो स्विच कर रहा है, एक स्थिर अवस्था में एक तत्व की तुलना में अधिक ऊर्जा का उपयोग करता है। इसलिए, जैसे-जैसे घड़ी की दर बढ़ती है, वैसे-वैसे ऊर्जा की खपत भी होती है, जिससे सीपीयू को सीपीयू शीतलन समाधान के रूप में अधिक ऊष्मा अपव्यय की आवश्यकता होती है।

अनावश्यक घटकों के स्विचिंग से निपटने की विधि को घड़ी गेटिंग (Clock gating) कहा जाता है, जिसमें घड़ी के संकेत द्वारा अनावश्यक घटकों को प्रभावी रूप से अक्षम करना सम्मिलित है। हालांकि, इसे प्रायः प्रयुक्त करना मुश्किल माना जाता है और इसलिए बहुत कम-शक्ति वाली संरचनाओं के बाहर सामान्य उपयोग नहीं दिखता है। एक उल्लेखनीय हाल ही की, व्यापक घड़ी गेटिंग का उपयोग करने वाली सीपीयू संरचना आईबीएम पॉवरपीसी-आधारित ज़ेनान (IBM PowerPC-based Xenon) है, जिसका उपयोग एक्सबॉक्स 360 (Xbox 360) में किया जाता है; इस प्रकार, एक्सबॉक्स 360 (Xbox 360) की शक्ति आवश्यकताएँ बहुत कम हो जाती हैं।

घड़ी-हीन सीपीयू (Clockless CPUs)
घड़ी संकेत को पूरी तरह से हटाना, वैश्विक घड़ी संकेत के साथ कुछ समस्याओं का समाधान करने की एक अन्य विधि है। संरचना प्रक्रिया, वैश्विक घडी संकेत (global clock signal) को हटाते समय कई मायनों में काफी जटिल हो जाती है, अतुल्यकालिक (या घड़ीहीन) संरचना समान समकालिक संरचनाओं की तुलना में बिजली की खपत और गर्मी अपव्यय में उल्लेखनीय लाभ उठाते हैं। संपूर्ण अतुल्यकालिक सीपीयू (CPU) को कुछ हद तक असामान्य होते हुए भी वैश्विक घड़ी संकेत का उपयोग किए बिना बनाया गया है। इसके दो उल्लेखनीय उदाहरण एआरएम अनुरूप एएमयूएलईटी (ARM compliant AMULET) और एमआईपीएस आर3000 अनुरूप मिनीएमआईपीएस (MIPS R3000 compliants MiniMIPS) हैं।

घडी संकेत को पूरी तरह से हटाने के स्थान पर, कुछ सीपीयू संरचनाएँ उपकरण के कुछ हिस्सों को अतुल्यकालिक होने की अनुमति देते हैं, जैसे कि कुछ अंकगणितीय प्रदर्शन लाभ प्राप्त करने के लिए उत्तम-स्तर पाइपलाइनिंग के संयोजन के साथ अतुल्यकालिक एएलयू (ALU) का उपयोग करना। हालांकि यह पूरी तरह से स्पष्ट नहीं है कि पूरी तरह से अतुल्यकालिक संरचनाएँ अपने समकक्ष प्रतिपक्षों की तुलना में तुलनीय या बेहतर स्तर पर प्रदर्शन कर सकते हैं, यह स्पष्ट है कि वे सरल गणित कार्यों में निम्नतम उत्कृष्ट प्रदर्शन करते हैं। उनकी उत्कृष्ट बिजली खपत और गर्मी अपव्यय गुणों के साथ यह, उन्हें अन्तर्निहित कंप्यूटरों के लिए अधिक उपयुक्त बनाता है।

विभव नियामक मॉड्यूल (Voltage regulator module)
कई आधुनिक सीपीयू में एक डाई-एकीकृत सामर्थ्य प्रबंधन मॉड्यूल होता है, जो सीपीयू परिपथ तंत्र की माँग के अनुसार विभव आपूर्ति को नियंत्रित करता है, जिससे यह प्रदर्शन और बिजली की खपत के बीच संतुलन स्थापित रखता है।

पूर्णांक रेंज
प्रत्येक सीपीयू (CPU) एक विशिष्ट तरीके से संख्यात्मक मूल्यों का प्रतिनिधित्व करता है।उदाहरण के लिए, कुछ शुरुआती डिजिटल कंप्यूटरों ने परिचित दशमलव (आधार 10) अंक प्रणाली मूल्यों के रूप में संख्याओं का प्रतिनिधित्व किया, और अन्य ने अधिक असामान्य अभ्यावेदन जैसे कि टर्नरी (आधार तीन) को नियोजित किया है।लगभग सभी आधुनिक सीपीयू द्विआधारी रूप में संख्याओं का प्रतिनिधित्व करते हैं, प्रत्येक अंक को कुछ दो-मूल्यवान भौतिक मात्रा जैसे कि उच्च या निम्न वोल्टेज द्वारा दर्शाया जाता है।

संख्यात्मक प्रतिनिधित्व से संबंधित पूर्णांक संख्याओं का आकार और सटीकता है जो एक सीपीयू का प्रतिनिधित्व कर सकता है।एक बाइनरी सीपीयू के मामले में, यह बिट्स (एक बाइनरी एन्कोडेड पूर्णांक के महत्वपूर्ण अंकों) की संख्या से मापा जाता है, जिसे सीपीयू एक ऑपरेशन में संसाधित कर सकता है, जिसे आमतौर पर वर्ड साइज, बिट चौड़ाई, डेटा पथ चौड़ाई, पूर्णांक सटीकता कहा जाता है, या पूर्णांक आकार।एक सीपीयू का पूर्णांक आकार पूर्णांक मानों की सीमा को निर्धारित करता है जो सीधे संचालित हो सकता है। उदाहरण के लिए, एक 8-बिट कंप्यूटिंग | 8-बिट सीपीयू सीधे आठ बिट्स द्वारा प्रतिनिधित्व किए गए पूर्णांक में हेरफेर कर सकता है, जिसमें 256 की सीमा होती है (2 (28) असतत पूर्णांक मान।

पूर्णांक रेंज मेमोरी स्थानों की संख्या को भी प्रभावित कर सकती है जो सीपीयू सीधे संबोधित कर सकता है (एक पता एक विशिष्ट मेमोरी स्थान का प्रतिनिधित्व करने वाला एक पूर्णांक मान है)।उदाहरण के लिए, यदि एक बाइनरी सीपीयू मेमोरी पते का प्रतिनिधित्व करने के लिए 32 बिट्स का उपयोग करता है तो यह सीधे 2 को संबोधित कर सकता है32 मेमोरी स्थान। इस सीमा को दरकिनार करने के लिए और विभिन्न अन्य कारणों से, कुछ सीपीयू तंत्र (जैसे बैंक स्विचिंग) का उपयोग करते हैं जो अतिरिक्त मेमोरी को संबोधित करने की अनुमति देते हैं।

बड़े शब्द आकार के साथ सीपीयू को अधिक सर्किटरी की आवश्यकता होती है और परिणामस्वरूप शारीरिक रूप से बड़े होते हैं, अधिक लागत और अधिक शक्ति का उपभोग करते हैं (और इसलिए अधिक गर्मी उत्पन्न करते हैं)। नतीजतन, छोटे 4- या 8-बिट माइक्रोकंट्रोलर आमतौर पर आधुनिक अनुप्रयोगों में उपयोग किए जाते हैं, भले ही बहुत बड़े शब्द आकार (जैसे कि 16, 32, 64, यहां तक ​​कि 128-बिट) उपलब्ध हैं। जब उच्च प्रदर्शन की आवश्यकता होती है, हालांकि, एक बड़े शब्द आकार (बड़े डेटा रेंज और एड्रेस स्पेस) के लाभों से नुकसान हो सकता है। एक सीपीयू में आकार और लागत को कम करने के लिए शब्द आकार की तुलना में आंतरिक डेटा पथ हो सकते हैं। उदाहरण के लिए, भले ही आईबीएम सिस्टम/360 इंस्ट्रक्शन सेट एक 32-बिट इंस्ट्रक्शन सेट था, सिस्टम/360 आईबीएम सिस्टम/360 मॉडल 30 | मॉडल 30 और आईबीएम सिस्टम/360 मॉडल 40 | मॉडल 40 में 8-बिट डेटा पथ थे। अंकगणितीय तार्किक इकाई, ताकि एक 32-बिट ने चार चक्रों की आवश्यकता की, प्रत्येक 8 बिट्स ऑपरेंड्स के लिए एक, और, भले ही मोटोरोला 68000 सीरीज़ इंस्ट्रक्शन सेट एक 32-बिट इंस्ट्रक्शन सेट था, मोटोरोला 68000 और मोटोरोला 68010 था अंकगणितीय तार्किक इकाई में 16-बिट डेटा पथ, ताकि 32-बिट को दो चक्रों की आवश्यकता होती है।

दोनों कम और उच्च बिट लंबाई दोनों के लाभ प्राप्त करने के लिए, कई निर्देश सेटों में पूर्णांक और फ्लोटिंग-पॉइंट डेटा के लिए अलग-अलग बिट चौड़ाई होती है, जिससे सीपीयू को उस निर्देश को लागू करने की अनुमति मिलती है, जो डिवाइस के विभिन्न भागों के लिए अलग-अलग बिट चौड़ाई के लिए सेट होता है। उदाहरण के लिए, आईबीएम सिस्टम/360 इंस्ट्रक्शन सेट मुख्य रूप से 32 बिट था, लेकिन फ्लोटिंग-पॉइंट नंबरों में अधिक सटीकता और रेंज की सुविधा के लिए 64-बिट फ्लोटिंग-पॉइंट अंकगणित | फ्लोटिंग-पॉइंट मानों का समर्थन किया। सिस्टम/360 मॉडल 65 में दशमलव और फिक्स्ड-पॉइंट बाइनरी अंकगणित के लिए 8-बिट योजक और फ्लोटिंग-पॉइंट अंकगणित के लिए 60-बिट योजक था। कई बाद के सीपीयू डिजाइन समान मिश्रित बिट चौड़ाई का उपयोग करते हैं, खासकर जब प्रोसेसर सामान्य-उद्देश्य उपयोग के लिए होता है जहां पूर्णांक और फ्लोटिंग-पॉइंट क्षमता का एक उचित संतुलन आवश्यक होता है।

समानांतरवाद (Parallelism)
पिछले खंड में प्रस्तुत किए गए सीपीयू (CPU) के मूल संचालन का विवरण, सीपीयू (CPU) के सबसे सरल रूप का वर्णन करता है। सामान्यतः उप-पैमानिक (subscalar) के रूप में प्रचलित सीपीयू (CPU) एक समय में एक या दो डेटा पर एक निर्देश को संचालित और निष्पादित करता है, जो प्रति घड़ी चक्र (आईपीसी (IPC) <1) में एक से कम निर्देश है।

यह प्रक्रिया उप-पैमानिक सीपीयू (subscalar CPU) में एक अंतर्निहित अक्षमता उत्पन्न करती है। एक समय में केवल एक ही निर्देश के निष्पादन के कारण पूरे सीपीयू को अगले निर्देश पर आगे बढ़ने से पहले उस निर्देश के पूर्ण होने की प्रतीक्षा करनी चाहिए। परिणामस्वरूप, उप-पैमानिक सीपीयू (subscalar CPU) निर्देशों पर विलंबित हो जाता है जो निष्पादन को पूरा करने के लिए एक से अधिक घड़ी चक्र लेता है। यहाँ तक ​​कि एक मार्ग को लटकाए जाने के स्थान पर दूसरी निष्पादन इकाई (नीचे देखें) को जोड़ने से भी प्रदर्शन में बहुत सुधार नहीं होता है; अतः अब दो मार्ग विलंबित कर दिए गए हैं और अप्रयुक्त ट्रांजिस्टरों की संख्या बढ़ा दी गई है। सीपीयू के निष्पादन संसाधन द्वारा एक समय में केवल एक निर्देश पर काम करने वाली यह संरचना केवल पैमानिक प्रदर्शन (एक निर्देश प्रति घड़ी चक्र, आईपीसी (IPC) = 1) तक पहुंच सकती है। हालांकि, प्रदर्शन लगभग सदैव उप-पैमानिक (प्रति घड़ी चक्र में एक निर्देश से कम, आईपीसी (IPC) <1) होता है।

पैमानिक और बेहतर प्रदर्शन प्राप्त करने के प्रयासों के परिणामस्वरूप विभिन्न प्रकार की संरचना पद्धतियाँ सामने विकसित हुई हैं, जो सीपीयू (CPU) को कम रैखिक रूप से और समानांतर में अधिक व्यवहार करने का कारण बनती हैं। सीपीयू (CPU) में समानता का जिक्र करते समय इन संरचना तकनीकों को वर्गीकृत करने के लिए सामान्यतः दो शब्दों का उपयोग किया जाता है:
 * निर्देश-स्तरीय समानांतरवाद (ILP), जो सीपीयू (CPU) के भीतर निर्देश निष्पादन की दर को बढ़ाने का प्रयास करता है, अर्थात, ऑन-डाई निष्पादन संसाधनों के उपयोग को बढ़ाने के लिए प्रयुक्त होता है;
 * कार्य-स्तरीय समानांतरवाद (TLP), जिसका उद्देश्य सीपीयू (CPU) द्वारा एक साथ निष्पादित होने वाले थ्रेड्स (threads) या प्रक्रियाओं की संख्या को बढ़ाना है।

प्रत्येक कार्यप्रणाली दोनों तरीकों से भिन्न होती है जिसमें उन्हें लागू किया जाता है, साथ ही सापेक्ष प्रभावशीलता का उपयोग वे एक अनुप्रयोग के लिए सीपीयू (CPU) के प्रदर्शन को बढ़ाने में करते हैं।

निर्देश-स्तर समानांतरवाद
बढ़ी हुई समानांतरवाद के लिए सबसे सरल तरीकों में से एक यह है कि पूर्व निर्देश समाप्त होने से पहले निर्देश प्राप्त करने और डिकोडिंग के पहले चरणों को शुरू करना है। यह एक तकनीक है जिसे इंस्ट्रक्शन पाइपलाइनिंग के रूप में जाना जाता है, और इसका उपयोग लगभग सभी आधुनिक सामान्य-उद्देश्य सीपीयू में किया जाता है। पाइपलाइनिंग कई निर्देशों को एक बार में निष्पादन मार्ग को असतत चरणों में तोड़कर निष्पादित करने की अनुमति देता है। इस पृथक्करण की तुलना एक असेंबली लाइन से की जा सकती है, जिसमें एक निर्देश प्रत्येक चरण में अधिक पूर्ण किया जाता है जब तक कि यह निष्पादन पाइपलाइन से बाहर न हो जाए और सेवानिवृत्त हो जाए।

पाइपलाइनिंग, हालांकि, ऐसी स्थिति के लिए संभावना का परिचय देती है जहां अगले ऑपरेशन को पूरा करने के लिए पिछले ऑपरेशन के परिणाम की आवश्यकता होती है; एक शर्त को अक्सर डेटा निर्भरता संघर्ष कहा जाता है। इसलिए पाइपलाइन किए गए प्रोसेसर को इस प्रकार की स्थितियों के लिए जांच करनी चाहिए और यदि आवश्यक हो तो पाइपलाइन के एक हिस्से में देरी करनी चाहिए। एक पाइपलाइज्ड प्रोसेसर बहुत लगभग स्केलर बन सकता है, केवल पाइपलाइन स्टालों (एक चरण में एक से अधिक घड़ी चक्र से अधिक खर्च) द्वारा बाधित।

निर्देश पाइपलाइन में सुधार सीपीयू घटकों के निष्क्रिय समय में और कम हो गया।सुपरस्केलर के रूप में कहा जाता है कि डिजाइन में एक लंबी निर्देश पाइपलाइन और कई समान निष्पादन इकाइयां शामिल हैं, जैसे कि लोड-स्टोर इकाइयां, अंकगणित-साहित्य इकाइयाँ, फ्लोटिंग-पॉइंट इकाइयां और पता पीढ़ी इकाइयाँ। एक सुपरस्केलर पाइपलाइन में, निर्देशों को एक डिस्पैचर को पढ़ा और पारित किया जाता है, जो यह तय करता है कि निर्देशों को समानांतर (एक साथ) में निष्पादित किया जा सकता है या नहीं। यदि हां, तो उन्हें निष्पादन इकाइयों के लिए भेजा जाता है, जिसके परिणामस्वरूप उनका एक साथ निष्पादन होता है। सामान्य तौर पर, निर्देशों की संख्या जो एक सुपरस्केलर सीपीयू एक चक्र में पूरा होगी, वह उन निर्देशों की संख्या पर निर्भर करती है जो इसे निष्पादन इकाइयों को एक साथ भेजने में सक्षम है।

एक सुपरस्केलर सीपीयू वास्तुकला के डिजाइन में अधिकांश कठिनाई एक प्रभावी डिस्पैचर बनाने में निहित है। डिस्पैचर को जल्दी से यह निर्धारित करने में सक्षम होने की आवश्यकता है कि क्या निर्देशों को समानांतर में निष्पादित किया जा सकता है, साथ ही उन्हें इस तरह से भेजा जा सकता है जैसे कि संभव के रूप में कई निष्पादन इकाइयों को व्यस्त रखें। इसके लिए आवश्यक है कि निर्देश पाइपलाइन जितनी बार संभव हो भरी जाए और इसके लिए महत्वपूर्ण मात्रा में सीपीयू कैश की आवश्यकता हो। यह उच्च स्तर के प्रदर्शन को बनाए रखने के लिए शाखा की भविष्यवाणी, सट्टा निष्पादन, रजिस्टर नाम बदलने, आउट-ऑफ-ऑर्डर निष्पादन और लेन-देन की मेमोरी जैसी खतरनाक-परिहार तकनीक भी बनाता है। यह अनुमान लगाने का प्रयास करके कि कौन सी शाखा (या पथ) एक सशर्त निर्देश लेगा, सीपीयू उस समय की संख्या को कम कर सकता है जो पूरी पाइपलाइन को सशर्त निर्देश पूरा होने तक इंतजार करना चाहिए। सट्टा निष्पादन अक्सर कोड के कुछ हिस्सों को निष्पादित करके मामूली प्रदर्शन में वृद्धि प्रदान करता है जो सशर्त ऑपरेशन पूरा होने के बाद आवश्यक नहीं हो सकता है। आउट-ऑफ-ऑर्डर निष्पादन कुछ हद तक उस क्रम को फिर से व्यवस्थित करता है जिसमें डेटा निर्भरता के कारण देरी को कम करने के लिए निर्देश निष्पादित किए जाते हैं। एकल निर्देश के मामले में, एकाधिक डेटा | सिंगल इंस्ट्रक्शन स्ट्रीम, मल्टीपल डेटा स्ट्रीम- एक मामला जब एक ही प्रकार से बहुत अधिक डेटा को संसाधित करना पड़ता है-, आधुनिक प्रोसेसर पाइपलाइन के कुछ हिस्सों को अक्षम कर सकते हैं ताकि जब एक ही निर्देश हो तो कई बार निष्पादित किया जाता है, सीपीयू फ़ेच और डिकोड चरणों को छोड़ देता है और इस प्रकार कुछ अवसरों पर प्रदर्शन को बढ़ाता है, विशेष रूप से अत्यधिक नीरस कार्यक्रम इंजन जैसे वीडियो क्रिएशन सॉफ्टवेयर और फोटो प्रोसेसिंग में।

जब सीपीयू का सिर्फ एक अंश सुपरस्केलर होता है, तो वह हिस्सा जो शेड्यूलिंग स्टालों के कारण प्रदर्शन दंड से ग्रस्त नहीं होता है। इंटेल P5 (माइक्रोआर्किटेक्चर) | P5 पेंटियम में दो सुपरस्केलर एलस थे जो प्रत्येक घड़ी चक्र के प्रति एक निर्देश को स्वीकार कर सकते थे, लेकिन इसका एफपीयू नहीं कर सकता था। इस प्रकार P5 पूर्णांक सुपरस्केलर था, लेकिन फ्लोटिंग पॉइंट सुपरस्केलर नहीं था। P5 आर्किटेक्चर, P6 (MicroArchitecture) के लिए इंटेल के उत्तराधिकारी | P6, इसके फ्लोटिंग-पॉइंट सुविधाओं में सुपरस्केलर क्षमताओं को जोड़ा।

सिंपल पाइपलाइनिंग और सुपरस्केलर डिज़ाइन एक सीपीयू के आईएलपी को बढ़ाते हैं, जिससे यह प्रति घड़ी चक्र में एक निर्देश को पार करने की दरों पर निर्देशों को निष्पादित करने की अनुमति देता है। अधिकांश आधुनिक सीपीयू डिजाइन कम से कम कुछ सुपरस्केलर हैं, और पिछले दशक में डिज़ाइन किए गए लगभग सभी सामान्य उद्देश्य सीपीयू सुपरस्केलर हैं। बाद के वर्षों में उच्च-आईएलपी कंप्यूटरों को डिजाइन करने में कुछ जोर सीपीयू के हार्डवेयर और इसके सॉफ्टवेयर इंटरफ़ेस, या निर्देश सेट आर्किटेक्चर (आईएसए) से बाहर ले जाया गया है। बहुत लंबे अनुदेश शब्द (VLIW) की रणनीति कुछ ILP को सॉफ़्टवेयर द्वारा सीधे निहित हो जाता है, जिससे ILP को बढ़ावा देने में सीपीयू (CPU) के काम को कम करता है और जिससे डिज़ाइन जटिलता कम हो जाती है।

कार्य-स्तरीय समानांतरवाद
प्रदर्शन को प्राप्त करने की एक और रणनीति समानांतर में कई थ्रेड्स या प्रक्रियाओं को निष्पादित करना है।अनुसंधान के इस क्षेत्र को समानांतर कंप्यूटिंग के रूप में जाना जाता है। फ्लिन के टैक्सोनॉमी में, इस रणनीति को कई निर्देश, कई डेटा के रूप में जाना जाता है। मल्टीपल इंस्ट्रक्शन स्ट्रीम, मल्टीपल डेटा स्ट्रीम (MIMD)। इस उद्देश्य के लिए उपयोग की जाने वाली एक तकनीक बहुप्रतीक्षित (एमपी) थी। इस तकनीक के प्रारंभिक स्वाद को सममित मल्टीप्रोसेसिंग (एसएमपी) के रूप में जाना जाता है, जहां सीपीयू की एक छोटी संख्या उनकी मेमोरी सिस्टम के सुसंगत दृश्य को साझा करती है। इस योजना में, प्रत्येक सीपीयू में मेमोरी के लगातार अप-टू-डेट दृश्य को बनाए रखने के लिए अतिरिक्त हार्डवेयर है। मेमोरी के बासी दृश्यों से बचने से, सीपीयू एक ही कार्यक्रम में सहयोग कर सकता है और कार्यक्रम एक सीपीयू से दूसरे में माइग्रेट कर सकते हैं। 1990 के दशक में एक मुट्ठी भर, गैर-समान मेमोरी एक्सेस (NUMA) और निर्देशिका-आधारित सुसंगतता प्रोटोकॉल जैसी योजनाओं से परे सीपीयू (CPU)s की संख्या बढ़ाने के लिए। एसएमपी सिस्टम सीपीयू की एक छोटी संख्या तक सीमित हैं, जबकि हजारों प्रोसेसर के साथ NUMA सिस्टम बनाए गए हैं। प्रारंभ में, प्रोसेसर के बीच इंटरकनेक्ट को लागू करने के लिए कई असतत सीपीयू और बोर्डों का उपयोग करके मल्टीप्रोसेसिंग का निर्माण किया गया था। जब प्रोसेसर और उनके इंटरकनेक्ट सभी को एक ही चिप पर लागू किया जाता है, तो तकनीक को चिप-लेवल मल्टीप्रोसेसिंग (सीएमपी) और एकल चिप को मल्टी-कोर प्रोसेसर के रूप में जाना जाता है।

बाद में यह माना गया कि महीन-अनाज समानता एक ही कार्यक्रम के साथ मौजूद थी। एक एकल कार्यक्रम में कई थ्रेड (या फ़ंक्शन) हो सकते हैं जिन्हें अलग से या समानांतर में निष्पादित किया जा सकता है। इस तकनीक के शुरुआती उदाहरणों में से कुछ ने इनपुट/आउटपुट प्रोसेसिंग को लागू किया जैसे कि डायरेक्ट मेमोरी एक्सेस कम्प्यूटेशन थ्रेड से एक अलग थ्रेड के रूप में। इस तकनीक के लिए एक अधिक सामान्य दृष्टिकोण 1970 के दशक में पेश किया गया था जब सिस्टम को समानांतर में कई गणना थ्रेड चलाने के लिए डिज़ाइन किया गया था। इस तकनीक को मल्टी-थ्रेडिंग (एमटी) के रूप में जाना जाता है। इस दृष्टिकोण को मल्टीप्रोसेसिंग की तुलना में अधिक लागत-प्रभावी माना जाता है, क्योंकि सीपीयू के भीतर केवल एक छोटी संख्या के घटकों को एमटी का समर्थन करने के लिए दोहराया जाता है क्योंकि एमपी के मामले में पूरे सीपीयू के विपरीत। एमटी में, निष्पादन इकाइयों और कैश सहित मेमोरी सिस्टम को कई थ्रेड्स के बीच साझा किया जाता है। एमटी का नकारात्मक पक्ष यह है कि मल्टीथ्रेडिंग के लिए हार्डवेयर समर्थन एमपी की तुलना में सॉफ्टवेयर के लिए अधिक दिखाई देता है और इस प्रकार ऑपरेटिंग सिस्टम जैसे पर्यवेक्षक सॉफ्टवेयर को एमटी का समर्थन करने के लिए बड़े बदलावों से गुजरना पड़ता है। एक प्रकार के एमटी जिसे लागू किया गया था, को टेम्पोरल मल्टीथ्रेडिंग के रूप में जाना जाता है, जहां एक थ्रेड को निष्पादित किया जाता है जब तक कि इसे बाहरी मेमोरी से लौटने के लिए डेटा की प्रतीक्षा में रोक नहीं दिया जाता है। इस योजना में, सीपीयू तब जल्दी से एक और थ्रेड पर स्विच करेगा जो चलाने के लिए तैयार है, स्विच अक्सर एक सीपीयू घड़ी चक्र में किया जाता है, जैसे कि अल्ट्रासपेर टी 1। एक अन्य प्रकार का एमटी एक साथ मल्टीथ्रेडिंग है, जहां कई थ्रेड्स से निर्देश एक सीपीयू घड़ी चक्र के भीतर समानांतर में निष्पादित किए जाते हैं।

1970 के दशक से 2000 के दशक की शुरुआत में कई दशकों तक, उच्च प्रदर्शन सामान्य उद्देश्य सीपीयू को डिजाइन करने में ध्यान काफी हद तक पाइपलाइनिंग, कैश, सुपरस्केलर निष्पादन, आउट-ऑफ-ऑर्डर निष्पादन, आदि जैसी प्रौद्योगिकियों के माध्यम से उच्च आईएलपी को प्राप्त करने पर था।, पावर-भूख सीपीयू जैसे कि इंटेल पेंटियम 4. 2000 के दशक की शुरुआत में, सीपीयू डिजाइनरों को सीपीयू ऑपरेटिंग आवृत्तियों और मुख्य मेमोरी ऑपरेटिंग आवृत्तियों के साथ-साथ सीपीयू पावर अपव्यय के कारण बढ़ती असमानता के कारण आईएलपी तकनीकों से उच्च प्रदर्शन प्राप्त करने से विफल कर दिया गया था। अधिक गूढ़ ILP तकनीकों के लिए।

सीपीयू डिजाइनरों ने तब लेन -देन प्रसंस्करण जैसे वाणिज्यिक कंप्यूटिंग बाजारों से विचारों को उधार लिया, जहां कई कार्यक्रमों का समग्र प्रदर्शन, जिसे थ्रूपुट कंप्यूटिंग के रूप में भी जाना जाता है, एकल थ्रेड या प्रक्रिया के प्रदर्शन से अधिक महत्वपूर्ण था।

जोर का यह उलट दोहरी और अधिक कोर प्रोसेसर डिजाइनों के प्रसार से स्पष्ट है और विशेष रूप से, इंटेल के नए डिजाइन इसके कम सुपरस्केलर P6 (माइक्रोआर्किटेक्चर) से मिलते जुलते हैं। P6 आर्किटेक्चर। कई प्रोसेसर परिवारों में लेट डिज़ाइन सीएमपी को प्रदर्शित करते हैं, जिसमें x86-64 ओप्टरन और एथलॉन 64 X2, SPARC अल्ट्रासपेरक T1, IBM POWER4 और POWER5, साथ ही Xbox 360 के ट्रिपल-कोर POWERPC डिजाइन जैसे कई वीडियो गेम कंसोल सीपीयू (CPU) शामिल हैं, और साथ ही कई वीडियो गेम कंसोल सीपीयू (CPU) भी शामिल हैं, और प्लेस्टेशन 37-कोर सेल माइक्रोप्रोसेसर।

डेटा समानांतरवाद (Data parallelism)
प्रोसेसर का एक असामान्य लेकिन तीव्रता से बढ़ता महत्वपूर्ण प्रतिमान (और वास्तव में, सामान्य रूप से कंप्यूटिंग) डेटा समानता से संबंधित है। सभी पूर्वचर्चित प्रोसेसर को किसी न किसी प्रकार के पैमानिक उपकरण के रूप में संदर्भित किया जाता है। जैसा कि नाम से पता चलता है, सदिश प्रोसेसर (vector processor) एक निर्देश के संदर्भ में डेटा के कई टुकड़ों से निपटते हैं। यह अदिश प्रोसेसर (scalar processor) के विपरीत है, जो प्रत्येक निर्देश के लिए डेटा के एक टुकड़े से निपटता है। फ्लिन के वर्गीकरण का उपयोग करते हुए, डेटा से निपटने की इन दो योजनाओं को समान्यतः एकल निर्देश धारा, विभिन्न डेटा धारा (SIMD) और एकल निर्देश धारा, एकल डेटा धारा (SISD) के रूप में जाना जाता है। डेटा के सदिश से निपटने वाले प्रोसेसर बनाने में महान उपयोगिता उन कार्यों को अनुकूलित करने में निहित है जिनके लिए डेटा के बड़े समूह पर एक ही संचालन (उदाहरण के लिए, एक योग या एक डॉट उत्पाद) की आवश्यकता होती है। इस प्रकार के कार्यों के कुछ प्रारम्भिक उदाहरणों में मल्टीमीडिया एप्लिकेशन (छवियाँ, वीडियो और ध्वनि), साथ ही कई प्रकार के वैज्ञानिक और अभियांत्रिकी कार्य सम्मिलित हैं। जबकि एक अदिश प्रोसेसर को डेटा के एक समूह में प्रत्येक निर्देश और मान को प्राप्त करने, डिकोड करने और निष्पादित करने की पूरी प्रक्रिया को पूर्ण करना होगा, एक सदिश प्रोसेसर एक निर्देश के साथ तुलनात्मक रूप से बड़े डेटा पर एक ही संचालन कर सकता है। यह एप्लिकेशन को कई चरणों की आवश्यकता पड़ने पर ही संभव है, जो एक संचालन को डेटा के बड़े समूह पर लागू करते हैं।

क्रे-1 (Cray-1) जैसे अधिकांश प्रारंभिक सदिश प्रोसेसर लगभग विशेष रूप से वैज्ञानिक अनुसंधान और क्रिप्टोग्राफी (cryptography) अनुप्रयोगों से जुड़े थे। हालाँकि, मल्टीमीडिया के बड़े पैमाने पर डिजिटल मीडिया में स्थानान्तरण के कारण सामान्य प्रयोजन के प्रोसेसर में कुछ प्रकार के एसआईएमडी (SIMD) की आवश्यकता महत्वपूर्ण हो गई है। चलायमान बिंदु इकाइयों (floating point units) को सम्मिलित करने के कुछ ही समय बाद सामान्य-प्रयोजन प्रोसेसर में यह सामान्य होना शुरू हो गया, और एसआईएमडी (SIMD) निष्पादन इकाइयों के लिए विनिर्देश और कार्यान्वयन भी सामान्य-उद्देश्य वाले प्रोसेसर के लिए दिखाई देने लगे। इनमें से एचपी (HP) का मल्टीमीडिया एक्सेलेरेशन एक्सटेंशन (Multimedia Acceleration extensions (MAX)) और इन्टेल (Intel) का एमएमएक्स (MMX) जैसे कुछ प्रारंभिक एसआईएमडी (SIMD) विनिर्देश केवल पूर्णांक थे। यह कुछ सॉफ्टवेयर विकासकों के लिए एक महत्वपूर्ण बाधा साबित हुई, क्योंकि सिम (Sim) से लाभान्वित होने वाले कई एप्लिकेशन मुख्य रूप से फ्लोटिंग-पॉइंट नंबरों से संचालित होते हैं। विकासकों ने प्रगतिशील रूप से इन प्रारम्भिक संरचनाओं को कुछ सामान्य आधुनिक एसआईएमडी (SIMD) विनिर्देशों में परिष्कृत और पुनर्निर्मित किया, जो सामान्यतः एक निर्देश समूह वास्तुकला (ISA) से जुड़े होते हैं। इन्टेल (Intel) का स्ट्रीमिंग एसआईएमडी एक्सटेंशन (Streaming SIMD Extensions (SSE)) और पावरपीसी (PowerPC) से संबंधित एल्टीवेक (AltiVec)(VMX) जैसे कुछ उपकरण उल्लेखनीय आधुनिक उदाहरणों में सम्मिलित हैं।

हार्डवेयर प्रदर्शन काउंटर (Hardware performance counter)
कई आधुनिक वास्तुकला (अन्तर्निहित वाले सहित) में प्रायः हार्डवेयर प्रदर्शन काउंटर (HPC) सम्मिलित होते हैं, जो निम्न-स्तरीय (निर्देश-स्तर) संग्रह, बेंचमार्किंग (benchmarking), डिबगिंग (debugging) या चल रहे सॉफ़्टवेयर आव्यूह के विश्लेषण को सक्षम बनाता है। सॉफ़्टवेयर की असामान्य या संदिग्ध गतिविधि की खोज और विश्लेषण करने के लिए भी एचपीसी (HPC) का उपयोग किया जा सकता है, जैसे कि रिटर्न-ओरिएंटेड प्रोग्रामिंग (ROP) या सिग्रेटर्न-ओरिएंटेड प्रोग्रामिंग (SROP) कार्य आदि। यह सामान्यतः सॉफ्टवेयर-सुरक्षा टीमों द्वारा दुर्भावनापूर्ण द्विआधारी कार्यक्रमों का आँकलन करने और खोजने के लिए किया जाता है।

आईबीएम (IBM), इंटेल (Intel), एएमडी (AMD), और एआरएम (ARM) जैसे कई प्रमुख विक्रेता सॉफ्टवेयर अंतर्प्रष्ठ प्रदान करते हैं, जो सामान्यतः सी/सी++ (C/C++) में लिखा जाता है। जिनका उपयोग आव्यूह प्राप्त करने हेतु सीपीयू रजिस्टरों से डेटा एकत्र करने के लिए किया जा सकता है। कर्नेल और एप्लिकेशन चलाने वाले संचालन तंत्र (Operating system) विक्रेता सीपीयू (CPU) घटनाओं को रिकॉर्ड करने, बेंचमार्क करने या ट्रेस करने के लिए perf(लिनक्स) जैसे सॉफ़्टवेयर भी प्रदान करते हैं।

आभासी सीपीयू (Virtual CPUs)
सीपीयू संचालन को आभासी सेंट्रल प्रोसेसिंग यूनिट (vCPUs ) में उप-विभाजित करना क्लाउड कंप्यूटिंग (cloud computing) में सम्मिलित हो सकता है।

होस्ट (Host), एक भौतिक मशीन का आभासी समकक्ष है, जिस पर एक आभासी तंत्र कार्य करता है। जब कई भौतिक मशीनें मिलकर कार्य करती हैं और समग्र रूप से प्रबंधित होती हैं, तो समूहीकृत कंप्यूटिंग और मेमोरी संसाधन एक समूह (cluster) बनाते हैं। कुछ प्रणालियों में समूह में गतिशील रूप से जोड़ना और निकालना संभव है। होस्ट और समूह स्तर पर उपलब्ध संसाधनों को बारीक कणिकता (granularity) के साथ संसाधन पूल में विभाजित किया जा सकता है।

प्रदर्शन
एक प्रोसेसर का प्रदर्शन या गति कई अन्य कारकों पर निर्भर करता है, जिनमें घड़ी की दर (सामान्यतः हर्ट्ज के गुणकों में) और निर्देश प्रति घड़ी (IPC), जो एक साथ प्रति सेकंड निर्देशों (IPS) के कारक हैं, जिसका प्रदर्शन सीपीयू (CPU) कर सकता है। रिपोर्ट किए गए कई आईपीएस (IPS) मूल्यों ने कुछ शाखाओं के साथ कृत्रिम निर्देश अनुक्रमों पर "पीक (Peak)" निष्पादन दर का प्रतिनिधित्व किया है, जबकि यथार्थवादी कार्यभार में निर्देशों और अनुप्रयोगों का मिश्रण होता है, जिनमें से कुछ को दूसरों की तुलना में निष्पादित करने में अधिक समय लगता है। एमआईपीएस (MIPS) गणना में मुश्किल से माना जाने वाला एक मुद्दा, मेमोरी पदानुक्रम का प्रदर्शन भी प्रोसेसर के प्रदर्शन को बहुत प्रभावित करता है। इन समस्याओं के कारण, विभिन्न मानकीकृत परीक्षणों को सामान्यतः उपयोग किए जाने वाले अनुप्रयोगों में वास्तविक प्रभावी प्रदर्शन को मापने के प्रयास के लिए विकसित किया गया है, जिन्हें प्रायः इस उद्देश्य के लिए "बेंचमार्क" कहा जाता है, जैसे स्पेकआईएनटी (SPECint)।

मल्टी-कोर प्रोसेसर (multi-core processor) का उपयोग करके कंप्यूटर के प्रसंस्करण प्रदर्शन को बढ़ाया जाता है, जो अनिवार्य रूप से दो या दो से अधिक व्यक्तिगत प्रोसेसर (इस अर्थ में कोर) को एक एकीकृत परिपथ में जोड़ता है। आदर्श रूप से, एक द्वि-कोर प्रोसेसर (dual core processor), एकल कोर प्रोसेसर (single core processor) से लगभग दोगुना शक्तिशाली होता है। व्यवहार में, अपूर्ण सॉफ़्टवेयर एल्गोरिदम (software algorithm) और कार्यान्वयन के कारण, प्रदर्शन लाभ बहुत कम, केवल लगभग 50% होता है। एक प्रोसेसर में कोरों की संख्या (अर्थात ड्यूल-कोर, क्वाड-कोर, आदि) में वृद्धि से कार्यभार बढ़ जाता है जिसे संभाला जा सकता है। इसका अर्थ यह है कि प्रोसेसर अब कई अतुल्यकालिक (asynchronous) घटनाओं, अवरोधों आदि को संभाल सकता है, जो अत्यधिक होने पर सीपीयू पर भारी पड़ सकता है। इन कोरों को एक प्रसंस्करण संयंत्र में अलग-अलग तलों के रूप में माना जा सकता है, जिनमें प्रत्येक तल एक अलग कार्य को संभालता है। कभी-कभी, ये कोर उसी तरह के कार्यों को संभालते हैं, जैसे कि उनके आस-पास के कोर, अगर सूचना को संभालने के लिए पर्याप्त नहीं हैं।

आधुनिक सीपीयू (CPU) की एक साथ बहुस्तरीयता और अनकोर (uncore) जैसी विशिष्ट क्षमताओं के कारण, जिसमें वास्तविक सीपीयू (CPU) संसाधनों को साझा करना सम्मिलित है, जबकि उपयोग में वृद्धि, प्रदर्शन स्तर की निगरानी और हार्डवेयर का उपयोग धीरे-धीरे एक अधिक जटिल कार्य बन गया है। प्रतिक्रिया के रूप में, कुछ सीपीयू (CPU) अतिरिक्त हार्डवेयर तर्क प्रयुक्त करते हैं जो सीपीयू (CPU) के विभिन्न भागों के वास्तविक उपयोग की निगरानी करता है और विभिन्न काउंटरों को सॉफ्टवेयर के लिए सुलभता प्रदान करता है; इसका एक उदाहरण इंटेल की परफॉर्मेंस काउंटर मॉनिटर (Performance Counter Monitor) तकनीक है।

यह भी देखें

 * पता मोड (addressing mode)
 * एएमडी (AMD) त्वरित प्रसंस्करण इकाई
 * सीआईएससी (CISC)
 * कंप्यूटर बस
 * कंप्यूटर अभियांत्रिकी
 * सीपीयू कोर वोल्टेज
 * सीपीयू सॉकेट (CPU socket)
 * डिजिटल सिग्नल प्रोसेसर
 * जीपीयू (GPU)
 * अनुदेश सेट की सूची
 * संरक्षण की रिंग
 * आरआईएससी (RISC)
 * धारा प्रसंस्करण
 * सही प्रदर्शन सूचकांक
 * टीपीयू (TPU)
 * प्रतीक्षा अवस्था

बाहरी संबंध

 * 25 Microchips that shook the world – an article by the Institute of Electrical and Electronics Engineers.
 * 25 Microchips that shook the world – an article by the Institute of Electrical and Electronics Engineers.

]