DE69130588T2

DE69130588T2 - Cache-Speicher von partiell decodierten Befehlen und Verfahren hierfür

Info

Publication number: DE69130588T2
Application number: DE69130588T
Authority: DE
Inventors: Donald B. Herzli Alpert; Dror Netanya Avnon; Amos Ramat Aviv Ben-Meir; Ran Raanana Talmudi
Original assignee: National Semiconductor Corp
Current assignee: National Semiconductor Corp
Priority date: 1990-05-29
Filing date: 1991-05-16
Publication date: 1999-05-27
Anticipated expiration: 2011-05-17
Also published as: US5669011A; EP0459232B1; DE69130588D1; JPH0553795A; EP0459232A3; US5481751A; JP3186798B2; EP0459232A2

Description

Die vorliegende Erfindung bezieht sich auf Mikroprozessorarchitekturen und insbesondere auf einen Mikroprozessor, der Befehle teilweise decodiert, die aus einem externen Speicher wiedergewonnen wurden, bevor er diese in einem internen Befehls-Cache speichert. Teilweise decodierte Befehle werden aus dem internen Cache wiedergewonnen für entweder eine parallele oder eine sequentielle Ausführung mittels mehrerer paralleler Pipeline-Funktionsschaltungen.
In den letzten Jahren gab es einen Trend beim Entwurf von Mikroprozessorarchitekturen von Computern mit komplexem Befehlssatz (CISC) in Richtung zu Computern mit reduziertem Befehlssatz (RISC) um eine höhere Leistung zu erreichen, während die Einfachheit des Entwurfs beibehalten wurde.
In einer CISC-Architektur muß jeder Makrobefehl, der vom Prozessor empfangen wird, intern in eine Serie von Mikrobefehlsunterroutinen decodiert werden. Diese Mikrobefehlsunterroutinen werden anschließend vom Mikroprozessor ausgeführt.
In einer RISC-Architektur ist die Anzahl der Makrobefehle, die der Prozessor verstehen und ausführen kann, deutlich reduziert. Ferner sind diese Makrobefehle, die der Prozessor verstehen und ausführen kann, sehr einfach, so daß der Prozessor entweder diese nicht in irgendwelche Mikrobefehle decodieren muß (der Makrobefehl wird in seiner Makroform ausgeführt), oder die decodierte Mikrobefehlsunterroutine verwendet sehr wenige Mikrobefehle.
Der Übergang von CISC-Architekturen zu RISC-Architekturen wurde vorangetrieben durch zwei grundlegende Entwicklungen im Computerentwurf, die nun extensiv auf Mikroprozessoren angewendet werden. Diese Entwicklungen sind der integrierte Cache-Speicher und optimierende Compiler.
Ein Cache-Speicher ist ein kleiner Hochgeschwindigkeitspuffer, der zwischen dem Prozessor und dem Hauptspeicher angeordnet ist, um die Befehle und Daten zu halten, die vom Prozessor zuletzt benutzt wurden. Die Erfahrung zeigt, daß Computer gewöhnlich starke Eigenschaften der Lokalität in ihren Speicherzugriffen aufweisen. Das heißt, die Zugriffe neigen dazu, häufig entweder an Orten stattzufinden, auf die vor kurzem zugegriffen wurde (zeitliche Lokalität), oder an Orten, die nahe bei anderen Orten liegen, auf die vor kurzem zugegriffen wurde (räumliche Lokalität). Als Folge dieser Lokalität kann ein Cache-Speicher, der sehr viel kleiner ist als der Hauptspeicher, die große Mehrheit der Programmspeicherzugriffe bedienen. Da der Cache-Speicher relativ klein ist, kann er mit einer schnelleren Speichertechnologie verwirklicht werden, als es für den sehr viel größeren Hauptspeicher wirtschaftliche wäre.
Vor der Entwicklung von Cache-Speichertechniken zur Verwendung in gewöhnlichen Computern bestand ein großes Ungleichgewicht zwischen der Zykluszeit eines Prozessors und derjenigen des Speichers. Dieses Ungleichgewicht war eine Folge davon, daß der Prozessor in relativ schneller bipolarer Halbleitertechnik verwirklicht worden ist und der Speicher mittels der sehr viel langsameren Magnetkerntechnik verwirklicht wurde. Die inhärente Geschwindigkeitsdifferenz zwischen der Logik und dem Speicher hat die Entwicklung komplexer Befehlssätze begünstigt, die es erlauben, einen einzelnen Befehl aus dem Speicher zu holen, um die Operation des Prozessors für mehrere Taktzyklen zu steuern. Das Ungleichgewicht zwischen den Prozessor- und Speichergeschwindigkeiten war ferner eine Eigenschaft der frühen Generationen der 32-Bit-Mikroprozessoren. Diese Mikroprozessoren benötigten gewöhnlich vier oder fünf Taktzyklen für jeden Speicherzugriff.
Ohne die Einführung des integrierten Cache-Speichers wäre es unwahrscheinlich, daß RISC-Architekturen mit CISC-Architekturen vergleichbar geworden wären. Da ein RISC-Prozessor mehr Befehle ausführt als ein CISC-Prozessor, um die gleiche Aufgabe zu bewältigen, kann ein RISC-Prozessor nur dann eine mit einem CISC-Prozessor vergleichbare Leistung bieten, wenn ein schnelleres und teureres Speichersystem eingesetzt wird. Der integrierte Cache-Speicher ermöglicht einem RISC-Prozessor, einen Befehl in derselben Zeit zu holen, die er benötigt, den Befehl mittels einer effizienten Prozessor-Pipeline auszuführen.
Die zweite Entwicklung, die zur Effektivität von RISC-Architekturen geführt hat, ist die Optimierung durch die Compiler. Ein Compiler, der entweder mittels Hardware oder mittels Software implementiert sein kann, übersetzt ein Computerprogramm von einer Hochsprache, die vom Programmierer verwendet wird, in die Maschinensprache, die vom Computer verstanden wird.
Über viele Jahre nach der Einführung der Hochsprachen wurden Computer immer noch extensiv in Assemblersprache programmiert. Die Assemblersprache ist eine Quellcode-Sprache auf niedriger Ebene, die grobe Mnemonics verwendet, die vom Programmierer leichter verstanden werden als der Objektcode oder die binären Äquivalente. Die Vorteile der verbesserten Softwareproduktivität und der Übersetzbarkeit der Hochsprachenprogrammierung waren klar, jedoch haben einfache Compiler einen ineffizienten Code erzeugt. Frühe Generationen von 32-Bit-Mikroprozessoren wurden unter Berücksichtigung der Assemblersprachenprogrammierung und einfacher Compiler entwickelt.
Seit kurzem wurden die Vorteile der Compilertechnologie auf Mikroprozessoren angewendet. Optimierende Compiler können ein Programm analysieren, um große Mengen von Registern effizient zuzuweisen und die Prozessor-Pipeline-Betriebsmittel zu verwalten. Als Folge hiervon können Hochsprachenprogramme mit einer Leistung ausgeführt werden, die mit derjenigen von Assemblerprogrammen vergleichbar ist oder diese übersteigt.
Viele der führenden Pioniere in der RISC-Entwicklung waren Compiler-Spezialisten, die gezeigt haben, daß optimierende Compiler hocheffizienten Code für einfache und regelmäßige Architekturen erzeugen können.
Hochintegrierte Einzelchip-Mikroprozessoren verwenden sowohl die pipelinegesteuerte als auch die parallele Ausführung, um die Leistung zu verbessern. Die pipelinegesteuerte Ausführung bedeutet, daß der Mikroprozessor, während er einen Befehl holt, gleichzeitig einen zweiten Befehl decodieren kann, die Quellenoperanden für einen dritten Befehl lesen kann, die Ergebnisse für einen vierten Befehl berechnen kann und die Ergebnisse eines fünften Befehls speichern kann. Die parallele Ausführung bedeutet, daß der Mikroprozessor die Operanden für zwei oder mehr unabhängige Befehle gleichzeitig in getrennte Funktionseinheiten holen kann.
Wie oben erwähnt, ist eine der Hauptherausforderungen beim Entwurf von Hochleistungsmikroprozessoren mit mehrfachen pipelinegesteuerten Funktionseinheiten, einen ausreichenden Befehlsspeicher auf dem Chip zu schaffen und auf den Befehlsspeicher effizient zuzugreifen, um die Funktionseinheiten zu steuern.
Die Anforderungen für die effiziente Steuerung der Funktionseinheiten eines Mikroprozessors schreibt ein regelmäßiges Befehlsformat vor, das einfach zu decodieren ist. In her kömmlichen Mikroprozessorarchitekturen jedoch sind die Befehle im Hauptspeicher stark codiert und besitzen eine veränderliche Länge, um den Raum im Hauptspeicher und die beschränkte Bandbreite, die zwischen dem Mikroprozessor und dem Hauptspeicher zur Verfügung steht, effizient zu nutzen.
Die vorliegende Erfindung ist durch die unabhängigen Ansprüche 1 und 8 definiert und schafft einen Prozessor und ein zugehöriges Verfahren, die die konkurrierenden Anforderungen für eine effiziente Verwendung des Hauptspeicherraums und die effiziente Steuerung der Funktionseinheiten auflöst durch teilweises Decodieren der aus dem Hauptspeicher wiedergewonnenen Befehle, bevor diese im integrierten Befehls- Cache des Mikroprozessors plaziert werden. Jeder Eintrag im Befehls-Cache besitzt vorzugsweise zwei Schlitze für teilweise decodierte Befehle. Ein Schlitz steuert eine der Ausführungs-Pipelines des Mikroprozessors und einen Anschluß für dessen Daten-Cache. Der zweite Schlitz steuert eine zweite Ausführungs-Pipeline oder eine der Gleitkommaeinheiten des Mikroprozessors, oder einen Steuerübertragungsbefehl. Eine Befehlsdecodierungseinheit oder eine Ladevorrichtung decodiert die Befehle aus deren kompakten Format, wie es im Hauptspeicher gespeichert ist, und plaziert diese in den zwei Schlitzen des Befehls-Cache-Eintrags gemäß ihren Funktionen. Ferner können Hilfsinformationen im Cache-Eintrag gemeinsam mit dem Befehl plaziert werden, um die parallele Ausführung und die Emulation komplexer Befehle zu steuern. Ein Bit in jedem Cache-Eintrag kann anzeigen, ob die Befehle in den zwei Schlitzen für diesen Eintrag unabhängig sind, so daß sie parallel ausgeführt werden können, oder abhängig sind, so daß sie sequentiell ausgeführt werden müssen. Die Verwendung eines einzelnen Bits zu diesem Zweck erlaubt, zwei unabhängige Befehle in den Schlitzen eines einzelnen Cache-Eintrags zu speichern. Andernfalls müßten die zwei Befehle in separaten Einträgen gespeichert werden, wobei nur eine Hälfte des Cache-Speichers in diesen zwei Einträgen genutzt würde.
Einige Merkmale der unabhängigen Ansprüche sind an sich bekannt.
US-A-4.873.629 offenbart einen Computer, der für die Optimierung der Verarbeitungsrate der Befehle konfiguriert ist, sowie ein zugehöriges Verfahren. Der Computer enthält einen Hauptspeicher, eine Cache-Einheit, sowie eine Zentraleinheit. Gemäß diesem Dokument werden (codierte) Befehle, die aus dem Hauptspeicher wiedergewonnen werden, "zerlegt", d.h. die Adreßfelder der Befehle werden decodiert, so daß sie in einer logischen Befehls-Cache-Einheit gespeichert werden können. Wenn die zerlegten Befehle aus der Cache- Einheit für die anschließende Ausführung wiedergewonnen werden, werden sie (sequentiell) zu einem Ausgangspuffer und einer Decodiereinrichtung gesendet, in der ein Decodierungsschritt stattfindet, wobei ferner eine decodierte Programmzähler- und Verschiebungsinformation erzeugt wird. Die decodierten Befehle werden anschließend zur Ausführung zu den ALUs gesendet.
Die Technik gemäß diesem Dokument benötigt daher die zeitaufwendige Mehrfachspeicherung der Befehle und lehrt insbesondere, die Cache-Einrichtung und die Funktionseinheiten durch Zwischenpuffereinrichtungen zu entkoppeln.
Eine weitere Technik wird offenbart von der EP-A-0 363 222. Dieses Dokument bezieht sich auf eine Vorrichtung und ein Verfahren zum gleichzeitigen Versenden von Befehlswörtern. Diese Befehle können separat und im wesentlichen gleichzeitig von unterschiedlichen Funktionseinheiten empfangen werden, wie z.B. einer Gleitkommaeinheit und einer Ganzzahleneinheit, die Teil eines Prozessors sind. Befehle, die von einer externen Quelle stammen, werden wiedergewonnen und in einem Befehls-Cache gespeichert, wobei der Cache in gerade und ungerade Cache-Abschnitte unterteilt ist, die jeweils nacheinander über eine logische Einrichtung mit den Funktionseinheiten verbunden werden. Die Logikeinheiten enthalten eine Decodierungseinrichtung, die die codierten Befehle nach dem Empfangen decodieren kann. Dementsprechend sind die im Befehls-Cache zwischengespeicherten Befehle immer noch codiert.
Die bekannte Architektur ist geeignet für CISC-Computer mit einer Zentraleinheit, ruft jedoch Probleme hervor, wenn sie auf RISC-Architektur-Computer übertragen wird. Ein Problem, das beim Verarbeiten von Befehlen in einer RISC-Architektur entsteht, besteht darin, daß die Anzahl der Befehle, die vom Prozessor verstanden werden, stark reduziert ist, wobei gleichzeitig diese Befehle sehr schnell ausgeführt werden. Die Operation der vollständigen Decodierung eines wiedergewonnenen codierten Befehls birgt die unvorhersagbare Unsicherheit bezüglich der benötigten Zeitspanne, wenn die Decodierungsoperation so durchgeführt wird, daß die Prozessorzeit schwierig zu optimieren ist.
Ein Artikel von Stevens, G. B. u. a., "HARP: A parallel pipelined RISC processor", Microprocessor and Microsystems, Bd. 13, Nr. 9, November 1989, S. 579-587, London, GB, bezieht sich auf einen Compiler, der unabhängige "HARP"-Befehle, die parallel ausgeführt werden können, in lange Befehlswörter packt. Die langen Befehlswörter werden aus einem Befehlscache wiedergewonnen, um die Komponentenkurzbefehle des langen Befehlsworts über eine parallele Pipelinestruktur weiterzuleiten.
Es existiert keine Lehre, die einen Hinweis auf das teilweise Decodieren codierter Befehle vor dem Speichern derselben in einem Cache liefert.
WO-A-90 03 001 offenbart ein CISC-System, in welchem codierte Befehle aus dem Hauptspeicher wiedergewonnen werden und anschließend in einer Cache-Einrichtung gespeichert werden. Die Befehle werden, nachdem sie aus dem Cache wiedergewonnen wurden, teilweise decodiert und vor der Ausführung in einem FIFO-Befehlspuffer gespeichert.
Eine solche FIFO-Warteschlange bewirkt unter anderem eine teilweise Entkopplung des Cache und der Prozessoreinheit zum Puffern von Laufzeitproblemen aufgrund der teilweisen Decodierung. Es ist klar, daß diese Lösung kompliziertere Architekturen schafft und selbstverständlich nicht diese Erfindung lehrt.
Ein besseres Verständnis der Merkmale und Vorteile der vorliegenden Erfindung wird erhalten mit Bezug auf die folgende genaue Beschreibung der Erfindung und die beigefügten Zeichnungen, die eine beispielhafte Ausführungsform zeigen, bei der die Prinzipien der Erfindung genutzt werden.
Fig. 1 ist ein Blockschaltbild, das eine Mikroprozessorarchitektur zeigt, die die Konzepte der vorliegenden Erfindung enthält.
Fig. 2 ist ein Blockschaltbild, das die Struktur eines Cache für teilweise decodierte Befehle zeigt, der in der Architektur der Fig. 1 verwendet wird.
Fig. 3 ist eine vereinfachte Darstellung eines teilweise decodierten Eintrags, der in dem in Fig. 2 gezeigten Befehls-Cache gespeichert ist.
Fig. 4 ist ein Blockschaltbild, das die Struktur der Ganzzahl-Pipelines zeigt, die in der in Fig. 1 gezeigten Mikroprozessorarchitektur verwendet werden.
Die Fig. 1 zeigt ein Blockschaltbild eines Mikroprozessors 10, der mehrere pipelinegesteuerte Funktionseinheiten enthält, die zwei Befehle parallel ausführen können.
Der Mikroprozessor 10 enthält drei Hauptabschnitte: einen Befehlsprozessor 12, einen Ausführungsprozessor 14 und einen Busschnittstellenprozessor 16.
Der Befehlsprozessor 12 enthält drei Module: eine Befehlsladevorrichtung 18, einen Befehlsemulator 20 und einen Befehls-Cache 22. Diese Module laden Befehle aus dem externen System über den Busschnittstellenprozessor 16, speichern die Befehle im Befehls-Cache 22 und liefern Paare von Befehlen zur Ausführung zum Ausführungsprozessor 14.
Der Ausführungsprozessor 14 enthält zwei vierstufige Pipeline-Ganzzahlausführungseinheiten 24 und 26, eine fünfstufige Pipelinegleitkommaausführungseinheit mit doppelter Genauigkeit 28 sowie einen 1024-Byte-Daten-Cache 30. Ein Satz von Ganzzahlregistern 32 bedient zwei Ganzzahleinheiten 24 und 26; in ähnlicher Weise bedient ein Satz von Gleitkommaregistern 34 die Gleitkommaausführungseinheit 28.
Der Busschnittstellenprozessor 16 enthält eine Busschnittstelleneinheit 36 und mehrere Systemmodule 38. Die Busschnittstelleneinheit 36 steuert die Buszugriffe, die sowohl vom Befehlsprozessor 12 als auch vom Ausführungsprozessor 14 gefordert werden. In der dargestellten Ausführungsform enthalten die Systemmodule 38 einen Zeitgeber 40, eine Speicherdirektzugriff-(DMA)-Steuervorrichtung 42, eine Unterbrechungssteuervorrichtung (ICU) 44 sowie E/A-Puffer 46.
Wie im folgenden genauer beschrieben wird, decodiert die Befehlsladevorrichtung 18 teilweise die vom Hauptspeicher wiedergewonnenen Befehle und plaziert die teilweise deco dierten Befehle im Befehls-Cache 22. Das heißt, die Befehlsladevorrichtung 18 übersetzt einen im (nicht gezeigten) Hauptspeicher gespeicherten Befehl in das decodierte Format des Befehls-Cache 22. Wie ferner im folgenden genauer beschrieben wird, ist die Befehlsladevorrichtung 18 ferner zuständig für die Überprüfung, ob irgendwelche Abhängigkeiten zwischen den aufeinanderfolgenden Befehlen bestehen, die in einem einzelnen Befehls-Cache-Eintrag paarweise zusammengefaßt werden.
Der Befehls-Cache 22 enthält 512 Einträge für teilweise decodierte Befehle.
Gemäß einem Aspekt der vorliegenden Erfindung, und wie im folgenden genauer erläutert wird, enthält jeder Eintrag im Befehls-Cache 22 entweder einen oder zwei Befehle, die in einem teilweise decodierten Format für eine effiziente Steuerung der verschiedenen Funktionseinheiten des Mikroprozessors 10 gespeichert sind.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung enthält jeder Eintrag im Befehls-Cache 22 ferner Hilfsinformationen, die anzeigen, ob die zwei Befehle, die in diesem Eintrag gespeichert sind, unabhängig sind, so daß sie parallel ausgeführt werden können, oder abhängig sind, so daß sie sequentiell ausgeführt werden müssen.
Der Befehlsemulator 20 führt Spezialbefehle aus, die im Befehlssatz des Mikroprozessors 10 definiert sind. Wenn die Befehlsladevorrichtung 18 einen solchen Befehl entdeckt, überträgt sie die Steuerung an den Emulator 20. Der Emulator ist verantwortlich für das Erzeugen einer Sequenz von Kernbefehlen (im folgenden definiert), die die Funktion eines einzelnen komplexen Befehls (im folgenden definiert) durchführen. Diesbezüglich liefert der Emulator 20 ROM-residenten Mikrocode. Der Emulator 20 steuert ferner die Ausnahmeverarbeitung und die Selbsttestoperation.
Die zwei vierstufigen Ganzzahl-Pipelines 24 und 26 führen grundlegende Arithmetik/Logik-Operationen und Datenspeicherzugriffe durch. Jede Ganzzahl-Pipeline 24, 26 kann Befehle mit einem Durchsatz von einem Befehl pro Systemtaktzyklus ausführen.
Die Gleitkommaausführungseinheit 28 enthält drei Untereinheiten, die Operationen mit einfacher Genauigkeit und mit doppelter Genauigkeit ausführen. Eine FPU-Addierer-Untereinheit 28a ist verantwortlich für Additions- und Umsetzungsoperationen, während eine zweite Untereinheit 28b verantwortlich ist für Multiplikationsoperationen und eine dritte Untereinheit 28c verantwortlich ist für Divisionsoperationen.
Wenn Additions- und Multiplikationsoperationen wechselweise ausgeführt werden, kann die Gleitkommaausführungseinheit 28 Befehle mit einem Durchsatz von einem Befehl pro Systemtaktzyklus ausführen.
Speicherzugriffe für die Gleitkommaausführungseinheit 28 werden von einer der Ganzzahl-Pipelines 24, 26 gesteuert und können parallel zu den Gleitkommaoperationen ausgeführt werden.
Datenspeicherzugriffe werden unter Verwendung des 1-kByte- Daten-Cache 30 durchgeführt. Der Daten-Cache 30 bietet einen schnellen On-Chip-Zugriff auf häufig verwendete Daten. Für den Fall, daß die Daten nicht im Daten-Cache 30 angeordnet sind, werden mittels der Schnittstelleneinheit (BIU) 36 Off- Chip-Zugriffe unter Verwendung des Pipelinesystembus 48 durchgeführt.
Der Daten-Cache 30 verwendet eine Lasteinteilungstechnik, so daß er bei Fehlgriffen nicht unbedingt anhalten muß. Dies bedeutet, daß die zwei Ausführungspipelines 24, 26 weiter Befehle verarbeiten und zusätzliche Speicherzugriffe einleiten können, während die Daten aus dem Hauptspeicher gelesen werden.
Die Busschnittstelleneinheit 36 kann Anfragen für Hauptspeicherzugriffe entweder vom Befehlsprozessor 12 oder vom Ausführungsprozessor 14 empfangen. Diese Anfragen werden an den externen Pipelinebus 48 gesendet. Der externe Bus kann so programmiert sein, daß er mit der halben Frequenz des Mikroprozessors 10 arbeitet; dies erlaubt eine einfache Befehlsschnittstelle mit einer relativ niedrigen Frequenz, während der Mikroprozessor 10 zwei Befehle mit der vollen Geschwindigkeit ausführt.
Der Befehlssatz des Mikroprozessors 10 ist in einen Kernabschnitt und in einen Nicht-Kernabschnitt unterteilt. Der Kernabschnitt des Befehlssatzes umfaßt leistungskritische Befehle und Adressierungsarten zusammen mit einigen Spezialfunktionsbefehlen für wichtige Systemoperationen. Der Nicht- Kernabschnitt umfaßt den Rest des Befehlssatzes. Leistungskritische Befehle und Adressierungsarten wurden auf der Grundlage einer Analyse und Auswertung des Betriebssystems (in diesem Fall UNIX), der Arbeitsbelastung und verschiedener technischer, wissenschaftlicher und eingebetteter Steuerungsanwendungen bewertet. Diese Befehle werden als Teil der RISC-Architektur des Mikroprozessors 10 direkt ausgeführt.
Wie oben erwähnt, werden Spezialfunktions- und Nicht-Kern- Befehle im Mikroprozessor 10 mittels Makrobefehlsunterroutinen emuliert, die Sequenzen von Kernbefehlen verwenden. Das heißt, Befehle, die ein Teil des gesamten Befehlssatzes der Architektur des Mikroprozessors 10 sind, die jedoch außerhalb des direkt implementierten RISC-Kerns liegen, werden unter der Steuerung des Befehlsemulators 20 ausgeführt. Wenn die Befehlsladevorrichtung 18 einen Nicht-Kernbefehl entdeckt, übersetzt sie diesen entweder in zwei Kernbefehle (für einfachere Befehle wie MOVB 1(R0),0(R1)) oder überträgt die Steuerung an den Befehlsemulator 20. Der Befehlsemulator 20 ist verantwortlich für die Erzeugung einer Sequenz von Kernbefehlen, die die Funktion des einzelnen komplexen Befehls ausführen.
Die Fig. 2 zeigt die Struktur des Befehls-Cache 22. Der Befehls-Cache 22 verwendet eine satzassoziative Zweiwege- Organisation mit 512 Einträgen für teilweise decodierte Befehle. Dies bedeutet, daß für jede Speicheradresse zwei Einträge im Befehls-Cache 22 vorhanden sind, an denen der an dieser Adresse angeordnete Befehl gespeichert werden kann. Die zwei Einträge werden als "Satz" bezeichnet.
Wie in Fig. 3 gezeigt, enthält jeder Befehls-Cache-Eintrag zwei Schlitze, nämlich Schlitz A und Schlitz B. Somit kann jeder Eintrag einen oder zwei teilweise decodierte Befehle enthalten, die mit festen Feldern für den Opcode (OPC), die Quellen- und Ziel-Registernummern (R1 beziehungsweise R2) und unmittelbare Werte (32b IMM) dargestellt werden. Der Eintrag enthält ferner Hilfsinformationen, die zum Steuern der Sequenz der Befehlsausführung verwendet werden, einschließlich eines Bits P, das anzeigt, ob der Eintrag zwei aufeinanderfolgende Befehle enthält, die parallel ausgeführt werden können, und eines Bits G, das anzeigt, ob der Eintrag für einen komplexen Befehl steht, der emuliert wird, sowie zusätzlicher Informationen, die die Länge des Befehls in einer Form darstellen, die eine schnelle Berechnung der nächsten Befehlsadresse erlaubt.
Wie in Fig. 2 gezeigt, ist jedem Eintrag im Befehls-Cache 22 ein 26-Bit-Ettikett zugeordnet, TAG0 beziehungsweise TAG1, das die 22 höchstwertigen Bits, die drei niedrigstwertigen Bits und ein Benutzer/Supervisor-Bit der virtuellen Adresse des im Eintrag gespeicherten Befehls enthält. In dem Fall, in dem zwei aufeinanderfolgende Befehle in einem Eintrag zusammengefaßt sind, entspricht das Etikett dem Befehl mit der niedrigeren Adresse. Dem Etikett sind zwei Bits zugeordnet, die anzeigen, ob der Eintrag gültig ist und ob er gesperrt ist. Für jeden Satz gibt es ein zusätzliches einzelnes Bit, das den Eintrag innerhalb des Satzes anzeigt, der in einer Längstens-Unbenutzt-Reihenfolge zu ersetzen ist.
Der Befehls-Cache 22 wird für einen Befehlsholvorgang freigegeben, wenn das entsprechende Bit des Konfigurationsregisters des Mikroprozessors 10, das verwendet wird, um verschiedene Betriebsarten des Mikroprozessors 10 freizugeben oder zu sperren, gleich 1 ist und entweder die Adreßübersetzung gesperrt ist oder das CI-Bit im Ebene-2-Seitentabelleneintrag (PTE) gleich 0 ist, das verwendet wird, um die virtuelle Adresse des Befehls zu übersetzen.
Wenn der Befehls-Cache 22 gesperrt ist, umgeht der Befehlsholvorgang den Befehls-Cache 22 und die Inhalte des Befehls- Cache 22 werden nicht beeinflußt. Der Befehl wird direkt aus dem Hauptspeicher gelesen, von der Befehlsladevorrichtung 18 teilweise decodiert, um einen Eintrag zu bilden (der zwei teilweise decodierte Befehle enthalten kann), und über die IL-Umleitungs-Leitung zur Ausführung zu den Ganzzahl-Pipelines 24, 26 übertragen.
Wenn wie in Fig. 2 gezeigt der Befehls-Cache 22 für einen Befehlsholvorgang freigegeben ist, werden 8 Bits, d.h. die Bits PC(10:3) der Befehlsadresse, die vom Programmzähler (PC) geliefert wird, decodiert, um den Satz von Einträgen auszuwählen, in dem der Befehl gespeichert werden kann. Der ausgewählte Satz von vier Einträgen wird gelesen und die zugehörigen Etiketten werden mit den 23 höchstwertigen Bits, d.h. PC(31:10), und den zwei niedrigstwertigen Bits PC(1:0) der virtuellen Befehlsadresse verglichen. Wenn eines der Etiketten paßt und der passende Eintrag gültig ist, wird der Eintrag für die Übertragung zu den Ganzzahl-Pipelines 24, 26 zur Ausführung ausgewählt. Andernfalls wird der fehlende Befehl direkt aus dem Hauptspeicher gelesen und teilweise decodiert, wie im folgenden erläutert wird.
Wenn der fragliche Befehl im Befehls-Cache 22 fehlt und die Inhalte des ausgewählten Satzes alle gesperrt sind, ist die Handhabung des Zugriffs identisch mit der obenbeschriebenen für den Fall, in dem der Befehls-Cache 22 gesperrt ist.
Wenn der fragliche Befehl im Befehls-Cache 22 fehlt und wenigstens einer der Einträge im ausgewählten Satz nicht gesperrt ist, werden folgende Maßnahmen ergriffen. Einer der Einträge wird für die Ersetzung entsprechend dem Längstens- Unbenutzt-Ersatzargorithmus ausgewählt und anschließend der LRU-Zeiger aktualisiert (LRU = "Least Recently Used" bedeutet soviel wie "längstens unbenutzt"). Wenn der für die Ersetzung ausgewählte Eintrag gesperrt ist, ist die Handhabung des Zugriffs identisch mit der obenbeschriebenen für den Fall, in dem der Befehls-Cache 22 gesperrt ist. Ansonsten wird der fehlende Befehl direkt aus dem externen Speicher gelesen und anschließend teilweise von der Befehlsladevorrichtung 18 decodiert, um einen Eintrag zu bilden (der zwei teilweise decodierte Befehle enthalten kann), welcher anschließend zur Ausführung zu den Ganzzahl-Pipelines 24, 26 übertragen wird. Wenn CIIN während der Buszyklen nicht aktiv ist, um den fehlenden Befehl zu lesen, wird anschließend der teilweise decodierte Befehl ebenfalls in den für den Ersatz ausgewählten Befehls-Cache-Eintrag geschrieben, das zugehörige Gültigkeitsbit gesetzt und der Eintrag gesperrt, wenn das Sperre-Befehlscache-Bit CFG.LIC im Konfigurationsregister gleich 1 ist.
Nachdem der Mikroprozessor 10 das Holen eines fehlenden Befehls vom externen Hauptspeicher abgeschlossen hat, fährt er mit dem sequentiellen Holen von Befehlen im voraus fort. Für nachfolgende sequentielle Befehlsholvorgänge durchsucht der Mikroprozessor 10 den Befehls-Cache 22, um zu ermitteln, ob sich der Befehl im Chip befindet. Wenn die Suche erfolgreich ist oder ein nicht-sequentieller Befehlsholvorgang stattfindet, beendet der Mikroprozessor 10 das Holen im voraus. Andernfalls sind die im voraus geholten Befehle sehr schnell für die Decodierung und Ausführung verfügbar. Der Mikroprozessor 10 leitet Vorausholvorgänge nur während der Buszyklen ein, die ansonsten nicht genutzt werden, da keine Off-Chip-Datenzugriffe erforderlich sind.
Es ist möglich, einen Befehl zu holen und ihn im Befehls- Cache 22 zu sperren, ohne den Befehl ausführen zu müssen. Dies kann bewerkstelligt werden durch Freigeben einer Störungsbeseitigungsfalle (DBG) für einen Programmzählerwert, der zu zwei Befehlsadressen paßt. Die Fehlerbeseitigungsfalle ist eine Dienstroutine, die Maßnahmen entsprechend diesem Typ von Ausnahme durchführt. Am Ende der DBG-Routine wird der Ausführungsrücksprung-(RETX)-Befehl ausgeführt, um das Ausführen der Befehle an der Stelle wiederaufzunehmen, an der die Ausnahme erkannt wurde. Der Befehl wird geholt und im Befehls-Cache 22 plaziert, bevor die Falle verarbeitet wird.
Wenn der Befehl, der im Befehls-Cache gesperrt ist, zur Ausführung gelangt und eine Fehlerbeseitigungsfalle für diesen Befehl freigegeben ist, wird anstelle der Ausführung des Befehls der Prozessor zur Fehlerbeseitigungsfallen- Dienstroutine springen. Die Dienstroutine kann einen Unterbrechungspunkt für den nächsten Befehl setzen, so daß der Prozessor dann, wenn er von der Dienstroutine zurückkehrt, nicht den nächsten Befehl ausführt, sondern statt dessen erneut zur Fehlerbeseitigungsfallen-Routine übergeht.
Der obenbeschriebene Prozeß, der üblicherweise während des Systemstarts ausgeführt wird, erlaubt dem Benutzer, Routinen im Befehls-Cache 22 zu speichern, diese zu sperren und diese für die Operation bereitzuhalten, ohne diese während des Sperrprozesses auszuführen.
Weitere Informationen bezüglich der Architektur des Mikroprozessors 10 und seiner Cache-Sperrfähigkeiten liefert EP-A-0 459 233.
Die Inhalte des Befehls-Cache 22 können mittels Software oder mittels Hardware ungültig gemacht werden.
Der Befehls-Cache 22 wird mittels Software wie folgt ungültig gemacht: die gesamten Befehls-Cache-Inhalte einschließlich gesperrter Einträge werden ungültig gemacht, wenn das Bit CFG.EC des Konfigurationsregisters gleich 0 ist. Die LRU-Ersatzinformation wird ebenfalls auf 0 initialisiert, wenn das Bit CFG.IC gleich 0 ist. Der Cache-Ungültig-CINV- Befehl kann ausgeführt werden, um die gesamten Befehls- Cache-Inhalte ungültig zu machen. Die Ausführung des CINXT macht entweder den gesamten Cache oder nur ungesperrte Zeilen ungültig, in Abhängigkeit von der L-Option des Befehls.
Der gesamte Befehls-Cache 22 wird in der Hardware ungültig gemacht durch Aktivieren eines INVIC -Eingangssignals.
Die Fig. 3 zeigt eine vereinfachte Ansicht eines teilweise decodierten Eintrags, der im Befehls-Cache 22 gespeichert ist. Wie in Fig. 3 gezeigt, besitzt jeder Eintrag zwei Schlitze für Befehle. Der Schlitz A steuert die Ganzzahl- Pipeline 24 und den Anschluß zum Daten-Cache 30. Der Schlitz B steuert die zweite Ganzzahl-Pipeline 26 oder eine der Gleitkommaeinheiten oder einen Steuerübertragungsbefehl. Der Schlitz B kann ferner den Anschluß zum Daten-Cache 30 steuern, jedoch nur, wenn nicht der Schlitz A den Daten-Cache 30 verwendet. Wie oben erwähnt, holt die Befehlsladevorrichtung 18 codierte Befehle in ihrem kompakten Format aus dem Hauptspeicher und plaziert diese entsprechend ihrer Funktionen in den Schlitzen A und B.
Somit umfassen gemäß der vorliegenden Erfindung die neuartigen Aspekte des Befehls-Cache 22 (1) das teilweise Decodieren der Befehle zum Speichern im Cache-Speicher, (2) das Plazieren der Befehle in zwei Cache-Schlitzen entsprechend ihrer Funktion und (3) das Plazieren von Hilfsinformationen in den Cache-Einträgen zusammen mit den Befehlen, um die parallele Ausführung und die Emulation komplexer Befehle zu steuern.
Wie ferner in Fig. 3 gezeigt, zeigt ein Bit P in jedem Befehls-Cache-Eintrag an, ob die Befehle in den Schlitzen A und B unabhängig sind, so daß sie parallel ausgeführt werden können, oder abhängig sind, so daß sie sequentiell ausgeführt werden müssen.
Ein Beispiel für unabhängige Befehle, die parallel ausgeführt werden können, ist:
Load 4(R0),R1 ; Addcd 4, R0
Ein Beispiel abhängiger Befehle, die eine sequentielle Ausführung erfordern, ist:
Addd R0,R1 ; Addd R1,R2
Die Verwendung eines einzelnen Bits zu diesem Zweck erlaubt, zwei unabhängige Befehle in den Schlitzen eines einzelnen Cache-Eintrags zu speichern, andernfalls würden die zwei Befehle in separaten Einträgen gespeichert und nur die Hälfte des Befehls-Cache 22 würde in diesen zwei Einträgen genutzt.
Fig. 3 zeigt ferner ein Bit G in jedem Befehls-Cache-Eintrag, das anzeigt, ob die Befehle in den Schlitzen A und B einen einzelnen komplexeren Befehl aus dem Hauptspeicher emulieren. Zum Beispiel übersetzt die Ladevorrichtung den Einzelbefehl ADDD 0(R0),R1 in das folgende Paar von Befehlen in den Schlitzen A und B und setzt die Sequentiell- und Emulationsmerker in den Einträgen:
Load 0(R0), Temp
ADDD Temp, R1
Gemäß der Pipelineorganisation des Mikroprozessors 10 durchläuft jeder vom Mikroprozessor 10 ausgeführte Befehl eine Reihe von Stufen. Die zwei Ganzzahlpipelines 24, 26 (Fig. 1) können parallel mit Befehlspaaren arbeiten. Die Ganzzahleinheit 24 und die Ganzzahleinheit 26 sind nicht identisch, wobei die Befehle, die in der Ganzzahleinheit 24 ausgeführt werden können, eine Teilmenge derjenigen Befehle sind, die in der Ganzzahleinheit 26 ausgeführt werden können.
Wie oben erwähnt, wird der Befehlsholvorgang von der Befehlsladevorrichtung 18 durchgeführt, die die decodierten Befehle im Befehls-Cache 22 speichert. Die Ganzzahl-Doppelpipeline empfängt decodierte Befehlspaare für die Ausführung.
Wie in Fig. 3 gezeigt und oben erwähnt ist, umfaßt ein Befehlspaar zwei Schlitze: Schlitz A und Schlitz B. Der Befehl im Schlitz A wird der Ganzzahleinheit 24 zugeteilt; der Befehl im Schlitz B wird der Ganzzahleinheit 26 zugeteilt. Die zwei Befehle, die zum gleichen Paar gehören, rücken gleichzeitig von einer Stufe der Ganzzahlpipeline zur nächsten vor, mit Ausnahme des Falls, in dem der Befehl im Schlitz B in der Befehlsdecodierungsstufe der Pipeline wie im folgenden beschrieben verzögert wird. In diesem Fall kann der Befehl in der Ganzzahlpipeline 24 zu den folgenden Pipelinestufen vorrücken. Neue Befehle können jedoch nicht in die Pipeline eintreten, bis die Befehlsdecodierungsstufe in beiden Pipelineeinheiten 24 und 26 frei ist.
Obwohl die Befehle in den Einheiten 24 und 26 parallel ausgeführt werden (mit Ausnahme des Falls des Halte-ID-B- Befehls), geht der Befehl im Schlitz A dem entsprechenden Befehl im Schlitz B immer voran, wobei dann, wenn der Befehl im Schlitz A aufgrund einer Ausnahme nicht abgeschlossen werden kann, der entsprechende Befehl im Schlitz B verworfen wird.
Wie in Fig. 4 gezeigt, enthält jede der Ganzzahl-Pipelineeinheiten 24, 26 vier Stufen: eine Befehlsdecodierungsstufe (ID), eine Ausführungsstufe (EX), eine Speicherzugriffsstufe (ME) und eine Ergebnisspeicherstufe (ST).
Ein Befehl wird in die ID-Stufe der Ganzzahleinheit eingegeben, der er zugeteilt ist, worin seine Decodierung abgeschlossen wird und die Registerquellenoperanden gelesen werden. In der EX-Stufe wird die Arithmetik/Logik-Einheit des Mikroprozessors 10 aktiviert, um die Ergebnisse des Befehls zu berechnen oder die effektive Speicheradresse für die Lade/Speicher-Befehle zu berechnen. In der ME-Stufe wird von den Lade/Speicher-Befehlen auf den Daten-Cache 30 (Fig. 1) zugegriffen, wobei die Ausnahmebedingungen geprüft werden. In der ST-Stufe werden die Ergebnisse in die Registergruppe oder in den Daten-Cache 30 im Fall eines Speicher-Befehls geschrieben, wobei die Programmstatusregister- (PSR)-Merker aktualisiert werden. In dieser Stufe kann der Befehl nicht mehr rückgängig gemacht werden.
Wie in Fig. 4 gezeigt, können die Ergebnisse von der EX- Stufe und der ME-Stufe zur ID-Stufe zurückgeführt werden, wodurch eine Befehlslatenz von ein bis zwei Zyklen ermöglicht wird.
Bei Fehlen jeglicher Verzögerungen akzeptiert die Doppel- Ausführungspipeline des Mikroprozessors 10 in jedem Taktzyklus ein neues Befehlspaar (d.h. es ergibt sich ein Spitzendurchsatz von zwei Befehlen pro Zyklus) und schiebt alle anderen Befehle längs der Pipeline eine Stufe weiter. Die Doppel-Pipeline enthält einen globalen Anhaltemechanismus, mit dem eine beliebige Funktionseinheit die Pipeline anhalten kann, wenn sie einen Konflikt erfaßt. Jede hält die entsprechende Stufe und alle vorangehenden Stufen für einen weiteren Zyklus an. Wenn eine Stufe blockiert, hält sie den momentan darin enthaltenen Befehl für einen weiteren Zyklus und startet dann alle Stufenaktivitäten erneut, wie im unblockierten Fall.
Die Pipelineeinheit, auf der der jeweilige Befehl ausgeführt werden soll, wird zur Laufzeit von der Befehlsladevorrichtung 18 ermittelt, wenn Befehle aus dem Hauptspeicher geholt werden.
Die Befehlsladevorrichtung decodiert die im voraus geholten Befehle, versucht, diese in Befehlspaareinträge zu packen, und liefert diese an die Doppel-Pipeline. Wenn der Befehls- Cache 22 freigegeben ist (wie oben beschrieben), können cache-fähige Befehle im Befehls-Cache gespeichert werden. In diesem Fall wird ein Eintrag, der ein Befehlspaar oder einen Einzelbefehl enthält, ebenfalls zum Befehls-Cache 22 gesendet und dort als einzelner Cache-Eintrag gespeichert. Bei Befehls-Cache-Treffern werden aus dem Befehls-Cache gespeicherte Befehlspaare wiedergewonnen und zur Ausführung an die Doppel-Pipeline geliefert.
Die Befehlsladevorrichtung 18 versucht, wann immer möglich, Befehle in Paare zu packen. Das Packen von zwei Befehlen in einen Eintrag ist nur dann möglich, wenn der erste Befehl von der Ganzzahl-Pipelineeinheit 24 ausgeführt werden kann und beide Befehle kürzer als eine vorgegebene Maximallänge sind. Wenn es unmöglich ist, zwei Befehle in ein Paar zu packen, wird ein einzelner Befehl im Schlitz B plaziert.
Zwei Befehle können nur dann gepaart werden, wenn alle folgenden Bedingungen erfüllt sind: (1) beide Befehle sind leistungskritische Kernbefehle, (2) der erste Befehl kann von der Ganzzahl-Pipelineeinheit 24 ausgeführt werden und (3) die Verschiebungs- und Unmittelbar-Felder in beiden Befehlen verwenden eine Kurzcodierung (die Kurzcodierung für alle Befehle mit Ausnahme des Verzweigungsbefehls umfaßt 11 Bits und 17 Bits für die bedingte Verzweigung und die Verzweigungs- sowie Verknüpfungsbefehle).
Mehrere Befehle des Befehlssatzes des Mikroprozessors 10 sind darauf beschränkt, nur auf der Ganzzahl-Pipelineeinheit 26 zu laufen. Da z.B. die Befehlspaare im Befehls-Cache 22 durch die Schlitz-A-Adresse gekennzeichnet sind, ist es zwecklos, einen Verzweigungsbefehl im Schlitz A zu plazieren, da der entsprechende Schlitz-B-Befehl nicht zugänglich wäre. Da nur eine einzige aithmetische Gleitkomma-Pipeline vorhanden ist, ist es in ähnlicher Weise nicht möglich, zwei arithmetische Gleitkommabefehle parallel auszuführen. Das Beschränken dieser Befehle auf die Ganzzahl-Pipelineeinheit 26 ermöglicht, den Doppel-Pipeline-Datenpfadentwurf erheblich zu vereinfachen, ohne die Leistungsfähigkeit zu beeinträchtigen.
Die Ganzzahleinheit 26 kann beliebige Befehle im Befehlssatz des Mikroprozessors 10 ausführen.
Die Befehlsladevorrichtung 18 leitet die Befehlspaarbildung nach einem Befehls-Cache-Fehlgriff ein, wobei sie in diesem Fall beginnt, Befehle im voraus in eine Befehlswarteschlange zu holen. Parallel hierzu untersucht die Befehlsladevorrichtung 18 den nächsten Befehl, der noch nicht aus der Befehlswarteschlange entnommen worden ist, und versucht, diesen gemäß dem folgenden Algorithmus zu packen:

Schritt 1: Versuche, den nächsten Befehl in den Schlitz A einzusetzen.

(a) Wenn der nächste Befehl nicht leistungskritisch ist, gehe zu Schritt S.
(b) Entnehme den nächsten Befehl aus der Befehlswarteschlange und plaziere in vorläufig im Schlitz A.
(c) Wenn der Befehl für den Schlitz A ungeeignet ist, oder wenn der Befehl ein Unmittelbar-/Verschiebungs-Feld besitzt, das nicht in 11 Bits dargestellt werden kann, oder wenn der Befehl nicht auf eine Vierwortgrenze ausgerichtet ist, dann gehe zu Schritt 4.
(d) Ansonsten, fahre mit Schritt 2 fort.

Schritt 2: Versuche, den nächsten Befehl in den Schlitz B einzusetzen.

(a) Wenn der nächste Befehl nicht leistungskritisch ist, oder wenn der nächste Befehl ein codiertes Unmittelbar-/Verschiebungs-Feld länger als 11 Bits besitzt, oder wenn der nächste Befehl eine Verzweigung mit einer Verschiebung länger als 17 Bits ist, dann gehe zu Schritt 4.
(b) Ansonsten, entnehme den nächsten Befehl aus der Befehlswarteschlange, plaziere ihn im Schlitz B und gehe zu Schritt 3.

Schritt 3: Konstruiere einen Befehlspaareintrag.

In diesem Fall enthalten sowohl Schlitz A als auch Schlitz B gültige Befehle und alle Paarbildungsbedingungen sind erfüllt. Gebe einen Paareintrag aus und gehe zu Schritt 1.

Schritt 4: Konstruiere einen Einzelbefehleintrag.

In diesem Fall enthält der Schlitz A einen Befehl, der nicht gepaart werden kann. Bewege diesen Befehl in den Schlitz B. Wenn dieser Befehl ein Unmittelbar-/Verschiebungs-Feld länger als 17 Bits enthält, oder wenn er eine Verzweigung mit einer Verschiebung länger als 17 Bits ist, und wenn er nicht auf eine Vierwortgrenze ausgerichtet ist, dann ersetze ihn durch UNDefiniert. Gebe den Befehl aus und gehe zu Schritt 1.

Schritt 5: Handhabe nicht-leistungskritische Befehle.

Entnehme den nächsten Befehl aus der Befehlswarteschlange und sende ihn zum Befehlsemulator 20. Nach Abschluß dieses Befehls, gehe zu Schritt 1.
Der eben beschriebene Paarbildungsalgorithmus packt immer dann zwei Befehle, wenn sie in einem einzelnen Befehls- Cache-Eintrag gehalten werden können. Es kann jedoch vorkommen, daß diese Befehl abhängig sind, wobei sie in diesem Fall nicht parallel ausgeführt werden können. Die Abhängigkeiten werden vom Ausführungsprozessor 14 erfaßt.

Claims

1. Prozessor, der Befehle ausführt, mit:

einer Prozessoreinheit (14), die mehrere funktionale Einheiten (24, 26, 28) zum parallelen Ausführen von Befehlen enthält,

einer ersten Wiedergewinnungseinrichtung (18) zum Wiedergewinnen eines codierten Befehls von einem externen Hauptspeicher;

einer Decodierungseinrichtung (18, 20) zum Decodieren codierter Befehle;

einer internen Cache-Speichereinrichtung (22), die mehrere Cache-Speicherplätze zum Speichern von Befehlen enthält; und

einer zweiten Wiedergewinnungseinrichtung zum gleichzeitigen Wiedergewinnen mehrerer Befehle von ausgewählten Cache-Speicherplätzen für deren Ausführung durch die funktionalen Einheiten (24, 26, 28), wobei

die interne Cache-Speichereinrichtung (22) so beschaffen ist, daß sie teilweise decodierte Befehle speichert,

die codierten Befehle, die aus dem Hauptspeicher wiedergewonnen werden, durch die Decodierungseinrichtung (18, 20) teilweise decodiert werden, bevor sie in der internen Cache-Speichereinrichtung (22) gespeichert werden, und

die teilweise decodierten Befehle, die von der internen Cache-Speichereinrichtung (22) wiedergewonnen werden, von der zweiten Wiedergewinnungseinrichtung direkt zu den funktionalen Einheiten (24, 26, 28) geschickt werden.

2. Prozessor nach Anspruch 1, wobei jeder der Cache- Speicherplätze mehrere Speicherschlitze enthält, wovon jeder eine Einrichtung zum Speichern eines teilweise decodierten Befehls enthält.

3. Prozessor nach Anspruch 2, wobei die zweite Wiedergewinnungseinrichtung gleichzeitig mehrere teilweise decodierte Befehle von den Speicherschlitzen eines ausgewählten Cache-Speicherplatzes wiedergewinnen kann, damit sie von den mehreren funktionalen Einheiten (24, 26, 28) parallel ausgeführt werden können.

4. Prozessor nach einem der Ansprüche 1 bis 3, wobei jeder der Cache-Speicherplätze eine Einrichtung zum Speichern von Hilfsinformationen enthält, die angeben, ob die mehreren in den Schlitzen eines Cache-Speicherplatzes gespeicherten Befehle unabhängig sind, so daß die Befehle parallel ausgeführt werden können, oder abhängig sind, so daß die Befehle sequentiell ausgeführt werden müssen.

5. Prozessor nach einem der Ansprüche 1 bis 4, wobei der externe Hauptspeicher an den Prozessor durch einen Systembus angeschlossen ist, der an eine Busschnittstelleneinheit (36) zum Wiedergewinnen codierter Kernbefehle und codierter Nichtkern-Befehle vom externen Hauptspeicher angeschlossen ist.

6. Prozessor nach einem der Ansprüche 1 bis 5, wobei die Decodierungseinrichtung (18, 20) eine Befehlsladeeinrichtung (18) zum Übersetzen eines ersten codierten Kernbefehls in einen ersten teilweise decodierten Befehl und eines zweiten codierten Kernbefehls in einen zweiten teilweise decodierten Befehl enthält und ferner eine Einrichtung enthält, die auf einen empfangenen Nichtkern-Befehl anspricht, wobei

die interne Cache-Speichereinrichtung (22) die mehreren Cache-Speicherplätze umfaßt, wobei jeder Cache- Speicherplatz mehrere Speicherschlitze enthält, wovon jeder eine Einrichtung zum Speichern eines decodierten Befehls enthält; und

eine Einrichtung zum gleichzeitigen Wiedergewinnen mehrerer decodierter Befehle aus den Speicherschlitzen eines ausgewählten Cache-Speicherplatzes zum parallelen oder sequentiellen Ausführen durch die mehreren funktionalen Einheiten, und wobei

jeder der Cache-Speicherplätze eine Einrichtung zum Speichern von Hilfsinformationen enthält, die angeben, ob die mehreren Befehle, die in den Schlitzen eines Cache- Speicherplatzes gespeichert sind, unabhängig sind, so daß die Befehle parallel ausgeführt werden können, oder abhängig sind, so daß die Befehle sequentiell ausgeführt werden müssen.

7. Prozessor nach einem der Ansprüche 1 bis 6, wobei die interne Cache-Speichereinrichtung (22) eine mengenassoziative Zweiwege-Organisation enthält.

8. Verfahren zum Ausführen von Befehlen in einem Prozessor, wobei der Prozessor enthält:

eine Prozessoreinheit (14), die mehrere funktionale Einheiten (24, 26, 28) zum parallelen Ausführen von Befehlen enthält;

eine erste Wiedergewinnungseinrichtung (18) zum Wiedergewinnen eines codierten Befehls vom externen Hauptspeicher;

eine Decodierungseinrichtung (18, 20) zum Decodieren codierter Befehle;

eine interne Cache-Speichereinrichtung (22), die mehrere Cache-Speicherplätze zum Speichern von Befehlen enthält; und

eine zweite Wiedergewinnungseinrichtung zum gleichzeitigen Wiedergewinnen mehrerer Befehle von ausgewählten Cache-Speicherplätzen für die Ausführung durch die funktionalen Einheiten (24, 26, 28),

wobei das Verfahren die folgenden Schritte enthält:

(a) Wiedergewinnen codierter Befehle vom externen Hauptspeicher;

(b) teilweises Decodieren der im Wiedergewinnungsschritt (a) wiedergewonnen Befehle;

(c) Speichern der im Decodierungsschritt (b) teilweise decodierten Befehle in der internen Cache-Speichereinrichtung (22); und

(d) Wiedergewinnen der im Speicherschritt (c) gespeicherten teilweise decodierten Befehle für eine nachfolgende Ausführung durch die mehreren funktionalen Einheiten,

wobei die Schritte (a) bis (c) vor der Ausführung des Schrittes (d) ausgeführt werden, wobei teilweise decodierte Befehle direkt zu den funktionalen Einheiten (24, 26, 28) geschickt werden, wodurch die Verarbeitungsgeschwindigkeit erhöht wird.

9. Verfahren nach Anspruch 8, mit dem Schritt des Speicherns von Hilfsinformationen in den Cache-Speicherplätzen, wobei die Hilfsinformationen angeben, ob die mehreren in den Schlitzen eines Cache-Speicherplatzes gespeicherten Befehle unabhängig sind, so daß die Befehle parallel ausgeführt werden können, oder abhängig sind, so daß die Befehle sequentiell ausgeführt werden müssen.

10. Verfahren nach Anspruch 8 oder 9, bei dem die interne Cache-Speichereinrichtung die mehreren Cache-Speicherplätze enthält, wobei jeder Cache-Speicherplatz mehrere Speicherschlitze enthält, wovon jeder eine Einrichtung zum Speichern eines decodierten Befehls enthält; und

mit dem Schritt des gleichzeitigen Wiedergewinnens mehrerer decodierter Befehle aus den Speicherschlitzen eines ausgewählten Cache-Speicherplatzes für eine parallele oder sequentielle Ausführung durch die mehreren funktionalen Einheiten, und mit dem Schritt des Speicherns von Hilfsinformationen in den Cache-Speicherplätzen, wobei die Hilfsinformationen angeben, ob die mehreren in den Schlitzen eines Cache-Speicherplatzes gespeicherten Befehle unabhängig sind, so daß die Befehle parallel ausgeführt werden können, oder abhängig sind, so daß die Befehle sequentiell ausgeführt werden müssen.