DE69129872T2

DE69129872T2 - Datenverarbeitungssystem mit einem leistungsverbessernden Befehlscachespeicher

Info

Publication number: DE69129872T2
Application number: DE69129872T
Authority: DE
Inventors: Chi-Hung C/O Int. Octrooibureau B.V. Nl-5656 Aa Eindhoven Chi
Original assignee: Philips Electronics NV
Current assignee: NXP BV
Priority date: 1990-03-27
Filing date: 1991-03-25
Publication date: 1999-03-04
Anticipated expiration: 2011-03-26
Also published as: JPH04225428A; EP0449369B1; JP3095802B2; US5701435A; EP0449369A3; DE69129872D1; EP0449369A2

Description

ANWENDUNGSBEREICH DER ERFINDUNG

Die vorliegende Erfindung bezieht sich auf ein Datenverarbeitungssystem entsprechend der Einleitung von Anspruch 1.
In Datenverarbeitungssystemen werden gespeicherte Speicherprogramme benutzt, die durch sequentielle Ausführung von Befehlszeilen ausgeführt werden. Das Abrufen einer Befehlszeile aus dem Speicher erfordert den Zugriff auf den Systembus, wodurch die Gesamtrechengeschwindigkeit abnimmt.
Um die Belastung des Busses bei zeilenweiser Programmausführung zu verringern, wurden Befehlscachespeicher verwendet, die das Vorabrufen von Befehlszeilengruppen während einiger Zyklen des Speicherbusses ermöglichen. Der Prozessor kann dann auf eine Befehlszeile im Cache verweisen, ohne die Verfügbarkeit des Busses zu berücksichtigen. Ein spezielles Datenverarbeitungssystem mit einer Befehlsvorabruf- Warteschlange gefolgt von einem Befehlscache, die beide einen Befehlsdecodierbereich versorgen, wurde von Masahito Matsuo et al. in der Patentschrift US-A-4.847.753 beschrieben. Ein Komparator vergleicht eine vorhergesagte, im Befehlscache gespeicherte Zieladresse mit einer echten Zieladresse, die durch die Befehlsausführeinheit erzeugt wurde. Bei Gleichheit ist eine Fortführung des schnellen Pipelining möglich. Dieser Aufbau ist vorteilhaft bei rein sequentiellen Programmen oder solchen Programmen, in denen nur "kleine" Adressensprünge auftreten, d. h. um einen geringeren Abstand als in dem Befehlscache gespeichert.
Viele Programme sind von Natur aus nicht ganz sequentiell. Verzweigungsbefehle können große und kleine Adressensprünge sowohl vorwärts als auch rückwärts beinhalten. Schleifenbefehle enthalten mindestens einen Befehl mit einem Rückwärts-Adressensprung. Wenn Befehle auf sequentieller Basis vorabgerufen werden, kann es zu einem Cache-Fehltreffer kommen, falls der als nächstes auszuführende Befehl der Zielbefehl eines Rückwärts-Adressensprungs ist. Der Cache muß dann einige Buszyklen dazu verwenden, den betreffenden Befehl zu erfassen.
Das Vorabrufen von Befehlen zur Ausführung kann außerdem zu dem zusätzlichen Problem der Verschmutzung des Cache führen, wobei Befehlszeilen in den Cache vorabgerufen und niemals genutzt werden. Dies hat eine Vergeudung von Speicherplatz im Cache zur Folge, und zwar aufgrund der erhöhten Möglichkeit eines Cache-Fehltreffers durch die Speicherung von Befehlen im Cache, auf die nicht verwiesen wird.
Eine Lösung für dieses Problem liegt in einer Cache-Vorabrufoperation, die eine Zeile vorausschaut. Falls ein Cache-Fehltreffer auftritt, werden beim nächsten verfügbaren Buszugriff die verwiesene Zeile und die nächste folgende Befehlszeile vorabgerufen. Bei diesem Verfahren wird nicht überprüft, ob die nächste Zeile tatsächlich benutzt wird, wodurch der Cache eher verschmutzt als seine Leistung verbessert werden kann.

ZUSAMMENFASSUNG DER ERFINDUNG

Der Erfindung liegt die Aufgabe zugrunde, das wirksame Vorabrufen von Befehlen aus einem Programmspeicher in einen Befehlscache zu schaffen, um insbesondere Cache-Fehltreffer während der Ausführung des Programms und die Verschmutzung des Cache mit ungenutzten Befehlen zu vermeiden.
Gemäß einem Aspekt der Erfindung wird die Aufgabe dadurch gelöst, daß die genannte Vorabrufeinheit gemäß dem beschreibenden Teil von Anspruch 1 gekennzeichnet ist.
Insbesondere ruft der Befehlsausführungs-Cache während eines verfügbaren Buszyklus vorab eine Vielzahl von Befehlen aus einem Hauptprogrammspeicher ab. Die abgerufenen Befehle werden von einem Vorabrufprozessor untersucht, um die Wahrscheinlichkeit eines Cache-Fehltreffers durch den Rechner während der sequentiellen Ausführung der vorabgerufenen Befehle zu bestimmen.
Die Vorhersage eines Cache-Fehltreffers beruht auf der Feststellung, ob ein Befehl, zum Beispiel ein Verzweigungsbefehl, in den Cache geladen wurde oder nicht. Da diese Befehlsarten dazu führen, daß die Programmausführung nicht sequentiell abläuft, und die Ausführung zu einem Zielbefehl zwingen, enthalten die nächsten vor abzurufenden Befehle den Zielbefehl.
In der US-amerikanischen Patentschrift 3.466.613 wird die Aufrechterhaltung einer Gruppe von Schleifenbefehlen im Cache durch Kennzeichnung des entsprechenden ersten Befehls beschrieben. In der vorliegenden Erfindung wird ebenfalls ein spezieller Vorabrufbefehl (zum Beispiel) vor dem letzten Schleifenbefehl verwendet.
Wenn Befehle bekanntermaßen zu einer Gruppe von wiederholt ausgeführten Befehlen, insbesondere zu einer Schleife, gehören, wird außerdem der Bereich des Befehlscache, der wiederholt ausgeführte Befehle enthält, eingefroren, d. h. er befindet sich in einem Zustand, indem die Befehle gelesen und nicht überschrieben werden können. Auf diese Weise ist es möglich, die ersten Befehle eines Programmblocks, die mit hoher Wahrscheinlichkeit wiederverwendet werden, für den wiederholten Gebrauch im Cache aufzubewahren. Manchmal wird aus praktischen Gründen nur ein Teil der Schleife eingefroren. Bei der Realisierung der Erfindung können explizite Befehle in das Programm eingefügt werden, um im nächsten verfügbaren Buszyklus einen Vorabruf der Zielbefehle eines Verzweigungsbefehls zu verlangen. Ein Befehl zum Einfrieren und Ausfrieren von Befehlen im Cache kann in das Programm eingefügt werden, um festzustellen, wann diese Maßnahmen getroffen werden müssen.
Weitere vorteilhafte Aspekte der Erfindung sind in den abhängigen Patentansprüchen dargelegt.

KURZE BESCHREIBUNG DER FIGUREN

Fig. 1 stellt eine Cachespeicherschnittstelle zwischen einem Programmspeicher 13 und einer Verarbeitungseinheit 11 dar.
Fig. 2 stellt die Programmverwaltung im Speicher 13 dar, die für ein explizites Vorabrufen von Zielbefehlen vor der Ausführung eines Verzweigungsbefehls sorgt.
Fig. 3 stellt die Programmverwaltung im Speicher 13 dar, die für das Einfrieren von Cachebefehlen sorgt.
Fig. 4 stellt den Cachebefehlsinhalt während der Programmausführung dar, wobei Befehle eingefroren sind.
Fig. 5 stellt eine Rechnerarchitektur zur Implementierung des Vorabrufens von Cachebefehlen gemäß des in den Fig. 2 und 3 dargestellten Befehlsflusses dar.

BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM

Fig. 1 zeigt eine Befehlsverarbeitungseinheit (CPU), die vielen Rechner- Verarbeitungssystem-Architekturen gemeinsam ist. Die Befehlscache-Schnittstelle zwischen der Verarbeitungseinheit 11 und dem Programmspeicher 13 ist zwar nur als einzelnes Betriebssystem dargestellt, es ist jedoch wohlbekannt, daß sie auch, für parallele Betriebssysteme eingesetzt werden kann. Derartige Befehlscache-Anordnungen sind in der obengenannten Referenz beschrieben. Insbesondere ist davon auszugehen, daß die Vorabrufeinheit in dem Befehlscache enthalten ist, wie es in Fig. 1 symbolisch dargestellt ist.
Der Befehlscache 12 erlaubt es der Verarbeitungseinheit 11, eine Anzahl von Befehlen zur Ausführung während eines verfügbaren Buszyklus oder einer ähnlichen kurzfristigen Busoperation des Rechnerbusses 10 vorabzurufen. Die vorabgerufenen Befehle werden im Befehlscache 12 gespeichert, so daß der Bus daraufhin für andere Aufgaben genutzt werden kann, die von der Verarbeitungseinheit 11 durchgeführt werden müssen. Durch die Entlastung des Busses 10 von Befehlsabrufoperationen kann die Gesamtverarbeitungsgeschwindigkeit verbessert werden, indem der Bus 10 für andere Aufgaben für die Verarbeitungseinheit 11 verfügbar gemacht wird.
Während einer typischen Systemoperation kann die Verarbeitungseinheit 11 eine oder mehrere Befehlszeilen aus dem Speicher 13 abrufen. Die Befehlszeilen enthalten wiederum eine Vielzahl von Worten, die jeweils einem einzelnen Teilbefehl für die Befehlszeile entsprechen können.
Die abgerufenen Befehle im Cache 12 werden dann von der Verarbeitungseinheit 11 sequentiell verarbeitet. Da die meisten Programme als Folge von Befehlsblöcken geschrieben sind und über einen einzigen Eingangs- und Ausgangspunkt verfügen, führt das sequentielle Vorabrufen der Befehle oft dazu, daß die für die Ausführung benötigten Befehlsfolge im Cache 12 zur Verfügung stehen. Insbesondere ist ein solches sequentielles Vorabrufen vorteilhaft, wenn das Aufrufen von Befehlen im mer von einem Befehl zum nächsten erfolgt.
Wenn die Verarbeitungseinheit während der Ausführung der Befehle auf das letzte Wort einer bestimmten Befehlszeile verweist, überprüft die Verarbeitungseinheit 11 als Vorbereitung für die Ausführung dieses Befehls die nächstfolgende Zeile, um zu ermitteln, ob sie sich in dem Befehlscache 12 befindet oder nicht. Wenn sie sich nicht im Befehlscache 12 befindet, wird ein Cache-Vorabruf für die Befehlszeile ausgegeben, die auf die Zeile mit dem letzten auszuführenden Wort folgt.
Bestimmte bedingte Verzweigungsbefehle verändern die Ausführfolge der Verarbeitungseinheit 11. Im Fall einer "Wenn"-Anweisung oder einer anderen Art von Verzweigungsbefehl ist der nächste erforderliche Befehl wahrscheinlich ein Befehl, der vorher abgerufen worden sein kann und seitdem im Befehlscache 12 ausgesondert worden ist. Das Abrufen eines derartigen ausgesonderten Befehls führt natürlich zu einem Cache-Fehltreffer.
Bei einem Ausführungsbeispiel der vorliegenden Erfindung wird der Befehlscache 12 nicht immer den nächsten Befehl aus dem Speicher 13 vorabrufen, wenn ein Verzweigungsbefehl vorabgerufen wurde. Wenn es sich jedoch bei dem Befehl um einen unbedingten Verzweigungsbefehl handelt, kann im Befehlscache 12 ein Vorabruf bit für diesen unbedingten Verzweigungsbefehl gesetzt werden, wodurch der nächstfolgende Befehl während des nächsten verfügbaren Buszyklus vorabgerufen werden kann.
Wenn ein bedingter Verzweigungsbefehl einmal ausgeführt wird, kann ein Buszyklus für Bus 10 erforderlich sein, um den bestimmten Zielbefehl abzurufen. Es erfolgt also kein Vorabruf im Befehlscache 12, bis der Verzweigungsbefehl ausgeführt worden ist.
Dieses spezielle Verfahren zum Verhindern des Vorabrufens, wenn ein bedingter Verzweigungbefehls zur Ausführung vorgegeben ist, verhindert den Cache- Fehltreffer, der auftreten kann, wenn ein sequentieller Befehl aus dem Programmspeicher 13 abgerufen werden sollte, bevor ein bedingter Verzweigungsbefehl ausgeführt wurde, wenn letzterer die Steuerung auf einen Zielbefehl übertragen würde, der nicht der nächste sequentielle Befehl ist.
Das oben beschriebene bedingte Vorabrufen kann implementiert werden, indem das Programmverhalten in Hinblick auf das Auftreten von Verzweigungsbefehlen und anderen Ereignissen analysiert wird, die die Ausführung von nicht-sequentiellen Befehlen erfordern. Durch die Vorwegnahme, daß zukünftige Verweise der Verarbeitungseinheit 11 auf Befehle des gespeicherten Programms des Speichers 13 eventuell nicht auf sequentielle Befehle erfolgen, ist es möglich, der Verschmutzung des Befehlscache 12 durch nichtgenutzte Befehle vorzubeugen, ohne irgendein zusätzliches Risiko eines Cache-Fehltreffers durch die Unterbrechung des sequentiellen Vorabrufens von Programmbefehlen einzugehen.
Bei der Implementierung des oben beschriebenen Verfahrens kann ein bedingter Verzweigungsbefehl auftreten, der die Programmausführungsfolge auf eine andere Zeile eventuell vor denjenigen verschiebt, die ausgeführt werden. Um ein gedankenloses Vorabrufen von Befehlen zu vermeiden, die unmittelbar auf einen derartigen bedingten Verzweigungsbefehl folgen, wird der Verzweigungsbefehl untersucht, und falls es sich um eine bedingte Verzweigung handelt, wird das Cache-Vorabrufbit so gesetzt, daß das Vorabrufen von nachfolgenden Verzweigungsbefehlen verhindert wird, bis der Verzweigungsbefehl tatsächlich ausgeführt wurde. Wenn der Verzweigungsbefehl einmal ausgeführt ist und die Verarbeitungseinheit 11 den Zielbefehl vom Speicher 13 richtig identifiziert und auf ihn verweist, kann das Vorabrufen wieder sequentiell beginnen, bis weitere Verzweigungsbefehle angetroffen werden.
Das obige Verfahren zur Entscheidungsfindung, wann auf sequentieller Basis in einem Programmspeicher 13 enthaltene Befehle vorabgerufen werden, funktioniert gut innerhalb von Befehlsblöcken, die das Programm enthalten. Indem der Befehlscache erkennt, wann Programme nicht sequentiell auszuführen sind, kann er einen Fehltreffer und das unnötige Vorabrufen von nicht benötigten Befehlen vermeiden. Dadurch werden unnötige Buszyklen eingespart und die Verschmutzung des Befehlscache 12 mit unbenutzten Befehlen vermieden.
Die Steuerung des Vorabrufens kann auch erfolgen, indem explizite Vorabruf-Steuerbefehle an verschiedenen Punkten in das Programms eingefügt werden, durch die dem Cache und dem Rechnerprozessor eine auszuführende Befehlsadresse mitgeteilt wird, die nicht sequentiell ist.
Fig. 2 zeigt die Verwaltung einer Reihe von Programmbefehlen im Speicher 13, die Teil eines Blockes beginnend mit der Befehlsadresse 001 sind. An der Adresse 010 befindet sich ein Verzweigungsbefehl, der ein bedingtes Ziel angibt, das der Beginn des durch die Adresse 001 bezeichneten Befehlsblocks ist. Wird die Bedingung zu einem anderen Ergebnis führt, so ist der nächste Befehl die Adresse 011. Daher werden die Befehlszeilen an den Adressen 001 bis 009 immer sequentiell ausgeführt.
In dem mit der Adresse 001 beginnenden Block ist auch ein expliziter Vorabrufbefehl an der Adresse 009 dargestellt. Der explizite Vorabrufbefehl gibt, wenn er vom Prozessor ausgeführt wird, dem Cache den an der Adresse 001 befindlichen Befehl an, bevor der Verzweigungsbefehl durch den Prozessor 11 ausgeführt wird. Durch Vorabrufen der Adresse 001 wird somit der Zielbefehl für den Verzweigungsbefehl an der Adresse 010 im Cache verfügbar und ein Fehltreffer vor der Ausführung des Verzweigungsbefehls wird vermieden. Das sequentielle Vorabrufen kann im nächsten verfügbaren Buszyklus von der Adresse 001 fortfahren, wodurch ein kontinuierliches sequentielles Vorabrufen der Befehle im Speicher 13 ermöglicht wird.
Die Verwendung des expliziten Vorabrufbefehls ist vorteilhaft an Schleifenenden, bei denen der Programmzähler für den Prozessor 11 normalerweise zum Beginn der Schleife zurückspringen würde. Verzweigungsbefehle am Ende einer Schleife sind bedingt, und obwohl die Ausführung eines Programmbefehls schließlich die Schleife verlassen wird, ist es eher wahrscheinlich, daß die Ausführungsfolge der Programmbefehle innerhalb der Schleife bleibt. Offensichtlich tritt, wenn der Verzweigungsbefehl 010 einmal erfüllt wurde und der Befehl 011 ausgeführt werden soll, ein Fehltreffer im Cache auf, wenn der Prozessor auf den Befehl 011 verweist. Die Fehltreffer-Strafzeit wird unter dieser Bedingung jedoch klar durch das Vorabrufen des wahrscheinlicheren Befehls bei 001 am Beginn der Schleife aufgewogen.
Unterroutinen im Programm des Speichers 13 bewirken ebenfalls eine Änderung der Ausführungsfolge von einem sequentiellen Befehl zu einem versetzten Befehl. Der explizite Vorabrufbefehl kann verwendet werden, wenn Divergenz-Befehle, zum Beispiel "Wenn"-Anweisungen, angetroffen werden. Ein Vorabrufbefehl kann auch bedingten Befehlen vorangehen, um vorteilhafterweise einen nicht-sequentiellen Zielbefehl vorabzurufen.
Bei der Auswahl eines Platzes eines vorabgerufenen Befehls hinsichtlich eines Verzweigungsbefehls, um ausreichend Zeit für das Vorabrufen des erforderlichen Zielbefehls vor der Ausführung des Verzweigungsbefehls zu erhalten, sollte sich der Vorabrufbefehl ein paar Befehle vom Verzweigungsbefehl entfernt befinden, so daß viel Zeit für das Vorabrufen zur Verfügung steht. In Fig. 2 befindet er sich nur eine Adresse davor. Manchmal ist ein Abstand größer als Eins vorteilhaft.
Es ist auch möglich, mehr als einen Vorabrufbefehl vorzusehen, der ein zweites Ziel von einem Verzweigungsbefehl angibt. Dadurch würden dann vorabgerufene Ziele geschaffen, die verfügbar wären, sobald der Verzweigungsbefehl einmal ausgeführt ist.
Die übermäßige Verwendung von Vorabrufbefehlen für alle Verzweigungsbefehle ist zu vermeiden. Es ist klar, daß durch das Einfügen von Vorabrufbefehlen das Verzweigungsziel vor der Ausführung vorabgerufen wird, unabhängig davon, ob dieses Verzweigungsziel benötigt wird oder nicht. Dadurch entsteht ein zusätzlicher Buszyklusaufwand zum Vorabrufen eines Befehls, der eventuell letzten Endes nicht verwendet wird.
Es ist offensichtlich, daß der fachkundige Programmierer selektiv explizite Cache-Vorabrufbefehle für diejenigen Verzweigungsbefehle einfügen kann, die eine größere Wahrscheinlichkeit eines Cache-Fehltreffers für ihre Verzweigungsziele auf weisen. Hierzu würden Verzweigungen zählen, die ein Ziel mit einem absoluten Versatz vom Verzweigungsbefehl ausweisen, der größer ist als die Cachegröße. Durch die Verwendung von Vorabrufbefehlen für diese Bedingungen wird die Wahrscheinlichkeit eines Cache-Fehltreffers reduziert, ohne den Bus 10 mit unnötigen Befehlsvorabrufen zu überlasten. Wenn das vorstehende Prinzip befolgt wird, daß in dem Fall, daß ein Verzweigungsbefehl die Übertragung der Programmausführung auf einen Befehl erfordert, dessen Versatz bezüglich des Verzweigungsbefehls größer als die Cachegröße ist, ist die Wahrscheinlichkeit, daß sich dieses Verzweigungsziel im Cache befindet, sehr gering, es sei denn, der Befehl wird explizit abgerufen.
Die obigen Verfahren zur Schaffung eines expliziten Cache-Vorabrufs können durch die Verwendung von Hardware-Decodierlogik im Befehlscache 12 realisiert werden. Durch Decodierung des Operationscodes jedes vorabgerufenen Befehls ist es möglich, das Vorliegen eines Verzweigungsbefehls zu bestimmen. Wenn die Opera tionscode-Erkennung angibt, daß der Befehl Teil eines unbedingten Verzweigungsbefehls ist, wird der sequentielle Cache-Vorabruf gestoppt und ein Vorabruf des von dem Verzweigungsbefehl angegebenen Verzweigungsziels gestartet. Wenn der Operationscode Teil eines bedingten Verzweigungsbefehls ist, werden Befehle von unterschiedlichen Verzweigungszielen entsprechend einer vorgegebenen Wahrscheinlichkeit der Ausführung dieser Verzweigungen vorabgerufen.
Das vorherige Decodieren von in den Befehlscache vorabgerufenen Befehlen unterscheidet sich von herkömmlichen Verfahren zum Vorabrufen von Verzweigungsbefehlen von einem gerade decodierten und vom Prozessor ausgeführten Verzweigungsbefehl. Nach dem Stand der Technik wäre jegliche Latenzzeit zwischen der Erkennung eines Verzweigungsoperationscodes und der tatsächlichen Verwendung des Verzweigungsziels sehr kurz. Die vorliegende Lösung schlägt jedoch vor, Befehle im Befehlscache vor der Ausführung zu untersuchen, indem Verzweigungsziele auf der Basis der Operationscode-Decodierung vorabgerufen werden.
Zu den anderen Verfahren, die eine vorherige Analyse des im Programmspeicher 13 gespeicherten Programms nutzen, zählt das selektive Einfrieren des Inhalts des Befehlscache 12. Durch die Verwendung des obigen sequentiellen Vorabrufens als normalen Vorabrufmodus ist es möglich, Elemente eines Befehlsblocks im Befehlscache 12 einzufrieren, die wahrscheinlich erneut verwendet werden. Statt auf diese Befehle, die einmal verwendet und dann ausgesondert wurden, explizit zurückzuverweisen, werden sie im Befehlscache aufrechterhalten und können nur gelesen und nicht ersetzt werden, während das Programm innerhalb des Blockes ausgeführt wird.
Das selektive Einfrieren von Cachezeilen ist in Situationen nützlich, in denen als Cache-Ersetzungsverfahren LRU (Least Recently Used) genutzt wird. Hierbei wird der letzte im Cache zu verwendende Befehl durch den nächsten vorabgerufenen Befehl ersetzt. Bei sequentieller Ausführung eines Befehlsblocks mit einer Schleife, die größer ist als die Cachegröße, werden die Schleifenbefehle dadurch kontinuierlich und sequentiell in den Cache abgerufen, nur einmal durch Prozessor verwiesen und dann sofort ersetzt, bevor erneut auf sie verwiesen wird. Dies fördert einen ineffizientes Vorabrufen und erfordert Buszykluszeit durch ständiges Vorabrufen von Befehlen, die nur ein paar Ausführzyklen vorher wieder verwendet wurden.
In Fig. 3 ist eine Folge von Programmbefehlen dargestellt, die mit der Adresse 000 beginnt und bis zur Adresse 100 geht und den Vorgang des Einfrierens von häufig verwendeten Befehlen veranschaulicht. In dem Block mit Programmbefehlen aus Fig. 3 ist ein Verzweigungsbefehl an der Adresse 010 enthalten. Durch das Einigen eines Einfrierbits in dem Befehl 1, der ein Zielbefehl für den Verzweigungsbefehl bei der Adresse 010 sein kann, ist es möglich, diesen Befehl im Cache zu halten und zu verhindern, daß er ersetzt wird, bis das Programm die Schleife zu einem Befehl mit höherer Nummer verläßt. An der Adresse 011 kann sich ein expliziter Ausfrierbefehl befinden, der es nach der Beendigung der Schleife innerhalb des Blocks, der durch die Befehle an den Adressen 001 bis 010 dargestellt wird, ermöglicht, diese eingefrorenen Befehle in nachfolgenden Vorabrufzyklen auszusondern.
Fig. 4 zeigt, wie Befehle an den Adressen 001, 002 und 003 in einem Bereich des Cache eingefroren werden können, wodurch nur die Zeilen 4, 5 und 6 des Cache vorabgerufen werden können. Auf diese Weise werden sie in den Cache geladen und eingefroren, wenn das sequentielle Vorabrufen von Befehlen von den Adressen 001 bis 003 beginnt. Befehle an den Adressen 004 bis 009 werden - vorzugsweise zu zweit - während aufeinanderfolgender verfügbarer Buszyklen vorabgerufen und durch den Prozessor ausgeführt. Zum Zeitpunkt des Vorabrufens des Verzweigungsbefehls an der Adresse 010, sind die Befehle an den Adressen 001, 002 und 003 in den ersten drei Zeilenbereichen des Cache eingefroren. Somit ist ein Vorabrufen der Zielbefehle nicht notwendig, da 001 ein Ziel des Verzweigungsbefehls an der Adresse 010 ist. Außerdem ist kein Vorabrufen erforderlich, bis der Befehl 003 ausgeführt worden ist, wobei die verbleibenden sequentiellen Befehle an den Adressen 004 bis 010 in den nicht ausgefrorenen Bereich des Cache eingefügt werden können. Wenn der Prozessor einmal aufgrund der Ausführung des Verzweigungsbefehls auf den Ausfrierbefehl 011 verwiesen hat und dadurch darauf hingewiesen wird, daß die Schleife vollständig ausgeführt wurde, ermöglicht es der Ausfrierbefehl, daß alle sechs (6) Plätze im Befehlscache bei dem sequentiellen Vorabrufen weiterer Befehle verwendet werden können.
Bei der Auswahl der Zeilen eines Cache, die eingefroren werden sollten, sind die folgenden Kriterien zu beachten.
Die Eintrittszeile eines grundlegenden Blocks hat die höchste Priorität beim Einfrieren im Cache. Wenn der Befehlsblock eine Schleife enthält, die als Ziel die Eintrittszeile eines grundlegenden Blocks aufweist (eine häufig auftretende Situation), ist für die Ausführung der Schleife kein Verzweigungsziel-Vorabruf erforderlich, wenn die Eintrittszeile im Cache eingefroren ist. Durch Einfrieren der ersten oder der ersten beiden Eintrittszeilen eines Befehlsblocks ist offensichtlich, daß der Befehlscache bereits den gewünschten Befehl enthält, wenn der Prozessor auf das Ziel, d. h. die Eintrittszeile, verweist. Dadurch wird nicht nur die Busauslastung reduziert, sondern auch ein expliziter Cachebefehl zum Vorabrufen des Verzweigungsziels oder jegliche zusätzliche Hardware-Decodierung zum Durchführen einer Operationscode-Untersuchung überflüssig gemacht.
Der Cache sollte selektiv auf eine solche Weise eingefroren werden, daß die eingefrorenen Cachezeilen und der implizite Cachevorabruf des nicht eingefrorenen Bereichs des Cache gleichmäßig auf die eine Schleife bildenden Befehle verteilt sind. Die Größe des eingefrorenen Bereichs des Befehlscache sollte so gering wie möglich sein, um sicherzustellen, daß der freie, nicht eingefrorene Bereich groß genug ist, um die restlichen Befehle einer Schleife zu handhaben.
Fig. 5 zeigt die Architektur zur Implementierung eines Befehlscache mit einem Bereich, der eingefroren, d. h. nur gelesen werden kann, und einem Bereich, der frei beschrieben und gelesen werden kann. Der Prozessor 11 weist hier einen Programmzähler 18 auf, der die Adresse des nächsten auszuführenden Befehls angibt. Eine Vorabrufeinheit 19, die selbst ein Prozessor ist, überwacht das Vorabrufen von Befehlszeilen aus dem Speicher 13 auf der Grundlage des Programmzählers 18 und der oben beschriebenen Vorabrufverfahren.
Angenommen, der Eintrittsbefehl für einen Befehlsblock wurde vom Programmzähler 18 zum ersten Mal identifiziert, d. h. es wurde noch nicht in eine Schleife eingetreten, dann bestimmt die Vorabrufeinheit 19, ob die Zeile vorher vorabgerufen wurde oder nicht und entweder im Vorabrufpufferspeicher 21, dem aktuellen Pufferspeicher 20(b) oder im Befehlscache 20(a) zur Verfügung steht. Die Vorabrufeinheit 19 erzeugt eine Zeilenanforderung in Reaktion auf den Programmzähler 18, um sicherzustellen, daß der nächste erforderliche Befehl für den Prozessor 11 zur Verfügung steht. Die Vorabrufeinheit überprüft erst alle Puffereinheiten, d. h. den Vorabruf puffer P 21, den aktuellen Puffer C 20(b) und den Befehlscache 20(a), um zu ermitteln, ob sich eine Zeile mit dem gewünschten Befehl in einer dieser Einheiten befindet. Wenn ein Cache-Treffer in einer der Puffereinheiten vorliegt, d. h. wenn der erforderliche Befehl in diesen Einheiten vorhanden ist, ist kein Vorabruf erforderlich und der Befehl wird nicht vom Speichers 13 angefordert.
Falls ein Cache-Fehltreffer auftritt, wird im nächsten verfügbaren Zeitkanal für Bus 25 eine Vorabrufanforderung an den Hauptspeicher gesendet. Wenn die vorabgerufene Zeile eintrifft, normalerweise ist/sind dies die nächste sequentielle Zeile oder Zeilenpaare im Zweizeilen-Vorabrufmodus, wird sie in den Vorabrufpuffer P 21 eingefügt. Die neuen Zeilen ersetzen die ältesten verwendeten Befehlszeilen gemäß den LRU-Kriterien.
Wenn die Verarbeitungseinheit die Anforderung für den nächsten verfügbaren Befehl ausgibt, der vom Programmzähler 18 bestimmt wurde, werden alle Puffer nach dem erforderlichen Befehl durchsucht. Wird der erforderliche Befehl im Vorabruf puffer gefunden, befindet sich die verwiesene Zeile im aktuellen Puffer. Wenn die verwiesene Zeile im aktuellen Puffer gefunden wird, bleibt der gesamte Inhalt der Puffer unverändert. Wenn der erforderliche Befehl im Befehlscache 20(a) gefunden wird, bleibt der Inhalt aller Puffer unverändert.
Der Befehlscache 20(a) dient als ein Bereich des Befehlscache, der eingefroren werden kann. Der freie Bereich des Befehlscache ist der mit 20(b) bezeichnete aktuelle Puffer C.
Das in Fig. 5 dargestellte System ruft Befehle in Abhängigkeit vom Zähler 18 aus dem Speicher 13 vorab ab. Wenn durch den Prozessor 11 ein Treffer im Vorabrufpuffer P 21 erfolgt, wird die verwiesene Zeile in den aktuellen Puffer übertragen. Dies setzt sich fort, bis der aktuelle Puffer voll ist. Ist der aktuelle Puffer 20(b) voll, tritt die LRU-Regelung in Kraft, und der älteste verwiesene Befehl wird in den Befehlscache 20(a) übertragen, wenn der Befehlscache nicht eingefroren ist. Ist der Befehlscache 20(a) eingefroren, so wird jegliche vom aktuellen Puffer C 20(b) ersetzte Zeile nicht in den Befehlscache 20(a) eingefügt. Wenn einmal ein Einfrierbefehl durch den Prozessor 11 ausgeführt wurde, ist der Befehlscache 20(a) also eingefroren und die vorher abgerufenen Befehle werden dort zurückgehalten. Es ist vorteilhaft, wenn es sich hierbei um die ersten Zeilen einer Schleife eines Befehlsblocks oder um einen anderen derartigen Zielbefehl handelt. Der aktuelle Puffer C 20(b) kann weitere vorabgerufene Befehle über den Vorabrufpuffer P 21 empfangen.
Es wurden somit mehrere Ausführungsbeispiele eines Gesamtsystems zur Steuerung des Vorabrufens von Befehlen aus einem Befehlsspeicher 13 beschrieben. Diese Cache-Verwaltungsverfahren reduzieren die erforderliche Buszugriffzeit für das Vorabrufen von Befehlen und gleichzeitig die Gesamtzahl der Cache-Fehltreffer. Dem Fachkundigen werden noch weitere Ausführungsbeispiele der Erfindung ersichtlich sein, die in den folgenden Patentansprüchen genauer dargelegt sind.

Claims

1. Datenverarbeitungssystem mit einer Verarbeitungseinheit zum Ausführen eines gespeicherten Programms, das eine Vielzahl von Befehlen umfaßt, die sequentiell verbundene Befehlsblöcke bilden, wobei einige der genannten Befehlsblöcke Verzweigungsbefehle zum Übertragung der Ausführungsfolge für den genannten Befehl auf einen nicht-sequentiellen Befehl an anderer Stelle enthalten; wobei das genannte System folgendes umfaßt:

einen Befehlsspeicher zum Speichern des genannten gespeicherten Programms;

einen Befehlscache zum Speichern einer kleinen Anzahl der genannten Befehle von einem der genannten Blöcke und

eine Vorabrufeinheit, die von dem genannten Befehlsspeicher versorgt wird und selbst den genannten Befehlscache versorgt, um die genannte kleine Anzahl von Befehlen vorabzurufen,

dadurch gekennzeichnet, daß die genannte Vorabrufeinheit Analysemittel zum Analysieren eines expliziten Befehls unter den vorabgerufenen, aber nicht ausgeführten Befehlen besitzt, der sich vor einem bedingten Verzweigungsbefehl befindet, woraufhin das Vorabrufen von einem oder mehreren nächsten sequentiellen Befehlen ermöglicht wird, die auf den genannten bedingten Verzweigungsbefehl folgen, und das Vorabrufen in dem Fall, daß die Verzweigungsbedingungen des bedingten Verzweigungsbefehls erfüllt werden, vom/von den nächsten sequentiellen Befehl(en) umgeleitet und sonst die genannten vorabgerufenen nächsten sequentiellen Befehle ausgewählt werden.

2. System nach Anspruch 1, wobei das Programm im Befehlsspeicher voranalysiert wird und die genannte Vorabrufeinheit Befehlsblöcke im genannten Cache einfriert, für die während der Voranalyse festgestellt wurde, daß sie wahrscheinlich wieder verwendet werden.

3. System nach Anspruch 2, wobei die genannten eingefrorenen Befehle Schleifenbefehle sind.

4. System aus Anspruch 1, wobei das genannte Umleiten von dem genannten expliziten Befehl um eine Anzahl von Befehlen versetzt ist, die größer als die genannte Cache-Speicherkapazität ist.

5. System aus Anspruch 1, wobei der genannte explizite Befehl, der einen expliziten Vorabruf steuert, nur in einer Gruppe von Befehlen auftritt, die eine Schleife innerhalb eines Blocks bilden, wobei die genannte Schleife mehr Befehle als die Cachegröße enthält.

6. System nach einem der Ansprüche 1 bis 5, wobei das genannte Vorabrufen unbedingt blockweise erfolgt, wobei ein derartiger Block eine Vielzahl von einzelnen Befehlen enthält.

7. System nach Anspruch 2 oder 3, wobei in dem genannten Programm dem genannten Verzweigungsbefehl in einer sequentiellen Reihenfolge ein Ausfrierbefehl folgt.

8. System nach Anspruch 2 oder 3, wobei eine bestimmte Start-Befehlsteilfolge einer Schleifenfolge selbst signalisiert, eingefroren werden zu können.