DE68921906T2

DE68921906T2 - Verfahren für ein Multiprozessorsystem mit sich selbst zuordnenden Prozessoren.

Info

Publication number: DE68921906T2
Application number: DE68921906T
Authority: DE
Inventors: David M Chastain; Gary B Gostin; James E Mankovich
Original assignee: Convex Computer Corp
Current assignee: Hewlett Packard Development Co LP
Priority date: 1988-02-29
Filing date: 1989-01-25
Publication date: 1995-07-27
Anticipated expiration: 2009-01-26
Also published as: EP0330836A3; DE68928848T2; EP0623875A3; EP0623875A2; EP0623875B1; US5050070A; DE68921906D1; DE68928848D1; EP0330836A2; EP0330836B1

Description

Technisches Feld

Die vorliegende Erfindung betrifft allgemein Computersysteme und im besonderen Systeme mit einer Mehrzahl von unabhängigen Prozessoren.

Hintergrund der Erfindung

Die Rechenbedürfnisse im Feld der wissenschaftlichen Datenverarbeitung haben sich bis zu einem Punkt gesteigert, bei dem es schwierig ist, einen einzelnen Prozessor zu bauen, der ausreichende Leistungsfähigkeit hat. Dies ist durch Grenzen in der physikalischen Technologie beim Computerbau begründet. Ein Ansatz, dieses Problem zu lösen, besteht in der Verwendung von einer Mehrzahl von Prozessoren, um die Datenverarbeitungsleistung eines Systems zu erhöhen. Jedoch begegnet man vielen Problemen bei dem Versuch, Vielfach-Prozessoren zu verwenden. Vielfach-Prozessorsysteme können gleichzeitig mehrere unabhängige Prozesse (Programme) ausführen, und dies führt zu einer Steigerung des Systemdurchsatzes. Es besteht jedoch der Bedarf nach einem Vielfach-Prozessorsystem, das die Ausführung eines einzelnen Prozesses beschleunigen kann.
Es wurde bereits eine Anzahl von Systemen beschrieben, die das Ziel haben, die Rechengeschwindigkeit für einen einzelnen Prozeß zu erhöhen, aber alle diese Systeme haben einen oder mehrere Nachteile. Ein Beispiel eines solchen Systems ist in US-Patent Nr. 4 636 942 von Chen et al. beschrieben. Dieses Patent beschreibt ein System, in dem mehrere Prozessoren einen Satz gemeinsamer Register teilen. Diese Register werden in Cluster eingeteilt, und die Prozessoren, die zur Ausführung der gleichen Task zugewiesen sind, werden durch das Betriebssystem zum Zugriff auf einen gemeinsamen Cluster zugewiesen. Die Cluster- Register schaffen, zusammen mit einem Satz von Hardware-Semaphoren, eine schnelle Synchronisation zwischen den zusammenarbeitenden Prozessoren. Dieses System hat eine Anzahl von Nachteilen, die tendenziell zur Verschlechterung der Leistungsfähigkeit des Systems führen, wenn es zum parallelen Prozessieren eingesetzt wird. Wenn ein Prozeß parallele Operationen startet, muß die Cluster-Zuweisung von Registern durch das Betriebssystem ausgeführt werden. Diese Übergabe der Steuerung vom ausführenden Prozeß zum Betriebssystem und zurück ist recht zeitaufwendig. Nach Zuordnung der Prozessoren wird eine Task-Synchronisierung zwischen den Prozessoren mit einer Laufzeitbibliothek durchgeführt, die in den Prozeßcode eingebettet sein muß und erhebliche Ausführungszeit benötigt, um die Task-Synchronisierung durchzuführen. Ferner wird der Multi-Task-Betrieb für eine parallele Ausführung eines Prozesses bei Chen et al. durch den Programmierer aufgerufen. Daher wird eine Parallelisierung nur aufgerufen, wenn dies zuvor durch den Programmierer bestimmt worden ist. Grundsätzlich benutzt der Ansatz von Chen et al. einen erheblichen Zeitüberhang, um den Multi-Task-Betrieb innerhalb eines Prozesses aufzurufen. Als Ergebnis dessen kann das in dem Patent von Chen et al. beschriebene System nur effektiv angewendet werden, wenn sehr große parallelisierbare Abschnitte des Codes innerhalb eines Prozesses vorhanden sind. Dies wird als "grobkörnige Parallelisierung" bezeichnet. Das von Chen et al. beschriebene System kann nicht in effizienter Weise verwendet werden, um Parallelisierung in kleinen Bereichen auszuführen.
Ein anderer Ansatz, der vorgeschlagen worden ist, besteht darin, Prozessoren im voraus für eine Task im Programm zu reservieren, wenn der Prozeß zur Ausführung geladen wird, wobei alle reservierten Prozessoren für die gesamte Ausführungszeit reserviert bleiben. Ein solcher Ansatz wurde vorgeschlagen in "Microtasking on IBM Multiprocessors", P. Carnevali et al., Proc. of the 1986 IBM Europe Institute Seminar on Parallel Computing: Parallel Systems and Computation, Oberlech, AT, August 1986, Seiten 41- 46. Durch Reservieren der Prozessoren im voraus können die parallelen Segmente des Prozesses mit reduzierter Synchronisationszeit ausgeführt werden. Die meisten Prozesse haben aber sowohl serielle als auch parallele Codesegmente, und wenn ein serielles Segment in einem Prozessor ausgeführt wird, laufen die übrigen reservierten Prozessoren im Leerlauf. Wenn der Prozeß in seriellem Code ausgeführt wird, laufen die übrigen Prozessoren im Leerlauf zustand. In den meisten praktischen Anwendungen führt der Ansatz, Prozessoren im voraus im Programm für parallele Ausführung zu reservieren, wie in dem obigen Artikel beschrieben, zu einem Verlust von Systemdurchsatz aufgrund des Leerlauf zustands der nicht benötigten Prozessoren während serieller Programmausführung.
In Hinblick auf den Bedarf für eine erhöhte Verarbeitungsgeschwindigkeit für einzelne Prozesse und auf die Schwierigkeiten, denen man beim Versuch, Multi-Prozessoren einzusetzen, begegnete, besteht ein Bedarf für ein Verfahren, das die parallelen Segmente eines Prozesses mit einem geringen Zeitüberhang ausführen kann, während keine Prozessoren im Leerlaufzustand gehalten werden, wenn ein Prozeß in einem seriellen Segment ausgeführt wird.
Gemäß der Erfindung wird ein Verfahren zur parallelen Ausführung eines Prozesses in einem Computersystem mit einer Mehrzahl von Prozessoren geschaffen, wobei das Verfahren die Schritte aufweist:
Beginnen der Ausführung eines Prozesses durch Schreiben von Prozeßstatusparametern für den Prozeß in definierte Register in einem Kommunikationsregistersatz, der für alle Prozessoren in dem System zugänglich ist,
Starten einer seriellen Ausführung des Instruktionscodes des Prozesses durch einen ersten der Prozessoren,
auf die Ausführung einer Parallelisierungsinstruktion für den Prozeß durch den ersten Prozessor, welche Parallelisierungsinstruktion parallele Prozeßoperationen für den Prozeß, welche parallel ausführbar sind, anzeigen, hin (a) Schreiben von zusätzlichen Prozeßstatusparametern für den Prozeß in den Kommunikationsregistersatz, um anderen der Prozessoren zu ermöglichen, bei der Ausführung der parallelen Prozeßoperationen für. den Prozeß mitzuwirken, und (b) Signalisieren an alle anderen Prozessoren, daß paralle Prozeßoperationen zur Ausführung bereitstehen, indem ein den Prozeßstatusparametern zugeordnetes Semaphorregister gesetzt wird,
Überwachen des Semaphors durch einen oder mehrere der anderen Prozessoren, wenn die anderen Prozessoren in einem Leerlauf zustand sind, um nachzuweisen, wann der erste Prozessor das Semaphor gesetzt hat, um die anderen Prozessoren zur Mitwirkung in der Ausführung von parallelen Prozeßoperationen des Prozesses aufzufordern, und
auf den Nachweis der Setzung des Semaphors durch einen oder mehrere der anderen Prozessoren hin Zugreifen auf die in dem Kommunikationsregistersatz gespeicherten Prozeßstatusparameter und Beginnen der Ausführung der parallelen Prozeßoperationen durch den einen oder die mehreren Prozessoren.

Kurzbeschreibung der Zeichnungen

Für ein vollständigeres Verständnis der vorliegenden Erfindung und ihrer Vorteile wird nun auf die folgende Beschreibung im Zuammenhang mit den zugehörigen Zeichnungen Bezug genommen, in denen:
Figur 1 ein Blockdiagramm eines Multi-Prozessor-Computersystems zeigt, das zur Ausführung des Verfahrens gemäß der vorliegenden Erfindung geeignet ist;
Figur 2 ein Blockdiagramm der genauen Schaltungen für die in Figur 1 dargestellte Speicher/Kommunikationsregister- Steuerung zeigt;
Figur 3 eine Darstellung der dem Mikrocode zugänglichen Inhalte eines Kommunikationsregisterblocks zeigt;
Figur 4 ein Blockdiagramm zeigt, das eine Mikrocode-Operation innerhalb eines Prozessors darstellt; und
Figur 5 eine Zeitskalendarstellung ist, die die Prozessorverwendung zur Ausführung eines einzelnen Prozesses zeigt, wobei der Prozeß anfangs in serieller Weise auf einem einzelnen Prozessor ausgeführt wird und dann zur parallelen Ausführung auf mehreren Prozessoren aufgespalten wird, und dann zur fortgesetzten seriellen Ausführung auf einem einzelnen Prozessor zurückkehrt.

Detaillierte Beschreibung

Zweck der vorliegenden Erfindung ist es, die Verwendung von Multi-Prozessoren zu ermöglichen, um die Leistung eines einzelnen Programms zu beschleunigen, während gleichzeitig eine maximale Leistungsfähigkeit für mehrere simultane Programme erhalten bleibt. Im allgemeinen haben Anwendungsprogramme Segmente, die nur in serieller Weise durch einen einzelnen Prozessor ausgeführt werden können, und zwar grundsäztlich aufgrund der Datenabhängigkeiten, und haben ferner Segmente, die parallel durch eine Mehrzahl von Prozessoren ausgeführt werden können. Um in effizienter Weise kurze Segmente von parallelen Operationen verwenden zu können, ist es wesentlich, daß der erforderliche Zeitüberhang zum Starten von Multi-Prozessor-Operationen so gering wie möglich ist. Nur wenn dieser Zeitüberhang genügend klein gemacht wird, kann Parallelisierung mit feiner Granularitaut ausgenutzt werden. Wenn immer ein Prozeß bei der Ausführung stoppen und das Betriebssystem rufen muß, gibt es einen erheblichen Zeitverlust. Die vorliegende Erfindung macht es überflüssig, das Betriebssystem zu rufen, um parallele Operationen zu starten.
Um die vorliegende Erfindung besser zu verstehen, ist es wichtig, das als "Pfad" bezeichnete Programmablaufkonzept zu verstehen. Ein Pfad ist ein Ausführungsweg des Prozesses (Programm). Ein rein sequentieller Prozeß hat einen einzelnen Pfad. Wenn ein Prozeß ein Segment hat, das parallel durch mehrere Prozessoren ausgeführt werden kann, dann kann der Prozeß mehrere Pfade während dieser Zeit haben. Die maximale Anzahl von Pfaden, die an einem beliebigen Punkt bestehen können, wird gelegentlich als "logische" Pfadzahl bezeichnet. Da typische Programmabläufe zwischen seriellen und parallelen Segmenten hin und her gehen, variiert die logische Pfadzahl von Segment zu Segment. Es ist aber nicht erforderlich, daß jeder Pfad einen gesonderten Prozessor hat, auf dem er ausgeführt wird. Alle logischen Pfade können sequentiell auf einem einzelnen Prozessor ausgeführt werden, wie es normalerweise auf einem Einzelprozessorsystem geschieht. Bei der vorliegenden Erfindung kann das Betriebssystem einen gegebenen Prozeß auf eine Anzahl von Pfaden beschränken, die er parallel ausführen kann. Diese Grenze kann als die maximale "physikalische" Pfadzahl bezeichnet werden. Wenn die physikalische Pfadzahl für ein gegebenes Segment kleiner als die logische Pfadzahl, bedeutet dies lediglich, daß einige logische Pfade sequentiell und nicht parallel ausgeführt werden. Die maximale physikalische Pfadzahl für einen Prozeß ist ein Parameter, der durch das Betriebssystem, durch einen Parameter gesteuert werden kann, der in einem Kommunikationsregistersatz als eine Pfadreservierungsmaske gespeichert ist.
Die vorliegende Erfindung schafft ein Verfahren, mit dein ein einzelner Prozeß mit parallelen Segmenten entweder auf einem einzelnen Prozessor oder, für die parellelen Segmente, durch eine Mehrzahl von Prozessoren ausgeführt werden kann, wenn diese Prozessoren zur Verfügung stehen. Wenn ein Prozessor die Ausführung eines Pfades eines Prozesses abgeschlossen hat und andere Pfade dieses Prozesses noch in Arbeit sind, dann kann dieser Prozessor freigegeben werden, so daß er andere Prozesse im Computersystem abarbeiten kann. Ein sehr wichtiger Aspekt der vorliegenden Erfindung besteht darin, daß Prozessoren "eingeladen" werden, beim parallelen Prozessieren mitzuwirken, eher als auf Befehl reserviert zu werden. Ein Prozessor nimmt die Einladung an, wenn er in einem Leerlaufzustand ist und daher nicht irgendeinen anderen Prozeß abarbeitet. Diese Technik der nicht-Befehl- Reservierung schafft einen sehr hohen Grad an Ausnutzung von allen Prozessoren innerhalb eines Computersystems und schafft daher einen hohen Durchsatz für das Gesamtsystem. Eine detaillierte Beschreibung des Verfahrens der vorliegenden Erfindung ist in den folgenden Figuren zusammen mit den in den Anhängen I und II aufgeführten Listen gegeben.
Unter Bezugnahme auf Figur 1 ist dort ein Blockdiagramm für ein Multi-Prozessor-Computersystem 20 zu sehen, das zur Ausführung eines Verfahrens gemäß der vorliegenden Erfindung geeignet ist. Das System 20 enthält einen Hauptspeicher 22 und eine Mehrzahl von Prozessoren wie 24 und 26. Der Prozessor 24 ist als erster Prozessor im System durch die Bezeichnung PROZESSOR 0 gekennzeichnet. Der letzte Prozessor in der Gruppe ist als PROZESSOR n bezeichnet. Es kann jede beliebige Anzahl von Prozessoren in dem System 20 geben, aber eine ausgewählte Ausführungsform hat z.B. eine Gruppe von vier Prozessoren.
Jeder der Prozessoren enthält eine Vektorprozessoreinheit 24A und 26A, und auch eine skalare Prozessoreinheit 24B und 26B. Solche vektoriellen und skalaren Prozessoreinheiten sind detailliert in US Patent 4 620 275 von Wallach et al. beschrieben, welche Patentbeschreibung hier durch Bezugnahme aufgenommen wird.
Jeder der Prozessoren 24 und 26 enthält weiter eine Speicher/Kommunikationsregistersteuerung, 24C und 26C. Diese Steuerungen sind detaillierter in Figur 2 erläutert.
Prozessor 24 kommuniziert mit dem Hauptspeicher 22 über einen Adreßbus 28, einen Lese-Datenbus 30 und einen Schreib-Datenbus 32. Der Prozessor 26 kommuniziert mit dein Hauptspeicher 22 über einen Adreßbus 34, einen Lese-Datenbus 36 und einen Schreib-Datenbus 38.
Das System 20 enthält weiter eine Gruppe von Kommunikationsregistern 46, die in acht Blöcke 46A bis 46H unterteilt sind. Jeder Block kann auch als ein Satz von Kommunikationsregistern bezeichnet werden. Jeder Satz von Kommunikationsregistern oder jeder Block, wie etwa 46A, weist eine Mehrzahl von Registern auf. Diese werden bei Bezugnahme auf Figur 3 näher beschrieben.
Jedem Satz von Kommunikationsregistern ist ein Semaphor zugeordnet, das dazu verwendet wird, einen mit den Daten in diesem Registersatz verbundenen Status zu signalisieren. Diese sind als Semaphore 48 gezeigt. Diese Semaphore werden implizit durch Instruktionen manipuliert, die die Kommunikationsregister lesen und beschreiben. Eine "Sende"-Instruktion prüft das Semaphor des Zielregisters und schreibt, wenn es gelöscht ist, die Daten und setzt das Semphor. In ähnlicher Weise liest eine "Empfange"- Instruktion die Registerdaten und löscht das Semphor, wenn es gesetzt ist. Semaphor-Operationen übergeben auch den Status auf einem Semaphor-Statusbus 49, der den Erfolg oder Fehlschlag der Semaphor-Operation anzeigt. Dieser Status steht dann den Steuerabschnitten des Prozessors, wie etwa 24 und 26, zur Verfügung, so daß eine geeignete Antwort gegeben werden kann.
Das System 20 enthält weiter einen Lese-Datenbus 50, einen Schreib-Datenbus 51 und einen Adreßbus 52 für die Kommuikation zwischen den Prozessoren, wie etwa 24 und 26, und Kommunikationsregistern 46. Das System 20 hat einen Kommunikationsindexregisterbus 53 und einen Schutzflaggenbus 55, die beide mit den Steuerungen 24C und 26C verbunden sind. Die Steuerung 24C des Prozessors 24 ist verbunden, um Adressen von der Steuerung durch den Adreßbus 52 und den Registerbus 53 zu einer Kommunikationsregister-Adreßabbilundungs/Prüfschaltung 57 zu übertragen, um irgendein Register in den Kommunikationsregistern 46 über eine Leitung 59 zu adressieren. Die Steuerung 24C ist ferner so angeschlossen, um den Datenbus 50 auszulesen, um Daten aus den Kommunikationsregistern 46 zu lesen, und auf den Datenbus 51 zu schreiben, um Daten in die Kommunikationsregister 46 zu schreiben. Die Steuerung 24C kann ferner jedes mit den Kommunikationsregistern 46 verbundene Semaphor 48 setzen und löschen. Die Steuerung 26C kommuniziert in ähnlicher Weise durch die Busse 49, 50, 51, 52, 53 und 55 mit dem Kommunikationsregistern 46 und Semaphoren 48.
Ein Schutzflaggenbus 55 ist mit den Steuerungen 24C und 26C verbunden, um einen Schutzstatus der Kommunikationsregister-Adreßabbildungs/Prüfschaltung 57 bereitzustellen. Diese Schaltung 57 kann dann Adressen nachweisen, die durch Anwenderprogramme fehlerhaft erzeugt wurden.
In dem Computersystem 20 kann jeder Prozessor, wie etwa 24 und 26, unabhängig auf den Hauptspeicher zugreifen. Bei herkömmlichem Multi-Prozessieren können separate Prozesse (Programme) unabhängig voneinander in Prozessoren, wie etwa 24 und 26, laufen, während sie auf den gleichen Hauptspeicher zugreifen. Ebenso kann ein einzelner Prozeß in mehreren Pfaden ausgeführt werden, wie weiter unten beschrieben wird, durch Verwendung der Koinmunikationsregister 46 und der Semaphore 48. Kurz gesagt, wenn ein Prozeß auszuführen ist, der sowohl serielle als auch parallele Komponenten enthält, wird er anfangs bei irgendeinem der Prozessoren ausgeführt, wie beispielsweise Prozessor 24. Wenn der Prozeß begonnen hat, wird einer der Kommunikationsregisterblöcke, z.B. 46A, durch das Betriebssystem dem Prozeß zugeordnet. Ein Anfangssatz von Prozeßstatusinforination, der weiter bei Bezugnahme auf Figur 3 beschrieben wird, wird dann durch den Prozessor 24 in die Register des Blocks 46A durch Ausführung des Betriebssystems geschrieben, das dann den Prozessor veranlaßt, die Ausführung des ausgewählten Prozesses zu beginnen. Während der Prozessor 24 den ausgewählten Prozeß ausführt, können andere Prozessoren in dem System entweder andere Prozesse ausführen oder in einem Leerlauf zustand sein. Wenn der Prozessor 24 einer Parallelisierungsinstruktion begegnet, die weiter unten beschrieben wird, führt er eine Abfolge von Operationen aus., um die anderen Prozessoren zu informieren, daß parallele Ausführung möglich ist. Zunächst sperrt er den "Verzweigungsblock", welcher die Kommunikationsregister 000A-000D enthält, indem er ein Senden zu Register 000A ausführt (siehe Figur 3). Durch Setzen dieses Semaphors, das als das "Verzweigungssperr"-Semaphor bezeichnet wird, informiert er die anderen Prozessoren im System, daß die Verzweigungsblockgruppe von Registern modifiziert wird. Der Prozessor 24 schreibt dann zusätzliche Prozeßstatusinformationen in den Verzweigungsblock, und schließt durch Setzen des dem Register 000D zugeordneten Semaphors ab, des "Verzweigungsspeicher"-Semaphors.
Die Kombination der Setzung der Verzweigungssperre und des Verzweigungsspeichers signalisiert den anderen Prozessoren, daß parallele Ausführung möglich ist.
Während der ausgewählte Prozeß in dem Prozessor 24 ausgeführt wird, sind alle anderen Prozessoren, die keine Prozesse ausführen, in einem Leerlauf zustand. In dem Leerlauf zustand zählt jeder dieser Prozessoren ein Adressregister herauf, um sequentiell bestimmte Semaphor-Register innerhalb der Kommunikationsregister 46 zu überprüfen. Die Prozessoren im Leerlaufzustand suchen kontinuierlich nach Semaphoren, die gesetzt sind, um anzuzeigen, daß parallele Operationen zur Ausführung bereitstehen. Wenn ein Leerlauf-Prozessor, z.B. Prozessor 26, feststellt, daß ein Semaphor innerhalb des Blocks 46 A gesetzt worden ist, um anzuzeigen, daß parallele Operationen verfügbar sind, dann liest der Prozessor 26 die Prozeßstatusinformation aus dem Block 46A und beginnt, auf Grundlage dieser Prozeßstatusinformation, mit der Ausführung eines parallelen Pfades des Prozesses, wie oben definiert. Der Zugriff auf die Prozeßstatusinformation erlaubt es dein Prozessor 26, unmittelbar mit der Ausführung von Prozeßinstruktionen durch Zugriff auf den Hauptspeicher 22 zu beginnen. In den meisten Fällen wird der Prozessor 24 einen ersten der parallelen Pfade für den ausgewählten Prozeß ausgeführt haben. Nachdem Pfade durch die Prozessoren 24 und 26. gestartet wurden, kann jeder andere Prozessor, der in einem Leerlaufzustand ist, ebenfalls einen Pfad zur Ausführung aufnehmen. Am Ende einer Pfadausführung begegnet der den Pfad aus führende Prozessor einer "Verbindungs"-Instruktion (Join). Jeder Prozessor, der das Verbinden ausführt, ersetzt eine Flagge in einer Pfadzuordnungsmaske (unten beschrieben) und zählt einen zugehörigen Pfadzähler (unten beschrieben) herunter. Beide Parameter sind an Stelle 0017 des Kommunikationsregistersatzes 46A. Der letzte Prozessor, der eine Verbindungsinstruktion ausführt, erkennt sie als die letzte Verbindungsinstruktion, weil der Pfadzähler 1 ist, und dieser Prozessor fährt mit der seriellen Ausführung des Prozesses fort. Es ist zu bemerken, daß dieser letzte Prozessor jeder beliebe Prozessor in dem System sein kann und nicht notwendig derjenige sein muß, der ursprünglich die Verzweigung gespreichert hat. Sollte dieser letzte Prozessor einer weiteren Parallelisierungsinstruktion begegnen, wird der oben beschriebene Vorgang wiederholt. Es ist zu bemerken, daß, wenn keiner der Prozessoren im Leerlauf zustand ist, Prozessor 24 jeden der Pfade des ausgewählten Prozesses sequentiell abarbeitet. Daher führt das Computersystem der vorliegenden Erfindung parallele Operation auf Basis von Einladung und nicht auf Befehl aus.
Eine detailliertere Beschreibung der Funktionsweise der vorliegenden Erfindung und ihrer Rechnerarchitektur wird weiter unten gegeben.
In Figur 2 ist ein schematisches Diagrainm für die Speicher-/Kommunikationsregistersteuerung 24 aus Figur 1 dargestellt. Diese Steuerung arbeitet in Verbindung mit der vektoriellen und der skalaren Prozessoreinheit 24A und 24B, um Adressen zu generieren und Daten von und zu dem Kommunikationsregistern 46 und dem Hauptspeicher 22 zu übertragen. Die vektorielle Prozessoreinheit 24A und die skalare Prozessoreinheit 24B führen Makroinstruktionen durch Anwendung von Mikrocode aus, der selbst dekodiert wird, um die Operationen mit verschiedenen Logikeinheiten, und Registern in dem Prozessor auszulösen. Diese Befehlsausführung ist in der Industrie üblich.
Innerhalb der Steuerung 24C ist eine Registerdatei vorgesehen, die so angeschlossen ist, um Daten und Adressen zwischen dein Prozessor 24 und den Kommunikationsregisterbussen 50, 51 und 52 zu übertragen. Es ist ferner eine ALU 62 vorgesehen, die die durch die Prozeßinstruktionen geforderte Adreßarithmetik ausführen kann. Die Registerdatei 60 empfängt Steuerungsbefehle aus dekodierten Mikroinstruktionen, die durch die Prozessoreinheiten 24A und 24B erzeugt werden. Die besonderen Steuerleitungen sind nicht dargestellt, aber sind in der Industrie wohlbekannt. Die Steuerung 24 enthält weiter ein Literalregister 64, das Adreßinformationen aus Prozeßinstruktionen empfängt. Das Literalregister 64 ist so angeschlossen, um eine zweite Eingabe für die ALU 62 zu liefern.
Die Ausgabe aus der ALU 62 ist ein 16 Bit Adressensegment, das durch die Instruktionen für einen ausgewählten Prozeß erzeugt wird, der durch einen Prozessor ausgeführt wird. Dieses Adressensegment wird streng durch die Prozeßsoftware erzeugt. Dieses Adressensegment wird nach der Erzeugung in der Registerdatei 60 gespeichert, bevor es auf den Adreßbus 52 übertragen wird.
Die Steuerung 24 enthält weiter ein Kornmunikationsindexregister 66, das einen Kommunikationsregisterindexwert speichert. Das Register 66 ist unabhängig von der Prozeßsoftware, d.h. es kann nicht durch irgendeine Prozeßinstruktion gesetzt oder gelesen werden. Das Register 66 arbeitet ausschließlich in Reaktion auf Mikroinstruktionen, die durch einen Prozessor ausgeführt werden, wenn er in dem Leerlaufzustand ist. Diese Mikrocode-Operation wird weiter in Verbindung mit Figur 4 beschreiben. Wenn ein Prozessor, wie etwa Prozessor 24, in einem Leerlaufzustand ist, führt er wiederholt eine Folge von Operationen aus, die als Leerlaufschleife bekannt ist. Eine der in dieser Leerlaufschleife ausgeführten Operationen besteht darin, die Verzweigungsspeicher-Semaphore (siehe Figur 3) der verschiedenen Kommunikationsregistersätze durchzugehen auf der Suche nach einem parallelen Segment, bei dem er bei Ausführung teilnehmen kann. Dieses Durchgehen erfolgt unter Verwendung eines speziellen Satzes von Adressen, der dem Mikrocode zur Verfügung steht, aber nicht den Anwenderprogrammen. Der Prozessor zeigt sein Recht zur Benutzung dieser speziellen Adressen an, indem er den Inhalt seines Schutzstatusflaggenregisters 65 über den Schutzstatusbus 55 zu der Prüfschaltung 57 schickt. Diese Statusflagge ist in einem Statuszustand, wenn ein Anwenderprozeß in einem Prozessor ausgeführt wird, und ist in einem anderen Zustand, wenn das Betriebssystem oder eine Leerlaufschleife in dem Prozessor läuft.
Die Ausgaben des Kommunikationsindexregisters 66, des Kommunikationsregisteradreßbusses 52 und der Schutzstatusflaggenschaltung 65 werden zu der Kommunkationsregister-Adreßabbildungs-/Prüfschaltung 57 geleitet. Die Schaltung 57 untersucht die empfangene Adresse um sicherzustellen, daß sie Kommunikationsregister adressiert, die physikalisch vorhanden sind und für die die Schutzstatusflagge den Zugriff erlaubt. Anwenderprogramme dürfen nicht auf die durch Mikrocode und das Betriebssystem verwendeten Register zugreifen. Die Schaltung 57 fügt auch ausgewählte Adreßbits mit Adreßbits des Kommunikationsadreßregisters 66 zusammen, um eine zusammengesetzte 10-Bitadresse zu erzeugen, um ein ausgewähltes Kommunikationsregister zu adressieren. Die Schaltung 57 kombiniert ein erstes, prozeßunabhängiges Adreßsegment aus dem Register 66 mit einem zweiten, prozeßabhängigen Adreßsegment aus der ALU 62, um eine zusammengesetzte Adresse zur Adressierung eines Registers in dem Register 46 zu erzeugen.
Es wird nun auf Figur 3 Bezug genommen, worin ein Detail der in einem Block innerhalb des Kommunikationsregisters 64 gespeicherten Information gezeigt ist. In der vorliegenden Ausführungsform enthält der Block 46A 128 64 Bit Register. Der Block 46 enthält prozeßstatusinformation, die durch einen ablaufenden Prozeß festgelegt ist und es anderen Prozessoren erlaubt, eine Prozeß operation, die durch den in dem Block gespeicherten Prozeßstatus definiert ist, parallel aufzunehmen und auszuführen.
Die in einen Kommunikationsregisterblock wie 46A gespeicherte Information ist folgende:
(1) Speicherplätze 000A-000D sind der "Verzweigungsblock". Sie enthalten Inf ormationen, die durch einen eine Parallelisierungsinstruktion ausführenden Prozessor erzeugt wird, um anderen Prozessoren zu ermöglichen, ein paralleles Codesegment des ausgeführten Prozesses auszuführen.
(2) Speicherplätze 000E-0011 enthalten Segmentbeschreibungsregister (SDR). Sie bilden die oberste Stufe des Prozeß-Speicherabbildungsbaums und werden sowohl für die serielle als auch für die parallele Ausführung benötigt.
(3) Speicherplätze 0012-0016 enthalten Trap-Instructions-Register, was spezielle Bitflags zur Fehlersuche in auf mehreren Prozessoren laufenden Programmen sind.
(4) Speicherplatz 0017 enthält Pfadzuordnungs-Steuerinformation. Die Pfadzuordnungsmaske enthält ein Bit für jeden möglichen physikalischen Pfad in dem Prozeß. Die zugeordnete Pfadzahl beschreibt die Anzahl der momentan ausgeführten Pfade. Ein sich selbst zuordnender Prozessor löscht ein Bit in der Pfadmaske und zählt die Pfadzahl herauf. Der Prozessor verfährt umgekeht, wenn er die Zuordnung auflöst.
(5) Speicherplätze 0018-001F enthalten Zeitwerte, die die Ausführungszeit auf jeder CPU des Prozesses überwachen, die von diesem Kommunikationsregistersatz aus laufen. Diese Information wird zur Kontoführung benutzt.
(6) Speicherplätze 4000-401F sind zur Verwendung durch das Betriebssystem reserviert.
(7) Speicherplätze 8000-803F sind für die Anwenderprogramme reserviert. Die Zuordnung dieser Register wird für einen typischen Prozeß automatisch durch den Compiler ausgeführt.
Alle Register werden während der Prozeßerzeugung durch das Betriebssystem initialisiert. Darauf werden die obigen Ziffern 1, 3, 4, 5 und 6 durch das Betriebssystem und durch Mikrocode während der Ausführung des Prozesses manipuliert. Obiger Punkt 7 wird direkt durch den Anwenderprozeß kontrolliert.
Wenn ein Prozeß in einem Prozessor ausgeführt wird und eine Parallelisierungsinstruktion auftritt, verursacht die Ausführung der Parallelisierungsinstruktion, daß zusätzliche Statusinformation in den entsprechenden Kommunikationsregisterblock geschrieben wird. Die durch eine Parallelisierungsinstruktion in den Block geschriebene Information wird als "Verzweigungsblock" Information bezeichnet. Die innerhalb des Verzweigungsblocks, welcher durch einen Prozessor geschrieben wird, der andere Prozessoren zur Teilnahme bei paralleler Ausführung eines Codesegments einlädt, enthaltene Information ist folgende:
fork.FP Anfangsblockzeiger, der durch einen neuen Pfad zu verwenden ist.
fork.AP Anfangsargumentzeiger, der durch den neuen Pfad zu verwenden ist.
fork.PC Adresse der ersten Instruktion, die durch den neuen Pfad auszuführen ist.
fork.PSW Anfangs-Programmstatuswort, das durch den neuen Pfad zu verwenden ist.
fork.Source_PC Adresse der Instruktion, die den Verzweigungs- oder Gabelungsbefehl aufgestellt hat.
fork.type Definition, ob eine Verzweigungs- oder Gabelungsinstruktion den neuen Pfad erzeugt hat (eine Verzweigungsinstruktion lädt nur einen Prozessor zur Teilnahme bei paralleler Ausführung ein, während eine Gabelungsinstruktion mehr als einen Prozessor zur Teilnahme im Parallelbetrieb einlädt.)
fork.SP Anfänglicher Stapelzeiger des neuen Pfades.
Ferner wird das dem fork.FP zugeordnete Semaphor als "Verzweigungssperre"-Flagge verwendet, und das mit dein fork. SP verbundene Semaphor als "Verzweigungsspeicher"-Flagge verwendet. Wenn die Verzweigungssperre-Flagge gesetzt ist, zeigt sie an, daß eine Verzweigung durch einen Prozessor gespeichert oder aufgenommen ist, und daß kein anderer Prozessor auf den Verzweigungsblock zugreifen sollte, bis die Flagge gelöscht ist. Wenn die Verzweigungsspeicher-Flagge gesetzt ist, zeigt sie an, daß eine gültige Verzweigung gespeichert ist und daß ein leerlauf ender Prozessor eingeladen ist, die Verzweigung aufzunehmen.
Wenn ein leerlaufender Prozessor festgestellt hat, daß ein Semaphor gesetzt worden ist und Parallele Operationen zur Verfügung stehen, ist alle erforderliche Information, um mit der Ausführung dieser Operation zu beginnen, in einem Block des Kommunikationsregisters wie oben und in bezug auf Figur 3 beschrieben, vorhanden.
Es wird nun auf Figur 4 Bezug genommen, worin ein Mikrocode- System 80 zur Verwendung in den Prozessoren der vorliegenden Erfindung gezeigt ist. Das System 80 ist in jeder skalaren Prozessoreinheit für jeden Prozessor, wie 24 und 26, implementiert. Prozeß-Makroinstruktionen werden aus dem Hauptspeicher abgeleitet und zu einem Instruktionsverteiler-Übersetzer 82 geführt. Der Übersetzer erzeugt eine erste Mikroinstruktionsadresse, für jede Makroinstruktion über eine Leitung 84 zu einem ersten Multiplexer 86. Die erste Mikroinstruktionsadresse wird dann durch eine Leitung 88 zu einem Mikrocode-Steuerspeicher 90 geleitet. Die erste Mikroinstruktion wird dann durch eine Leitung 92 zu einem Mikrocode-Instruktionsregister 94 geleitet, das auch als Decoder arbeitet. Wenn eine Mikrocode-Instruktion dekodiert ist, werden Steuersignale erzeugt, die auf Register und andere Logikeinheiten innerhalb des Prozessors gerichtet sind. Verschiedene beispielhafte Steuerleitungssignale sind durch die gestrichelten Linien in Figuren 2 und 4 gezeigt.
Nachdem die erste Mikroinstruktion aus der Tabelle 82 gesendet und in dem Register 94 dekodiert ist, werden nachfolgende Mikroinstruktionen durch den Mikrocode-Steuerspeicher 90 erteilt, um die Ausführung der entsprechenden Makroinstruktion abzuschließen. Die nächste Mikrocode-Adresse und Abwandlungen werden durch das Register 94 erzeugt und über eine Leitung 96 zu einer nächsten Adreßlogikschaltung 98 übertragen. Die Leitung 96 ist auch an einen Multiplexer 99 angeschlossen, der verschiedene Prozeßstatusinformationen aus einer Vielzahl von Leitungen empfängt, einschließlich Leitung 49, die den Semaphorstatus aus den Kommunikationsregistern anzeigt. Dieser Status kann während Zugriff auf das Kommunikationsregister nachgewiesen werden, um den Mikrocode zu veranlassen, in Abhängigkeit vom Semaphorstatus auf zuzweigen. Dies erlaubt es z.B., daß der Mikrocode in der Leerlaufschleife eines Prozessors feststellen kann, ob ein Verzweigungssemaphor gespeichert worden ist, um andere Prozessoren zur Teilnahme bei der Ausführung eines parallelen Prozeßsegments einzuladen.
Wenn irgendeiner der Prozessoren in dem System 20, wie etwa Prozessor 24 oder 26, nicht bei der Ausführung eines Prozesses ist, wird dieser Prozessor, wie oben bemerkt, in einen Leerlaufzustand versetzt, der die Ausführung einer Mikrocode-Leerlaufschleife bewirkt. Bei einem Schritt in dieser Mikrocode-Leerlaufschleife wird das Kommunikationsindexregister 66 während jeder Schleife um eine Einheit heraufgezählt durch ein Steuersignal aus dem Register 94 zu den Kommunikationsindexregister 66. Das Register 66 hat in einer ausgewählten Ausführungsform drei Bits, was eine Adressierbarkeit von acht Blöcken 46A-46H ermöglicht. 16 Adreßbits wählen ein bestimmtes Register in dem ausgewählten Block während der normalen Prozeßausführung aus, aber zusätzlich ist ein spezieller Bereich von Adressen für den Mikrocode verfügbar, der es ihm ermöglicht, auf jede beliebige Adresse in irgendeinem der Blöcke zuzugreifen.
Mithin sorgt die Durchführung des Leerlauf zustandes für ein kontinuierliches Überprüfen des "Verzweigungsspeicher"-Semaphors in jedem der Blöcke in der Suche nach einem gesetzten Semaphor. Wenn ein solches Semaphor gefunden wird, wird der entsprechende Wert des Kommunikationsindexregisters (CIR) in dem CIR-Register 66 gehalten. Der Prozessor fährt dann fort, die in dem ausgewählten Block gespeicherte Prozeßstatusinformation zu verwenden, um mit dem Start eines Prozeßpfades zu beginnen. Während der Ausführung des Prozesses werden verschiedene Adreßinformationen für die Kommunikationsregister erzeugt, aber diese enthält nur 16 Adreßbits, die den Speicherplatz innerhalb eines Blocks definieren, aber nicht definieren, welcher Block adressiert werden soll. Die Adreßinformation für einen bestimmten Block wird durch das Adreßsegment, welches in dein Kommunikationsindexregister 66 gespeichert ist, definiert. Mithin arbeitet der Prozeß unabhängig von und ohne Wissen von dem speziellen Block, der die Prozeßstatusinformation enthält. Die Identifizierung des bestimmten Blockes wird vollständig unabhängig von den Prozeßinstruktionen ausgeführt. Die Prozeßausführung ist ferner unabhängig von dem bestimmten Prozessor, in dem der Prozeß ausgeführt wird.
Die vorliegende Erfindung erfordert die Verwendung von Parallelisierungsinstruktionen, die innerhalb des Objektcodes enthalten sind, der von den Prozessoren ausgeführt wird. In Anhang I ist eine Auflistung eines Quellcodes in FORTRAN für einen Prozeß dargestellt, der Matrixmultiplikation durchführt. Vor der Multiplikation löschen die Programminstruktionen einen Speicherbereich. Sowohl die Multiplikations- als auch die Löschoperationen enthalten "Do"-Schleifen, die ein besonderer Typ von Instruktionen sind, die besonders für Parallelisierung geeignet sind.
Wenn der in Anhang I gezeigte Quellcode kompiliert wird, wird ein Objektcode erzeugt, der in Anhang II gezeigt ist. Unter dem mit Instruktionen bezeichneten Abschnitt, in etwa der 13. Zeile darunter, befindet sich eine als "Spawn" bezeichnete Instruktion. Dies ist eine Parallelisierungsinstruktion. Die Gabelungsinstruktion (Spawn) entspricht nicht einem bestimmten Befehl in der Quellsprache, sondern resultiert aus einer Analyse des Compilers von möglichen Datenabhängigkeiten der verschiedenen Iterationen, die durch die Schleife ausgeführt werden, welche durch den Continue-Befehl beim Quellzeichen 10 abgeschlossen wird. Diese spezielle Gabelung (Spawn) hat eine maximale logische Pfadzahl von 100, da alle Iterationen der Schleife 10 parallel ausgeführt werden können. Wie zuvor diskutiert, wird die maximale physikalische Pfadzahl zum Zeitpunkt der Ausführung durch das Betriebssystem festgesetzt, in Abhängigkeit von vorgegebenen Reservierungsparametern.
Vor der Ausführung jeder Iteration einer parallelen Operation, greift ein teilnehmender Prozessor auf ein bestimmtes Kommunikationsregister (hier Register 8000) zu und stellt fest, ob noch eine andere Iteration auszuführen ist oder nicht. Wenn keine Iteration mehr vorhanden ist, dann wird der Prozessor abzweigen und die auf das Zeichen L6 folgende Verbindungsinstruktion (Join) ausführen. Während der Ausführung der Verbindungsinstruktion stellt der Prozessor fest, ob er der letzte Prozessor beim Abschluß eines Pfades ist oder nicht. Wenn nicht, geht er in den Leerlauf zustand über und beginnt mit der Suche nach einem parallelen Prozeß, in den er sich zur Ausführung einschalten kann. Wenn er der letzte Prozessor bei der Ausführung eines parallelen Pfades ist, beginnt er mit der Ausführung des nächsten Pfades folgend auf die Verbindung.
Es ist zu bemerken, daß, wie in unserem Beispiel, der Code unmittelbar mit einem anderen parallelen Segment beginnen und sich wieder auf gabeln kann, um parallele Ausführung zu ermöglichen.
Infolge dieser Gabelungsinstruktion wird ein Semaphorregister gesetzt, um jeden verfügbaren Prozessor zur parallelen Ausführung der Do-Schleife einzuladen. Die Parameter für die parallele Ausführung werden in den in Figur 3 gezeigten Kommunikationsregisterblock geladen. Diese bestimmte Gabelungsinstruktion ("Spawn") wird durch eine Verbindungsinstruktion ("Join") etwa 13 Zeilen später abgeschlossen. Jeder Prozessor, der einen Pfad zur Ausführung aufnimmt, führt die erforderlichen Prozeßoperationen aus und begegnet dann der Verbindungsinstruktion. Diese "Join"-Instruktion veranlaßt den Prozessor, zu überprüfen, ob er den letzten Pfad ausführt oder nicht. Wenn nicht, kehrt er in den Leerlauf zustand zurück und sucht nach einem anderen parallelen Prozeß zur Ausführung. Wenn er der letzte ist, dann beginnt er mit der Ausführung des seriellen Pfades, der auf die Verbindung folgt.
Genau vor der mit "L7" bezeichneten Zeile befindet sich eine weitere Gabelungsinstruktion ("Spawn"), die anzeigt, daß die Operationen in dem mit "20" bezeichneten Quellbefehl parallel ausgeführt werden können. Diese Gabelungsinstruktion wird durch eine Verbindungsinstruktion ("Join") nahe dem Ende der Liste abgeschlossen.
Die Funktionsweise der vorliegenden Erfindung wird nun unter Bezugnahme auf die Figuren und insbesondere auf Figur 5 weiter beschrieben. Figur 5 illustriert ebenfalls das Pfadkonzept der vorliegenden Erfindung. Wie in dieser Figur dargestellt, wird ein Prozeß A seriell als ein einzelner Pfad 110 durch den Prozessor P0 durchgeführt. Die Prozessoren P1 und P3 sind im Leerlauf. Ein Prozeß B ist in Ausführung durch den Prozessor P2. Zum Zeitpunkt T1 führt Prozessor P0 eine Gabelungsinstruktion ("Spawn") im Prozeß A aus. Die Prozeßstatusinformation für die parallele Ausführung des Codes in Prozeß A wird in einen entsprechenden Kommunikationsregistersatz geschrieben. Die leerlaufenden Prozessoren P1 und P3 bemerken das Semaphor, das in dem Kommunikationsregistersatz gesetzt ist, und nehmen die Pfade 116 und 118 zur Ausführung auf. Prozessor P1 übernimmt den Pfad 114 zur Ausführung und, bis zum Zeitpunkt T2, arbeiten die Prozessoren P0, P1 und P3 parallel Code für Prozeß A ab. Zum Zeitpunkt T2 schließt Prozessor P2 Prozeß B ab und geht in den Leerlaufzustand über. Prozessor P2 nimmt dann Pfad 120 von Prozeß A an und wird der vierte Prozessor bei der gleichzeitigen Ausführung von Prozeß A.
Zum Zeitpunkt T3 empfängt Prozessor P3 einen Unterbrechungsbefehl und beginnt mit der Ausführung des Betriebssystems. Dies dauert bis zum Zeitpunkt T4, zu dem der Prozessor T3 zur Ausführung des Pfades 118 zurückgeht.
Prozessor P0 schließt die Ausführung des Pfades 114 zum Zeitpunkt T5 ab und führt eine Verbindungsinstruktion ("Join") aus. Da die anderen Prozessoren immer noch Pfade von Prozeß A ausführen, geht Prozessor P0 in den Leerlauf zustand.
Prozessoren P1 und P3 schließen die Ausführung der Pfade 116 und 118 zum Zeitpunkt T6 ab und gehen in den Leerlaufzustand über, da Prozessor P2 immer noch Pfad 120 von Prozeß A ausführt.
Zum Zeitpunkt T7 schließt Prozessor P2 die Ausführung von Pfad 120 ab und führt eine Verbindungsinstruktion ("Join") aus. Da keine anderen Prozessoren mehr einen Teil von Prozeß A ausführen, beginnt Prozessor P2 mit der seriellen Ausführung von Prozeß A mit Pfad 124.
Zum Zeitpunkt T8 tritt ein Unterbrechungsbefehl für Prozessor P0 auf, um diesen Prozessor zur Ausführung des Betriebssystems zu veranlassen. Zum Zeitpunkt T9 beginnt der Prozessor P0 mit der Ausführung eines neuen Programms C mit Pfad 126.
Wie aus der obigen Beschreibung erkennbar ist, kann ein einzelner Prozeß auf einem oder mehreren Prozessoren ausgeführt werden und nach einer Aufgabelung kann der ursprüngliche Prozeß auf einem anderen Prozessor fortgeführt werden. Der Prozeß selbst weiß nicht, welcher Prozessor den Prozeß ausführt oder wieviele Prozessoren den Prozeß ausführen. Diese Verfahrensweise schafft große Unabhängigkeit für das Computersystem und eine verbesserte Ausnutzung der Mehrzahl von Prozessoren.
Obwohl eine Ausführungsform der Erfindung in den folgenden Zeichnungen dargestellt und in der vorhergehenden detaillierten Beschreibung beschrieben worden ist, ist dies so zu verstehen, daß die Erfindung nicht auf die beschriebene Ausführungsform beschränkt ist, sondern zu einer Vielzahl von Neuanordnungen, Abwandlungen und Ersetzungen in der Lage ist.

Claims

1. Verfahren zur parallelen Ausführung eines Prozesses in einem Computersystem (20) mit einer Mehrzahl von Prozessoren (24, 25, 26,..., N), wobei das Verfahren die Schritte aufweist:

Beginnen der Ausführung eines Prozesses durch Schreiben von Prozeßstatusparametern für den Prozeß in definierte Register (46A-46H) in einem Kommunikationsregistersatz (46), der für alle Prozessoren in dem System zugänglich ist,

Starten einer seriellen Ausführung des Instruktionscodes des Prozesses durch einen ersten der Prozessoren (24),

auf die Ausführung einer Parallelisierungsinstruktion für den Prozeß durch den ersten Prozessor (24), welche Parallelisierungsinstruktion parallele Prozeßoperationen für den Prozeß, welche parallel ausführbar sind, anzeigen, hin (a) Schreiben von zusätzlichen Prozeßstatusparametern für den Prozeß in den Kommunikationsregistersatz (46), um anderen der Prozessoren (26) zu ermöglichen, bei der Ausführung der parallelen Prozeßoperationen für den Prozeß mitzuwirken, und (b) Signalisieren an alle anderen Prozessoren (25,..., N), daß paralle Prozeßoperationen zur Ausführung bereitstehen, indem ein den Prozeßstatusparametern zugeordnetes Semaphorregister (48) gesetzt wird,

Überwachen des Semaphors (48) durch einen oder mehrere der anderen Prozessoren, wenn die anderen Prozessoren in einem Leerlauf zustand sind, um nachzuweisen, wann der erste Prozessor (24) das Semaphor (48) gesetzt hat, um die anderen Prozessoren zur Mitwirkung in der Ausführung von parallelen Prozeßoperationen des Prozesses auf zufordern, und

auf den Nachweis der Setzung des Semaphors (48) durch einen oder mehrere der anderen Prozessoren hin Zugreifen auf die in dem Kommunikationsregistersatz (46) gespeicherten Prozeßstatusparameter und Beginnen der Ausführung der parallelen Prozeßoperationen durch den einen oder die mehreren Prozessoren.

2. Verfahren nach Anspruch 1, welches den Schritt einschließt Rückführen aller bis auf einen von dem einen oder mehreren Prozessoren, die die parallelen Prozeßoperationen ausgeführt haben, in einen Leerlauf zustand und Fortführen der seriellen Ausführung des Prozesses durch den verbleibenden einen von dem einen oder mehreren Prozessoren.

3. Verfahren nach Anspruch 2, wobei der eine der Prozessoren, der die serielle Ausführung des Prozesses fortsetzt, der letzte von dem einen oder mehreren Prozessoren ist, um die Ausführung der parallelen Prozeßoperationen zu beenden.

4. Verfahren nach Anspruch 1, wobei der Schritt des Beginnens der Ausführung eines Prozesses durch ein Betriebssystem des Computersystems ausgeführt wird, wobei das Betriebssystem in einem der Prozessoren arbeitet.