DE4117693A1

DE4117693A1 - Fuer ein fehlertolerantes rechnersystem bestimmte funktionseinheit und verbindungsstruktur sowie verfahren zum betrieb eines solchen rechnersystems

Info

Publication number: DE4117693A1
Application number: DE19914117693
Authority: DE
Inventors: Des Erfinders Auf Nennung Verzicht
Original assignee: Parsytec Computer GmbH
Current assignee: Isra Parsytec GmbH
Priority date: 1991-05-29
Filing date: 1991-05-29
Publication date: 1992-12-03
Also published as: DE4117693C2

Description

Die Erfindung betrifft eine für ein fehlertolerantes Rechnersystem bestimmte Funktionseinheit mit N Recheneinheiten, M Kommunikationseinheiten und einem Kommunikationsnetzwerk, eine für ein fehlertolerantes Rechnersystem bestimmte Verbindungsstruktur von Funktionseinheiten mit N Recheneinheiten, M Kommunikationseinheiten und einem Kommunikationsnetzwerk sowie ein Verfahren zum Betrieb eines fehlertoleranten Rechnersystems nach einem der vorhergehenden Ansprüche.

Aus der Forschung und der industriellen Entwicklung wird zunehmend die Forderung nach leistungsfähigeren Rechnersystemen gestellt. Dies führt zwangsläufig zu komplexeren Systemen mit sehr viel mehr Recheneinheiten und Kommunikationseinheiten sowie komplizierteren Kommunikationsnetzwerken. Aufgrund der enorm großen Zahl dieser Bausteine steigt die Wahrscheinlichkeit für den Ausfall eines einzelnen Bausteins stark an. Würde nun ein derartiger Ausfall zu einem Zusammenbruch des gesamten Systems führen, dann wären die Ausfallzeiten des Rechnersystems im Vergleich mit den Betriebszeiten sehr groß, und ein kontinuierlicher Betrieb des Rechnersystems wäre nahezu unmöglich.

Da der Ausfall einzelner Bausteine aus technischen Gründen nicht vollständig vermieden werden kann, ist es für den Betrieb derartig komplexer Rechnersysteme unumgänglich, daß diese Systeme die aufgrund von Ausfällen einzelner Bausteine entstandenen Fehler tolerieren.

Die Aufgabe der vorliegenden Erfindung liegt nun in der bau- sowie verfahrenstechnischen Realisierung dieser Fehlertoleranz.

Diese Aufgabe wird bei einem Rechnersystem der vorgenannten Art dadurch gelöst, daß K interne Verbindungen vorgesehen sind, welche jede Rechen- mit jeder Kommunikationseinheit verbinden, daß die N Recheneinheiten jeweils untereinander gleich und austauschbar sind und daß jeweils nur (N-n) mit nN/4 Recheneinheiten aktiv, also n Recheneinheiten redundant sind, und daß von den K internen Verbindungen des Kommunikationsnetzes zwischen den Rechen- und Kommunikationseinheiten jeweils nur (K-k) mit kK/4 solcher Verbindungen aktiv sind. Damit verkraftet dieses Rechnersystem den Ausfall einzelner Komponenten, z. B. einzelner Recheneinheiten und Verbindungen des internen Kommunikationsnetzes. Diese Fehlertoleranz auf der Ebene der Funktionseinheiten stellt nun sicher, daß die Ausfallwahrscheinlichkeit einer derartigen Funktionseinheit nur etwa der eines einzelnen typischen Chips entspricht, wie sich aus einer statistischen Betrachtung dieser Ausfallwahrscheinlichkeit ergibt.

Eine Recheneinheit in obigem Sinne kann Funktionseinheiten in obigem Sinne enthalten. Durch den Aufbau von Recheneinheiten aus derartigen Funktionseinheiten, also der rekursiven des zuvor Beschriebenen, kann auch die Ausfallwahrscheinlichkeit von Systemen beliebiger Größe klein gehalten werden.

Das erfindungsgemäße Rechnersystem kann ferner so ausgelegt sein, daß N=17, M=4, n=m=1 und K=68, k=4 ist und eine Recheneinheit aus einem Prozessorknoten, eine Kommunikationseinheit aus einem Kommunikationschip und eine interne Verbindung aus einem Kommunikationskanal besteht.

Das erfindungsgemäße Rechnersystem zeichnet sich weiter dadurch aus, daß L externe Verbindungen vorgesehen sind, die jede Kommunikationseinheit einer Funktionseinheit jeweils extern mit J2 Kommunikationseinheiten jeder benachbarten Funktionseinheit verbinden, daß die Kommunikationseinheiten jeder Funktionseinheit untereinander gleich und austauschbar sind und daß jeweils mindestens (M-m) mit mM/4 Kommunikationseinheiten aktiv sind und daß von den L externen Verbindungen des Kommunikationsnetzwerkes zwischen den Funktionseinheiten jeweils mindestens (L-1) mit lL/4 solcher Verbindungen aktiv sind. Das gesamte Kommunikationsnetz stellt sich hier ebenfalls als eine fehlertolerante Einheit dar, da bei Ausfällen einzelner externer Verbindungen stets noch eine ausreichende Kommunikationsbandbreite zur Verfügung steht.

Das erfindungsgemäße Rechnersystem kann ferner so aufgebaut sein, daß L=48, l=12, n=4, m=1 und J=2 ist und eine externe Verbindung einen Kommunikationskanal hat. Diese Verbindungsstruktur stellt ein als besonders vorteilhaft herausgefundenes Ausführungsbeispiel dar.

Schließlich kann das erfindungsgemäße Rechnersystem in der Weise aufgebaut sein, daß von jeder Kommunikationseinheit zu jeder benachbarten Funktionseinheit mindestens eine Verbindung des Kommunikationsnetzes existiert. Ein derartiges Kommunikationsnetz ermöglicht eine räumliche, beliebig skalierbare Gitteranordnung der Funktionseinheiten für den Aufbau eines supermassiv parallelen Rechnersystems.

Das erfindungsgemäße Verfahren zum Betrieb des betroffenen Rechnersystems und der Verbindungsstruktur sieht vor, daß der Betriebszustand der Recheneinheiten, der Kommunikationseinheiten sowie der internen und externen Verbindungen in bestimmten Zeitabständen geprüft wird, daß im Falle eines fehlerhaften Zustandes einer Recheneinheit diese durch eine zu diesem Zeitpunkt nicht aktive Recheneinheit ersetzt wird und daß im Falle eines fehlerhaften Zustandes einer Kommunikationseinheit oder einer internen oder externen Verbindung diese zukünftig umgangen wird. Der Ablauf von sogenannten Prüfprogrammen sowie eine gegebenenfalls notwendige Wiederinstandsetzung des Systems werden automatisch von dem Betriebssystem ausgeführt und beeinflussen nicht den Ablauf von Benutzerprogrammen.

Bei dem erfindungsgemäßen Verfahren kann weiter vorgesehen sein, daß der Zustand des Rechnersystems zu bestimmten Zeitpunkten eingefroren, d. h. abgespeichert wird. Diese Verfahrensweise ist letztlich die Voraussetzung für die Wiederinstandsetzung des Systems nach erfolgtem Ausfall einer Systemkomponente.

Bei dem erfindungsgemäßen Verfahren kann weiter auch vorgesehen sein, daß das Einfrieren des Betriebszustandes der Recheneinheiten, der Kommunikationseinheiten sowie der internen und externen Verbindungen unmittelbar nach einer Prüfung erfolgt, die keinen Fehler ergeben hat. Dadurch ist gewährleistet, daß es sich bei den eingefrorenen Rechnerzuständen ausschließlich um fehlerfreie Zustände handelt, die eine Wiederinstandsetzung des Systems ermöglichen.

Weiter kann das erfindungsgemäße Verfahren vorsehen, daß bei Feststellung eines fehlerhaften Betriebszustandes der zuletzt eingefrorene Zustand wiederhergestellt wird. Das Rechnersystem kann beispielsweise in seiner Gesamtheit oder nur lokal neu angefahren werden, wobei der zuletzt eingefrorene fehlerfreie Zustand der Recheneinheiten als neuer Ausgangspunkt für die weiteren Rechenoperationen herangezogen wird.

Schließlich kann das erfindungsgemäße Verfahren vorsehen, daß der Zustand des Massenspeichersystems Teil des Betriebszustandes ist. Dadurch ist Wiederinstandsetzung des Systems auch dann gewährleistet, wenn Speicherzugriffe auf externe Massenspeicher stattfinden, wobei nach einem Wiederanfahren der zuletzt eingefrorene Zustand des Massenspeichersystems als Ausgangspunkt für den weiteren Programmablauf herangezogen werden kann.

Im folgenden Teil der Beschreibung wird ein Ausführungsbeispiel der Funktionseinheit und der Verbindungsstruktur anhand von drei schematischen Zeichnungen erläutert. Im einzelnen zeigt

Fig. 1 eine schematische Darstellung der Funktionseinheit bestehend aus Rechen- und Kommunikationseinheiten sowie internen und externen Verbindungen,

Fig. 2 eine dreidimensionale Struktur eines Kommunikationsnetzwerkes, aufgebaut aus Funktionseinheiten nach Fig. 1 und

Fig. 3 auf einer Leiterbahnplatte realisierte Funktionseinheit nach Fig. 1.

Bei der in Fig. 1 dargestellten Funktionseinheit 1 sind siebzehn Recheneinheiten 2 vorgesehen, die jeweils untereinander gleich und austauschbar sind und von denen eine redundant ist. An jede Recheneinheit 2 sind vier interne Verbindungen 3 anschließbar. Dadurch ist bei der hier gezeigten Funktionseinheit 1 eine Verbindung jeder Recheneinheit 2 mit maximal vier untereinander gleichen und austauschbaren Kommunikationseinheiten 4 möglich. In diesem Ausführungsbeispiel sind nun vier solcher Einheiten vorgesehen, die im gezeigten Beispiel alle aktiv sein können. Jede der Recheneinheiten 2 ist mit jeder Kommunikationseinheit 4 verbunden, d. h., es existieren insgesamt achtundsechzig Verbindungen 3 zwischen diesen. Durch die beschriebene interne Verbindungsstruktur zwischen Rechen- und Kommunikationseinheiten ergibt sich auch hier die Fehlertoleranz.

Ferner hat die in Fig. 1 dargestellte Funktionseinheit 1 in jeder der sechs Raumrichtungen acht externe austauschbare Verbindungen 6, von denen jede einen Kommunikationskanal 7 besitzt. Die Verbindungen 6 stellen externe Verbindungen zwischen den Kommunikationseinheiten 4 einer Funktionseinheit 1 mit Kommunikationseinheiten 4 von benachbarten Funktionseinheiten 1 dar. Damit ist dieses Kommunikationsnetzwerk 8 auch fehlertolerant gegenüber Ausfällen von einzelnen externen Leitungen 6.

Jede Kommunikationseinheit einer Funktionseinheit ist mit mindestens zwei Kommunikationseinheiten jeder benachbarten Funktionseinheit über mindestens einen Kommunikationskanal verbunden. Dies stellt sicher, daß sich lokale Ausfälle einzelner Kommunikationseinheiten oder Verbindungen in ihrer Wirkung nicht global fortplanzen können.

In Fig. 2 ist nun eine aus einer Vielzahl der in Fig. 1 dargestellten Funktionseinheiten 1 aufgebaute dreidimensionale Struktur eines Kommunikationsnetzwerkes 8 dargestellt. Die Verbindungslinien zwischen den einzelnen Funktionseinheiten 1 stellen die jeweils acht externen Verbindungsleitungen 6 dar. Die Gesamtzahl der Funktionseinheiten 1 ist in dem dargestellten Ausführungsbeispiel 16×16×16=4096.

In Fig. 3 ist nun der Bauplan einer Funktionseinheit 1 dargestellt. Die einzelnen Baugruppen können dabei auf einer oder mehreren Leiterbahnplatten untergebracht sein. Für eine Recheneinheit 2 kommt eine Gruppe von Mikroprozessoren mit Speicher- und Kommunikations-Hardware, z. B. ein IMS-T 9000-Transputerchip mit integrierter Kommunikation, sowie einige zusätzliche Speicherchips in Frage. Für die Kommunikationseinheiten 4 sind IMS-C104-Kommunikationschips vorgesehen, welche Daten paketweise zwischen wahlfreien Absender- und Ziel-Recheneinheiten versenden.

Beim Betrieb eines fehlertoleranten Rechnersystems unter Verwendung der vorgenannten Funktionseinheit 1 zuzüglich dem beschriebenen Kommunikationsnetzwerk 8 wird die Funktion der Recheneinheiten 2 und der Kommunikationseinheiten 4 sowie der internen 3 und externen 6 Verbindungen zu bestimmten Zeitpunkten vom Betriebssystem des Rechners überprüft, welche vom Benutzerprogramm oder dem Betriebssystem selbst vorgegeben sind. Bei einem Prüfergebnis, das keinerlei Fehler dieser Bausteine ergibt, wird der Betriebszustand dieser Bausteine und des Massenspeichersystems eingefroren, d. h. zwischengespeichert. Bei Feststellung einer fehlerhaften Recheneinheit wird der zuletzt eingefrorene Zustand wiederhergestellt, wobei die fehlerhafte Recheneinheit 2 durch eine zu diesem Zeitpunkt nicht aktive Recheneinheit 2 ersetzt wird. Im Falle eines Fehlers einer Kommunikationseinheit 4 oder einer internen 3 oder externen 6 Verbindungsleitung sorgt das Betriebssystem dafür, daß diese zukünftig umgangen werden, das Rechnersystem also fehlertolerant weiterarbeitet.

Bezugszeichen

1 Funktionseinheit
2 Recheneinheit
3 interne Verbindung
4 Kommunikationseinheit
5 externe Verbindungen
6 Kommunikationskanal
7 Kommunikationsnetzwerk

Claims

1. Für ein fehlertolerantes Rechnersystem bestimmte Funktionseinheit mit N Recheneinheiten, M Kommunikationseinheiten und einem Kommunikationsnetzwerk, dadurch gekennzeichnet,
daß K interne Verbindungen (3) vorgesehen sind, welche jede Rechen- (2) mit jeder Kommunikationseinheit (4) verbinden,
daß die N Recheneinheiten (2) jeweils untereinander gleich und austauschbar sind und daß jeweils nur (N-n) mit nN/4 Recheneinheiten (2) aktiv, also n Recheneinheiten (2) redundant sind,
und daß von den K internen Verbindungen (3) des Kommunikationsnetzes (7) zwischen den Rechen- (2) und Kommunikationseinheiten (4) jeweils nur (K-k) mit kK/4 solcher Verbindungen (3) aktiv sind.

2. Funktionseinheit nach Anspruch 1, dadurch gekennzeichnet, daß N=17, M=4, n=m=1 und K=68, k=4 ist und eine Recheneinheit (2) aus einem Prozessorknoten, eine Kommunikationseinheit (4) aus einem Kommunikationschip und eine interne Verbindung aus einem Kommunikationskanal (6) besteht.

3. Für ein fehlertolerantes Rechnersystem bestimmte Verbindungsstruktur von Funktionseinheiten mit N Recheneinheiten, M Kommunikationseinheiten und einem Kommunikationsnetzwerk, dadurch gekennzeichnet,
daß L externe Verbindungen (5) vorgesehen sind, die jede Kommunikationseinheit (4) einer Funktionseinheit (1) jeweils extern mit J2 Kommunikationseinheiten (4) jeder benachbarten Funktionseinheit (1) verbinden,
daß die Kommunikationseinheiten (4) jeder Funktionseinheit (1) untereinander gleich und austauschbar sind und daß jeweils mindestens (M-m) mit mM/4 Kommunikationseinheiten (4) aktiv sind und
daß von den L externen Verbindungen (5) des Kommunikationsnetzwerkes (7) zwischen den Funktionseinheiten (1) jeweils mindestens (L-l) mit lL/4 solcher Verbindungen (5) aktiv sind.

4. Verbindungsstruktur nach Anspruch 3, dadurch gekennzeichnet, daß L=48, l=12, n=4, m=1 und J=2 ist und eine externe Verbindung (5) einen Kommunikationskanal (6) hat.

5. Verbindungsstruktur nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß von jeder Kommunikationseinheit (4) zu jeder benachbarten Funktionseinheit (1) mindestens eine Verbindung (5) des Kommunikationsnetzes (7) existiert.

6. Verfahren zum Betrieb eines fehlertoleranten Rechnersystems nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,
daß der Betriebszustand der Recheneinheiten, der Kommunikationseinheiten sowie der internen und externen Verbindungen in bestimmten Zeitabständen geprüft wird,
daß im Falle eines fehlerhaften Zustandes einer Recheneinheit diese durch eine zu diesem Zeitpunkt nicht aktive Recheneinheit ersetzt wird und
daß im Falle eines fehlerhaften Zustandes einer Kommunikationseinheit oder einer internen oder externen Verbindung diese zukünftig umgangen wird.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß der Zustand des Rechnersystems zu bestimmten Zeitpunkten eingefroren, d. h. abgespeichert wird.

8. Verfahren nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß das Einfrieren des Betriebszustandes der Recheneinheiten, der Kommunikationseinheiten sowie der internen und externen Verbindungen unmittelbar nach einer Prüfung erfolgt, die keinen Fehler ergeben hat.

9. Verfahren nach einem der Ansprüche 6 bis 8, dadurch gekennzeichnet, daß bei Feststellung eines fehlerhaften Betriebszustandes der zuletzt eingefrorene Zustand wiederhergestellt wird.

10. Verfahren nach einem der Ansprüche 7 bis 9, dadurch gekennzeichnet, daß der Zustand des Massenspeichersystems Teil des Betriebszustandes ist.