DE1966991B2 - Ausfallgesicherte Datenverarbeitungsanlage - Google Patents

Ausfallgesicherte Datenverarbeitungsanlage

Info

Publication number
DE1966991B2
DE1966991B2 DE1966991A DE1966991A DE1966991B2 DE 1966991 B2 DE1966991 B2 DE 1966991B2 DE 1966991 A DE1966991 A DE 1966991A DE 1966991 A DE1966991 A DE 1966991A DE 1966991 B2 DE1966991 B2 DE 1966991B2
Authority
DE
Germany
Prior art keywords
unit
data processing
error
program
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE1966991A
Other languages
English (en)
Other versions
DE1966991A1 (de
DE1966991C3 (de
Inventor
Jeganandaraj Amacendra Chandlersford Arulpragasam
Alan Charles Glover
John Francis Minshul
Martin Coxwell Pinnell
Harold William Brambridge Eastleigh Tuffill
Robin North Baddesley Waugh
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE1966991A1 publication Critical patent/DE1966991A1/de
Publication of DE1966991B2 publication Critical patent/DE1966991B2/de
Application granted granted Critical
Publication of DE1966991C3 publication Critical patent/DE1966991C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1405Saving, restoring, recovering or retrying at machine instruction level
    • G06F11/141Saving, restoring, recovering or retrying at machine instruction level for bus or memory accesses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2058Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring using more than 2 mirrored copies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2097Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Retry When Errors Occur (AREA)
  • Debugging And Monitoring (AREA)

Description

Die Erfindung betrifft eine ausfallgesicherte Datenverarbeitungsanlage nach Oberbegriff des Anspruchs 1. Datenverarbeitungsanlagen können zur Lösung von vielen Problemen nur dann sinnvoll verwendet werden, wenn sichergestellt ist, daß keine Störung während der Bearbeitung einer Aufgabe auftreten kann. Derartige hohe Anforderungen stellen beispielsweise Echtzeitprobleme wie das Steuern und Überwachen von Fertigungsprozessen, Teilnehmer-Rechensysteme und Systeme für Banktransaktionen.
In all diesen Fällen muß gewährleistet sein, daß intermittierende oder selbst permanente Fehler nicht zum Verlust der bisl.jr geleisteten korrekten Arbeit führen und daß die Anlage nach einer nur sehr kurzzeitigen Umschaltunterbrechung wieder mit voller Leistungsfähigkeit zur Verfügung steht.
Die bisher bekanntgewordenen Systeme schützen vor Verlust der schon geleisteten Arbeit hauptsächlich durch Einsatz von Piogrammtechniken: Hierzu wurden in das auszuführende Programm an strategisch wichtigen Stellen, beispielsweise am Ende einer längeren Operationssequenz, besondere Instruktionen eingebaut, mit deren Hilfe der Programmstatus an dieser Stelle in einen Rückgriffspeicher gerettet wurde. Trat dann im weiteren Programmverlauf ein Fehler auf, so konnte zu diesem Wiederanlaufpunkt zurückgekehrt und von dort die Programmausführung erneut begonnen werden. Der Nachteil dieses Verfahrens besteht in dem zusätzlichen Programmieraufwand und der Herabsetzung der Verarbeitungsgeschwindigkeit; außerdem kann die Zeitspanne zwischen der Aufnahme eines Wiederanlaufpunkts und dem Auftreten eines Fehlers recht beträchtlich sein und somit ein beträchtlicher Teil der schon geleisteten Arbeit bei der Rückkehr zum Wiederanlsufpunkt verlorengehen. Bei einem vollständigen Ausfall der Anlage ist eine Operationswiederholung naturgemäß nicht möglich.
Um die Verfügbarkeit von Datenverarbeitungsanlagen auch bei permanenten Fehlern zu garantieren, ist schon bekannt, die Anlage selbst oder ihre wesentlichen Teile mehrfach vorzusehen und im Fehlerfall die noch funktionstüchtigen Elemente weiterzuverwenden. So wurde schon vorgeschlagen, neben dem Rechner, der die Arbeit durchführt, einen parallel arbeitenden
so Rechner einzusetzen, in dem identisch dieselben Operationen ablaufen. Diese Lösung ist jedoch teuer und läßt sich daher nur in besonderen Fällen einsetzen.
In der DE-AS 11 52 278 wird ein Rechnernetzwerk beschrieben, in dem ein Rechner als passive Reserve ausschließlich für den Fall einer Fehlerbedingung bereitgehalten und nach Erkennen eines Fehlers aktiviert wird.
Von Nachteil ist hierbei, daß die internen Vorgänge bei der Befehlsausführung und der Datensteuerung als interne Prozesse der Rechner, die im Fehlerfalle durch die passive Reserveeinheit ersetzt werden sollen, nicht berücksichtigt werden. Dieses erfordert, daß die bis zu einem Fehlerzeitpunkt gewonnenen Resultate eines Rechners in die Reserverecheneinheit übertragen werden, wo sie mit den in dieser Reserverecheneinheit aus den Eingangsdaten errechneten Ergebnissen verglichen werden. Die Eingangsdaten werden ebenfalls von der Reserverecheneinheit mit übernommen, um ein
Auflaufen dieser Daten und einen Überhang zu verhindern. Durch diese Zeitverzögerungen, vor allem bei der Überprüfung der Gültigkeit der Resultate des defekten Rechners, wird der Nachteil einer solchen Rechnerstruktur für die Durchführung von Realzeitaufgaben ersichtlich. Der Reserverechner benötigt darüber hinaus ein eigenes, speziell vorbereitetes Programm zur Durchführung des Wiederanlaufs, damit der als Ersatz gewählte Rechner in der Weiterverarbeitung des gleichen Programms fortfahren kann. Hieraus ergibt sich ein großer Aufwand bei der Programmerstellung und beim Laden des Programms in den Speicher des Reserverechners. Außerdem ergibt sich dort eine beträchtliche Einengung der Flexibilität des Gesamtsystems, da eben immer nur ein bestimmter und nicht ein beliebiger Rechner als Reserve eingesetzt werden kann.
Auf der gleichen Ebene, jedoch hinsichtlich ihres Aufwandes etwas günstiger, liegt eine Rechnerstruktur, die in der US-PS 33 86 082 beschrieben ist. Dort sind lediglich Systemelemente eines Rechners und nicht die Rechner selbst dupliziert Hinsichtlich der Steuerung ergeben sich aber im wesentlichen die gleichen Nachteile, wie bei der vorstehend erläuterten Rechnerstruktur.
Im IBM Technical Disclosure Bulletin, Vo. 7, No 3, August 1964, Seiten 218 und 219, ist weiterhin ein Duplexsystem beschrieben, dessen beide Verarbeitungseinheiten über einen gemeinsamen Speicher miteinander kommunizieren. Beide Einheiten tragen in regelmäßigen Abständen ihren Systemstatus in diesen gemeinsamen Speicher ein. Die andere Einheit prüft diesen Status und übernimmt im Fehlerfall die Aufgabe des ausgefallenen Systems aufgrund der gespeicherten Statusdaten. Dieses System hat jedoch den Nachteil, daß zwischen der Registrierung von Statusberichten relativ große Zeitabstände liegen und daß keine direkten Signalleitungen zwischen den beiden Systemen selbst bestehen. Auf diese Weise bemerkt das kontrollierende System erst nach einiger Zeit das Auftreten eines Fehlers im anderen System; außerdem können zwischen der Registrierung eines Statusberichts und dem Auftreten eines Fehlers Veränderungen des Hauptspeicherinhalts, von Dateien usw. erfolgt sein, wodurch eine Weiterführung der Arbeit im anderen System unmöglich gemacht wird, da diese Tatsache von dem ausgefallenen System nicht mehr in den Statusbericht eingeschrieben werden kann. Der Anwendungsbereich dieses gekoppelten Systems ist daher auf solche Fälle beschränkt, bei denen die Einschränkungen keine Rolle spielen.
Die vorliegende Erfindung geht nun von den Nachteilen des eben geschilderten Standes der Technik aus und stellt sich die Aufgabe, eine ausfallgesicherte Datenverarbeitungsanlage anzugeben, die eine sofortige und vollständige Extraktion der bis zum Auftreten des Fehlers geleisteten Arbeit ermöglicht und die eine sofortige Fortsetzung der Arbeit aufgrund der übernommenen Information erlaubt.
Diese Aufgabe wird durch die im Hauptanspruch gekennzeichnete Erfindung gelöst. Ausgestaltungen und Weiterbildungen der Erfindung sind in den Unteransprüchen angegeben.
Das erfindungsgemäße System verwendet vorteilhafterweise eine Protokolleinrichtung, die zu jedem Zeitpunkt alle in diesem Augenblick gültigen Daten zur Verfügung stellen kann, die für einen Wiederanlauf notwendig sind; die Gesamtheit dieser Daten wird als Programmprofil bezeichnet Eine derartige Einrichtung für die laufende und automatische Erstellung eines Programmprofils ist beispielsweise in der deutschen Patentanmeldung mit dem Aktenzeichen P 19 36251.7 (DE-OS 19 36 251) beschrieben.
Die Erfindung schlägt nun vor, einen mit der beschriebenen oder einer ähnlichen Protokolleinrichtung versehenen Rechner mit einem weiteren Rechner zu koppeln. Stellen nun die Fehlerprüfkreise des mit der Protokolleinrichtung verbundenen Rechners einen
to Fehler fest, so wird im allgemeinen zuerst von dem betroffenen Rechner selbst versucht werden, durch Operationswiederholung den Fehler zu beseitigen. Ist dies jedoch nicht möglich, weil z. B. ein Schaltkreis permanent ausgefallen ist, so gibt der Steuerteil des betroffenen Rechners über eine speziell hierzu vorgesehene Verbindungsleitung ein Aufforderungssignal an den Steuerteil des gekoppelten Rechners, das Programmprofil aus der Protokolleinrichtung des fehlerhaften Rechners zu übernehmen. Die Übernahme des Programmprofils erfolgt danach durch den Datenverarbeitungsteil des gekoppelten Rechners. Dieser entnimmt das Programmprofil aus der Protokolleinrichtung, bereitet es auf und gibt es als Datensatz in den gemeinsamen Hauptspeicher. Es ist hierbei zu beachten, daß die Protokolleinrichtung nur über die Datenverarbeitungsanlage des gekoppelten Rechners mit dem gemeinsamen Hauptspeicher verbunden ist, nicht jedoch durch eine direkte Verbindung zum Hauptspeicher.
Im allgemeinen wird der gekoppelte Rechner mit einer Mehrprogrammeinrichtung versehen sein, so z. B., wenn das erfindungsgemäße System für Realzeitaufgaben eingesetzt werden soll. In diesem Fall stellt der im Hauptspeicher enthaltene Protokolldatensatz dem gekoppelten Rechner alle Informationen zur Verfügung, um die in dem fehlerhaften System unterbrochene Arbeit als eigene Aufgabe (Task) weiterführen zu können. Der gekoppelte Rechner wird also nach dem Ausfall des ersten Rechners die weitere Bearbeitung der gerade laufenden Aufgabe abbrechen, das Programmprofil aus dem ausgefallenen System entnehmen und auf dieser Grundlage die Arbeit des ausgefallenen Systems weiterführen. Das Programmprofil stellt zusammen mit den im gemeinsamen Hauptspeicher enthaltenen Daten alle Informationen für die Weiterführung der Arbeit zur Verfügung.
Die Vorteile dieser Erfindung bestehen in der schnellen Umschaltmöglichkeit bei Auftreten eines Fehlers, und der Möglichkeit, zum Programmprofil selbst dann zuzugreifen, wenn das ausgefallene Sys» am vollkommen funktionsunfähig geworden ist. Außerdem kann die erfindungsgemäße Einrichtung auch beim normalen Betrieb des Systems verwendet werden, so z. B. um Programmprofile in den Hauptspeicher einzuschreiben, ohne daß ein Fehler aufgetreten ist. Diese Programmprofile können dann im Rahmen des Mehrfachprogrammbetriebs aufgerufen werden und zur V/iederaufnahme der im Multiprogrammbetrieb unterbrochenen Arbeit dienen. Besonders flexibei wird das Gesamtsystem, wenn es in bezug auf die Rechner und deren Verbindung vollkommen symmetrisch ausgebildet ist.
Ein Ausführungsbeispiel der Erfindung wird nun an Hand der Zeichnung dargestellt, die ein System aus zwei identischen Verarbeitungseinheiten mit Protokolleinrichtungen und einem gemeinsamen Hauptspeicher zeigt.
Die Anordnung nach der Figur ist vollkommen
symmetrisch und umfaßt zwei Verarbeitungseinheiten (ZVE) 20 und 2t, von denen jede für Mehrfachprogrammbetrieb geeignet ist. Eine ZVE unfaßt hier mindestens ein Rechenwerk (Datenverarbeitungsteil) und ein Leitwerk (Steuerteil). Die dargestellten Vorgänge können ebenso gut in Systemen mit mehr als zwei ZVEs verwirklicht werden. Außerdem gelten die nachfolgend beschriebenen Prinzipien auch für asymmetrische Systeme, da diese als symmetrische Systeme aufgefaßt werden können, bei denen entsprechende Einheiten weggelassen sind.
Die als Beispiel gewählte symmetrische Datenverarbeitungsanlage mit zwei ZVEs umfaßt die folgenden Einheiten: einen Hauptspeicher 22, zwei ZVEs 20 und 21 und zwei Protokolleinrichtungen 23 und 24.
Dateneingabe und -ausgabe in den bzw. aus dem Hauptspeicher 22 erfolgt unter normalen Umständen über eine der ZVEs 20 oder 21; die Protokolleinrichtungen 32 und 24 haben keinen direkten Zugriff zum Hauptspeicher 22, sondern nur durch eine der ZVEs. Für die vorliegende Beschreibung wird eine Unterteilung der ZVEs in drei Hauptteile angenommen: einen Steuerteil 25 (bzw. 26) mit einer Fehlerkennungsschaltung, einen Datenverarbeitungsteil 27 (bzw. 28), und einen Speicherteil 29 (bzw. 30) für die anstehenden Programmunterbrechungen, der aus einer Reihe von bistabilen Schaltungen besteht.
Das Teilungskonzept für jede ZVE ist so ausgelegt, daß der Inhalt des Steuerteils (25 bzw. 26) keinen Teil des Profils der zugehörigen ZVE (20 bzw. 21) bildet, der Datenverarbeitungsteil (27 bzw. 28) nur Daten des laufenden Programms für die ZVE (20 bzw. 21) enthält, und die Daten im Programmunterbrechungs-Speicher (29 bzw. 30) sich auf andere Programme beziehen, mit denen die betreffende ZVE (20 bzw. 21) auch noch zu arbeiten hat, und die sehr gut maskiert werden können. Jede der beiden Protokolleinrichtungen 23 und 24 besteht darstellungsgemäß aus folgenden Teilen: einem Abschnitt (31 bzw. 32) zum Speichern des Profils des zugeordneten Datenverarbeitungsteils, und einem Abschnitt (33 bzw. 34) zum Speichern des Profils des zugeordneten Speicherteils für die anstehenden Programmunterbrechnungen.
Es wird angenommen, daß jede ZVE mit einer Befehls- Wiederholungseinrichtung ausgerüstet ist und daß die Fehlererkennungsschaltung aus zwei Teilen besteht: einem Teil zur Fehlerfeststellung im Datenfluß der ZVE und einem Fehleranzeigeteil, der auf eine wiederholte Fehlerfeststellung oder auf Stromausfall bzw. andere permanente Fehler anspricht und die Unbrauchbarkeit der ZVE anzeigt.
Der Feststellungsteil verhindert eine Eingabe von neuen Daten in die zugehörige Protokolleinrichtung und leitet eine Befehls-Wiederholung ein, wenn ein Fehler entdeckt wird, und der Anzeigeteil betätigt der Steuerteil der anderen ZVE zwecks Verarbeitung und Speicherung des Profils der eigenen ZVE, die als unbrauchbar bezeichnet wird. Beim Auftreten eines Fehlers wird eine Eingabe der unsicheren Daten in die betreffende Protokolleinrichtung auf jeden Fall verhindert. Die Anordnung arbeitet folgendermaßen:
Wenn in einer der ZVEs, z. B. der ZVE 20, ein Fehler auftritt, wird das letzte zuverlässige Profil in der Protokolleinrichtung 23 fixiert, und es wird eine Befehlswiederholung versucht. Wenn der festgestellte Fehler nicht verschwindet, beendet der Fehleranzeigeteil des Steuerteils 25 die Operation der ZVE 20 und gibt ein Signal an den Steuerteil 26 der ZVE 21.
Die ZVE 21 beendet ihre laufenden Operationen und stellt den Inhalt ihres Arbeitsbereiches im Hauptspeicher 22 auf übliche Weise durch Wegspeichern sicher als wenn sie zu einer anderen Aufgabe umschalter würde. Der Inhalt des Speicherabschnitts 30 für anstehende Programmunterbrechungen braucht nichl durch Wegspeichern sichergestellt zu werden. Danach adressiert die ZVE 21 die Protokolleinrichtung 23, um das Profil der ZVE 20 zu entnehmen und in einer geordneten Datenstrom umzuformen, und gibt dieser Datenstrom in den Hauptspeicher 22 ein. Wenn die Profildaten durch diesen Datenstrom einmal sicher gespeichert sind, kann die ZVE 21 zu ihren eigener Aufgaben zurückkehren.
Das gesamte Profil der ZVE 20 enthält den Stand der zugehörigen anstehenden Programmunterbrechungen zum Fehlerzeitpunkt und die Maskierung dieser Unterbrechungen. Diese Informationen gelangen jedoch nicht zum Speicherteil 30 für die anstehender Programmunterbrechungen der ZVE 21, sondern laufen nur durch den Datenverarbeitungsteil 28 der ZVE 21. Maskierte Unterbrechungen, die von der ZVE 20 ignoriert würden, werden durch die ZVE 21 nicht ignoriert, und es wird eine genaue Aufstellung aller laufenden Unterbrechungen in Reihenfolge der Prioritat und der zugehörigen Maskierung vorgenommen.
Da das System symmetrisch angelegt ist, wird ein Ausfall der ZVE 21 genauso behandelt wie ein solcher der ZVE 20. Außerdem kann eine ZVE so ausgelegt werden, daß sie ihr eigenes Profil durch Wegspeichern sicherstellt und anschließend die Aufgaben der ausgefallenen ZVE von dem Punkt an übernimmt, an welchem das Profil der ausgefallenen ZVE gespeichert wurde.
Wie bereits oben gesagt wurde, kann auch eine Anordnung mit drei oder mehr ZVEs so eingerichtet
so werden, daß sie bei Auftreten von Fehlern die oben beschriebenen Funktionen erfüllt. Eine genauere Darstellung erübrigt sich hier. Das gilt auch für nichtsymmetrische Anordnungen, die solche Funktionen erfüllen.
Hierzu 1 Blatt Zeichnungen

Claims (5)

Patentansprüche:
1. Ausfallgesicherte Datenverarbeitungsanlage, insbesondere für Echtzeitaufgaben, mit einem vorzugsweise gemeinsamen Hauptspeicher und mindestens einer ersten und einer zweiten Verarbeitungseinheit mit jeweils Datenverarbeitungsteilen und Steuerteilen, wobei mindestens die erste Verarbeitungseinheit im Steuerteil eine Protokolleinrichtung zur laufenden Registrierung ihres Status und eine Fehlererkennungseinrichtung enthält, dadurch gekennzeichnet, daß zwischen den Steuerteilen (25, 26) beider Verarbeitungseinheiten (20,21) direkte Verbindungsleitungen zur Übermittlung von Steuersignalen verlaufen, daß der Eingang der Protokolleinrichtung (23) der ersten Einheit (20) mit dem Datenverarbeitungsteil (27) der ersten Einheit (20) verbunden ist, daß der Ausgang der Protokolleinrichtung (23) der ersten Einheit mit dem Datenverarbeitungsteil (28) der zweiten Einheit (21) verbunden ist, daß die Fehlererkennungsschaltung im Steuerteil der ersten Einheit bei Auftreten eines permanenten Fehlers ein Signal an den Steuerteil der zweiten Einheit abgibt, daß der Steuerteil (26) der zweiten Einheit daraufhin die Protokolleinrichtung (23) der ersten Einheit aktiviert und daß der Datenverarbeitungsteil (28) der zweiten Einheit den in der Protokolleinrichtung (23) der ersten Einheit registrierten Systemstatus (Programmprofil) aufnimmt und als Datensatz zur sofortigen oder späteren Weiterbearbeitung in den Hauptspeicher (22) einschreibt.
2. Datenverarbeitungsanlage nach Anspruch 1, dadurch gekennzeichnet, daß die zweite Verarbeitungseinheit (21) für Multiprogrammbetrieb ausgelegt ist und im Fehlerfall nach Übernahme des registrierten Systemstatus (Programmprofil) die in der ersten Verarbeitungseinheit unterbrochene Arbeit fortsetzt.
3. Datenverarbeitungsanlage nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß beide Verarbeitungseinheiten (20, 21) identisch aufgebaut sind und jeweils eine Protokolleinrichtung (23, 24) besitzen und daß Verbindungen vorhanden sind derart, daß die Gesamtanlage symmetrisch ist.
4. Datenverarbeitungsanlage nach Anspruch 3, dadurch gekennzeichnet, daß beide Verarbeitungseinheiten neben den Datenverarbeitungsteilen (27, 28) je einen Speicherteil (29, 30) für anstehende Programmunterbrechungen enthalten, daß die Protokolleinrichtungen (23, 24) neben den ersten Protokollspeichern (31, 32) für die Datenverarbeitungsteile je einen zusätzlichen zweiten Protokollspeicher (33, 34) für die anstehenden unterbrochenen Programme aufweisen und daß Verbindungen zwischen den Datenverarbeitungsteilen (27,28) und den zugeordneten ersten Protokollspeichern (23,24) bzw. zwischen den Unterbrechungsspeichern (29,30) und den zweiten Protokollspeichern (33, 34) bestehen.
5. Datenverarbeitungsanlage nach Anspruch 1, dadurch gekennzeichnet, daß die Fehlererkennungseinrichtung derart angelegt ist, daß sie nach Feststellen eines Fehlers zuerst eine Operationswiederholung einleitet, und erst beim Feststellen eines Dermanenten Fehlers eine Übernahme des Programmprofils durch die zweite Verarbeitungseinheit anfordert.
DE1966991A 1968-07-19 1969-07-16 Ausfallgesicherte Datenverarbeitungsanlage Expired DE1966991C3 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB34429/68A GB1163859A (en) 1968-07-19 1968-07-19 Data Processing Systems
GB35457/68A GB1168414A (en) 1968-07-19 1968-07-25 Data Processing Systems

Publications (3)

Publication Number Publication Date
DE1966991A1 DE1966991A1 (de) 1976-02-05
DE1966991B2 true DE1966991B2 (de) 1978-10-05
DE1966991C3 DE1966991C3 (de) 1979-05-31

Family

ID=26262285

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1966991A Expired DE1966991C3 (de) 1968-07-19 1969-07-16 Ausfallgesicherte Datenverarbeitungsanlage

Country Status (8)

Country Link
BE (1) BE734986A (de)
CH (1) CH499157A (de)
DE (1) DE1966991C3 (de)
ES (1) ES369639A1 (de)
FR (2) FR2014655A1 (de)
GB (2) GB1163859A (de)
NL (1) NL6911126A (de)
SE (1) SE346170B (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5537641A (en) * 1978-09-08 1980-03-15 Fujitsu Ltd Synchronization system for doubled processor
US4507751A (en) * 1982-06-21 1985-03-26 International Business Machines Corporation Method and apparatus for logging journal data using a log write ahead data set
GB2132796A (en) * 1982-11-25 1984-07-11 Decca Ltd Data logging system
JPS6054052A (ja) * 1983-09-02 1985-03-28 Nec Corp 処理継続方式
US5155678A (en) * 1985-10-29 1992-10-13 International Business Machines Corporation Data availability in restartable data base system
JPH07319738A (ja) * 1994-05-23 1995-12-08 Nec Commun Syst Ltd 差分記録方式
US8812781B2 (en) * 2005-04-19 2014-08-19 Hewlett-Packard Development Company, L.P. External state cache for computer processor

Also Published As

Publication number Publication date
NL6911126A (de) 1970-01-21
DE1966991A1 (de) 1976-02-05
CH499157A (de) 1970-11-15
DE1966991C3 (de) 1979-05-31
BE734986A (de) 1969-12-01
GB1168414A (en) 1969-10-22
DE1936251A1 (de) 1970-01-22
SE346170B (de) 1972-06-26
DE1936251B2 (de) 1975-11-20
GB1163859A (en) 1969-09-10
ES369639A1 (es) 1971-04-01
FR2014655A1 (de) 1970-04-17
FR2014710A1 (de) 1970-04-17

Similar Documents

Publication Publication Date Title
DE2908316C2 (de) Modular aufgebaute Multiprozessor-Datenverarbeitungsanlage
DE3336977C2 (de) Schaltungsanordnung zur Vermeidung eines HALT-Zustandes für einen Fahrzeugcomputer
DE2417578C2 (de) Verfahren zur Verhinderung von Befehlskonflikten in einer Zentraleinheit einer Datenverarbeitungsanlage und Vorrichtung zur Durchführung des Verfahrens
DE2526708C2 (de) Schaltungsanordnung zur Kompensation der Zeitverzerrung von über zwei Übertragungsstrecken ankommenden Bits
DE19835610A1 (de) Programmgesteuerte Einheit und Verfahren zum Debuggen derselben
DE69016978T2 (de) Sicheres Datenschnellschreibverfahren für Massenspeichereinrichtung und ein dieses Verfahren ausführendes Computersystem.
DE1966991C3 (de) Ausfallgesicherte Datenverarbeitungsanlage
DE2325137A1 (de) Speichereinrichtung mit bereitschaftsspeicherelementen
DE2641700A1 (de) Taktueberwachung in digitalsystemen
DE2311503A1 (de) Datenverarbeitungsanlage mit mehreren zentraleinheiten
DE102013021231A1 (de) Verfahren zum Betrieb eines Assistenzsystems eines Fahrzeugs und Fahrzeugsteuergerät
EP1915686B1 (de) Verfahren und vorrichtung zur festlegung eines startzustandes bei einem rechnersystem mit wenigstens zwei ausführungseinheiten durch markieren von registern
DE4227784A1 (de) Rechnersystem und verfahren zum beheben eines seitenfehlers
DE69800095T2 (de) Schnelles Semaphoreregister mit einer sicheren Arbeitsweise ohne spezifisches Busprotokoll
EP0151810A2 (de) Verfahren und Schaltungsanordnung zum Prüfen eines Programms in Datenverarbeitungsanlagen
DE69718432T2 (de) Ein-/Ausgabesteuerungsgerät und Verfahren angewendet für ein betriebsicheres Rechnersystem
DE2727983C2 (de) Schaltungsanordnung mit mindestens doppelt vorgesehenen zentralen Steuerungen, insbesondere für Fernsprechvermittlungsanlagen
WO1999044135A1 (de) Synchronisations- und/oder datenaustauschverfahren für sichere, hochverfügbare rechner und hierzu geeignete einrichtung
DE2917822A1 (de) Schaltungsanordnung zur zweirichtungsuebertragung von signalen
DE4104114A1 (de) Redundantes datenverarbeitungssystem
DE2164686A1 (de) Datenverarbeitungssystem mit mehreren Funktionseinheiten
DE3400311C1 (de) Datenverarbeitungseinrichtung mit einem Prozessor
DE4303048A1 (en) Alarm recognition apparatus for redundant layout circuit in radio equipment - has input circuits delaying alarm recognition signals when circuits are switched to be operational systems
DE2829896C2 (de) Schaltungsanordnung für eine zentral durch Programme gesteuerte Vermittlungseinrichtung
DE4028979C2 (de) Einrichtung zur Diagnose von nicht rücklesbaren Ports in Mikrocomputern

Legal Events

Date Code Title Description
C3 Grant after two publication steps (3rd publication)
8339 Ceased/non-payment of the annual fee