DE4302908A1 - Critical fault detection system for communication system - compares number of detected faults within defined interval with threshold value to indicate critical condition - Google Patents

Critical fault detection system for communication system - compares number of detected faults within defined interval with threshold value to indicate critical condition

Info

Publication number
DE4302908A1
DE4302908A1 DE19934302908 DE4302908A DE4302908A1 DE 4302908 A1 DE4302908 A1 DE 4302908A1 DE 19934302908 DE19934302908 DE 19934302908 DE 4302908 A DE4302908 A DE 4302908A DE 4302908 A1 DE4302908 A1 DE 4302908A1
Authority
DE
Germany
Prior art keywords
error
time interval
threshold value
threshold
events
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19934302908
Other languages
German (de)
Other versions
DE4302908C2 (en
Inventor
Stephan Grossen
Juergen Orthmann
Robert Jaeger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Schweiz AG
Original Assignee
Siemens Albis AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Albis AG filed Critical Siemens Albis AG
Publication of DE4302908A1 publication Critical patent/DE4302908A1/en
Application granted granted Critical
Publication of DE4302908C2 publication Critical patent/DE4302908C2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G08SIGNALLING
    • G08CTRANSMISSION SYSTEMS FOR MEASURED VALUES, CONTROL OR SIMILAR SIGNALS
    • G08C25/00Arrangements for preventing or correcting errors; Monitoring arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/08Indicating faults in circuits or apparatus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

The critical fault detection system allows detected faults to be sorted in accordance with defined criteria, the number of detected faults within a given time interval compared with a threshold value, to allow a critical fault to be indicated, with a corresponding signal supplied. When the number of faults within the defined time interval is below the threshold value, the attained value at the beginning of the next interval is logged in a counter (EC) and used to alter the threshold value or the time interval. ADVANTAGE - Allows reliable detection of persistent faults.

Description

Die vorliegende Erfindung betrifft ein Verfahren nach dem Oberbegriff des Patentanspruchs 1 bzw. eine Schaltungsanordnung nach dem Oberbegriff des Patentanspruchs 9.The present invention relates to a method according to the preamble of patent claim 1 or a circuit arrangement according to the preamble of claim 9.

Komplexe elektronische Systeme, insbesondere rechnergesteuerte Kommunikationssysteme müssen normalerweise ständig betriebsbereit sein. Die systemzugehörige Sicherheitstechnik hat die Aufgabe, diesen hohen Grad an Verfügbarkeit insbesondere auch im Störungsfall zu gewähr­ leisten. Mit geeigneten Maßnahmen hat sie dafür zu sorgen, daß Fehler baugruppengenau lo­ kalisiert und rasch behoben werden. Dadurch werden die Auswirkungen einer Störung auf ein Minimum beschränkt. Ferner sollen Störungen an das Wartungspersonal gemeldet werden. Die Funktionsweise der Sicherheitstechnik für das ISDN-Kommunikationssystem HICOM der Sie­ mens AG ist z. B. aus H. Thomas und K. Wehrend, "Betriebs-Software des ISDN-Kommunikati­ onssystems HICOM", veröffentlicht in "ISDN im Büro-HICOM", Siemens AG, Berlin und München 1985, ISBN 3-8009-846-4, Seiten 95-106 bekannt.Complex electronic systems, especially computer-controlled communication systems normally have to be ready for operation at all times. The system-related safety technology has the task of guaranteeing this high degree of availability, particularly in the event of a fault Afford. With suitable measures, it has to ensure that faults are lo-specific to the assembly calibrated and fixed quickly. This will affect the impact of a disorder Minimum limited. Faults should also be reported to the maintenance personnel. The How security technology works for the HICOM ISDN communication system mens AG is e.g. B. from H. Thomas and K. Wehrend, "Operating software of ISDN communicati onsystems HICOM ", published in" ISDN in the office HICOM ", Siemens AG, Berlin and Munich 1985, ISBN 3-8009-846-4, pages 95-106.

Die sicherheitstechnischen Verfahren sind in drei Teilkomplexe gegliedertThe safety-related procedures are divided into three sub-complexes

  • - Fehlererkennung,- error detection,
  • - Fehleranalyse und- error analysis and
  • - Fehlerbehandlung.- error handling.

Funktionswichtige Bereiche des Systems, die durch Software nicht erreicht werden können oder bei denen es auf rasche Reaktionen ankommt, werden dabei oft durch Hardware-Übenwa­ chungsschaltungen gesichert. Weitere Bereiche werden vorzugsweise durch Prüfprogramme gesichert, die als "nicht betriebsstörende" Hintergrundtests für die regelmäßige Prüfung der Hardware-Funktionen des Systems sorgen. Diese Prüfprogramme werden durch Prüfaufträge aktiviert, die periodisch von einer Routineprüfsteuerung oder gezielt durch eine Selbstdiagnose­ einheit oder das Wartungspersonal erteilt werden. Die Prüfaufträge sind gemäß der Hardware- Architektur des Systems hierarchisch gegliedert. So ist es möglich, mit jeweils nur einem Auftrag einzelne Hardware-Elemente oder größere Bereiche prüfen zu lassen.Functionally important areas of the system that cannot be reached by software or where rapid reactions are important, are often practiced by hardware secured circuits. Other areas are preferably covered by test programs backed up as "non-disruptive" background tests for periodic testing of Hardware functions of the system provide. These test programs are through test orders activated, periodically by a routine test control or targeted by self-diagnosis unit or maintenance personnel. The test orders are in accordance with the hardware System architecture hierarchically structured. So it is possible with only one order at a time to have individual hardware elements or larger areas checked.

Durch die Fehleranalyse wird festgestellt, ob ein Fehler nur sporadisch oder konstant auftritt. Ferner wird der Ort des auftretenden Fehlers und dessen Ursache bestimmt. Die Maßnahmen, die durch die Fehleranalyse eingeleitet werden, sind vom Ergebnis der vorausgegangenen Feh­ lerdiagnose abhängig. Sie reichen von der bloßen Störstatistikzählung über Sperr- und Um­ schalteaufträge bis zu Recovery-Maßnahmen in ihren verschiedenen Stufen. Dadurch ist es möglich auf jede Störung angemessen zu reagieren.The error analysis determines whether an error occurs only sporadically or constantly. The location of the error and its cause are also determined. The measures, which are initiated by the error analysis are from the result of the previous mistake  ler diagnosis dependent. They range from mere disturbance statistics counting to blocking and um switching orders up to recovery measures in their various stages. That’s it possible to respond appropriately to any disruption.

Es ist daher wesentlich, zwischen den verschiedenen Fehlerarten genau unterscheiden zu kön­ nen. Durch einen Schwellwert, der jedem zu berücksichtigenden Fehlerereignis zugeordnet wird, kann z. B. festgelegt werden, nach wieviel gleichartigen Fehlerereignissen besondere Maßnah­ men zu ergreifen sind. D.h., vor dem Überschreiten des Schwellwerts wird der Fehler als unkri­ tisch und nach dem Überschreiten des Schwellwerts wird der mehrfach aufgetretene Fehler als kritisch eingestuft und entsprechende Maßnahmen werden ergriffen. Diese Fehlerunterschei­ dung ist jedoch oft ungenügend, da auftretende Fehler den Schwellwert vielfach nicht überschrei­ ten, sich jedoch während längerer Zeit knapp unterhalb des Schwellwertes bewegen. Derartige Fehler sind oft kritischer als Fehler, die den Schwellwert nur einmal kurz überschreiten und dann während langer Zeit nur noch sporadisch auftreten.It is therefore essential to be able to distinguish exactly between the different types of errors nen. By means of a threshold value which is assigned to each error event to be taken into account, can e.g. B. be determined, after how many similar error events special measure to be taken. That is, before the threshold is exceeded, the error is considered uncritical table and after the threshold value has been exceeded, the error that has occurred repeatedly is shown as classified critical and appropriate measures are taken. These mistakes However, manure is often insufficient, since errors that occur often do not exceed the threshold but remain just below the threshold for a long time. Such Errors are often more critical than errors that only briefly exceed the threshold and then occur only sporadically for a long time.

Für kritische Fehler können z. B. die nachfolgend genannten Recovery-Maßnahmen vorgesehen sein, durch die das System, abgestuft von einem Neustart eines einzelnen Moduls bis zum Neu­ start des gesamten Systems in einen definierten Zustand gebracht wird:For critical errors such. B. the recovery measures mentioned below are provided be through which the system, graduated from a restart of a single module to a new one start of the entire system is brought into a defined state:

  • - Soft-Restart,- soft restart,
  • - Modul-Hard-Restart,- module hard restart,
  • - Modul-Reload,- module reload,
  • - System-Hard-Restart,- system hard restart,
  • - System Reload.- System reload.

Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren und eine Schal­ tungsanordnung anzugeben, durch die sich alle systemkritischen Fehler ermitteln lassen.The present invention is therefore based on the object of a method and a scarf Specify the arrangement by which all system-critical errors can be determined.

Diese Aufgabe wird durch die im kennzeichnenden Teil der Patentansprüche 1 bzw. 9 ange­ gebenen Maßnahmen gelöst. Vorteilhafte Ausgestaltungen der Erfindung sind in weiteren An­ sprüchen angegeben.This object is achieved by the characterizing part of claims 1 and 9 respectively given measures resolved. Advantageous refinements of the invention are in the An sayings.

Das erfindungsgemäße Verfahren erlaubt die Ermittlung aller systemkritischen Fehler, für die be­ sondere wartungstechnische Maßnahmen, z. B. eine der obengenannten Recovery-Maßnah­ men, vorgesehen sind. The inventive method allows the determination of all system-critical errors for which be special maintenance measures, e.g. B. one of the above recovery measures men are provided.  

Die Erfindung wird nachfolgend anhand einer Zeichnung beispielsweise näher erläutert. Darin ist ein im normalen Betriebszustand befindliches System SUT gezeigt, das einerseits über eine Ver­ bindungsleitung LK mit weiteren Systemen, z. B. Servern, Vermittlungszentralen, Anschlußgrup­ pen, Rechnersystemen oder Endgeräten und andererseits über Daten- und Befehlsleitungen mit sicherheitstechnischen Einheiten SORT, EV und CORR verbunden ist. Das System SUT, das ver­ schiedene Module oder Resourcen R1, . . . , Rn aufweist, unterliegt dabei einer dauernden Prüfung. In Kommunikationssystemen werden insbesondere Resourcen R überprüft, die den vermittlungs­ technischen Betrieb blockieren können, falls diese beim Verbindungsauf- oder -abbau fälschli­ cherweise nicht freigegeben werden bzw. grundlos belegt sind. Von den Resourcen R abgege­ bene Fehlermeldungen werden der Einheit SORT zugeführt, in der die Fehlermeldungen nach vorgegebenen Kriterien (z. B. Art und Ursprung des Fehlers) gegliedert und der Einheit EV zuge­ führt werden. In der Einheit EV ist für jede der sortierten Fehlermeldungen A, B, G, D eine Stufe STA vorgesehen, in der ein Ereigniszähler EC, ein Zeitgeber TR und ein Schwellwertspeicher TH mit einer Auswerteschaltung BMS verbunden sind, die einen mit der Einheit EC sowie mehrere mit der Einheit CORR verbundene Ausgänge aufweist. Die Einheit CORR ist ferner mit der Einheit SUT und ebenso wie die Einheit SORT mit einem Drucker D verbunden.The invention is explained in more detail below with reference to a drawing, for example. In it a system SUT shown in the normal operating state, which on the one hand via a ver LK tie line with other systems, e.g. B. servers, switching centers, connection group pen, computer systems or devices and on the other hand with data and command lines safety-related units SORT, EV and CORR. The SUT system, ver different modules or resources R1,. . . , Rn is subject to continuous testing. In communication systems, resources R are checked in particular, which the switching can block technical operation if it is wrong when establishing or closing a connection not be released or are occupied for no reason. Deviated from the resources R. These error messages are fed to the SORT unit, in which the error messages are listed specified criteria (e.g. type and origin of the error) and assigned to the EV unit leads. In the unit EV there is a level for each of the sorted error messages A, B, G, D. STA provided in which an event counter EC, a timer TR and a threshold value memory TH are connected to an evaluation circuit BMS, one with the unit EC and several has outputs connected to the CORR unit. The unit CORR is also with the unit SUT and, like the unit SORT, connected to a printer D.

Die erfindungsgemäße Schaltungsanordnung funktioniert wie folgt:The circuit arrangement according to the invention works as follows:

Für jede der Stufen STA wird entsprechend dem überwachten Fehler ein Schwellwert und ein Zeitintervall festgelegt und in den Schwellwertspeicher TH bzw. den Zeitgeber TR eingespeichert. Durch den Ereigniszähler EC wird dabei jeweils die Anzahl auftretender Fehlerereignisse gezählt Durch die Auswerteschaltung BMS wird dabei kontrolliert, ob der Inhalt des Ereigniszählers EC den vorgegebenen Schwellwert überschreitet. Nach dem Überschreiten des Schwellwerts, sofort oder erst nach Ablauf eines durch den Zeitgeber bestimmten Zeitintervalis, wird dies an die Ein­ heit CORR gemeldet. Falls nach Ablauf eines Zeitintervalls der Schwellwert nicht überschritten wird, wird durch die Auswerteschaltung BMS festgestellt, wie weit der Wert des Ereigniszählers EC vom Schwellwert abweicht. Falls die Anzahl Ereignisse die Hälfte des Schwellwerts nicht übersteigt, wird der Ereigniszähler EC zu Beginn des neuen Intervalls durch die Auswerteschal­ tung BMS auf Null gesetzt. Falls die Anzahl Ereignisse die Hälfte des Schwellwerts jedoch über­ steigt, wird der Inhalt des Ereigniszähler EC nicht auf Null gesetzt, sondern um die Differenz zwi­ schen dem Schwellwert und der im abgelaufenen Intervall festgestellten Anzahl Ereignisse redu­ ziert. Bei einem Schwellwert von zehn würde bei fünf oder weniger tatsächlich auftretenden Er­ eignissen der Ereigniszähler EC immer auf Null zurückgesetzt. Bei sechs Ereignissen würde er auf zwei (6-(10-6)), bei sieben Ereignissen auf vier (7-(10-7)), bei acht Ereignissen auf sechs (8-(10-8)) und bei neun Ereignissen auf acht (9-(10-9)) zurückgesetzt. Durch dieses System werden Fehlerzahlen, die sich während mehreren Intervallen nahe dem Schwellwert bewegen, stärker gewichtet. Falls im obenangeführten Beispiel (Schwellwert = 10) in drei aufeinanderfol­ genden Intervallen jeweils eine Fehlerzahl von sechs auftritt, wird innerhalb bzw. nach Ablauf des dritten Intervalls das Auftreten eines kritischen Fehlers an die Einheit CORR gemeldet, obwohl während jedem Intervall tatsächlich nie mehr als neun Fehler aufgetreten sind. Bei Ablauf des ersten Intervalls weist der Ereigniszähler EC nämlich einen Inhalt von sechs (0 + 6), zu Beginn des zweiten Intervalls einen Inhalt von zwei (6-(10-6)), bei Ablauf des zweiten Intervalls einen Inhalt von acht (2 + 6), zu Beginn des dritten Intervalls einen Inhalt von sechs (8-(10-8) und bei Ablauf des dritten Intervalls einen Inhalt von zwölf (6 + 6) auf, wodurch der Schwellwert über­ schritten wird.For each of the stages STA, a threshold value and a are set in accordance with the monitored error Time interval defined and stored in the threshold value memory TH or the timer TR. The number of error events occurring is counted by the event counter EC The evaluation circuit BMS checks whether the content of the event counter EC exceeds the predetermined threshold. After exceeding the threshold, immediately or only after a time interval determined by the timer expires, this is sent to the on reported CORR. If the threshold value is not exceeded after a time interval has elapsed is determined by the evaluation circuit BMS, how far the value of the event counter EC deviates from the threshold. If the number of events is not half the threshold exceeds the event counter EC at the beginning of the new interval by the evaluation scarf device BMS set to zero. However, if the number of events exceeds half the threshold increases, the content of the event counter EC is not set to zero, but by the difference between between the threshold value and the number of events determined in the elapsed interval graces. At a threshold of ten, five or fewer actual Er would occur events, the event counter EC is always reset to zero. At six events, he would on two (6- (10-6)), on seven events on four (7- (10-7)), on eight events on six (8- (10-8)) and reset to eight (9- (10-9)) for nine events. Through this system error numbers that move close to the threshold value over several intervals,  weighted more. If in the above example (threshold = 10) in three successive an interval of six errors occurs within or after the expiry of the third interval, the occurrence of a critical error is reported to the CORR unit, though there were never more than nine errors during each interval. When the In the first interval, the event counter EC has a content of six (0 + 6) at the beginning the second interval has a content of two (6- (10-6)), one at the end of the second interval Content of eight (2 + 6), at the beginning of the third interval a content of six (8- (10-8) and at Expiration of the third interval has a content of twelve (6 + 6), causing the threshold to exceed is taken.

Ferner kann festgelegt werden, daß die Anzahl der Ereignisse, die im abgelaufenen Zeitintervall aufgetreten sind, weniger stark gewichtet werden soll. Zu diesem Zweck kann der Wert, mit dem zu Beginn des nächsten Zeitintervalls mit der Zählung der Fehlerereignisse begonnen wird, ent­ sprechend der Anzahl Fehlerereignisse gewählt werden, um die die Hälfte des Schwellwerts während dem abgelaufenen Zeitintervall überschritten wurde. D.h., bei einem Schwellwert von zehn würde bei fünf oder weniger tatsächlich auftretenden Ereignissen der Ereigniszähler EC immer auf Null zurückgesetzt. Bei sechs Ereignissen würde er auf eins (6 - (10 : 2)), bei sieben Ereignissen auf zwei (7-(10 : 2)), bei acht Ereignissen auf drei (8-(10 : 2)) und bei neun Ereig­ nissen auf vier (9-(10 : 2)) zurückgesetzt. Falls im obenangeführten Beispiel (Schwellwert = 10) in aufeinanderfolgenden Intervallen jeweils wieder eine Fehlerzahl von sechs auftritt, wird inner­ halb bzw. nach Ablauf des fünften Intervalls das Auftreten eines kritischen Fehlers an die Einheit CORR gemeldet, obwohl während jedem Intervall tatsächlich nie mehr als neun Fehler aufgetre­ ten sind. Bei Ablauf des ersten Intervalls weist der Ereigniszähler EC nämlich einen Inhalt von sechs (0 + 6), zu Beginn des zweiten Intervalls einen Inhalt von eins (6-(10 : 2)), bei Ablauf des zweiten Intervalls einen Inhalt von sieben (1 + 6), zu Beginn des dritten Intervalls einen Inhalt von zwei (7-(10 : 2)), bei Ablauf des dritten Intervalls einen Inhalt von acht (2 + 6), zu Beginn des vierten Intervalls einen Inhalt von drei (8-(10 : 5)), bei Ablauf des vierten Intervalls einen Inhalt von neun (3 + 6), zu Beginn des fünften Intervalls einen Inhalt von vier (9-(10 : 2)) und bei Ablauf des fünften Intervalls einen Inhalt von zehn (4 + 6) auf, wodurch der Schwellwert erreicht wird. Nach dieser Methode werden Fehlerraten, die sich nahe beim Schwellwert bewegen mit einer größe­ ren Verzögerung als mit der erstgenannten Methode erfaßt (plus zwei Intervalle). Dabei geht die zu überschreitende Schwelle (Differenz von Schwellwert und Anfangsstand des Ereigniszählers EC) für relativ hohe Ereigniszahlen bei der ersten Methode nahe gegen null und bei der zweiten Methode gegen 50% des Schwellwertes. Bei der ersten Methode wird bei einem Schwellwert von 100 und der Anzahl in einem Intervall aufgetretenen Ereignisse von 99 der Ereigniszähler EC zu Beginn des neuen Intervalls auf 98 gesetzt. Durch zwei im neuen Intervall auftretende Ereignisse würde der Schwellwert daher erreicht. Die minimal zu überschreitende Schwelle würde daher nur 2% des Schwellwerts betragen. Bei der zweiten Methode wird bei einem Schwellwert von 100 und der Anzahl in einem Intervall aufgetretenen Ereignisse von 99 der Ereigniszähler EC zu Beginn des neuen Intervalls auf 49 gesetzt. Die minimal zu überschreitende Schwelle würde daher 51% des Schwellwerts betragen. Bei der zweiten Methode muß die Anzahl Ereignisse nicht nur kurz, sondern während längerer Zeit über 50% des Schwellwertes liegen, bevor ein Fehler als kritisch erkannt wird.It can also be specified that the number of events occurring in the elapsed time interval occurred, should be weighted less. To this end, the value with which at the beginning of the next time interval, the counting of the error events is started, ent According to the number of error events, half of the threshold value must be selected has been exceeded during the elapsed time interval. That is, at a threshold of ten would be the event counter EC for five or fewer actually occurring events always reset to zero. With six events he would be on one (6 - (10: 2)), at seven Events on two (7- (10: 2)), eight events on three (8- (10: 2)) and nine events nits reset to four (9- (10: 2)). If in the example above (threshold = 10) An error number of six occurs again in successive intervals half or after the fifth interval, a critical error occurs to the unit CORR reported, although there were never more than nine errors during each interval are. When the first interval has elapsed, the event counter EC has a content of six (0 + 6), at the beginning of the second interval a content of one (6- (10: 2)), when the second interval has a content of seven (1 + 6), at the beginning of the third interval a content of two (7- (10: 2)), at the end of the third interval a content of eight (2 + 6), at the beginning of the fourth interval has a content of three (8- (10: 5)), at the end of the fourth interval a content of nine (3 + 6), at the beginning of the fifth interval a content of four (9- (10: 2)) and at the end of the fifth interval has a content of ten (4 + 6), whereby the threshold value is reached. To This method uses error rates that are close to the threshold value with a size their delay than recorded using the first method (plus two intervals). The goes Threshold to be exceeded (difference between threshold value and initial state of the event counter EC) for relatively high event numbers close to zero in the first method and in the second Method against 50% of the threshold. The first method uses a threshold of 100 and the number of events occurring in an interval from 99 to the event counter EC Start of the new interval set to 98. By two events occurring in the new interval the threshold would therefore be reached. The minimum threshold to be exceeded would therefore only be  2% of the threshold. The second method uses a threshold of 100 and the number of events occurring in an interval from 99 of the event counters EC at the beginning of the new interval is set to 49. The minimum threshold to be exceeded would therefore be 51% of the threshold. With the second method, the number of events must not only be short, but remain above 50% of the threshold value for a long time before an error is considered critical is recognized.

Durch beide Methoden sind kritische Fehler daher erfaßbar, auch wenn sie den ursprünglich festgelegten Schwellwert tatsächlich nie überschreiten. Das Auftreten kritischer Fehler zeigt nor­ malerweise an, daß ein Hard- oder Softwaremodul des Systems SUT derart unzuverlässig funktioniert, daß einfache Fehlerkorrekturmaßnahmen, die beim jeweiligen Auftreten des Feh­ lers durch eine Wartungseinheit automatisch ausgeführt werden, ungenügend sind. Bei Syste­ men, die im Tandembetrieb arbeiten, wird durch die Einheit CORR, der die kritischen Fehler gemeldet werden, vorgesehen, daß die fehlerhafte Einheit außer Betrieb gesetzt und durch eine identische Einheit ersetzt wird. Falls nach dem Austausch eines Moduls die gleiche Fehlermel­ dung weiter auftritt, wird vorzugsweise vorgesehen, daß zwischen den identischen Einheiten nicht weiter umgeschaltet wird. Statt dessen wird eine weitere Einheit ausgetauscht, die als Fehler­ quelle in Frage kommt. Die Reihenfolge, in der der Austausch von Einheiten vorgesehen wird, wird dabei vorzugsweise unter Berücksichtigung weiterer Fehlermeldungen festgelegt. Das Auf­ treten eines kritischen Fehlers kann aber auch bedeuten, daß ein Softwaremodul unzuverlässig arbeitet und der Revision bedarf. Es ist daher wesentlich, daß dem Wartungspersonal alle wesentlichen Daten zuführbar sind. Zu diesem Zweck sind die Einheiten SORT und CORR mit einem Drucker D oder einer anderen Ausgabeeinheit verbunden. Beim Ausfall bzw. Austausch einer Einheit wird dies unverzüglich angezeigt. Ferner wird vorzugsweise beim erstmaligen Auf­ treten eines Fehlers und nach dem Überschreiten des Schwellwerts eine Meldung ausgedruckt. Dadurch können beim Vergleich mehrerer Fehlermeldungen und unter Berücksichtigung von zeitlich bedingten Zustandsänderungen des Systems SUT Fehlerursachen leichter lokalisiert werden. Zur gezielten Fehlersuche kann die Signalisierung nur für bestimmte Fehlerklassen und Geräteeinheiten eingeschaltet werden. Ferner ist es sinnvoll, wenn der Fehler jeweils auch beim mehrmaligen Übertreten des Schwellwerts angezeigt wird.Critical errors can therefore be detected by both methods, even if they were originally never actually exceed the specified threshold. The occurrence of critical errors shows nor sometimes that a hardware or software module of the SUT system is so unreliable works that simple error correction measures that occur when the error occurs are automatically executed by a maintenance unit, are insufficient. At Syste Men who work in tandem are operated by the CORR unit, which recognizes the critical errors are reported, provided that the faulty unit is decommissioned and replaced by a identical unit is replaced. If after replacing a module the same error message tion occurs further, it is preferably provided that between the identical units is no longer switched. Instead, another unit is exchanged, which is an error source comes into question. The order in which unit replacement is scheduled is preferably determined taking into account further error messages. The up A critical error can also mean that a software module is unreliable works and needs revision. It is therefore essential that all maintenance personnel essential data can be fed. For this purpose, the SORT and CORR units are included connected to a printer D or another output unit. In the event of failure or replacement one unit will be notified immediately. It is also preferred to open the first time an error occurs and a message is printed out after the threshold value has been exceeded. This means that when comparing several error messages and taking into account Time-related changes in the state of the SUT system make it easier to localize the causes of errors become. For targeted troubleshooting, the signaling can only be used for certain error classes and Device units are switched on. It also makes sense if the error occurs in each case repeated crossing of the threshold is displayed.

Claims (10)

1. Verfahren zur Ermittlung kritischer Fehler insbesondere für ein Kommunikationssystem, da­ durch gekennzeichnet, daß Fehlermeldungen nach vorgegebenen Kriterien sortiert werden und daß jedem berücksichtigten Fehlerereignis ein einem Zeltintervall zugehöriger Schwellwert zugeordnet wird, nach dessen Überschreiten ein Fehler als kritisch eingestuft und gemeldet wird, daß falls die Anzahl der innerhalb eines Zeitintervalls auftretenden Fehlerereignisse kleiner als der Schwellwert ist, der Wert, mit dem zu Beginn des nächsten Zeitintervalls mit der Zählung der Fehlerereignisse begonnen wird, unter Berücksichtigung der während des letzten Zeitintervalls ermittelten Anzahl Fehlerereignisse festgelegt wird.1. A method for determining critical errors, in particular for a communication system, characterized in that error messages are sorted according to predetermined criteria and that each error event taken into account is assigned a threshold value associated with a tent interval, after which an error is classified as critical and reported that if the number of error events occurring within a time interval is smaller than the threshold value, the value with which the counting of the error events is started at the beginning of the next time interval is determined taking into account the number of error events determined during the last time interval. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß falls die Anzahl der innerhalb eines Zeitintervalls auftretenden Fehlerereignisse kleiner als die Hälfte des Schwellwerts ist, die Zählung der Fehlerereignisse bei Beginn des nächsten Zeitintervalis wieder bei Null beginnt und daß, falls die Anzahl der innerhalb eines Zeitintervalls auftretenden Fehlerereignisse größer als die Hälfte, jedoch gleichzeitig kleiner als der ganze Schwellwert ist, der Wert, mit dem die Zäh­ lung bei Beginn des nächsten Zeitintervalls beginnt, derart gebildet wird, daß die Differenz zwi­ schen dem Schwellwert und der Anzahl Fehlerereignisse von dieser beim abgelaufenen Zeitinter­ vall ermittelten Anzahl Fehlerereignisse subtrahiert wird.2. The method according to claim 1, characterized in that if the number of within of a time interval occurring error events is less than half of the threshold, the The number of error events at the beginning of the next time interval starts again from zero and that if the number of error events occurring within a time interval is greater than half, but at the same time smaller than the whole threshold value, the value with which the toughness development begins at the beginning of the next time interval, is formed such that the difference between the threshold value and the number of error events from this during the expired time interval vall determined number of error events is subtracted. 3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Wert, mit dem zu Beginn des nächsten Zeitintervalls mit der Zählung der Fehlerereignisse begonnen wird, entsprechend der Anzahl Fehlerereignisse gewählt wird, um die die Hälfte des Schwellwerts während dem abgelau­ fenen Zeitintervall überschritten wurde.3. The method according to claim 1, characterized in that the value with which at the beginning of the next time interval the counting of the error events is started, according to the Number of error events is chosen to be half of the threshold during the expired open time interval has been exceeded. 4. Verfahren nach Anspruch 1, 2 oder 3, dadurch gekennzeichnet, daß der Schwellwert und das entsprechende Zeltintervall für jedes berücksichtigte Fehlerereignis festgelegt werden.4. The method according to claim 1, 2 or 3, characterized in that the threshold and the appropriate tent interval for each considered error event. 5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß der als kritisch eingestufte Fehler einer Stufe (CORR) gemeldet wird, durch die korrektive Maßnah­ men ergriffen oder Fehlermeldungen an das Wartungspersonal abgegeben werden.5. The method according to any one of the preceding claims, characterized in that the is reported as a critical error of a level (CORR) by the corrective measure action is taken or error messages are sent to the maintenance personnel. 6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß das erstmalige Auftreten und das Auftreten des Fehlerereignisses gemeldet werden, durch das der Schwellwert überschritten wird. 6. The method according to any one of the preceding claims, characterized in that the first occurrence and the occurrence of the error event are reported, by which the Threshold is exceeded.   7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß nach dem Auftreten eines kritischen Fehlers die diesen Fehler verursachende Einheit ersetzt wird.7. The method according to any one of the preceding claims, characterized in that after the occurrence of a critical error the unit causing this error is replaced. 8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß ein Fehler jeweils beim erst- und mehrmaligen Überschreiten des Schwellwerts angezeigt wird.8. The method according to any one of the preceding claims, characterized in that a Error is displayed each time the threshold value is exceeded for the first time or several times. 9. Schaltungsanordnung zur Durchführung des Verfahrens nach Anspruch 1, dadurch gekenn­ zeichnet, daß eine Einheit (SORT) vorgesehen ist, der die Fehlermeldungen eines zu testenden Systems (SUT) zugeführt werden und die die erhaltenen Fehlermeldungen geordnet an eine zumindest einen Zeitgeber (TR) und zumindest einen Schwellwertspeicher (TH) aufweisende Einheit (EV) abgibt, in der für jeden überwachten Fehler ein Ereigniszähler (EC) und eine damit verbundene Auswerteschaltung (BMS) verbunden ist, durch die aufgrund der vorgegebenen Schwellwerte und Zeitintervalle und der in den Zeitintervallen festgestellten Fehlerereignissen kritische Fehler ermittelt werden und der Ereigniszähler (EC) nach Ablauf eines Zeitintervalls jeweils auf den vorgesehenen Wert zurückgesetzt wird.9. Circuit arrangement for performing the method according to claim 1, characterized indicates that a unit (SORT) is provided which contains the error messages of one to be tested Systems (SUT) are supplied and the error messages received are arranged in order at least one timer (TR) and at least one threshold value memory (TH) Unit (EV), in the event counter (EC) for each monitored error and one with it connected evaluation circuit (BMS) is connected by the given Threshold values and time intervals and the error events detected in the time intervals critical errors are determined and the event counter (EC) after a time interval is reset to the intended value. 10. Schaltungsanordnung nach Anspruch 9, dadurch gekennzeichnet, daß der Ausgang der Einheit (EV) bzw. die entsprechenden Ausgänge der Auswerteschaltung (BMS) mit einer Einheit (CORR) verbunden sind, die mit dem zu testenden System (SUT) und/oder mit Ausgabeeinheiten (D) verbunden ist.10. Circuit arrangement according to claim 9, characterized in that the output of the Unit (EV) or the corresponding outputs of the evaluation circuit (BMS) with one unit (CORR) are connected to the system to be tested (SUT) and / or to output units (D) is connected.
DE19934302908 1992-08-21 1993-02-02 Method for determining critical errors, in particular for a communication system, and a circuit arrangement operating according to this method Expired - Fee Related DE4302908C2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CH260792A CH684512A5 (en) 1992-08-21 1992-08-21 Method for determining critical errors, in particular for a communication system, and a circuit arrangement operating according to this method.

Publications (2)

Publication Number Publication Date
DE4302908A1 true DE4302908A1 (en) 1994-03-03
DE4302908C2 DE4302908C2 (en) 1995-07-20

Family

ID=4237572

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19934302908 Expired - Fee Related DE4302908C2 (en) 1992-08-21 1993-02-02 Method for determining critical errors, in particular for a communication system, and a circuit arrangement operating according to this method

Country Status (2)

Country Link
CH (1) CH684512A5 (en)
DE (1) DE4302908C2 (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19503314C1 (en) * 1995-02-02 1996-06-20 Sekurit Saint Gobain Deutsch Glass screen, esp. for use in motor vehicles
WO2000038395A1 (en) * 1998-12-21 2000-06-29 Siemens Aktiengesellschaft Method for detecting errors occurring in at least one electric unit, especially a switching oriented unit
WO2001033513A1 (en) * 1999-10-28 2001-05-10 General Electric Company Method and system for remotely managing communication of data used for predicting malfunctions in a plurality of machines
US6338152B1 (en) 1999-10-28 2002-01-08 General Electric Company Method and system for remotely managing communication of data used for predicting malfunctions in a plurality of machines
DE19752403C2 (en) * 1997-11-26 2002-06-13 Siemens Ag communication system
US7359831B2 (en) 2004-05-21 2008-04-15 Bea Systems, Inc. Diagnostic context
US7376534B2 (en) * 2004-05-21 2008-05-20 Bea Systems, Inc. Watches and notifications
US7379849B2 (en) 2004-05-21 2008-05-27 Bea Systems, Inc. Diagnostic image
US7395458B2 (en) 2004-05-21 2008-07-01 Bea Systems, Inc. Diagnostic instrumentation
US7895475B2 (en) 2007-07-11 2011-02-22 Oracle International Corporation System and method for providing an instrumentation service using dye injection and filtering in a SIP application server environment
US8490064B2 (en) 2004-05-21 2013-07-16 Oracle International Corporation Hierarchical debug

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19532929C2 (en) * 1995-09-06 1999-04-15 Siemens Ag Procedure for reducing alarm messages in load situations

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3235882A1 (en) * 1982-09-28 1984-03-29 Siemens AG, 1000 Berlin und 8000 München Method for testing the speech path switching network of a telephone switching system, particularly of a telephone branch exchange
DE3506945A1 (en) * 1985-02-27 1986-08-28 Siemens AG, 1000 Berlin und 8000 München METHOD FOR COLLECTING MONITORING INFORMATION IN TRANSMISSION DEVICES AND ARRANGEMENT FOR IMPLEMENTING THE METHOD
EP0254115B1 (en) * 1986-07-23 1991-07-24 Siemens Aktiengesellschaft Isdn communication system of modular structure with creation and indication of fault texts

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3235882A1 (en) * 1982-09-28 1984-03-29 Siemens AG, 1000 Berlin und 8000 München Method for testing the speech path switching network of a telephone switching system, particularly of a telephone branch exchange
DE3506945A1 (en) * 1985-02-27 1986-08-28 Siemens AG, 1000 Berlin und 8000 München METHOD FOR COLLECTING MONITORING INFORMATION IN TRANSMISSION DEVICES AND ARRANGEMENT FOR IMPLEMENTING THE METHOD
EP0254115B1 (en) * 1986-07-23 1991-07-24 Siemens Aktiengesellschaft Isdn communication system of modular structure with creation and indication of fault texts

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
THOMAS, HARALD *
WEHREND, KLAUS: Betriebssoftware des ISDN-Kommunikationssystems HICOM In: ISDN in Büro-HICOM, SiemensAG, Berlin und München 1985, S. 96-105 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19503314C1 (en) * 1995-02-02 1996-06-20 Sekurit Saint Gobain Deutsch Glass screen, esp. for use in motor vehicles
DE19752403C2 (en) * 1997-11-26 2002-06-13 Siemens Ag communication system
WO2000038395A1 (en) * 1998-12-21 2000-06-29 Siemens Aktiengesellschaft Method for detecting errors occurring in at least one electric unit, especially a switching oriented unit
US6510393B1 (en) 1998-12-21 2003-01-21 Siemens Atkiengesellschaft Method for detecting faults in a switching device
WO2001033513A1 (en) * 1999-10-28 2001-05-10 General Electric Company Method and system for remotely managing communication of data used for predicting malfunctions in a plurality of machines
US6338152B1 (en) 1999-10-28 2002-01-08 General Electric Company Method and system for remotely managing communication of data used for predicting malfunctions in a plurality of machines
US7359831B2 (en) 2004-05-21 2008-04-15 Bea Systems, Inc. Diagnostic context
US7376534B2 (en) * 2004-05-21 2008-05-20 Bea Systems, Inc. Watches and notifications
US7379849B2 (en) 2004-05-21 2008-05-27 Bea Systems, Inc. Diagnostic image
US7395458B2 (en) 2004-05-21 2008-07-01 Bea Systems, Inc. Diagnostic instrumentation
US8490064B2 (en) 2004-05-21 2013-07-16 Oracle International Corporation Hierarchical debug
US7895475B2 (en) 2007-07-11 2011-02-22 Oracle International Corporation System and method for providing an instrumentation service using dye injection and filtering in a SIP application server environment

Also Published As

Publication number Publication date
DE4302908C2 (en) 1995-07-20
CH684512A5 (en) 1994-09-30

Similar Documents

Publication Publication Date Title
DE3702408C2 (en)
DE4302908C2 (en) Method for determining critical errors, in particular for a communication system, and a circuit arrangement operating according to this method
DE3322509C2 (en)
DE2418650C2 (en) Device for testing and monitoring power supply systems
DE19847986C2 (en) Single processor system
EP0429972B1 (en) Apparatus and method for monitoring navigation equipment
EP0048991A1 (en) Method and device for the treatment of interruption conditions during the operating sequence in microprogramme-controlled data-processing systems
DE4233837A1 (en) Dual lane computing system
DE69027461T2 (en) Clock failure recovery system
EP0151810A2 (en) Method and circuit arrangement for testing a program in data processing systems
DE2728942B1 (en) Method for automatic fault location determination in telecommunication systems, each consisting of at least one central and several decentralized devices, in particular telephone switching systems
DE10303654A1 (en) Integrated semiconductor circuit with built-in self-test function and associated system
EP0425897B1 (en) Method for operating a control system
DE1537821C3 (en) Circuit arrangement for monitoring the functionality of central facilities, in particular for telephone switching systems
DE2460289C3 (en) Data processing system, in particular telephone switching system
DE4319750C2 (en) Method and device for function monitoring of switching devices of a bridge circuit and their use
DE1499262C (en) Device for selecting the correct one of two data processing systems operated in parallel
EP0281890B1 (en) Security circuit device with a plurality of microcomputers processing the same data
DE3732973A1 (en) Circuit arrangement for fault monitoring of two calculation results of a microprocessor
DE2633986C3 (en) Method for checking line multiples in centrally controlled telecommunications, in particular telephone switching systems
EP0271773B1 (en) Method and arrangement for detecting and signalling faulty data multiplexer controlling signals in integrated circuits
DE2621356C3 (en) Device for recording operating conditions for production facilities
DE4429556C2 (en) Method for determining defective circuit nodes of an electronic circuit
DE2441786A1 (en) Receiver and evaluator of demand signals - stacked order of priority to obtain access to processing unit
DE2616186A1 (en) Testing of storage part of control unit in telephone exchange - monitoring number of program pseudo commands inserted into series of program commands with false parity bits

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee