DE112020004572T5

DE112020004572T5 - Identifizierung von teilereignissen in einem ereignissturm in einer operationsverwaltung

Info

Publication number: DE112020004572T5
Application number: DE112020004572.2T
Authority: DE
Inventors: Jonathan Ian Settle; Kristian Jon Stewart; Haydn Richard Davis
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-11-18
Filing date: 2020-11-11
Publication date: 2022-09-15
Also published as: GB2604081A; US11294748B2; GB202207686D0; JP2023502910A; GB2604081B; CN114746844A; US20210149754A1; WO2021099890A1

Abstract

Ein Verfahren und ein System zur Identifizierung von Teilereignissen in einem Ereignissturm in einer Operationsverwaltung werden bereitgestellt. Das Verfahren enthält: Erkennen eines Ereignissturms durch Erkennen einer Anomalie aus einem dynamischen Basisbereich von erwarteten Ereignishäufigkeiten in einem Stichproben-Zeitraum; und wenn ein Ereignissturm erkannt wird, für jedes einer Gruppe von Ereignissen, die anhand einer Ereigniskategorie gruppiert sind und in einem Stichproben-Zeitraum eines Ereignissturms auftreten, Identifizieren der Gruppe von Ereignissen als Bestandteil des Ereignissturms, wenn die Häufigkeit des Auftretens von Ereignissen der Gruppe in dem Stichproben-Zeitraum außerhalb einer Schwellenwertabweichung von einem Mittelwert für diese Gruppe liegt.

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich auf eine Verwaltung von Protokollereignisoperationen und im Besonderen auf eine Identifizierung von Teilereignissen in einem Ereignissturm in einer Operationsverwaltung.
HINTERGRUND
Eine Informationsverwaltung in der Informationstechnologie zielt darauf ab, Probleme der Informationstechnologie in Geschäftsumgebungen durch Protokollieren von Ereignissen und Anwenden von Analysen auf das Ereignisprotokoll zu identifizieren, einzugrenzen und zu lösen. Als Beispiele können sich die Operationen auf ein breites Spektrum von Infrastrukturen beziehen, die in Bezug auf Datenübertragung, Datenverarbeitungs-Ressourcen, Speicher-Ressourcen, Netzwerke usw. geographisch verteilt sein können.
In Informationstechnologieumgebungen zeichnen Ereignisprotokolle Ereignisse auf, die bei der Ausführung eines Systems stattfinden, um eine Prüfliste bereitzustellen, die dazu verwendet werden kann, die Aktivität des Systems zu verstehen und Probleme zu diagnostizieren. Ereignisprotokolle sind notwendig, um die Aktivitäten von komplexen Systemen, im Besonderen im Fall von Anwendungen mit geringer Benutzerinteraktion wie zum Beispiel Server-Anwendungen, zu verstehen. Zum Analysieren von Ereignissen und Ermitteln von Korrelationen zwischen scheinbar unzusammenhängenden Ereignissen kann eine statistische Analyse unter Verwendung von Operationsanalysen verwendet werden.
Bei einer Verwaltung von Ereignisprotokollen erwarten Systembediener eine normale Häufigkeit von Ereignissen, wobei Ereignisse aufgrund von Wartungsarbeiten oder Problemen auftreten. Bisweilen kann es jedoch zu einem Ereignissturm kommen, wenn die Menge von eingehenden Ereignissen die Fähigkeit der Systembediener übersteigt, diese zu bewältigen. Dies wird häufig als „Sea of Red“ bezeichnet. Das bedeutet, dass Systembediener nicht unterscheiden können, welche Ereignisse wichtig sind und was möglicherweise sonst noch geschieht.
Ein Sturm wird häufig durch einen gravierenden Störfall ausgelöst. Zum Beispiel dadurch, dass ein Kern-Switch im Netzwerk ausfällt, ein Teil des Überwachungssystems versagt, usw. Solche Situationen würden bewirken, dass eine große Anzahl von Einheiten, Teilsystemen und Anwendungen Warnungen oder Ereignisse an ein Überwachungssystem sendet, die aus der Sicht des Systems im Grunde alle dasselbe Problem melden.
Ein besonders gängiger Ansatz, solche Ereignisstürme zu erkennen, besteht darin, dass ein Systemingenieur auf Grundlage früherer Erfahrungen statische Schwellenwerte für einen Ereignistyp festlegt. Bei einem Ereignistyp kann es sich zum Beispiel um „LINK DOWN“ handeln, und wenn die Anzahl von „LINK-DOWN“-Protokollereignissen innerhalb eines definierten Zeitraums die Schwellenanzahl überschreitet, wird ein Sturm verkündet, und alle Ereignisse dieses Ereignistyps werden zusammengruppiert.
KURZDARSTELLUNG
Gemäß einem Aspekt der vorliegenden Erfindung wird ein auf einem Computer implementiertes Verfahren zur Identifizierung von Teilereignissen in einem Ereignissturm in einer Operationsverwaltung bereitgestellt, das aufweist: Erkennen eines Ereignissturms durch Erkennen einer Anomalie aus einem dynamischen Basisbereich von erwarteten Ereignishäufigkeiten in einem Stichproben-Zeitraum; und wenn ein Ereignissturm erkannt wird, für jedes einer Gruppe von Ereignissen, die anhand einer Ereigniskategorie gruppiert sind und in einem Stichproben-Zeitraum eines Ereignissturms auftreten, Identifizieren der Gruppe von Ereignissen als Bestandteil des Ereignissturms, wenn die Häufigkeit des Auftretens von Ereignissen der Gruppe in dem Stichproben-Zeitraum außerhalb einer Schwellenwertabweichung von einem Mittelwert für diese Gruppe liegt.
Dies hat den Vorteil, dass mithilfe einer statistischen Auswertung von Ereignisinstanzen in einem Stichproben-Zeitraum innerhalb des erkannten Sturms eine Verbindung zwischen einer Ereignissturmerkennung und einer Identifizierung von Ereignissen besteht, die zu dem Ereignissturm beitragen. Dies verringert die Anzahl von falsch positiven Ereignissen, die als zu einem Sturm beitragend gekennzeichnet werden.
Das Verfahren kann ein Korrelieren von mehreren Gruppen von Ereignissen, die als Bestandteil des Ereignissturms identifiziert worden sind, zur Ausgabe enthalten.
Das Verfahren kann ein Lernen einer erwarteten Ereignishäufigkeit in einer oder mehreren definierten Längen von Stichproben-Zeiträumen enthalten. Ein Erkennen eines Ereignissturms kann enthalten: Verwenden eines dynamischen Schwellenwertalgorithmus, um einen dynamischen Basisbereich von erwarteten Ereignishäufigkeiten in der einen oder den mehreren definierten Längen von Stichproben-Zeiträumen zu ermitteln; und Verwenden eines Anomalieerkennungsalgorithmus, um eine Anomalie aus dem dynamischen Basisbereich zu erkennen, die auf einen Ereignissturm hinweist. Ein Verwenden von Operationsanalysen kann ein Auftreten eines Ereignissturms korrekt identifizieren.
Das Verfahren kann darüber hinaus ein Lernen von Ereignisattributinformationen in einer oder mehreren definierten Längen von Stichproben-Zeiträumen enthalten. Die Ereigniskategorie kann ein einzelnes Ereignisattribut oder einen Cluster von Ereignisattributen enthalten, der auf einer Abstandsmetrik beruht. Gruppen von Ereignissen können eine Mindestanzahl von Ereignisinstanzen enthalten. Die Abstandsmetrik der Ereignisattribute für eine Cluster-Bildung kann eine der Gruppe sein aus: einer Textzeichenfolgen-Metrik; einer Positionsmetrik oder einer sonstigen Metrik, die aus Informationen von Ereignisprotokolleinträgen abgeleitet wird. Ein Lernen von Ereignisattributen von Ereignissen in einer Umgebung wird verwendet, um Ereignisse anhand von einzelnen Attributen und/oder durch Cluster-Bildung auf Grundlage einer Abstandsmetrik von Ereignisattributen zu gruppieren. Ereignisattribute können aus Informationen abgeleitet werden, die in einem Ereignisprotokolleintrag verfügbar sind.
Das Verfahren kann eine Cluster-Bildung aus Ereignissen in einem Stichproben-Zeitraum anhand einer Abstandsmetrik von Ereignisattributen enthalten. Wenn sich eine Gruppe auf Grundlage von einzelnen Ereignisattributen nicht oberhalb einer Schwellenwertabweichung für das einzelne Ereignisattribut in einem Stichproben-Zeitraum befindet, kann das Verfahren bei einer Ausführungsform einen Cluster aus mehreren einzelnen Ereignisattributen bilden, um eine Gruppe von Ereignissen auszubilden.
Das Verfahren kann ein Testen der Cluster-Bildung enthalten, um einen Schwellenprozentsatz von Ereignisinstanzen zu erfüllen, die in einem Stichproben-Zeitraum zu dem Cluster gehören. Das Verfahren kann darüber hinaus ein Auswählen einer Cluster-Bildung durch Vergleichen von Clustern mit variierenden Abstandsmetriken in einem Stichproben-Zeitraum enthalten. Ein Testen von Clustern und ein Auswählen der stärksten Cluster stärkt das System und verringert seine Risikoanfälligkeit. Es ermöglicht darüber hinaus, Cluster aus fragmentierten Ereignisinstanzen zu bilden und diese als zum Ereignissturm gehörig zu identifizieren.
Die Stichproben-Zeiträume können anhand einer Granularität der Ereignissturmerkennung konfiguriert werden und können ein kurzes Zeitfenster und ein längeres Zeitfenster enthalten, um unterschiedliches Ereignissturmverhalten zu erfassen. Ereignisstürme können unterschiedliche Zeitrahmen aufweisen, und ein Konfigurieren von verschiedenen Stichproben-Zeiträumen oder -fenstern trägt zu einem Erkennen von verschiedenen Formen von Ereignisstürmen bei, ob es sich nun um langsam aufziehende Stürme oder plötzliche Böen von Ereignissen handelt.
Eine Schwellenwertabweichung für eine Gruppe von Ereignissen kann mithilfe von statistischen Abweichungsverfahren, wie z.B. einem Schwellenwert-z-Score-Test der Gruppe von Ereignissen, anhand eines Mittelwerts für diese Gruppe gemessen werden. Zahlreiche statistische Schwellenwerttests stehen zur Verfügung und können auf Grundlage des statistischen Musters von Ereignissen insgesamt ausgewählt werden. In einem Fall, in dem die Ereignisse einer Normalverteilung folgen, können Standardabweichungstests angemessen sein.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein auf einem Computer implementiertes Verfahren zur Identifizierung von Teilereignissen in einem Ereignissturm in einer Operationsverwaltung bereitgestellt, das aufweist: Erkennen eines Ereignissturms durch Erkennen einer Anomalie aus einem dynamischen Basisbereich von erwarteten Ereignishäufigkeiten einer Grundgesamtheit von Ereignissen in einem Stichproben-Zeitraum; und für einen Stichproben-Zeitraum in einem erkannten Ereignissturm Identifizieren von Ereignisinstanzen als Teilereignisse des Sturms durch Cluster-Bildung aus Ereignisattributen und Ermitteln, ob es sich bei einer Häufigkeit eines Auftretens von Ereignisinstanzen in dem Cluster in dem Stichproben-Zeitraum um eine Schwellenwertabweichung von der Norm für die zu einem Cluster zusammengefassten Ereignisattribute handelt.
Dies hat den Vorteil, dass anhand einer Abstandsmetrik auf Grundlage von in einem Protokolleintrag verfügbaren Ereignisattributen ein Cluster aus Ereignisinstanzen gebildet wird. Ein Gruppieren von einzelnen abweichenden Attributen kann einige Protokolleinträge ausschließen, die relevant sind, aber abweichende Attribute aufweisen.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein System zur Identifizierung von Teilereignissen in einem Ereignissturm in einer Operationsverwaltung bereitgestellt, das aufweist: einen Prozessor und einen Speicher, der dazu konfiguriert ist, Computerprogrammanweisungen für den Prozessor bereitzustellen, um die Funktion der Komponenten auszuführen: einer Ereignissturm-Erkennungskomponente zum Erkennen eines Ereignissturms durch Erkennen einer Anomalie aus einem dynamischen Basisbereich von erwarteten Ereignishäufigkeiten in einem Stichproben-Zeitraum; und einer Ereignisbestandteil-Identifizierungskomponente für jedes einer Gruppe von Ereignissen, die anhand einer Ereigniskategorie gruppiert sind, die in einem Stichproben-Zeitraum eines Ereignissturms auftritt, die eine Gruppe von Ereignissen als Bestandteil des Ereignissturms identifiziert, wenn die Häufigkeit des Auftretens von Ereignissen der Gruppe in dem Stichproben-Zeitraum außerhalb einer Schwellenwertabweichung von einem Mittelwert für diese Gruppe liegt.
Das System kann eine Ereignisbestandteil-Korrelierungskomponente zum Korrelieren von mehreren Gruppen von Ereignissen enthalten, die als Bestandteil des Ereignissturms identifiziert worden sind.
Die Ereignissturm-Erkennungskomponente kann enthalten: eine dynamische Schwellenwertkomponente zum Verwenden eines dynamischen Schwellenwertalgorithmus, um einen dynamischen Basisbereich von erwarteten Ereignishäufigkeiten in der einen oder den mehreren definierten Längen von Stichproben-Zeiträumen zu ermitteln; und eine Anomalieerkennungskomponente zum Verwenden eines Anomalieerkennungsalgorithmus, um eine Anomalie aus dem dynamischen Basisbereich zu erkennen, die auf einen Ereignissturm hinweist.
Das System kann eine Lernkomponente zum Lernen einer erwarteten Ereignishäufigkeit in einer oder mehreren definierten Längen von Stichproben-Zeiträumen und zum Lernen von Ereignisattributinformationen in der einen oder den mehreren definierten Längen von Stichproben-Zeiträumen enthalten.
Das System kann eine Komponente zum Bilden von Attribut-Clustern zur Cluster-Bildung aus Ereignissen in einem Stichproben-Zeitraum anhand einer Abstandsmetrik von Ereignisattributen enthalten. Die Komponente zum Bilden von Attribut-Clustern kann ein Testen der Cluster-Bildung enthalten, um einen Schwellenprozentsatz von Ereignisinstanzen zu erfüllen, die in einem Stichproben-Zeitraum zu dem Cluster gehören. Die Komponente zum Bilden von Attribut-Clustern kann ein Auswählen eines Clusters durch Vergleichen von Clustern mit variierenden Abstandsmetriken in einem Stichproben-Zeitraum enthalten.
Das System kann eine Konfigurationskomponente zum Konfigurieren von Stichproben-Zeiträumen anhand einer Granularität der Ereignissturmerkennung enthalten, die ein kurzes Zeitfenster und ein längeres Zeitfenster enthalten, um unterschiedliches Ereignissturmverhalten zu erfassen.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein System zur Identifizierung von Teilereignissen in einem Ereignissturm in einer Operationsverwaltung bereitgestellt, das aufweist: einen Prozessor und einen Speicher, der dazu konfiguriert ist, Computerprogrammanweisungen für den Prozessor bereitzustellen, um die Funktion der Komponenten auszuführen: einer Ereignissturm-Erkennungskomponente zum Erkennen eines Ereignissturms durch Erkennen einer Anomalie aus einem dynamischen Basisbereich von erwarteten Ereignishäufigkeiten einer Grundgesamtheit von Ereignissen in einem Stichproben-Zeitraum; und eine Ereignisbestandteil-Identifizierung zum Identifizieren von Ereignisinstanzen als Teilereignisse des Sturms für einen Stichproben-Zeitraum in einem erkannten Ereignissturm durch Cluster-Bildung aus Ereignisattributen und Ermitteln, ob es sich bei einer Häufigkeit eines Auftretens von Ereignisinstanzen in dem Cluster in dem Stichproben-Zeitraum um eine Schwellenwertabweichung von der Norm für die zu einem Cluster zusammengefassten Ereignisattribute handelt.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein Computerprogrammprodukt zur Identifizierung von Teilereignissen in einem Ereignissturm in einer Operationsverwaltung bereitgestellt, wobei das Computerprogrammprodukt ein durch einen Computer lesbares Speichermedium aufweist, in dem Programmanweisungen verkörpert sind, wobei die Programmanweisungen durch einen Prozessor ausführbar sind, um den Prozessor zu veranlassen zu einem: Erkennen eines Ereignissturms durch Erkennen einer Anomalie aus einem dynamischen Basisbereich von erwarteten Ereignishäufigkeiten in einem Stichproben-Zeitraum; und wenn ein Ereignissturm erkannt wird, für jedes einer Gruppe von Ereignissen, die anhand einer Ereigniskategorie gruppiert sind und in dem Stichproben-Zeitraum auftreten, Identifizieren der Gruppe von Ereignissen als Bestandteil des Ereignissturms, wenn die Häufigkeit des Auftretens von Ereignissen der Gruppe in dem Stichproben-Zeitraum außerhalb einer Schwellenwertabweichung von einem Mittelwert für diese Gruppe liegt.
Bei dem durch einen Computer lesbaren Speichermedium kann es sich um ein nichttransitorisches, durch einen Computer lesbares Speichermedium handeln, und der durch einen Computer lesbare Programmcode kann durch eine Verarbeitungsschaltung ausführbar sein.
Figurenliste
Der Gegenstand, der als die Erfindung betrachtet wird, wird im abschließenden Teil der Beschreibung genau dargelegt und ausdrücklich beansprucht. Die Erfindung ist mit Blick auf den Aufbau sowie auf die Funktionsweise zusammen mit ihren Zielen, Merkmalen und Vorteilen am besten durch Bezugnahme auf die folgende ausführliche Beschreibung zusammen mit den beigefügten Zeichnungen zu verstehen.
Bevorzugte Ausführungsformen der vorliegenden Erfindung werden im Folgenden lediglich als Beispiel unter Bezugnahme auf die folgenden Zeichnungen beschrieben, in denen:

1A ein Ablaufplan einer beispielhaften Ausführungsform eines Verfahrens gemäß der vorliegenden Erfindung ist;
1B ein Ablaufplan einer beispielhaften Ausführungsform eines Aspekts eines Verfahrens gemäß der vorliegenden Erfindung ist;
2 ein Blockschaubild einer beispielhaften Ausführungsform eines Systems gemäß der vorliegenden Erfindung ist;
3 ein Blockschaubild einer Ausführungsform eines Computersystems oder eines Cloud-Servers ist, in dem die vorliegende Erfindung implementiert sein kann;
4 eine schematische Darstellung einer Cloud-Computing-Umgebung ist, in der die vorliegende Erfindung implementiert sein kann; und
5 ein Schaubild von Abstraktionsmodellschichten einer Cloud-Computing-Umgebung ist, in der die vorliegende Erfindung implementiert sein kann.

Es ist zu erkennen, dass der Einfachheit und Deutlichkeit der Veranschaulichung halber in den Figuren dargestellte Elemente nicht unbedingt maßstabsgetreu gezeichnet sind. Beispielsweise können die Abmessungen einiger der Elemente im Verhältnis zu sonstigen Elementen der Deutlichkeit halber vergrößert sein. Darüber hinaus können, wo es angebracht erscheint, Bezugszeichen zwischen den Figuren wiederholt werden, um auf entsprechende oder analoge Merkmale hinzuweisen.
AUSFÜHRLICHE BESCHREIBUNG
Das beschriebene Verfahren und System identifizieren Teilereignisse bei einer Erkennung von Ereignisstürmen bei einer Verwaltung von Ereignisprotokolloperationen. Das Verfahren und das System können auf eine beliebige Form einer Ereignisprotokollierung in Informationstechnologieumgebungen, darunter bei Datenverarbeitungssystemen, Datenübertragungssystemen usw., angewendet werden.
Ein Ereignisprotokoll stellt im Laufe der Zeit Ereignisprotokolleinträge bereit, während Ereignisse in einer Informationstechnologieumgebung auftreten. Das Ereignisprotokoll kann für Fehlerereignisse, Betriebsereignisse, Transaktionsereignisse, Nachrichten oder sonstige Aktivitäten bestimmt sein, die im Laufe der Zeit aufgezeichnet werden können. Ein Protokolleintrag kann mehrere Attribute enthalten, die Informationen über den Protokolleintrag im Hinblick darauf bereitstellen, was, wann und durch welche Komponente geschehen ist.
Das beschriebene Verfahren arbeitet in zwei Phasen: erstens Erkennen eines Sturmfensters; und zweitens anschließendes Kategorisieren der Ereignisse, die den Sturm bilden, um die Teilereignisse des Sturms zu identifizieren.
Nachdem ein Sturm erkannt worden ist, kann das Verfahren ermitteln, welche Ereignisse den Sturm bilden, im Gegensatz dazu, welche Ereignisse normale Aktivitäten sind oder mit einem anderen Problem zusammenhängen. Viele Systeme sind groß genug, dass zu einer beliebigen Zeit mehr als ein Problem gleichzeitig auftreten kann und daher Ereignisse eintreten können, die nicht Teil des Sturms sind. Dies wird durch Verwenden der Kombination aus einer Sturmerkennung insgesamt und einer Kategorisierung von Ereignissen erreicht.
Die beiden Phasen zu kombinieren, verringert die Komplexität des Systems und vermeidet falsche Korrelationen, die aufgrund der großen Vielfalt von Ereignistypen auftreten können, die außerhalb eines Ereignissturms auftreten.
Stürme weisen im Wesentlichen zwei Gruppen von Ereignissen auf, dass viele desselben Ereignistyps auftreten (zum Beispiel ein Ping-Down für ein Kernnetzwerk) oder dass viele verschiedene Warnungen und verschiedene Typen von Ereignissen auftreten.
Das beschriebene Verfahren und System haben den Vorteil, dass sie mehrere Typen von Ereignissen miteinander verbinden können, um das Vorhandensein eines Sturms festzustellen. Das beschriebene Verfahren identifiziert die Ereignisse, die den Sturm bilden, im Gegensatz zu den Ereignissen, die den normalen Betriebszustand des Systems ausmachen, wenn kein Ereignissturm vorhanden ist.
Unter Bezugnahme auf 1A stellt ein Ablaufplan 100 eine beispielhafte Ausführungsform des beschriebenen Verfahrens zum Erkennen eines Sturms in einem Ereignisprotokoll und Ermitteln von Ereignissen dar, die Teil des Sturms sind.
Das Verfahren kann eine erwartete Ereignishäufigkeit in einem oder mehreren definierten Stichproben-Zeiträumen lernen 101. Dies ist die Häufigkeit aller protokollierten Ereignisse, die eine Grundgesamtheit-Ereignishäufigkeit bereitstellt.
Das Verfahren kann einen dynamischen Basisbereich von erwarteten Ereignishäufigkeiten in einer oder mehreren definierten Längen von Stichproben-Zeiträumen ermitteln 102. Ein dynamischer Schwellenwertalgorithmus kann zum Ermitteln des erwarteten Bereichs verwendet werden. Der dynamische Schwellenwertalgorithmus stellt eine variierende Basis bereit, die von Faktoren wie zum Beispiel einer Tageszeit oder einer Belastung eines Systems abhängig ist und diese berücksichtigt. Ein dynamischer Schwellenwertalgorithmus kann einen Übereinstimmungsschwellenwert auf Grundlage von überwachten Systemprofilen und -parametern dynamisch definieren, der im Laufe der Zeit variiert.
Die Stichproben-Zeiträume können so definiert werden, dass sie für ein System geeignet sind, und können diskrete Zeitintervalle oder -fenster sein. Es kann mehr als eine Länge eines Stichproben-Zeitraums definiert werden, wie zum Beispiel eine kurze Länge und eine längere Länge. Dadurch wird sichergestellt, dass kurze Ereignisspitzen ebenso erfasst werden wie länger bestehende Probleme und Randereignisse. Bei einer beispielhaften Ausführungsform werden Zeiträume von 5 Minuten und 20 Minuten verwendet und werden Ereignishäufigkeiten in diesen Zeiträumen fortlaufend überwacht.
Das Verfahren kann darüber hinaus eine Aufschlüsselung von Ereignisattributinformationen von Ereignissen in der Grundgesamtheit von Ereignissen lernen und zusammenstellen 103, die für das Gruppieren von Ereignissen und als Basis für eine erwartete Häufigkeit des Auftretens des Ereignisattributs in einem Zeitraum verwendet wird. Ereignisattribute können Typen von Ereignissen oder sonstige geeignete Attribute von Ereignisinstanzen sein, wie zum Beispiel geografische Angaben in einem Ereignisprotokolleintrag, wie etwa für Ereignisse von einem einzelnen Zellenort in einer Telekommunikationsumgebung oder von einer bestimmten Anlage oder einer Position in einer Systemumgebung.
Das Verfahren kann die eingehenden Ereignisse in den Stichproben-Zeiträumen überwachen 104 und ermitteln, ob eine Anomalie oder eine Abweichung von dem dynamischen Basisbereich von erwarteten Ereignishäufigkeiten in einem Stichproben-Zeitraum besteht, die auf einen Ereignissturm hinweisen würde. Dabei können Anomalieerkennungsalgorithmen verwendet werden, um eine Anomalie in der Grundgesamtheit-Ereignishäufigkeit zu erkennen.
Eine Anomalieerkennung kann durch verschiedene bekannte statistische Maßnahmen ausgeführt werden. Bei einer Implementierung kann eine Anomalieerkennung durch vorhandene Software für Operationsanalysen implementiert werden. Beispielsweise durch IBM Operations Analytics Predictive Insights (IBM ist eine Marke von International Business Machines Corporation), wie im Folgenden zusammengefasst.
Ein alternativer Ansatz zum Identifizieren von anomalem Verhalten in der Grundgesamtheit-Ereignishäufigkeit besteht darin, Profilerstellungstechniken zu verwenden, um plötzliche Änderungen in Systemprozessen zu erkennen. Historische Daten werden verwendet, um normale Betriebsparameter über einen Zeitrahmen mit regelmäßigem Verhalten zu ermitteln. Der Zeitrahmen wird in zusammenhängende Stichproben-Zeiträume unterteilt, die entsprechend den Profilparametern einzeln behandelt werden können. Mithilfe von statistischen Prozesssteuerungstechniken können dann kurzfristige und langfristige Prozessänderungen erkannt werden. Eine Prozessänderung mit einem kurzfristigen Anstieg wird erkannt, wenn ein Ereignissturm auftritt.
Es kann ermittelt 105 werden, ob ein Ereignissturm erkannt wird, indem eine Anomalie einer Ereignishäufigkeit ermittelt wird, wie sie als Sturm definiert ist. Wenn aktuell kein Sturm erkannt wird, kann das Verfahren die eingehende Ereignishäufigkeit weiterhin überwachen 104 und ermitteln, ob eine Anomalie besteht. Ein Ereignissturm kann über eine Reihe von Stichproben-Zeiträumen hinweg erkannt werden.
Wenn ein Ereignissturm erkannt 105 wird, werden die Teilereignisse des Ereignissturms auf Grundlage der Ereignisse, die in einem Stichproben-Zeitraum des Sturms auftreten, identifiziert und zusammengestellt, wie im Folgenden beschrieben.
Die Ereignisse, die in einem Stichproben-Zeitraum protokolliert werden, in dem der Ereignissturm erkannt wird, werden gemäß einer Ereigniskategorie gruppiert 106. Bei der Kategorie kann es sich um ein Ereignisattribut wie zum Beispiel einen Ereignistyp oder um ein sonstiges Attribut der Ereignisse wie zum Beispiel eine Ereignisposition handeln. Beim Gruppieren können die Ereignisattributinformationen verwendet werden, die während der Lernphase zusammengestellt 103 worden sind. In dieser Phase kann es sich bei den Gruppen um Gruppen von Ereignissen mit einem selben einzelnen Attribut handeln, um zu ermitteln, ob eine große Anzahl von Ereignissen in dem Stichproben-Zeitraum mit demselben Ereignisattribut vorhanden ist.
Es werden nur Gruppen von Ereignissen mit einer Anzahl von Ereignisinstanzen oberhalb einer Mindestanzahl einbezogen. Wenn eine Anzahl von Instanzen eines Ereignisattributs in einer Gruppe gering ist, wird diese Gruppe nicht in die weitere Analyse einbezogen. Der Grund dafür ist, dass, selbst wenn eine Häufigkeit dieser Ereignisse außerhalb eines erwarteten Bereichs für die Gruppe liegt, die geringe Anzahl darauf hinweist, dass die Ereignisse keine Teilereignisse des Sturms sind.
Das Verfahren kann für jede Gruppe von Ereignissen 107 ermitteln 108, ob die Häufigkeit des Auftretens von Ereignissen in dem Stichproben-Zeitraum außerhalb eines erwarteten Bereichs für diese Gruppe liegt. Dies kann durch verschiedene Formen eines statistischen Tests ausgeführt werden.
Die Fähigkeit, die Ermittlung 108 durchzuführen, ob die Häufigkeit eines Auftretens von Ereignissen außerhalb eines erwarteten Bereichs liegt, beruht auf der Aufschlüsselung von Ereignisattributinformationen, die zur selben Zeit, in der die Grundgesamtheit-Ereignishäufigkeit ermittelt 102 wird, zusammengestellt 103 wird.
Bei einer Ausführungsform kann der Test, ob sie außerhalb eines erwarteten Bereichs liegt, über einer Schwellenwertabweichung von einem Mittelwert der Ereignishäufigkeit für die Gruppe liegen. Bei einer Ausführungsform kann dies durch einen z-Score-Test ausgeführt werden, wie im Folgenden beschrieben, der eine statistische Abweichung für eine Normalverteilung misst. Alternativ kann eine weitere Form einer statistischen Abweichung von einem Mittelwert verwendet werden.
Wenn nicht ermittelt 108 wird, dass die Häufigkeit eines Auftretens der Gruppe außerhalb des erwarteten Bereichs für das einzelne Ereignisattribut liegt, kann ermittelt werden, ob es möglich ist, ein Cluster aus dem Ereignisattribut mit sonstigen Ereignisattributen zu bilden 109, die sich ebenfalls nicht außerhalb des erwarteten Bereichs befinden, wenn sie einzeln gruppiert werden.
Alternativ kann das Verfahren versuchen, ein Cluster aus Ereignisattributen zu bilden, ohne eine Abweichung für gruppierte einzelne Ereignisattribute zu testen.
Wenn es möglich ist, Cluster aus den Attributen zu bilden, kann das Verfahren Cluster aus Ereignisattributen auf Grundlage einer Abstandsmetrik bilden 110, wie im Hinblick auf 1B im Folgenden weiter beschrieben wird.
Der Cluster kann als Gruppe von Ereignissen 107 behandelt werden, für die ermittelt 108 wird, ob die Häufigkeit des Auftretens außerhalb des erwarteten Bereichs liegt.
Wenn es jedoch nicht möglich ist, ein Cluster aus dem Ereignisattribut mit sonstigen Ereignisattributen zu bilden 109 oder wenn es sich bei der Gruppe bereits um einen Cluster handelt, kann angegeben 111 werden, dass die Gruppe von Ereignissen kein Bestandteil des Sturms ist. Bestandteile des Sturms sind Ereignisse, die eine Folge eines Problems oder einer Gruppe von Problemen sind, die den Ereignissturm verursachen.
Wenn für eine Gruppe ermittelt 108 wird, dass die Häufigkeit des Auftretens der Gruppe außerhalb des erwarteten Bereichs liegt, kann angegeben 112 werden, dass die Gruppe von Ereignissen Bestandteil des Sturms ist.
Ereignismitglieder aus allen Gruppen, die als Bestandteile des Sturms angegeben werden, können als sich auf den Sturm beziehend korreliert 113 oder kombiniert und entsprechend angezeigt und verarbeitet werden.
Anomalieerkennungsalgorithmen zur Sturmerkennung
IBM Operations Analytics Predictive Insights stellt eine Analysekomponente zur Verarbeitung und Analyse von Daten aus mehreren Datenquellen eines Überwachungs- und Leistungsverwaltungssystems einer Organisation bereit. Die Analysekomponente erstellt ein Modell eines normalen Verhaltens eines Systems und vergleicht dann nachfolgende extrahierte Daten mit Daten in dem Modell, um jegliche Änderungen im Systemverhalten zu identifizieren und um Anomalien im Verhalten zu identifizieren. Eine Benutzeroberfläche wird zum Anzeigen von ausführlichen Informationen über Anomalien bereitgestellt.
Verschiedene Anomalieerkennungsalgorithmen werden verwendet, darunter robuste Grenzen, die eine Anomalie erkennen, wenn der Wert einer Metrik von der Basis der Metrik abweicht. Bei der Basis handelt es sich um den normalen Betriebsbereich, den der Algorithmus dynamisch für eine Metrik beibehält.
Zu sonstigen Anomalieerkennungsalgorithmen können zum Beispiel zählen: ein Varianten-/Invarianten-Algorithmus zum Erkennen einer Anomalie, wenn sich die Varianz zwischen hohen und niedrigen Werten einer Metrik erheblich verringert; ein Granger-Algorithmus zum Erkennen einer Anomalie durch Suchen nach ursächlichen Beziehungen zwischen Metriken und Erkennen einer Anomalie, wenn sich eine Beziehung ändert; ein Finite-Domain-Algorithmus zum Erkennen einer Anomalie, wenn ein Metrikwert auf ein zuvor nicht erreichtes Niveau ansteigt; ein Predominant-Range-Algorithmus zum Erkennen einer Anomalie, wenn die Variation in einem Metrikwert den Bereich überschreitet, innerhalb dessen die Metrik normalerweise variiert.
Jeder Algorithmus kann einen Trainings-Prozess enthalten, um ein Modell des normalen Betriebsverhaltens der Daten zu erstellen. Anomalien können erkannt werden, wenn anschließend Daten in nachfolgenden Intervallen empfangen werden.
Test auf statistische Abweichungen für Gruppen von Ereignissen
Bei dem z-Test handelt es sich um einen beliebigen statistischen Test, bei dem die Verteilung der Teststatistik unter der Null-Hypothese durch eine Normalverteilung angenähert werden kann. Aufgrund des zentralen Grenzwertsatzes kann davon ausgegangen werden, dass sich Stichproben der Ereignishäufigkeit einer Normalverteilung annähern. Daher kann zu einem beliebigen Zeitpunkt eine Stichprobe der Ereignishäufigkeit mit der Stichprobenverteilung verglichen werden, um zu ermitteln, ob sie innerhalb normaler Betriebsspielräume liegt. Ein z-Test kann einen z-Score oder einen Modifizierten z-Score verwenden.
Bei einem z-Score handelt es sich um einen numerischen Messwert eines Verhältnisses eines Wertes zu dem arithmetischen Mittel einer Gruppe von Werten, gemessen als Standardabweichung vom Mittelwert. Wenn ein z-Score gleich 0 ist, gibt dies an, dass der Wert mit dem Mittelwert übereinstimmt. Wenn ein z-Score gleich 1,0 ist, ist der Wert eine Standardabweichung von dem Mittelwert. Bei den meisten großen Datensätzen weisen 99 % der Werte einen z-Score zwischen -3 und 3 auf, was bedeutet, dass sie innerhalb von drei Standardabweichungen oberhalb und unterhalb des Mittelwerts liegen.
Bei dem Modifizierten z-Score handelt es sich um einen standardisierten Score, der die Stärke von Ausreißern misst oder, wie stark sich ein bestimmter Score von dem typischen Score unterscheidet. Mithilfe von Standardabweichungseinheiten wird die Differenz des Scores von dem Median angenähert.
Der Modifizierte z-Score könnte robuster sein als der Standard-z-Score, da er sich zum Berechnen des z-Scores auf den Median stützt. Im Vergleich mit dem Standard-z-Score wird er weniger durch Ausreißer beeinflusst.
Der Standard-z-Score wird berechnet, indem die Differenz vom Mittelwert durch die Standardabweichung dividiert wird. Der Modifizierte z-Score wird aus der mittleren absoluten Abweichung (mean absolute deviation, MeanAD) oder der mittleren absoluten Abweichung vom Median (median absolute deviation, MAD) berechnet. Diese Werte werden mit einer Konstante multipliziert, um die Standardabweichung anzunähern.
Für jede Gruppe von Ereignissen, die anhand eines Attributs oder Clusters von Attributen gruppiert sind, kann das Verfahren die mittlere absolute Abweichung vom Median (MAD) und den Modifizierten z-Score-Wert jedes Elements für einen Zeitraum berechnen, in dem dieser Ereignistyp auftritt. Zum Beispiel: „Linkdown“ = Median = 10 und „Maschine brennt“ = Median = 20.
Wenn der aktuelle Wert für eine Gruppe über einem definierten Schwellenwert eines z-Scores von 3,5 liegt, wird die Gruppe von Ereignissen als Sturmereignisse bildend und zu dem Ereignissturm beitragend identifiziert.
Es ist zu beachten, dass eine zusätzliche Absicherung erforderlich ist, wenn die Anzahl eines Attributs niedrig ist. Wenn zum Beispiel in dem aktuellen Prototyp der MAD-Score weniger als 2 beträgt, wird er nicht einbezogen. Der Grund dafür ist, dass, selbst wenn eine Häufigkeit dieser Ereignisse außerhalb eines erwarteten Bereichs für die Gruppe liegt, die geringe Anzahl darauf hinweist, dass die Ereignisse keine Teilereignisse des Sturms sind.
Unter Bezugnahme auf 1B stellt ein Ablaufplan 150 eine beispielhafte Ausführungsform des Aspekts des Ablaufplans von 1A einer Cluster-Bildung aus Ereignisattributen dar, um zu testen, ob die zu einem Cluster zusammengefassten Ereignisattribute außerhalb einer Schwellenwertabweichung von einer Norm für den Cluster in einem Stichproben-Zeitraum liegen, in dem der Sturm erkannt wird.
Gemäß einer oder mehreren Abstandsmetriken kann ein Cluster aus Ereignisattributen in einem Stichprobenfenster gebildet 151 werden. Die Abstandsmetriken können für ein Ereignisprotokollszenario konfiguriert sein und auf den Informationen beruhen, die in einem Ereignisprotokolleintrag verfügbar sind.
Ein Beispiel für eine Abstandsmetrik kann eine Textzeichenfolgenähnlichkeit von Ereignisprotokolleinträgen sein. Ein weiteres Beispiel für eine Abstandsmetrik kann eine Positionsähnlichkeit für eine Position des Ursprungs von Ereignisprotokolleinträgen sein, zum Beispiel durch eine Ortszelle bei Telekommunikationsprotokollen oder eine Verwaltungsanlage oder einen Serverort bei Protokollen von verteilten Computersystemen. Sonstige Formen von Abstandsmetriken können auf den Informationen beruhen, die in Protokolleinträgen verfügbar sind.
In dem Beispiel einer Textzeichenfolge als Abstandsmetrik kann die Cluster-Bildung mithilfe einer Zeichenfolgen-Vergleichstechnik wie zum Beispiel einer Editierabstandsmetrik wie etwa des Jaro-Winkler-Abstands ausgeführt werden. Ein Editierabstand quantifiziert, wie unähnlich zwei Zeichenfolgen sind, indem die Mindestanzahl von Operationen gezählt wird, die erforderlich ist, um eine Zeichenfolge in die andere umzuwandeln.
Wenn zum Beispiel drei verschiedene Ereignistypen vorhanden sind und keiner über der statistischen Abweichung liegt, kann eine Zeichenfolgenähnlichkeit verwendet werden, um einen Cluster 151 zu erkennen. Beispielsweise kann aufgrund ihrer Zeichenfolgenähnlichkeit ein Cluster aus den folgenden Ereignisinstanzen gebildet werden, die sich auf ein domänenübergreifendes Routing-Protokoll wie das Border Gateway Protocol (BGP) in der Cisco-Implementierung (Cisco ist eine Marke von Cisco Systems, Inc.) beziehen, und können diese als eine Gruppe von Ereignissen behandelt werden:

BGP_CISCO_STATE_1
BGP_CISCO_STATE_2
BGP_CISCO_STATE_3

Mehrere Cluster 151 können für eine Stichprobenzeit mithilfe verschiedener Abstandsmetriken und/oder mithilfe verschiedener Grenzwerte derselben Abstandsmetrik erzeugt werden.
Die erzeugten Cluster können anhand der Anzahl von Ereignisprotokollinstanzen, die in der Stichprobenzeit zu dem Cluster gehören, getestet 152 werden. Dies kann als Prozentzahl der Gesamtanzahl von Ereignissen in der Stichprobenzeit getestet werden. Damit ein Cluster als nützlich betrachtet wird, kann ein Test darin bestehen, ob eine prozentuale Schwellenanzahl von Ereignissen in der Stichprobenzeit Mitglieder des Clusters sind.
Die erzeugten Cluster können darüber hinaus oder alternativ mit sonstigen Clustern verglichen 153 werden, um einen oder mehrere Cluster mit der höchsten Anzahl von Ereignissen in der Stichprobenzeit zu ermitteln.
Ein oder mehrere Cluster mit einem höchsten einzelnen Messwert oder Vergleichsmesswert von Ereignissen können als Hauptkandidaten für eine Cluster-Bildung ausgewählt 154 werden. Nach der Auswahl oder als Teil des Auswahlprozesses kann ein Cluster getestet 155 werden, um zu ermitteln, ob die Anzahl von Ereignissen in dem Cluster über einem Schwellenprozentsatz der gesamten Ereignisse in dem Stichprobenfenster liegt.
Er darf zum Beispiel nur verwendet werden, wenn der Cluster mehr als 60 % des erwarteten Bereichs ausmacht. Wenn die erwartete Höchstzahl 100 Ereignisse in der Stichprobenzeit des erkannten Sturms betrug, hätten 60 Ereignisse vorhanden sein müssen, die Mitglieder des Clusters waren, damit er verwendet worden wäre.
Nachdem der eine oder die mehreren Cluster ausgewählt worden sind, kann der Cluster als neue Gruppe verwendet 156 werden, und es kann ermittelt werden, ob die Ereignishäufigkeit des Clusters außerhalb einer Schwellenwertabweichung von einem Mittelwert für die Ereignismetrik des Clusters für das Stichprobenfenster liegt. Wenn der weitere Test nicht bestanden wird, kann eine weitere Cluster-Bildung 151 mit anderen Abstandsmetriken versucht werden.
Dieses Verfahren ist in der Lage zu erkennen, dass ein Sturm auftritt, und signifikante Cluster von zugehörigen Ereignissen zu erfassen, wenngleich dies nicht erschöpfend sein muss. Das beschriebene Verfahren garantiert nicht, dass es alle Ereignisse findet, die den Sturm bilden. Das Erfordernis einer vollständigen Einbeziehung dessen, welche Ereignisse den Sturm bilden, ist jedoch im Vergleich mit dem Erfordernis, korrekt zu erkennen, dass ein Sturm auftritt, nicht von höchster Bedeutung.
Es ist zu beachten, dass es nicht korrekt ist, den Basisalgorithmus einfach auf den Rohereignistyp anzuwenden, d.h., eine Metrik für jeden Ereignistyp, der festgestellt wird, ohne dass eine Beschränkung auf einen Stichproben-Zeitraum besteht. Dies ist darauf zurückzuführen, dass die meisten Basisalgorithmen extrem ungenau werden oder die Metrik von einer Analyse ausschließen, wenn die Metrik gegen null tendiert, was bei jedem einzelnen Ereignistyp der Fall ist. Das ist der Grund, warum die Scores oder Abweichungen in einem erkannten Sturm nur für verfügbare Stichprobenfenster berechnet werden, in denen sie auftreten.
Das beschriebene Verfahren verbindet intrinsisch eine Sturmerkennung und eine Abweichung einer Anzahl von gruppierten oder kategorisierten Ereignissen in den Ereignisstichproben, bei denen der Sturm erkannt wird, aufgrund der Beschränkung von Standardbasisalgorithmen.
2 stellt eine beispielhafte Ausführungsform eines Systems 200 dar, in dem ein Ereignisprotokoll 230 von Ereignissen, die in einer Informationstechnologieumgebung auftreten, dynamisch ausgewertet wird, um zu ermitteln, ob ein Sturm von Ereignissen stattfindet, und um Ereignisse zu identifizieren, die zu dem Sturm beitragen.
Das System 200 enthält ein Computersystem 210, das ein Sturmereignis-Identifizierungssystem 240 bereitstellt, und das Computersystem 210 enthält zumindest einen Prozessor 201, ein Hardware-Modul oder eine Schaltung zum Ausführen der Funktionen der beschriebenen Komponenten, bei denen es sich um Software-Einheiten handeln kann, die auf dem zumindest einen Prozessor ausgeführt werden. Mehrere Prozessoren, die parallele Verarbeitungs-Threads ausführen, können bereitgestellt werden, die eine parallele Verarbeitung einiger oder sämtlicher der Funktionen der Komponenten ermöglichen. Der Speicher 202 kann so konfiguriert sein, dass er Computeranweisungen 203 für den zumindest einen Prozessor 201 bereitstellt, um die Funktionalität der Komponenten auszuführen.
Das Sturmereignis-Identifizierungssystem 240 kann ein Operationsanalysesystem 220 verwenden, das Protokollereigniseinträge des Ereignisprotokolls 230 der Informationstechnologieumgebung analysieren kann. Das Operationsanalysesystem 220 kann von dem Sturmereignis-Identifizierungssystem 240 entfernt angeordnet bereitgestellt werden, oder das Sturmereignis-Identifizierungssystem 240 kann in ein Operationsanalysesystem 220 integriert sein.
Das Sturmereignis-Identifizierungssystem 240 kann eine Konfigurationskomponente 250 zum Konfigurieren von Parametern des Sturmereignis-Identifizierungssystems 240, eine Lernkomponente 260 zum Lernen eines Verhaltens der Ereignisse in dem Ereignisprotokoll 230, eine Ereignissturm-Erkennungskomponente 270, eine Ereignisbestandteil-Identifizierungskomponente 280 und eine Ereignisbestandteil-Korrelierungskomponente 242 enthalten.
Die Konfigurationskomponente 250 kann eine Stichprobenfenster-Komponente 251 zum Konfigurieren von Zeitspannen von Stichprobenfenstern enthalten, um eine Granularität der Ereignissturmerkennung zu konfigurieren. Die Stichproben-Zeiträume können so konfiguriert werden, dass sie diskret oder fortlaufend und von einer oder mehreren Zeitspannen sind. Bei einer Ausführungsform werden sie als ein kurzes Stichproben-Zeitfenster und ein längeres Stichproben-Zeitfenster konfiguriert, um verschiedene Verhaltensweisen von Ereignisstürmen zu erfassen.
Die Konfigurationskomponente 250 kann darüber hinaus eine Schwellenwertabweichungs-Komponente 252 zum Konfigurieren von Schwellenwertabweichungen enthalten, um eine Empfindlichkeit der Identifizierung von Ereignisbestandteilen zu konfigurieren.
Die Lernkomponente 260 kann eine Gesamtereignisbereichs-Lernkomponente 261 zum Lernen einer erwarteten Ereignishäufigkeit in einer oder mehreren definierten Längen von Stichproben-Zeiträumen in dem Ereignisprotokoll insgesamt enthalten. Die Lernkomponente 260 kann darüber hinaus eine Ereignisattribut-Lernkomponente 262 zum Lernen von Ereignisattributinformationen in der einen oder den mehreren definierten Längen von Stichproben-Zeiträumen zur Verwendung beim Kategorisieren und bei einer Cluster-Bildung aus Ereignisattributen enthalten.
Die Ereignissturm-Erkennungskomponente 270 kann eine dynamische Schwellenwertkomponente 272 zum Verwenden eines dynamischen Schwellenwertalgorithmus, um einen dynamischen Basisbereich von erwarteten Ereignishäufigkeiten in der einen oder den mehreren definierten Längen von Stichproben-Zeiträumen zu ermitteln, und eine Anomalieerkennungskomponente 273 zum Verwenden eines Anomalieerkennungsalgorithmus enthalten, um eine Anomalie aus dem dynamischen Basisbereich zu erkennen, die auf einen Ereignissturm hinweist.
Die Ereignisbestandteil-Identifizierungskomponente 280 kann für jedes einer Gruppe von Ereignissen, die anhand einer Ereigniskategorie gruppiert sind, die in einem Stichproben-Zeitraum eines Ereignissturms auftritt, eine Gruppe von Ereignissen als Bestandteil des Ereignissturms identifizieren, wenn die Häufigkeit des Auftretens von Ereignissen der Gruppe in dem Stichproben-Zeitraum außerhalb einer Schwellenwertabweichung von einem Mittelwert für diese Gruppe liegt.
Die Ereignisbestandteil-Identifizierungskomponente 280 kann eine Gruppierungskomponente 282 zum Gruppieren von Ereignissen anhand einer Ereigniskategorie, wobei die Ereigniskategorie ein einzelnes Ereignisattribut oder einen Cluster von Ereignisattributen enthält, und eine Mindestereigniskomponente 281 enthalten, um sicherzustellen, dass Gruppen von Ereignissen eine Mindestanzahl von Ereignisinstanzen enthalten.
Die Ereignisbestandteil-Identifizierungskomponente 280 kann eine Gruppenabweichungskomponente 283 zum Ermitteln enthalten, ob die Häufigkeit des Auftretens von Ereignissen der Gruppe in dem Stichproben-Zeitraum außerhalb einer Schwellenwertabweichung von einem Mittelwert für diese Gruppe liegt.
Die Ereignisbestandteil-Identifizierungskomponente 280 kann eine Komponente 284 zum Bilden von Attribut-Clustern enthalten, um Cluster aus Ereignissen in einem Stichproben-Zeitraum anhand einer Abstandsmetrik von Ereignisattributen zu bilden. Beispielsweise kann es sich bei der Abstandsmetrik der Ereignisattribute um eine Textzeichenfolgen-Metrik oder eine Positionsmetrik handeln.
Die Komponente 284 zum Bilden von Attribut-Clustern kann ein Testen der Cluster-Bildung enthalten, um einen Schwellenprozentsatz von Ereignisinstanzen zu erfüllen, die in einem Stichproben-Zeitraum zu dem Cluster gehören, und kann ein Auswählen eines Clusters durch Vergleichen von Clustern mit variierenden Abstandsmetriken in einem Stichproben-Zeitraum enthalten.
Die Ereignisbestandteil-Korrelierungskomponente 242 kann alle Gruppen von Ereignissen korrelieren, die als Bestandteile des Sturms identifiziert werden, und kann die Ereignisse als eine Ausgabe des Systems anzeigen.
3 stellt ein Blockschaubild von Komponenten des Computersystems 210 des Systems 200 von 2 gemäß einer Ausführungsform der vorliegenden Erfindung dar. Es ist zu beachten, dass 3 lediglich eine Veranschaulichung einer Implementierung bereitstellt und keine Einschränkungen in Bezug auf die Umgebungen impliziert, in denen verschiedene Ausführungsformen implementiert werden können. Es können zahlreiche Modifizierungen an der dargestellten Umgebung vorgenommen werden.
Das Computersystem 210 kann einen oder mehrere Prozessor(en) 302, einen oder mehrere durch einen Computer lesbare RAM(s) 304, einen oder mehrere durch einen Computer lesbare ROM(s) 306, ein oder mehrere durch einen Computer lesbare Speichermedien 308, Einheitentreiber 312, ein(e) Lese-/Schreib-Laufwerk oder -Schnittstelle 314 und ein(e) Netzwerkadapter oder -Schnittstelle 316 enthalten, die sämtlich über eine Datenübertragungsstruktur 318 miteinander verbunden sind. Die Datenübertragungsstruktur 318 kann mit einer beliebigen Architektur implementiert werden, die zum Weiterleiten von Daten und/oder Steuerungsdaten zwischen Prozessoren (wie zum Beispiel Mikroprozessoren, Datenübertragungs- und Netzwerkprozessoren usw.), Systemspeichern, Peripherieeinheiten und beliebigen sonstigen Hardware-Komponenten innerhalb des Systems gestaltet ist.
Eine oder mehrere Betriebssysteme 310 und Anwendungsprogramme 311 wie zum Beispiel das Ereignissturm-Erkennungssystem 240 sind in einem oder mehreren der durch einen Computer lesbaren Speichermedien 308 zur Ausführung durch einen oder mehrere der Prozessoren 302 über einen oder mehrere der jeweiligen RAMs 304 (die üblicherweise einen Cache-Speicher enthalten) gespeichert. Bei der veranschaulichten Ausführungsform kann jedes der durch einen Computer lesbaren Speichermedien 308 eine Magnetplatten-Speichereinheit einer internen Festplatte, eine CD-ROM, eine DVD, ein Speicher-Stick, ein Magnetband, eine Magnetplatte, eine optische Platte, eine HalbleiterSpeichereinheit wie zum Beispiel ein RAM, ein ROM, ein EPROM, ein Flash-Speicher oder beliebige sonstige durch einen Computer lesbare Speichermedien sein, die ein Computerprogramm und digitale Informationen gemäß Ausführungsformen der Erfindung speichern können.
Das Computersystem 210 kann darüber hinaus ein(e) L/S-Laufwerk oder - Schnittstelle 314 enthalten, um von einem oder mehreren tragbaren, durch einen Computer lesbaren Speichermedien 326 zu lesen oder darauf zu schreiben. Anwendungsprogramme 311 auf dem Computersystem 210 können in einem oder mehreren der tragbaren, durch einen Computer lesbaren Speichermedien 326 gespeichert sein, über das/die entsprechende L/S-Laufwerk oder -Schnittstelle 314 gelesen werden und in die jeweiligen durch einen Computer lesbaren Speichermedien 308 geladen werden.
Das Computersystem 210 kann darüber hinaus eine(n) Netzwerkadapter oder - Schnittstelle 316 wie zum Beispiel eine TCP/IP-Adapterkarte oder einen Adapter für eine drahtlose Datenübertragung enthalten. Anwendungsprogramme 311 in dem Computersystem 210 können über ein Netzwerk (zum Beispiel das Internet, ein lokales Netzwerk oder sonstige Weitbereichs-Netzwerke oder drahtlose Netzwerke) und den/die Netzwerkadapter oder -Schnittstelle 316 von einem externen Computer oder einer externen Speichereinheit auf die Datenverarbeitungseinheit heruntergeladen werden. Von dem/der Netzwerkadapter oder -Schnittstelle 316 können die Programme in die durch einen Computer lesbaren Speichermedien 308 geladen werden. Das Netzwerk kann Kupferdrähte, Lichtwellenleiter, drahtlose Übertragungssysteme, Router, Firewalls, Switches, Gateway-Computer und Edge-Server aufweisen.
Das Computersystem 210 kann darüber hinaus einen Anzeigebildschirm 320, eine Tastatur oder ein Tastenfeld 322 und eine Computermaus oder ein Touchpad 324 enthalten. Die Einheitentreiber 312 stellen eine Verbindung mit dem Anzeigebildschirm 320 zur Bildgebung, mit der Tastatur oder dem Tastenfeld 322, mit der Computermaus oder dem Touchpad 324 und/oder mit dem Anzeigebildschirm 320 zur Druckerfassung einer Eingabe von alphanumerischen Zeichen und von Benutzerauswahlen her. Die Einheitentreiber 312, das/die L/S-Laufwerk oder -Schnittstelle 314 und der/die Netzwerkadapter oder - Schnittstelle 316 können Hardware und in den durch einen Computer lesbaren Speichermedien 308 und/oder dem ROM 306 gespeicherte Software aufweisen.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt mit einem beliebigen Integrationsgrad technischer Details handeln. Das Computerprogrammprodukt kann (ein) durch einen Computer lesbare(s) Speichermedium (oder -medien) enthalten, auf dem/denen durch einen Computer lesbare Programmanweisungen gespeichert sind, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine materielle Einheit handeln, die Anweisungen zur Verwendung durch eine Einheit zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Festwertspeicher (ROM), ein löschbarer programmierbarer Festwertspeicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Kompaktspeicherplatten-Festwertspeicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. So, wie dieser Begriff hierin verwendet wird, ist ein durch einen Computer lesbares Speichermedium nicht als per se transitorische Signale auszulegen, wie zum Beispiel Funkwellen oder sonstige sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder sonstige Übertragungsmedien ausbreiten (z.B. Lichtimpulse, die ein Lichtwellenleiterkabel durchlaufen) oder elektrische Signale, die durch eine Leitung übertragen werden.
Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Router, Firewalls, Switches, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten, Konfigurationsdaten für integrierte Schaltungen oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). Bei einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, feldprogrammierbare Gate-Arrays (FPGA) oder programmierbare Logik-Arrays (PLA) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsdaten der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
Aspekte der vorliegenden Erfindung werden hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaubildern mittels durch einen Computer lesbare Programmanweisungen implementiert werden können.
Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Computers oder einer sonstigen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers oder der sonstigen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen Mittel zum Implementieren der in dem Block bzw. den Blöcken des Ablaufplans und/oder des Blockschaubildes festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, die Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaubilder angegebenen Funktion/Schritts implementieren.
Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken des Ablaufplans und/oder des Blockschaubildes festgelegten Funktionen/Schritte umsetzen.
Der Ablaufplan und die Blockschaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Implementierungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in dem Ablaufplan oder den Blockschaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zum Implementieren der bestimmten logischen Funktion(en) aufweisen. In einigen alternativen Implementierungen können die in den Blöcken angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit als ein Schritt, gleichzeitig, im Wesentlichen gleichzeitig, zum Teil oder vollständig zeitlich überlappend ausgeführt werden, oder die Blöcke können bisweilen je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaubilder und/oder des Ablaufplans sowie Kombinationen aus Blöcken in den Blockschaubildern und/oder dem Ablaufplan durch spezielle auf Hardware beruhende Systeme implementiert werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
Cloud-Computing
Es versteht sich, dass, wenngleich diese Offenbarung eine ausführliche Beschreibung zu Cloud-Computing enthält, eine Implementierung der hierin angeführten Lehren nicht auf eine Cloud-Computing-Umgebung beschränkt ist. Stattdessen können Ausführungsformen der vorliegenden Erfindung gemeinsam mit jeder beliebigen Art von jetzt bekannter oder später entwickelter Datenverarbeitungsumgebung implementiert werden.
Bei Cloud-Computing handelt es sich um ein Modell zum Erbringen von Dienstleistungen, um einen praktischen, bedarfsgesteuerten Netzwerkzugriff auf einen gemeinsam genutzten Pool von konfigurierbaren Datenverarbeitungs-Ressourcen (z.B. Netzwerken, Netzwerkbandbreite, Servern, Verarbeitung, Arbeitsspeicher, Speicher, Anwendungen, virtuellen Maschinen und Diensten) zu ermöglichen, die schnell mit möglichst geringem Verwaltungsaufwand oder Zusammenwirken mit einem Anbieter des Dienstes bereitgestellt und freigegeben werden können. Dieses Cloud-Modell kann zumindest fünf Eigenschaften, zumindest drei Dienstmodelle und zumindest vier Implementierungsmodelle enthalten.
Bei den Eigenschaften handelt es sich um die Folgenden:

On-Demand Self-Service: Ein Cloud-Nutzer kann einseitig automatisch nach Bedarf für Datenverarbeitungsfunktionen wie Server-Zeit und Netzwerkspeicher sorgen, ohne dass ein menschliches Zusammenwirken mit dem Anbieter der Dienste erforderlich ist.

Broad Network Access: Es sind Funktionen über ein Netzwerk verfügbar, auf die durch Standardmechanismen zugegriffen wird, welche die Verwendung durch heterogene Thin- oder Thick-Client-Plattformen (z.B. Mobiltelefone, Laptops und PDAs) unterstützen.
Resource-Pooling: Die Datenverarbeitungs-Ressourcen des Anbieters werden zusammengeschlossen, um mehreren Nutzern unter Verwendung eines Multi-Tenant-Modells zu dienen, wobei verschiedene physische und virtuelle Ressourcen dynamisch nach Bedarf zugewiesen und neu zugewiesen werden. Es gibt eine gefühlte Standortunabhängigkeit, da der Nutzer allgemein keine Kontrolle bzw. Kenntnis über den genauen Standort der bereitgestellten Ressourcen hat, aber in der Lage sein kann, einen Standort auf einer höheren Abstraktionsebene festzulegen (z.B. Land, Staat oder Rechenzentrum).
Rapid Elasticity: Funktionen können für eine schnelle horizontale Skalierung (scale out) schnell und elastisch bereitgestellt werden, in einigen Fällen auch automatisch, und für ein schnelles Scale-in schnell freigegeben werden. Für den Nutzer erscheinen die für das Bereitstellen verfügbaren Funktionen häufig unbegrenzt, und sie können jederzeit in jeder beliebigen Menge gekauft werden.
Measured Service: Cloud-Systeme steuern und optimieren die Verwendung von Ressourcen automatisch, indem sie eine Messfunktion auf einer gewissen Abstraktionsebene nutzen, die für die Art von Dienst geeignet ist (z.B. Speicher, Verarbeitung, Bandbreite sowie aktive Benutzerkonten). Die Nutzung von Ressourcen kann überwacht, gesteuert und gemeldet werden, wodurch sowohl für den Anbieter als auch für den Nutzer des verwendeten Dienstes Transparenz geschaffen wird.
Bei den Dienstmodellen handelt es sich um die Folgenden:

Software as a Service (SaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, die in einer Cloud-Infrastruktur laufenden Anwendungen des Anbieters zu verwenden. Auf die Anwendungen kann von verschiedenen Client-Einheiten durch eine Thin-Client-Schnittstelle wie zum Beispiel einen Web-Browser (z.B. eMail auf Grundlage des Web) zugegriffen werden. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter das Netzwerk, Server, Betriebssysteme, Speicher bzw. sogar einzelne Anwendungsfunktionen, mit der möglichen Ausnahme von eingeschränkten benutzerspezifischen Anwendungskonfigurationseinstellungen.

Platform as a Service (PaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, durch einen Nutzer erstellte bzw. erhaltene Anwendungen, die unter Verwendung von durch den Anbieter unterstützten Programmiersprachen und Tools erstellt wurden, in der Cloud-Infrastruktur einzusetzen. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter Netzwerke, Server, Betriebssysteme bzw. Speicher, hat aber die Kontrolle über die eingesetzten Anwendungen und möglicherweise über Konfigurationen des Application Hosting Environment.
Infrastructure as a Service (laaS): Die dem Nutzer bereitgestellte Funktion besteht darin, das Verarbeiten, Speicher, Netzwerke und andere grundlegende Datenverarbeitungs-Ressourcen bereitzustellen, wobei der Nutzer in der Lage ist, beliebige Software einzusetzen und auszuführen, zu der Betriebssysteme und Anwendungen gehören können. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, hat aber die Kontrolle über Betriebssysteme, Speicher, eingesetzte Anwendungen und möglicherweise eine eingeschränkte Kontrolle über ausgewählte Netzwerkkomponenten (z.B. Host-Firewalls).
Bei den Implementierungsmodellen handelt es sich um die Folgenden:

Private Cloud: Die Cloud-Infrastruktur wird einzig und allein für eine Organisation betrieben. Sie kann durch die Organisation oder einen Dritten verwaltet werden und kann sich innerhalb oder außerhalb der eigenen Räumlichkeiten befinden.

Community Cloud: Die Cloud-Infrastruktur wird von mehreren Organisationen gemeinsam genutzt und unterstützt eine spezielle Benutzergemeinschaft, die gemeinsame Angelegenheiten hat (z.B. Mission, Sicherheitsanforderungen, Richtlinien sowie Überlegungen bezüglich der Einhaltung von Vorschriften). Sie kann durch die Organisationen oder einen Dritten verwaltet werden und kann sich innerhalb oder außerhalb der eigenen Räumlichkeiten befinden.
Public Cloud: Die Cloud-Infrastruktur wird der allgemeinen Öffentlichkeit oder einer großen Industriegruppe zur Verfügung gestellt und sie gehört einer Cloud-Dienste verkaufenden Organisation.
Hybrid Cloud: Die Cloud-Infrastruktur ist eine Zusammensetzung aus zwei oder mehreren Clouds (privat, Benutzergemeinschaft oder öffentlich), die zwar einzelne Einheiten bleiben, aber durch eine standardisierte oder proprietäre Technologie miteinander verbunden sind, die Daten- und Anwendungsportierbarkeit ermöglicht (z.B. Cloud-Zielgruppenverteilung für den Lastenausgleich zwischen Clouds).
Eine Cloud-Computing-Umgebung ist dienstorientiert mit Fokus auf Statusunabhängigkeit, geringer Kopplung, Modularität und semantischer Interoperabilität. Im Zentrum des Cloud-Computing befindet sich eine Infrastruktur, die ein Netzwerk von miteinander verbundenen Knoten enthält.
Unter Bezugnahme auf 7 wird eine veranschaulichende Cloud-Computing-Umgebung 50 dargestellt. Wie dargestellt, enthält die Cloud-Computing-Umgebung 50 einen oder mehrere Cloud-Computing-Knoten 10, mit denen lokale Datenverarbeitungseinheiten, die von Cloud-Kunden verwendet werden, wie zum Beispiel ein persönlicher digitaler Assistent (PDA) oder ein Mobiltelefon 54A, ein Desktop-Computer 54B, ein Laptop-Computer 54C und/oder ein KFZ-Computersystem 54N, Daten miteinander austauschen können. Die Knoten 10 können Daten miteinander austauschen. Sie können physisch oder virtuell in einem oder mehreren Netzwerken gruppiert werden (nicht gezeigt), zum Beispiel in Private, Community, Public oder Hybrid Clouds, wie hierin oben beschrieben, oder in einer Kombination von diesen. Dies ermöglicht der Cloud-Computing-Umgebung 50, Infrastruktur, Plattformen und/oder Software als Dienstleistungen anzubieten, für die ein Cloud-Kunde keine Ressourcen auf einer lokalen Datenverarbeitungseinheit vorhalten muss. Es versteht sich, dass die in 7 dargestellten Typen von Datenverarbeitungseinheiten 54A bis N lediglich der Veranschaulichung dienen sollen und dass die Datenverarbeitungsknoten 10 und die Cloud-Computing-Umgebung 50 mit einem beliebigen Typ einer computerisierten Einheit über einen beliebigen Typ von Netzwerk und/oder eine über ein Netzwerk adressierbare Verbindung (z.B. mithilfe eines Web-Browsers) Daten austauschen können.
Unter Bezugnahme auf 8 wird ein Satz funktionaler Abstraktionsschichten dargestellt, die durch die Cloud-Computing-Umgebung 50 (7) bereitgestellt werden. Es sollte von vornherein klar sein, dass die in 8 gezeigten Komponenten, Schichten und Funktionen lediglich veranschaulichend sein sollen und Ausführungsformen der Erfindung nicht darauf beschränkt sind. Wie dargestellt, werden die folgenden Schichten und entsprechenden Funktionen bereitgestellt:
Eine Hardware- und Software-Schicht 60 enthält Hardware- und Software-Komponenten. Zu Beispielen für Hardware-Komponenten zählen: Großrechner 61; Server 62 auf Grundlage einer RISC-Architektur (Reduced Instruction Set Computer, Computer mit reduziertem Anweisungssatz); Server 63; Blade-Server 64; Speichereinheiten 65; und Netzwerke sowie Netzwerkkomponenten 66. Bei einigen Ausführungsformen zählen zu Software-Komponenten Netzwerkanwendungs-Server-Software 67 und Datenbank-Software 68.
Eine Virtualisierungsschicht 70 stellt eine Abstraktionsschicht bereit, von der die folgenden Beispiele für virtuelle Entitäten bereitgestellt werden können: virtuelle Server 71; ein virtueller Speicher 72; virtuelle Netzwerke 73, darunter virtuelle private Netzwerke; virtuelle Anwendungen und Betriebssysteme 74; und virtuelle Clients 75.
In einem Beispiel kann die Verwaltungsschicht 80 die im Folgenden beschriebenen Funktionen bereitstellen. Ressourcen-Bereitstellung 81 bietet eine dynamische Beschaffung von Datenverarbeitungs-Ressourcen und sonstigen Ressourcen, die zum Durchführen von Aufgaben innerhalb der Cloud-Computing-Umgebung genutzt werden. Messung und Preisbildung 82 stellen eine Kostenüberwachung während der Nutzung von Ressourcen innerhalb der Cloud-Computing-Umgebung sowie Abrechnung oder Rechnungsstellung für den Verbrauch dieser Ressourcen bereit. In einem Beispiel können diese Ressourcen Anwendungs-Software-Lizenzen enthalten. Die Sicherheit stellt die Identitätsüberprüfung für Cloud-Nutzer und Aufgaben sowie Schutz für Daten und sonstige Ressourcen bereit. Ein Benutzerportal 83 stellt Nutzern und Systemadministratoren einen Zugriff auf die Cloud-Computing-Umgebung bereit. Eine Dienstgüteverwaltung 84 stellt eine Zuordnung und Verwaltung von Cloud-Computing-Ressourcen bereit, so dass erforderliche Dienstgütegrade erreicht werden. Eine Planung und Erfüllung von Dienstgütevereinbarungen (Service Level Agreement, SLA) 85 stellen eine Vorbereitung für und eine Bereitstellung von Cloud-Computing-Ressourcen bereit, für die eine künftige Erfordernis gemäß einer SLA erwartet wird.
Eine Verarbeitungsprozessschicht 90 stellt Beispiele für eine Funktionalität bereit, für die die Cloud-Computing-Umgebung eingesetzt werden kann. Zu Beispielen für Verarbeitungsprozesse und Funktionen, die von dieser Schicht aus bereitgestellt werden können, zählen: Zuordnung und Navigation 91; Software-Entwicklung und Lebenszyklusverwaltung 92; Bereitstellung von virtuellen Schulungen 93; Datenanalyseverarbeitung 94, Transaktionsverarbeitung 95; und Ereignisprotokollverarbeitung 96.
Ein Computerprogrammprodukt der vorliegenden Erfindung weist eine oder mehrere durch einen Computer lesbare Hardware-Speichereinheit(en) auf, in der/denen ein durch einen Computer lesbarer Programmcode gespeichert ist, wobei der Programmcode durch einen oder mehrere Prozessoren ausführbar ist, um die Verfahren der vorliegenden Erfindung zu implementieren.
Ein Computersystem der vorliegenden Erfindung weist einen oder mehrere Prozessoren, einen oder mehrere Speicher und eine oder mehrere durch einen Computer lesbare Hardware-Speichereinheiten auf, wobei die eine oder mehreren Hardware-Speichereinheit(en) einen Programmcode enthält/enthalten, der über den einen oder die mehreren Speicher durch den einen oder die mehreren Prozessor(en) ausführbar ist, um die Verfahren der vorliegenden Erfindung zu implementieren.
Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung erfolgten zur Veranschaulichung, sind jedoch nicht erschöpfend oder auf die offenbarten Ausführungsformen beschränkt gemeint. Viele Modifizierungen und Varianten sind für Fachleute ersichtlich, ohne vom Umfang und Wesensgehalt der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendete Terminologie wurde gewählt, um die Grundgedanken der Ausführungsformen, die praktische Anwendung oder die technische Verbesserung gegenüber auf dem Markt erhältlichen Technologien am besten zu erläutern oder um anderen Fachleuten zu ermöglichen, die hierin offenbarten Ausführungsformen zu verstehen.
Es können Verbesserungen und Modifizierungen an dem Obenstehenden vorgenommen werden, ohne vom Umfang der vorliegenden Erfindung abzuweichen.

Claims

Auf einem Computer implementiertes Verfahren zur Identifizierung von Teilereignissen in einem Ereignissturm in einer Operationsverwaltung, das aufweist: Erkennen eines Ereignissturms durch Erkennen einer Anomalie aus einem dynamischen Basisbereich von erwarteten Ereignishäufigkeiten in einem Stichproben-Zeitraum; und wenn der Ereignissturm erkannt wird, für jedes einer Gruppe von Ereignissen, die anhand einer Ereigniskategorie gruppiert sind und in dem Stichproben-Zeitraum eines Ereignissturms auftreten, Identifizieren der Gruppe von Ereignissen als Bestandteil des Ereignissturms, wenn die Häufigkeit des Auftretens von Ereignissen der Gruppe in dem Stichproben-Zeitraum außerhalb einer Schwellenwertabweichung von einem Mittelwert für diese Gruppe liegt.
Verfahren nach Anspruch 1, das ein Korrelieren von mehreren Gruppen von Ereignissen enthält, die als Bestandteil des Ereignissturms identifiziert worden sind.
Verfahren nach Anspruch 1, das ein Lernen einer erwarteten Ereignishäufigkeit in einer oder mehreren definierten Längen von Stichproben-Zeiträumen enthält.
Verfahren nach Anspruch 1, wobei das Erkennen des Ereignissturms enthält: Verwenden eines dynamischen Schwellenwertalgorithmus, um einen dynamischen Basisbereich von erwarteten Ereignishäufigkeiten in einer oder mehreren definierten Längen von Stichproben-Zeiträumen zu ermitteln; und Verwenden eines Anomalieerkennungsalgorithmus, um eine Anomalie aus dem dynamischen Basisbereich zu erkennen, die auf einen Ereignissturm hinweist.
Verfahren nach Anspruch 1, das ein Lernen von Ereignisattributinformationen in einer oder mehreren definierten Längen von Stichproben-Zeiträumen enthält.
Verfahren nach Anspruch 1, wobei die Ereigniskategorie ein einzelnes Ereignisattribut oder einen Cluster von Ereignisattributen enthält, der auf einer Abstandsmetrik beruht.
Verfahren nach Anspruch 1, das eine Cluster-Bildung aus Ereignissen in dem Stichproben-Zeitraum anhand einer Abstandsmetrik von Ereignisattributen enthält.
Verfahren nach Anspruch 1, wobei, wenn sich eine Gruppe auf Grundlage von einzelnen Ereignisattributen nicht oberhalb einer Schwellenwertabweichung für das einzelne Ereignisattribut in dem Stichproben-Zeitraum befindet, ein Cluster aus mehreren einzelnen Ereignisattributen gebildet wird, um die Gruppe von Ereignissen auszubilden.
Verfahren nach Anspruch 7, wobei die Abstandsmetrik der Ereignisattribute eine der Gruppe ist aus: einer Textzeichenfolgen-Metrik; einer Positionsmetrik; oder einer sonstigen Metrik, die aus Informationen von Ereignisprotokolleinträgen abgeleitet wird.
Verfahren nach Anspruch 7, das ein Testen der Cluster-Bildung enthält, um einen Schwellenprozentsatz von Ereignisinstanzen zu erfüllen, die in dem Stichproben-Zeitraum zu dem Cluster gehören.
Verfahren nach Anspruch 7, das ein Auswählen einer Cluster-Bildung durch Vergleichen von Clustern mit variierenden Abstandsmetriken in dem Stichproben-Zeitraum enthält.
Verfahren nach Anspruch 1, wobei Gruppen von Ereignissen eine Mindestanzahl von Ereignisinstanzen enthalten.
Verfahren nach Anspruch 1, wobei die Stichproben-Zeiträume anhand einer Granularität der Ereignissturmerkennung konfiguriert werden und ein kurzes Zeitfenster und ein längeres Zeitfenster enthalten, um unterschiedliches Ereignissturmverhalten zu erfassen.
Verfahren nach Anspruch 1, wobei eine Schwellenwertabweichung von einem Mittelwert für diese Gruppe ein Schwellenwert-z-Score-Test der Gruppe von Ereignissen ist.
Auf einem Computer implementiertes Verfahren zur Identifizierung von Teilereignissen in einem Ereignissturm in einer Operationsverwaltung, das aufweist: Erkennen eines Ereignissturms durch Erkennen einer Anomalie aus einem dynamischen Basisbereich von erwarteten Ereignishäufigkeiten einer Grundgesamtheit von Ereignissen in einem Stichproben-Zeitraum; und für den Stichproben-Zeitraum in einem erkannten Ereignissturm Identifizieren von Ereignisinstanzen als Teilereignisse des Ereignissturms durch Cluster-Bildung aus Ereignisattributen und Ermitteln, ob es sich bei einer Häufigkeit eines Auftretens von Ereignisinstanzen in dem Cluster in dem Stichproben-Zeitraum um eine Schwellenwertabweichung von einer Norm für die zu einem Cluster zusammengefassten Ereignisattribute handelt.
System zur Identifizierung von Teilereignissen in einem Ereignissturm in einer Operationsverwaltung, das aufweist: einen Prozessor und einen Speicher, der dazu konfiguriert ist, Computerprogrammanweisungen für den Prozessor bereitzustellen, um die Funktion der Komponenten auszuführen: einer Ereignissturm-Erkennungskomponente zum Erkennen des Ereignissturms durch Erkennen einer Anomalie aus einem dynamischen Basisbereich von erwarteten Ereignishäufigkeiten in einem Stichproben-Zeitraum; und einer Ereignisbestandteil-Identifizierungskomponente für jedes einer Gruppe von Ereignissen, die anhand einer Ereigniskategorie gruppiert sind, die in dem Stichproben-Zeitraum des Ereignissturms auftritt, die eine Gruppe von Ereignissen als Bestandteil des Ereignissturms identifiziert, wenn die Häufigkeit des Auftretens von Ereignissen der Gruppe in dem Stichproben-Zeitraum außerhalb einer Schwellenwertabweichung von einem Mittelwert für die Gruppe liegt.
System nach Anspruch 16, das eine Ereignisbestandteil-Korrelierungskomponente zum Korrelieren von mehreren Gruppen von Ereignissen enthält, die als Bestandteil des Ereignissturms identifiziert worden sind.
System nach Anspruch 16, wobei die Ereignissturm-Erkennungskomponente enthält: eine dynamische Schwellenwertkomponente zum Verwenden eines dynamischen Schwellenwertalgorithmus, um einen dynamischen Basisbereich von erwarteten Ereignishäufigkeiten in einer oder mehreren definierten Längen von Stichproben-Zeiträumen zu ermitteln; und eine Anomalieerkennungskomponente zum Verwenden eines Anomalieerkennungsalgorithmus, um eine Anomalie aus dem dynamischen Basisbereich zu erkennen, die auf den Ereignissturm hinweist.
System nach Anspruch 16, das eine Lernkomponente zum Lernen einer erwarteten Ereignishäufigkeit in einer oder mehreren definierten Längen von Stichproben-Zeiträumen und zum Lernen von Ereignisattributinformationen in der einen oder den mehreren definierten Längen von Stichproben-Zeiträumen enthält.
System nach Anspruch 16, das eine Komponente zum Bilden von Attribut-Clustern zur Cluster-Bildung aus Ereignissen in dem Stichproben-Zeitraum anhand einer Abstandsmetrik von Ereignisattributen enthält.
System nach Anspruch 20, wobei die Komponente zum Bilden von Attribut-Clustern ein Testen der Cluster-Bildung enthält, um einen Schwellenprozentsatz von Ereignisinstanzen zu erfüllen, die in dem Stichproben-Zeitraum zu dem Cluster gehören.
System nach Anspruch 20, wobei die Komponente zum Bilden von Attribut-Clustern ein Auswählen eines Clusters durch Vergleichen von Clustern mit variierenden Abstandsmetriken in dem Stichproben-Zeitraum enthält.
System nach Anspruch 16, das eine Konfigurationskomponente zum Konfigurieren von Stichproben-Zeiträumen anhand einer Granularität der Ereignissturmerkennung enthält, die ein kurzes Zeitfenster und ein längeres Zeitfenster enthalten, um unterschiedliches Ereignissturmverhalten zu erfassen.
System zur Identifizierung von Teilereignissen in einem Ereignissturm in einer Operationsverwaltung, das aufweist: einen Prozessor und einen Speicher, der dazu konfiguriert ist, Computerprogrammanweisungen für den Prozessor bereitzustellen, um die Funktion der Komponenten auszuführen: einer Ereignissturm-Erkennungskomponente zum Erkennen eines Ereignissturms durch Erkennen einer Anomalie aus einem dynamischen Basisbereich von erwarteten Ereignishäufigkeiten einer Grundgesamtheit von Ereignissen in einem Stichproben-Zeitraum; und eine Ereignisbestandteil-Identifizierung zum Identifizieren von Ereignisinstanzen als Teilereignisse des Sturms für den Stichproben-Zeitraum in einem erkannten Ereignissturm durch Cluster-Bildung aus Ereignisattributen und Ermitteln, ob es sich bei einer Häufigkeit eines Auftretens von Ereignisinstanzen in dem Cluster in dem Stichproben-Zeitraum um eine Schwellenwertabweichung von einer Norm für die zu einem Cluster zusammengefassten Ereignisattribute handelt.
Computerprogrammprodukt zur Identifizierung von Teilereignissen in einem Ereignissturm in einer Operationsverwaltung, wobei das Computerprogrammprodukt ein durch einen Computer lesbares Speichermedium aufweist, in dem Programmanweisungen verkörpert sind, wobei die Programmanweisungen durch einen Prozessor so ausführbar sind, dass der Prozessor veranlasst wird zu einem: Erkennen des Ereignissturms durch Erkennen einer Anomalie aus einem dynamischen Basisbereich von erwarteten Ereignishäufigkeiten in einem Stichproben-Zeitraum; und wenn der Ereignissturm erkannt wird, für jedes einer Gruppe von Ereignissen, die anhand einer Ereigniskategorie gruppiert sind und in dem Stichproben-Zeitraum auftreten, Identifizieren der Gruppe von Ereignissen als Bestandteil des Ereignissturms, wenn die Häufigkeit des Auftretens von Ereignissen der Gruppe in dem Stichproben-Zeitraum außerhalb einer Schwellenwertabweichung von einem Mittelwert für diese Gruppe liegt.