DE112015006466B4 - Verfahren und System zur Unterstützung der Detektion von Unregelmässigkeiten in einem Netzwerk - Google Patents

Verfahren und System zur Unterstützung der Detektion von Unregelmässigkeiten in einem Netzwerk Download PDF

Info

Publication number
DE112015006466B4
DE112015006466B4 DE112015006466.4T DE112015006466T DE112015006466B4 DE 112015006466 B4 DE112015006466 B4 DE 112015006466B4 DE 112015006466 T DE112015006466 T DE 112015006466T DE 112015006466 B4 DE112015006466 B4 DE 112015006466B4
Authority
DE
Germany
Prior art keywords
matrix
network
temporal
spatial
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE112015006466.4T
Other languages
English (en)
Other versions
DE112015006466T5 (de
Inventor
Sofia Nikitaki
Maurizio Dusi
Mohamed Ahmed
Saverio Niccolini
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Laboratories Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories Europe GmbH filed Critical NEC Laboratories Europe GmbH
Publication of DE112015006466T5 publication Critical patent/DE112015006466T5/de
Application granted granted Critical
Publication of DE112015006466B4 publication Critical patent/DE112015006466B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • H04L43/087Jitter
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

Verfahren zur Unterstützung der Detektion von Unregelmäßigkeiten in einem Netzwerk, wobei das Verfahren umfasst:Überwachen von Merkmalen des Netzwerks mittels mindestens einer Überwachungseinrichtung, um räumlich-zeitliche Messdaten zu sammeln,in einer Offline-Phase Bereitstellen einer Trainingsmatrix (Xtr), in der gesammelte Messdaten in einem vorgegebenen Zeitfenster derart aggregiert werden, dass die Trainingsmatrix (Xtr) räumlich-zeitliche Korrelationen umfasst,Durchführen von nicht-negativer Matrixfaktorisierung in der Offline-Phase, um die Trainingsmatrix (Xtr) in eine Koeffizientenmatrix (U) und eine Basismatrix (V) zu zerlegen, wobei zeitliche Korrelationen und räumliche Korrelationen gemeinsam berücksichtigt werden,Erstellen einer aktuellen Laufzeitmatrix in einer Online-Phase auf Basis von neu in der Online-Phase gesammelten Messdaten,Berechnen einer aktuellen Laufzeit-Koeffizientenmatrix (Ur) in der Online-Phase auf Basis von der aktuellen Laufzeitmatrix und der Basismatrix (V), undVergleichen der aktuellen Laufzeit-Koeffizientenmatrix (Ur) in der Online-Phase mit mindestens einer Koeffizientenmatrix (U), die zuvor berechnet worden ist.

Description

  • Die Arbeit, die zu dieser Erfindung führt, hat im Rahmen der Finanzhilfevereinbarung Nr. 318627 eine Finanzierung aus dem Siebten Rahmenprogramm der Europäischen Union (RP7/2007-2013) erhalten.
  • Die vorliegende Erfindung betrifft ein Verfahren und ein System zur Unterstützung der Detektion von Unregelmäßigkeiten in einem Netzwerk.
  • In den letzten Jahren suchen Netzbetreiber aktiv effiziente und präzise Lösungen, um Leistungsanomalien und Unregelmäßigkeiten in ihren Netzwerken zu identifizieren und um die Entwicklung in der Anwendung ihrer Ressourcen durch ihre Kunden besser zu verstehen. Schlussfolgern und Vorhersagen des Verhaltens eines Netzwerks in Gegenwart von heterogenem Netzwerkverkehr sind jedoch schwierig. Deshalb sind Werkzeuge sehr gefragt, die beim Detektieren von Unregelmäßigkeiten in der Funktion des Netzwerks helfen, basierend auf typischen Daten, die von Netzbetreibern gesammelt werden.
  • Zum Beispiel ist die Latenzzeit des Netzwerks ein wichtiges Maß der Dienstgüte, da gängige Multimediadienste wie beispielsweise Video, Audio- und Computerspiele latenzempfindlich sind. Von daher sind Netzbetreiber daran interessiert zu erfahren, wann, wo und warum sich die Latenzzeit des Traffics ändert und, sofern möglich, möchten sie diese Änderungen voraussagen, um sie zu verhindern, um eine von Kunden verlangte Dienstgüte zu gewährleisten.
  • Detektieren von Unregelmäßigkeiten im Netzwerkverkehr, zum Beispiel aufgrund von einer Fehlkonfiguration der Ausrüstung, Defekt oder infolge der Benutzeraktivität wie beispielsweise Änderungen und/oder Modifikationen im Verkehrsprofil der Benutzer, ist durch mehrere Faktoren erschwert. Erstens kann die Größe der Datensätze, die betrachtet werden müssen, sehr groß sein. Zum Beispiel sind tausende von Netzwerksensoren üblicherweise möglich, wobei jeder 10 bis Hunderte von Variablen mit einer Granularität im Sekundenbereich abtastet. Es ist deshalb schwierig, die komplexen zeitlichen und räumlichen Beziehungen zwischen den Messungen effizient und präzise auszuwerten. In dieser Beziehung sei beispielsweise verwiesen auf P. Barford, N. Duffield, A. Ron, J. Sommers: „Network Performance Anomaly Detection and Localization“, INFOCOM 2009: pp.1377, 1385, 19-25 April 2009.
  • Übliche Erschließung und Analyse der Netzwerkfunktion bemüht sich mit dem Ausmaß an Netzwerkdaten und der Anzahl von Merkmalen, die berücksichtigt werden müssen, fertig zu werden. Verfahren und Systeme, wie in Y. Zhou, G. Hu, D. Wu: „A data mining system for distributed abnormal event detection in backbone networks", Security and Communication Networks, Volume 7, Issue 5, pages 904-913, May 2014 und in H. Madhyastha, E. Katz-Bassett, T. Anderson, A. Krishnamurthy, and A. Venkataramani: „iPlane Nano: Path Prediction for Peer-to-Peer Applications", ΛlSDl, page 137-152, USENIX Association, 2009 beschrieben, konzentrieren sich auf die Detektion von Änderungen zu einem einzelnen Netzwerksensor, ohne zu berücksichtigen, dass Ereignisse im Netzwerk streng miteinander korrelieren können, d. h. ein Datenstau, der an einem Zwischen-Hop beobachtet wird, wird sich wahrscheinlich auf folgende Hops ausbreiten.
  • Herkömmliche Anomalie-Detektionssysteme neigen dazu anzunehmen, dass Traffic-Verteilungen einer Konstanten mit einzelnen Ausbrüchen über die Zeit sehr nahekommen, und identifizieren Anomalien durch Berechnung der Korrelation zwischen Paaren von Punkten, um Ausreißer zu definieren wie beispielsweise beschrieben in H. Kriegel, M. Schubert, and A. Zimek: „Angle-based outlier detection", In Proc. ACM SIGKDD Int. Conf on Knowledge Discovery and Data Mining (SiGKDD) Las Ilegas NV, 2008. Während das bekannte System zeitliche Korrelationen berücksichtigt, scheitert es daran, regelmäßige Ausreißer zu identifizieren, die dazu tendieren, als ein Teil eines täglichen Musters vorzukommen. Zum Beispiel könnte ein plötzlicher Ausbruch von Latenz jeden Tag bei einem spezifischen Netzwerksensor aufgrund von Wartungsplänen auftreten. Selbstverständlich sollte das nicht als eine Anomalie betrachtet werden, weil es einem täglichen Muster folgt.
  • Des Weiteren wird beispielhaft auf die folgende Nichtpatentliteratur verwiesen:
    • A. Nagata, K. Kotera, K. Nakamura, Y. Hori: „Behavioral Anomaly Detection System on Network Application Traffic from Many Sensors", Computer Software and Applications Conference (COMPSAC), 2014 IEEE 38th Annual, pp. 600, 601, 21-25 July 2014
    • Peng C, Jin X, Wong K-C, Shi M, Liò P: „Collective Human Mobility Pattern from Taxi Trips in Urban Area" PLoS ONE 7(4): e34487. doi:10. 1371/journal.pone.0034487, 2012
    • H. Huang, H. Al-Azzawi, and H. Brani: „Network traffic anomaly detection", ArXiv:1402.0856v1, 2014
    die sich mit nicht-negativen Matrixfaktorisierungstechniken (NMF-Techniken) befasst, die angewandt werden, um Anomalien im Traffic zu detektieren. Da diese Ansätze räumliche und zeitliche Korrelationen in den Daten unabhängig voneinander berücksichtigen, scheitern sie, stabile normale Basismuster zu schätzen. Deshalb sind sie außerstande, die in den Daten beobachteten Verhaltensweisen präzise zu erfassen.
  • Matrixfaktorisierung (MF) ist ein Verfahren gemäß dem Stand der Technik, um komplexe Verhaltensweisen zu erfassen. Matrixfaktorisierungstechniken basieren auf der Beobachtung, dass, wenn Daten miteinander korrelieren, sie eine Niedrig-Rang-Eigenschaft aufweisen, d. h. nur eine kleine Anzahl von Merkmalen kann die Daten mit kleinem Fehler erfassen/reproduzieren. Um Ausreißer zu identifizieren, wird die Differenz zwischen den abgetasteten Daten und ihrem normalen Unterraum, d. h. der Niedrigrangapproximation, berechnet und die Intensität der Differenz hebt die Bedeutung des Ausreißers hervor. Jedoch sind herkömmliche Matrixfaktorisierungstechniken, wie beispielsweise Singulärwertzerlegung (SVD), für die in den Netzwerkdaten aufgetretenen räumlichen Muster verantwortlich, aber sie berücksichtigen zeitliche Korrelationen nicht in dem Sinne, dass eine zeitliche Umordnung der Daten ohne Wirkung auf die Ergebnisse ist.
  • Im Hinblick auf das Vorstehende ist es eine Aufgabe der vorliegenden Erfindung, ein Verfahren der eingangs genannten Art zur Unterstützung der Detektion von Unregelmäßigkeiten in einem Netzwerk derart zu verbessern und weiterzuentwickeln, dass Performanceanomalien effizienter und präziser in dem Netzwerk detektiert werden können.
  • Erfindungsgemäß wird die oben genannte Aufgabe durch ein Verfahren zur Unterstützung der Detektion von Unregelmäßigkeiten in einem Netzwerk gelöst, wobei das Verfahren umfasst:
    • Überwachen von Merkmalen des Netzwerks mittels mindestens einer Überwachungseinrichtung, um räumlich-zeitliche Messdaten zu sammeln,
    • in einer Offline-Phase Bereitstellen einer Trainingsmatrix, in der gesammelte Messdaten in einem vorgegebenen Zeitfenster derart aggregiert werden, dass die Trainingsmatrix räumlich-zeitliche Korrelationen umfasst,
    • Durchführen von nicht-negativer Matrixfaktorisierung in der Offline-Phase, um die Trainingsmatrix in eine Koeffizientenmatrix und eine Basismatrix zu zerlegen, wobei zeitliche Korrelationen und räumliche Korrelationen gemeinsam berücksichtigt werden,
    • Erstellen einer aktuellen Laufzeitmatrix in einer Online-Phase auf Basis von neu in der Online-Phase gesammelten Messdaten,
    • Berechnen einer aktuellen Laufzeit-Koeffizientenmatrix in der Online-Phase auf Basis von der aktuellen Laufzeitmatrix und der Basismatrix, und
    • Vergleichen der aktuellen Laufzeit-Koeffizientenmatrix in der Online-Phase mit mindestens einer Koeffizientenmatrix, die zuvor berechnet worden ist.
  • Weiterhin wird die obige Aufgabe durch ein System zur Unterstützung der Detektion von Unregelmäßigkeiten in einem Netzwerk gelöst, wobei das System eine oder mehrere Überwachungseinrichtungen, eine Offline-Komponente und eine Online-Komponente umfasst,
    wobei die Überwachungseinrichtungen derart konfiguriert sind, dass Merkmale des Netzwerks überwacht werden, um räumlich-zeitliche Messdaten zu sammeln,
    wobei die Offline-Komponente derart konfiguriert ist, dass eine Trainingsmatrix bereitgestellt wird, in der Messdaten in einem vorgegebenen Zeitfenster derart aggregiert werden, dass die Trainingsmatrix räumlich-zeitliche Korrelationen umfasst,
    wobei die Offline-Komponente weiter so konfiguriert ist, dass eine nicht-negative Matrixfaktorisierung durchgeführt wird, um die Trainingsmatrix in eine Koeffizientenmatrix und eine Basismatrix zu zerlegen, wobei zeitliche Korrelationen und räumliche Korrelationen gemeinsam berücksichtigt werden,
    wobei die Online-Komponente so konfiguriert ist, dass eine aktuelle Laufzeitmatrix auf Basis von neu in der Online-Phase gesammelten Messdaten erstellt wird,
    wobei die Online-Komponente weiter so konfiguriert ist, dass eine aktuelle Laufzeit-Koeffizientenmatrix auf Basis von der aktuellen Laufzeitmatrix und Basismatrix berechnet wird, und
    wobei die Online-Komponente weiter so konfiguriert ist, dass die aktuelle Laufzeit-Koeffizientenmatrix mit mindestens einer Koeffizientenmatrix verglichen wird, die zuvor berechnet worden ist.
  • Erfindungsgemäß ist zunächst einmal erkannt worden, dass reale Netzwerkdaten aufgrund des periodischen Verhaltens von Benutzern eine starke zeitliche Korrelation aufzeigen. Zu Grunde liegende räumliche Korrelation kann auftreten, weil Überwachungseinrichtungen, wie beispielsweise Netzwerksensoren, auf engstem Raum dazu neigen, in Beziehung stehende Phänomene, wie beispielsweise Burst-Traffic oder eine Folgeerscheinung von einer Fehlkonfiguration, zu erfassen. Erfindungsgemäß überwacht mindestens eine Überwachungseinrichtung Merkmale eines Netzwerkes, um räumlich-zeitliche Messdaten zu sammeln. In einer Offline-Phase wird eine Trainingsmatrix erzeugt, in der gesammelte Messdaten in einem vorgegebenen Zeitfenster derart aggregiert werden, dass die Trainingsmatrix räumlich-zeitliche Korrelationen in ihren Messdaten umfasst. Weiterhin ist erkannt worden, dass räumlich-zeitliche Matrixfaktorisierungen in der Lage sind, komplexe verborgene Muster innerhalb der Messdaten besser zu erfassen, und deshalb die Genauigkeit und Effizienz des Austestens der Netzwerkfunktion und die Optimierung verbessern können. Erfindungsgemäß wird eine nicht-negative Matrixfaktorisierung in der Offline-Phase durchgeführt, um die Trainingsmatrix in eine Koeffizientenmatrix und eine Basismatrix zu zerlegen, wobei die zeitlichen Korrelationen und die räumlichen Korrelationen in der Trainingsmatrix gemeinsam berücksichtigt werden. Die Basismatrix repräsentiert zu Grunde liegende Basismuster der Messdaten der Trainingsmatrix. Die Koeffizientenmatrix repräsentiert die Intensität der einzelnen zu Grunde liegenden Basismuster. In einer Online-Phase wird eine aktuelle Laufzeitmatrix auf Basis von neu in der Online-Phase gesammelten Messdaten erstellt. Somit umfasst die aktuelle Laufzeitmatrix Messdaten über Merkmale innerhalb des Netzwerks, die durch die Überwachungseinrichtungen überwacht werden. In der Online-Phase wird eine aktuelle Laufzeit-Koeffizientenmatrix auf Basis von der aktuellen Laufzeitmatrix und der Basismatrix, die in der Offline-Phase berechnet worden ist, berechnet. Diese aktuelle Laufzeit-Koeffizientenmatrix wird mit mindestens einer Koeffizientenmatrix verglichen, die zuvor berechnet worden ist, so dass auf der Grundlage des Vergleichs Unregelmäßigkeiten in dem Netzwerk abgeleitet werden können. Die Komponenten der Koeffizientenmatrix können die Intensität repräsentieren, die sich auf die zu Grunde liegenden Basismuster bezieht, die durch die Basismatrix repräsentiert werden, wobei die Intensität jedes zu Grunde liegenden Basismusters über Zeit und Raum verfolgt werden kann. Somit ermöglichen das Verfahren und das System gemäß der Erfindung, dass PerformanceAnomalien/Unregelmäßigkeiten effizienter und präziser in dem Netzwerk entdeckt werden können.
  • Das Verfahren und das System gemäß der Erfindung werden durch die Erkenntnis motiviert, dass Netzwerkdaten starke Korrelationen aufzeigen und eine reduzierte Anzahl von Verkehrsmuster als Basismuster die Struktur des gesamten Netzwerkverhaltens erfassen können. Im Gegensatz zu bekannten Ansätzen können das Verfahren und das System gemäß der vorliegenden Erfindung die Intensität der Anwesenheit jedes Basismusters ausnutzen, um das Verhalten jeder Überwachungseinrichtung in einem vorgegebenen Zeitpunkt abzuleiten und die dazugehörigen Änderungen zu nennen.
  • Folglich basiert das Verfahren auf einem nicht-negativen Matrixfaktorisierungs-Ansatz und ist für die inhärente Korrelationsstruktur der Netzwerkmessdaten sowohl in Zeit als auch Raum verantwortlich. Dies ermöglicht die Konstruktion von stabilen Basismustern (z.B. globale Traffic-Muster), die das zu Grunde liegende Verhalten des Netzwerks präziser erfassen. Folglich sind das Verfahren und das System gemäß der Erfindung in der Lage, Änderungen in beobachteten Netzwerkdaten zu erkennen, um die Effizienz der Netzwerk-Verwaltung und Fehlerbehandlung zu erhöhen.
  • Gemäß Ausführungsformen der Erfindung kann der Prozess der Online-Phase periodisch durchgeführt werden. Somit kann die Online-Komponente Änderungen der Basismuster bezüglich Netzwerkbeobachtungen in Echtzeit detektieren.
  • Gemäß Ausführungsformen der Erfindung kann die nicht-negative Matrixfaktorisierung zur Berechnung der Koeffizientenmatrix und der Basismatrix auf Basis von einer Zielfunktion, insbesondere einer Kostenfunktion, in der Offline-Phase durchgeführt werden. Somit wird das Problem der Charakterisierung des Netzwerkverhaltens als ein nicht-negatives Matrixfaktorisierungsproblem (NMF-Problem) formuliert, wobei abhängig von der Zielfunktion die verborgene Struktur in den Messdaten derart identifiziert werden kann, dass stabile Basismuster konstruiert werden, die in den Daten beobachtete Verhaltensweisen erfassen.
  • Gemäß Ausführungsformen der Erfindung kann die Zielfunktion räumliche und zeitliche Randbedingungen der nicht-negativen Matrixfaktorisierung derart auferlegen, dass zeitliche Korrelationen und räumliche Korrelationen in den gesammelten Messdaten berücksichtigt werden. Somit wird die Detektion von Leistungsanomalien/Unregelmäßigkeiten in dem Netzwerk auf eine effiziente Weise verbessert und ermöglicht genauere Ergebnisse.
  • Gemäß Ausführungsformen der Erfindung kann die Trainingsmatrix als eine Matrix X t r R N L × M
    Figure DE112015006466B4_0001
    definiert werden, wobei NL die Anzahl repräsentiert, die durch N Überwachungseinrichtungen und L Merkmalen gebildet wird, und wobei M die Anzahl von Zeitabtastwerten repräsentiert. Wenn zum Beispiel jede Überwachungseinrichtung L Merkmale beobachtet, dann wird die Trainingsmatrix N · L Reihen aufweisen. Des Weiteren können die Messdaten der Trainingsmatrix Xtr in einem vorgegebenen Zeitfenster, zum Beispiel Minuten, Stunden usw., aggregiert werden. Vorteilhafterweise wird die Länge des Zeitfensters in Bezug auf die jeweilige Anwendungseinstellung in geeigneter Weise definiert.
  • Gemäß Ausführungsformen der Erfindung kann die Zielfunktion wie folgt definiert werden: m i n { X t r U V T F 2 + α ( U F 2 + V F 2 ) + β ( S ( U V T ) F 2 + ( U V T ) T F 2 ) } ,
    Figure DE112015006466B4_0002
    wobei U ∈ RNL×k die Koeffizientenmatrix ist, wobei V ∈ RM×k die Basismatrix ist, wobei k eine Anzahl verschiedener zu Grunde liegender Basismuster ist, wobei α ein normierter Regularisierungskoeffizient ist, wobei β ein räumlich-zeitlicher Regularisierungskoeffizient ist, wobei S ∈ RNL×NL eine räumliche Matrix ist, die räumliche Randbedingungen enthält, und wobei T ∈ RM×M eine zeitliche Matrix ist, die zeitliche Randbedingungen enthält. Des Weiteren verwendet die Zielfunktion die Frobeniusnorm. Somit können mithilfe der Zielfunktion stabile Basismuster konstruiert werden, wobei diese Basismuster in den Messdaten der Trainingsmatrix beobachtete Verhaltensweisen präzise erfassen.
  • Gemäß Ausführungsformen der Erfindung kann die räumliche Matrix eine Adjazenzmatrix von der Topologie des Netzwerks sein. Somit können die Korrelationen zwischen den Zeilen, d. h. die räumlichen Korrelationen, erfasst werden.
  • Gemäß Ausführungsformen der Erfindung kann die zeitliche Matrix eine Toeplitz-Matrix sein. Somit kann die zeitliche Glätte der gesammelten Messdaten durch die Toeplitz-Matrix erfasst werden.
  • Gemäß Ausführungsformen der Erfindung kann ein stochastisches Gradientenabstiegsverfahren (SGD-Verfahren), insbesondere ein verteiltes stochastisches Gradientenabstiegsverfahren (DSGD-Verfahren), verwendet werden, um eine Lösung der Zielfunktion zu berechnen. Ausführungsformen der Erfindung können Randbedingungen in das Optimierungsproblem einführen, um die gemeinsame Berücksichtigung der räumlichen und zeitlichen Korrelationen in den Messdaten zu erfassen und sind im Stande zu erfassen, wann und wo Änderungen in dem Netzwerk auftreten. Vorteilhafterweise kann ein verteiltes stochastisches Gradientenabstiegsverfahren verwendet werden, um eine Lösung der Zielfunktion zu berechnen. Somit kann die Skalierbarkeit gewährleistet werden, weil dieses Verfahren gute Konvergenzgarantien aufweist und leicht parallelisiert werden kann, so dass mehr Merkmale und Datensätze berücksichtigt werden können. DSGD ist einfach und unmaßgeblich rechenbetont, nur vektormäßige Operatoren enthaltend. Eine beispielhafte Implementierung von DSGD ist in R. Gemulla, P. Haas, E. Nijkamp, Y. Sismanis: „Large-Scale Matrix Factorization with Distributed Stochastic Gradient Descent“, KDD 2011 beschrieben.
  • Gemäß Ausführungsformen der Erfindung kann die die aktuelle Laufzeit-Koeffizientenmatrix durch Projektion der aktuellen Laufzeitmatrix auf die Basismatrix berechnet werden. Somit kann die aktuelle Laufzeit-Koeffizientenmatrix berechnet/geschätzt werden, um mit einer oder mehreren vorherigen Koeffizientenmatrizen verglichen zu werden.
  • Gemäß Ausführungsformen der Erfindung kann die aktuelle Laufzeit-Koeffizientenmatrix in der Online-Phase mit einer Koeffizientenmatrix, die in einer der vorherigen Zeitintervalle berechnet worden ist, verglichen werden, indem die Differenz zwischen den Matrizen berechnet wird.
  • Gemäß Ausführungsformen der Erfindung kann eine anormale Änderung/Unregelmäßigkeiten innerhalb des Netzwerks detektiert und/oder getriggert werden, wenn die berechnete Differenz über einem vordefinierten Schwellwert liegt. Somit kann ein geeigneter Schwellwert definiert werden, der den Trigger für eine anormale Änderung/Unregelmäßigkeiten in dem Netzwerk ermöglicht.
  • Gemäß Ausführungsformen der Erfindung können die Merkmale zur Konstruktion der Trainingsmatrix und der aktuellen Laufzeitmatrix Latenzzeiten, Jitter und/oder Paketverlust, insbesondere zwischen Verbindungspaaren in dem Netzwerk, umfassen. Somit können Korrelationsstrukturen über Zeit und Raum zwischen Merkmalen identifiziert werden, die durch Netzwerkmesssensoren üblicherweise überwacht werden. Somit kann anormale Aktivität in dem Netzwerk-Traffic identifiziert werden zum Zwecke der Leistungsanomalie-Detektion und für die Charakterisierung der Entwicklung des Netzwerkverhaltens.
  • Gemäß Ausführungsformen der Erfindung kann die Messzeitgranularität der Merkmale, die in der Online-Phase zur Erstellung der aktuellen Laufzeitmatrix gemessen werden, derart gewählt werden, dass diese Granularität mit der in der Offline-Phase gewählten Messzeitgranularität kompatibel ist. Somit können optimale Ergebnisse erzielt werden.
  • Gemäß Ausführungsformen der Erfindung kann die Stabilität von zu Grunde liegenden Basismustern durch eine oder mehrere statistische Eigenschaften der abgetasteten Messdaten gewonnen werden, insbesondere durch Durchschnitt, Varianz und/oder Quantil. Somit kann angesichts mehrfacher Trainingsmatrizen über dieselbe Region ein Satz von Basismustern geschätzt werden, der über die Zeit hinweg stabil ist.
  • Die vorliegende Erfindung und/oder Ausführungsformen der Erfindung definieren ein skalierbares System zur Identifizierung komplexer Änderungen in den regelmäßigen Aktivitätsmustern in Daten, insbesondere in Netzwerkdaten. Das Verfahren und/oder das System können auf das Identifizieren anormaler Aktivität im Netzwerk-Traffic zum Zwecke der Leistungsanomalie-Detektion und für die Charakterisierung der Entwicklung des Netzwerkverhaltens angewandt werden.
  • Die vorliegende Erfindung und/oder Ausführungsformen stellen ein Verfahren oder System bereit zur Identifizierung komplexer Korrelationsstrukturen über Zeit und Raum zwischen Merkmalen, die durch Netzwerkmesssensoren im Allgemeinen überwacht werden. Die gesammelten Daten können sich auf die erfasste Latenz, Jitter, Paketverlust usw. beziehen. Diese Korrelationen können dann ausgenutzt werden, um die Entwicklung der Eigenschaften einer Netzanbindung zu charakterisieren, wie beispielsweise die erwarteten Schwankungen in ihrer Latenz im Laufe eines vorgegebenen Tags, und zu beurteilen, ob Abweichungen davon in Bezug auf das normale erwartete Verhalten anormal sind. Die Berechnungskomplexität des vorgeschlagenen Verfahrens ist zu der Anzahl von Trainingsproben linear. Jedoch zeigen jüngste theoretische Ergebnisse in umfangreichen Daten, dass die Laufzeit, um die gewünschte Optimierungsgenauigkeit zu bekommen, nicht so zunimmt wie die Trainingssatzgröße ansteigt, vgl. zum Beispiel Leon Bottou: „Large-Scale Machine Learning with Stochastic Gradient Deseent" in COMPSTAT2010 - Proceedings of the 19th International Conference on Computational Statistics, pages 177-187, 2010.
  • Des Weiteren können aus unterschiedlichen Gründen starke zeitliche Korrelationen in der Netzwerk-Performance vorkommen, zum Beispiel umfassend periodisches und gewohnheitsmäßiges Verhalten von Benutzern, und Aktivitäten von automatisierten Werkzeugen wie beispielsweise Konfigurations- und Richtlinien-Aktualisierungstools. Während die gerichtete Link-Struktur von Netzwerktopologien und die geografische Nachbarschaft, die mit ihnen verbunden ist, räumliche Korrelationen in Traffic-Messungen hervorrufen können.
  • Im Gegensatz zu dem derzeitigen Stand der Technik basiert die vorliegende Erfindung auf einem nicht-negativen Matrixfaktorisierungs-Ansatz und ist für die inhärente Korrelationsstruktur der Netzwerkdaten sowohl in Zeit als auch Raum verantwortlich. Dies ermöglicht den Aufbau von stabilen globalen Traffic-Mustern, die das zu Grunde liegende Verhalten des Netzwerks präziser erfassen. Folglich ist es in der Lage, Veränderungen in beobachteten Netzwerkdaten zu detektieren, um die Effizienz der Netzwerk-Verwaltung und Fehlerbehandlung zu erhöhen.
  • Des Weiteren kann mindestens eine Ausführungsform der vorliegenden Erfindung über ein stochastisches Gradientenabstiegsverfahren gelöst werden, das verteilt werden kann und somit für umfangreiche Lerndaten passend gemacht wird.
  • Wichtige Aspekte von Ausführungsformen der vorliegenden Erfindung sind:
    • • Bereitstellung einer gemeinsamen räumlich-zeitlichen Matrixfaktorisierung, die die Korrelationen über verschiedene Traffic-Messungen über die Zeit hinweg zwischen Überwachungseinrichtungen, wie beispielsweise Netzwerksensoren, gemeinsam berücksichtigt. Zu diesem Zweck werden unterschiedliche Arten von Informationen in den räumlich-zeitlichen Matrixfaktorisierungs-Prozess integriert, der das Aufdecken der Basismuster, wie beispielsweise die allgemeinen Netzwerk-Traffic-Muster in der Trainingsmatrix wie durch mehrere Merkmale angegeben, erlaubt.
    • • Ausnutzen der Intensität von den Koeffizienten der Basismatrix zur Überwachung des Netzwerkverhaltens in einem spezifischen Bereich, topologisch oder geografisch, und ihrer Änderungen über die Zeit, um abzuleiten, wo und wann eine Änderung im Netzwerk erfolgt. Dies ermöglicht eine Überwachung der Entwicklung des Verhaltens des Netzwerks in spezifischen Sensoren über die Zeit.
  • Ausführungsformen der Erfindung stellen ein System oder eine Verfahren zur Verfügung, um die inhärenten räumlich-zeitlichen Korrelationen in den Messdaten gemeinsam auszunutzen, um stabile Basismuster zu bilden, die in den Messdaten beobachtete Verhaltensweisen präzise erfassen. Stabile Basismuster können derart definiert werden, dass ihre Schätzung nicht so auseinanderklafft wie sich die in der Online-Phase gemessenen Abtastdaten mit der Zeit entwickeln. Der Grund, warum stabile Basen mit der Zeit geschaffen werden, besteht darin, dass die Leistungsfähigkeit von Anomaliedetektionstechniken vom Schätzen signifikanter Unterschiede zwischen den erfassten Messdaten und den von historischen Beobachtungen erzeugten Basismustern abhängt. Somit kann Stabilität als eine Form von Vorwissen über die erfassten räumlich-zeitlichen Messdaten angesehen werden, und es wird erwartet, dass ihre Muster über die Zeit gebunden bleiben. Von daher kann der vorgeschlagene Ansatz im Allgemeinen dazu angewandt werden, Muster in einer Vielfalt von räumlich-zeitlichen Daten zu detektieren, wie beispielsweise die zu Grunde liegenden Muster in der Mobilität von Menschen und Fahrzeugen in städtischen Räumen offenzulegen, und den Verbrauch von Ressourcen wie beispielsweise in Stromnetzen. Zusätzlich ist das vorgeschlagene Verfahren geeignet zur Identifizierung von Änderungen im elektrischen Stromverbrauch von Gewerbegebäuden. Das Detektieren von Änderungen in Energieverbrauchsdaten, die durch Leistungsmesser von mehreren Gebäuden gesammelt werden, kann Geräteausfälle einer kritischen technischen Infrastruktur andeuten. Ausführungsformen der vorliegenden Erfindung können auf beliebige Rechnernetze oder Datennetzwerke angewandt werden, die räumlich-zeitliche Daten bereitstellen, erzeugen und/oder austauschen.
  • Es gibt mehrere Möglichkeiten, die Lehre der vorliegenden Erfindung in vorteilhafter Weise auszugestalten und weiterzuentwickeln. Dazu wird einerseits auf die von dem Patentanspruch 1 abhängigen Patentansprüche sowie andererseits auf die nachfolgende Erläuterung bevorzugter Ausführungsformen der Erfindung anhand von Beispielen, veranschaulicht durch die Zeichnung, verwiesen. Im Zusammenhang mit der Erläuterung der bevorzugten Ausführungsformen der Erfindung anhand der Zeichnung werden allgemein bevorzugte Ausgestaltungen und Weiterbildungen der Lehre erläutert.
  • In den Zeichnungen ist
    • 1 eine schematische Ansicht, die eine nicht-negative Matrixfaktorisierungs-Technik illustriert, die in einem Verfahren und einem System gemäß einer Ausführungsform der vorliegenden Erfindung verwendet werden kann,
    • 2 ist eine schematische Ansicht, die einen Überblick über die Architektur eines Verfahrens oder eines Systems gemäß einer Ausführungsform der vorliegenden Erfindung illustriert, und
    • 3 ist eine schematische Ansicht, die eine beispielhafte Systemarchitektur gemäß einer Ausführungsform der vorliegenden Erfindung illustriert.
  • 1 zeigt eine nicht-negative Matrixfaktorisierung (NMF), die in einem Verfahren und einem System gemäß einer Ausführungsform der vorliegenden Erfindung verwendet werden kann. Das Verfahren oder das System gemäß einer Ausführungsform der vorliegenden Erfindung detektiert die Änderungen von Netzwerkmessungen auf Basis von globalen Traffic-Mustern, d. h. Basismustern, geschaffen von historischen Beobachtungen. Das Problem der Charakterisierung des Netzwerkverhaltens ist als ein nicht-negatives Matrixfaktorisierungsproblem (NMF-Problem) formuliert. Nicht-negative Matrixfaktorisierung berücksichtigt eine Matrix von nicht-negativen beobachteten Daten und erklärt die Beobachtungen als eine Linearkombination von Merkmalen, angegeben in der Matrix. Insbesondere, wie in 1 gezeigt, löst eine nicht-negative Matrixfaktorisierung ein Optimierungsproblem, um eine Eingangsmatrix wie beispielsweise eine Verkehrsmatrix, nämlich zum Beispiel die Trainingsmatrix Xtr, in eine Basismatrix V und eine Koeffizientenmatrix U zu zerlegen. Gemäß 1 repräsentiert die Basismatrix V die normalen Unterräume oder verborgenen Faktoren, d. h. die zu Grunde liegenden Basismuster in den Messdaten, und die Komponenten/Spalten der Koeffizientenmatrix U repräsentieren die Intensität dieser verborgenen Faktoren. Jede Zeile der Trainingsmatrix Xtr repräsentiert ein Merkmal, das von einem vorgegebenen Messsensor überwacht worden ist. Jede Spalte repräsentiert verschiedene Zeitabtastwerte des jeweiligen Merkmals.
  • Durch Verwendung einer nicht-negativen Matrixfaktorisierung, wie beispielhaft in 1 dargestellt, wird die Trainingsmatrix Xtr in Form einer Verkehrsmatrix in zwei Matrizen zerlegt, nämlich die Koeffizientenmatrix U und die Basismatrix V. Jede Zeile in der Basismatrix V repräsentiert ein Basismuster. Jede Spalte der Koeffizientenmatrix U repräsentiert die Stärke entsprechend zu jedem von den Basismustern. Somit repräsentieren die Komponenten der Koeffizientenmatrix die Intensität entsprechend zu den zu Grunde liegenden Basismustern, die durch die Basismatrix repräsentiert werden. In 1 zeigt Bezugszeichen 1 ein Basismuster der Basismatrix V. Bezugszeichen 2 zeigt eine Spalte der Koeffizientenmatrix U, wobei die Spalte 2 die Stärke repräsentiert, die die Intensität der Basismuster widerspiegelt.
  • Bezugszeichen 3 zeigt ein Merkmal, das durch einen Netzwerkmesssensor zu einer spezifischen Zeit beobachtet worden ist. Bezugszeichen 4 zeigt die Zerlegung der Trainingsmatrix Xtr.
  • 2 zeigt einen Überblick über die Architektur eines Verfahrens oder eines Systems gemäß einer Ausführungsform der vorliegenden Erfindung. Das System von 2 wird aus zwei Komponenten zusammengesetzt:
    1. 1. Eine Offline-Komponente, Bezugszeichen 5, der das Lernen der zu Grunde liegenden Basismuster in den Messdaten obliegt.
    2. 2. Eine Online-Komponente, Bezugszeichen 6, zur Ausführung der in der Offline-Phase gelernten Basismuster, um Änderungen/Unregelmäßigkeiten in den in der Online-Phase gerade gemessenen Messdaten zu detektieren.
  • Die Offline-Komponente führt ein normales Basismuster-Lernen, wie in 2 dargestellt, derart durch, dass in der Offline-Phase eine Basismatrix V basierend auf einer Trainingsmatrix Xtr wie folgt gebildet wird:
    1. 1. Definieren einer Trainingsmatrix Xtr ∈ RNL×M, in der Daten in einem vorgegebenen Zeitfenster, d. h. zum Beispiel Minuten, Stunden usw., aggregiert werden. Zum Beispiel im Falle einer Netzwerkleistungsüberwachung repräsentiert N die Anzahl von Sensoren, L die Anzahl von Merkmalen und M die Anzahl von Zeitabtastwerten. Zum Beispiel kann die Trainingsmatrix Xtr von Messungen der Latenz oder des Jitters zwischen Verbindungspaaren konstruiert werden. Die Länge des Zeitfensters wird im Hinblick auf das spezielle Anwendungssetting definiert.
    2. 2. Faktorisieren der Trainingsmatrix Xtr mit einer räumlich-zeitlichen Regularisierung, wobei eine Zielfunktion für die nicht-negative Matrixfaktorisierung wie folgt definiert wird: m i n { X t r U V T F 2 + α ( U F 2 + V F 2 ) + β ( S ( U V T ) F 2 + ( U V T ) T F 2 ) } ,
      Figure DE112015006466B4_0003

    wobei U ∈ RNL×k und V ∈ RM×k die Koeffizienten- und Basismatrizen sind und k die Anzahl von unterschiedlichen Basismustern definiert. α ist der normierte Regularisierungskoeffizient und β der räumlich-zeitliche Regularisierungskoeffizient, der empirisch abgestimmt werden muss, insbesondere durch Kreuzvalidierung. Die Terme S ∈ RNL×NL und T ∈ RM×M geben jeweils die räumlichen und zeitlichen Randbedingungen. Verschiedene Verfahren können angewandt werden, um die Matrizen 5 und T zu schätzen.
    Zum Beispiel können die Korrelationen zwischen den Zeilen der Trainingsmatrix Xtr, d. h. räumliche Korrelationen, durch Ableiten der Adjazenzmatrix des gewichteten Graphen, erstellt aus der Matrix Xtr oder der Netzwerktopologie, erfasst werden. Zusätzlich kann es jede beliebige Kostenmatrix sein, die den Datenbestand charakterisiert.
    Die zeitlichen Korrelationen werden durch die Matrix T repräsentiert, die die Korrelationen zwischen den verschiedenen Zeitabtastwerten einführt. Zum Beispiel kann Matrix T eine Toeplitz-Matrix sein, die die zeitliche Glätte der gesammelten Daten erfasst und sie verstärkt.
    Ein stochastischer Gradientenabstieg (SGD) wird angewandt, um die Zielfunktion gemäß Formel (1) zu lösen. SGD hat drei verschiedene Eigenschaften wie a) es erfordert weder explizite Konstruktionen von Matrizen noch zentrale Server, wo Messungen abgearbeitet werden, b) es ist einfach und unmaßgeblich rechenbetont, nur vektormäßige Operatoren enthaltend und c) es kann parallelisiert sein, somit die Skalierbarkeit der Technik ermöglichend. Weitere Informationen können in Leon Bottou: „Large-Scale Machine Learning with Stochastic Gradient Descent" in COMPSTA T 20 10 - Proceedings of the 19th International Conference on Computational Statistics, pages 177-187, 2010 gefunden werden.
    1. 3. Angesichts mehrerer Trainingsmatrizen über denselben Bereich kann ein Satz von Basismustern geschätzt werden, der über die Zeit stabil ist, nämlich in Form der Basismatrix V. Zum Beispiel kann die Stabilität der Matrix mit statistischen Eigenschaften der abgetasteten Daten wie beispielsweise der Durchschnitt und die Varianz, Quantile oder Varianz erfasst werden.
    2. 4. Speichern von Basismatrix V und Koeffizientenmatrix U.
  • Die Online-Komponente führt Änderungs- und Anomalie-Detektion wie in der 2 dargestellt durch, um Unregelmäßigkeiten in dem Netzwerk zu detektieren. Das Ziel der Online-Komponente ist, die Änderungen von den Basismustern der Beobachtungen in Echtzeit zu detektieren. Die Schritte des Online-Prozesses, die in 2 dargestellt sind und die in der Online-Phase periodisch durchgeführt werden, sind wie folgt:
    1. 1. Sammeln periodischer Messungen der Daten und Erstellen einer aktuellen Laufzeitmatrix Xr. Zum Beispiel kann die aktuelle Laufzeitmatrix Xr aus Messungen der Latenz oder des Jitters zwischen Verbindungspaaren konstruiert werden. Dabei sollte die Messzeitgranularität mit der in der Offline-Phase gewählten kompatibel sein.
    2. 2. Projektion der aktuellen Laufzeitmatrix Xr auf die Basismatrix V, um die aktuelle Laufzeit-Koeffizientenmatrix Ur zu berechnen.
    3. 3. Die Differenz der Intensität zwischen den aktuellen Koeffizienten von Ur und Ur prev, d. h. diejenigen, die in vorherigen Zeitintervallen und/oder während der Offline-Phase geschätzt worden sind, zeigt an, ob es für jedes Merkmal eine Änderung in den normalen zu Grunde liegenden Basismustern gegeben hat.
    4. 4. Eine Änderung und/oder Unregelmäßigkeit in dem Netzwerkverhalten wird ausgelöst, wenn die Differenz über einem vordefinierten Schwellwert liegt.
  • Die Ausführungsform von 2 führt Randbedingungen in das Optimierungsproblem ein, um die gemeinsame Berücksichtigung der räumlichen und zeitlichen Korrelationen in den Daten zu erfassen, und ist fähig zu erfassen, wann und wo Änderungen auftreten. Zur Ermöglichung der Skalierbarkeit des in 2 dargestellten Ansatzes, wird die Zielfunktion gemäß Formel (1) mittels einer verteilten stochastischen Gradientenabstiegstechnik gelöst, die gute Konvergenzgarantien aufweist und leicht parallelisiert werden kann, so dass mehr Merkmale und Datensätze berücksichtigt werden können.
  • Sobald die stabilen Basismuster in Form der Basismatrix V berechnet werden, können sie verwendet werden, um Änderungen in den in Daten beobachteten Mustern zu identifizieren. Insbesondere die Gewichtung jedes identifizierten Musters in den Daten kann über Zeit und Raum verfolgt werden, und (i) klassifizieren die Aktivität jedes Musters zu einer vorgegebenen Zeitspanne oder an einem speziellen Ort, und (ii) identifizieren wann und wo signifikante Änderungen in jedem Muster auftreten.
  • 3 zeigt eine beispielhafte Systemarchitektur gemäß einer Ausführungsform der vorliegenden Erfindung. Während der Offline-Phase sendet jeder Sensor i, Bezugszeichen 7, die Merkmale Xi,{1,..,t}, die über das Zeitintervall {1,.., t} erfasst werden, zu einer Offline-Komponente. Die Offline-Komponente kann auf einem oder mehreren zentralen Servern, Bezugszeichen 8, implementiert werden. Falls die Offline-Komponente mehrere zentrale Server umfasst, führen die Server folglich in paralleler Weise die räumlich-zeitliche nicht-negative Matrixfaktorisierung durch, um die allgemeine Basismatrix V zu schätzen. Die Offline-Komponente bzw. die zentralen Server senden die allgemeine Basismatrix V zurück an die Sensoren.
  • Eine weitere Ausführungsform kann eine Verfahren zur Identifizierung der komplexen Korrelationsstrukturen über Zeit und Raum zwischen Merkmalen bereitstellen, die durch Netzwerkmesssensoren im Allgemeinen überwacht werden, wie beispielsweise Latenz, Jitter und Paketverlust, umfassend die folgenden Schritte:
    • Offline-Phase:
      • A1. Definieren einer Trainingsmatrix Xtr ∈ RNL×M, in der Daten in einem vorgegebenen Zeitfenster aggregiert werden.
      • A2. Definieren der Matrizen S ∈ RNL× NL und T ∈ RM×M, die jeweils die räumlichen und zeitlichen Randbedingungen enthalten. Die Matrix S definiert die Korrelationen zwischen den Zeilen der Trainingsmatrix Xtr und könnte die Adjazenzmatrix der Topologie des Netzwerks sein. Die zeitlichen Korrelationen werden über die Matrix T definiert. Matrix T könnte die Toepliz-Matrix sein.
      • A3. Definieren der Basismatrix V durch Faktorisierung der Matrix Xtr durch Lösen der Formel (1).
    • Online-Phase:
      1. B1. Erstellen der Matrix Xr aus den online erfassten Daten.
      2. B2. Projektion der Online-Daten Xr auf die Basismatrix V, um die Laufzeit-Koeffizientenmatrix Ur zu schätzen.
      3. B3. Definieren eines Änderungsschwellwerts th, über dem die Differenz zwischen den aktuellen Koeffizienten von Ur und den vorherigen Zeitintervallen eine Änderung/Unregelmäßigkeit anzeigt.
      4. B4. Schätzen der Differenz zwischen der aktuellen Laufzeit-Koeffizientenmatrix und der vorherigen.
  • Mindestens eine der Ausführungsformen kann die inhärente räumlich-zeitliche Korrelationsstruktur der abgetasteten Daten einführen, um präziser und effizienter die verborgene Struktur in den Daten zu identifizieren. Der vorgeschlagene Ansatz kann eine Gemeinsamkeit und Tendenzen in Daten identifizieren und ist zusätzlich im Stande, zahlreiche Merkmale quer aufeinander zu beziehen, redundante Informationen zu identifizieren und zu entfernen.
  • Mindestens eine der Ausführungsformen ist mit echten Traffic-Daten validiert worden, die von einem Netzbetreiber über einen Zeitraum von drei Monaten mit einer Abtastgranularität von 60 Sekunden gesammelt worden sind. Insoweit ist auf zwei verschiedene Merkmale fokussiert worden: Latenz und Jitter.
  • Gemäß dem können Ausführungsformen der Erfindung stabilere globale Basismuster hervorbringen, weil sie im Stande sind, den Rekonstruktionsfehler der aktuellen Verkehrsmuster und der globalen in der Größenordnung von 8 % zu minimieren, während eine herkömmliche nicht-negative Matrixfaktorisierung einen Fehler in der Größenordnung von 35 % zurückgibt, wie aus der folgenden Tabelle entnommen werden kann:
    Anzahl von Trainingssätzen, die für das Lernen in der Offline-Phase verwendet worden sind (1 Satz wird über 30 Tage gesammelt) Normalisierter Rekonstruktionsfehler
    Herkömmliche NMF Zeitliche NMF
    1 0.431 0.09
    2 0.35 0.08
  • Die obige Tabelle zeigt einen normalisierten Rekonstruktionsfehler zwischen der globalen und der aktuellen Basis für den herkömmlichen NMF-Ansatz und die räumlich-zeitlichen NMF gemäß einer Ausführungsform der vorliegenden Erfindung. Die stabilen Basismuster wurden für die Merkmale Latenz und Jitter berechnet, die über einen Zeitraum von drei Monaten abgetastet worden sind. Die Tabelle zeigt, dass so wie die Anzahl von Trainingssätzen ansteigt, die Rekonstruktionsfehler abnehmen. Ausführungsformen der vorliegenden Erfindung können verglichen mit herkömmlicher NMF stabilere globale Basismuster hervorbringen.
  • Somit können Ausführungsformen der Erfindung robuste Profile definieren, die die Detektion von Änderungen in den erfassten Netzwerkdaten basierend auf der Intensität der Koeffizientenmatrix über die Zeit erlauben und so auf weniger falsche Positivwarnungen hinauslaufen. Das vorgeschlagene Verfahren kann parallelisiert und somit in umfangreichen Daten angewandt werden.
  • Viele Modifikationen und andere Ausführungsformen der hier beschriebenen Erfindung, welche den Vorteil der in der vorstehenden Beschreibung und den zugehörigen Zeichnungen dargestellten Lehren aufweisen, werden dem einschlägigen Fachmann in den Sinn kommen. Daher versteht es sich, dass die Erfindung nicht auf die offenbarten spezifischen Ausführungsformen beschränkt ist und dass Modifikationen und andere Ausführungsformen vom Umfang der beigefügten Ansprüche umfasst sein sollen. Obwohl hier spezifische Begriffe verwendet werden, werden sie in einem allgemeinen und beschreibenden Sinn verwendet und nicht zum Zwecke der Einschränkung.

Claims (15)

  1. Verfahren zur Unterstützung der Detektion von Unregelmäßigkeiten in einem Netzwerk, wobei das Verfahren umfasst: Überwachen von Merkmalen des Netzwerks mittels mindestens einer Überwachungseinrichtung, um räumlich-zeitliche Messdaten zu sammeln, in einer Offline-Phase Bereitstellen einer Trainingsmatrix (Xtr), in der gesammelte Messdaten in einem vorgegebenen Zeitfenster derart aggregiert werden, dass die Trainingsmatrix (Xtr) räumlich-zeitliche Korrelationen umfasst, Durchführen von nicht-negativer Matrixfaktorisierung in der Offline-Phase, um die Trainingsmatrix (Xtr) in eine Koeffizientenmatrix (U) und eine Basismatrix (V) zu zerlegen, wobei zeitliche Korrelationen und räumliche Korrelationen gemeinsam berücksichtigt werden, Erstellen einer aktuellen Laufzeitmatrix in einer Online-Phase auf Basis von neu in der Online-Phase gesammelten Messdaten, Berechnen einer aktuellen Laufzeit-Koeffizientenmatrix (Ur) in der Online-Phase auf Basis von der aktuellen Laufzeitmatrix und der Basismatrix (V), und Vergleichen der aktuellen Laufzeit-Koeffizientenmatrix (Ur) in der Online-Phase mit mindestens einer Koeffizientenmatrix (U), die zuvor berechnet worden ist.
  2. Verfahren nach Anspruch 1, wobei die nicht-negative Matrixfaktorisierung zur Berechnung der Koeffizientenmatrix (U) und der Basismatrix (V) auf Basis einer Zielfunktion durchgeführt wird.
  3. Verfahren nach Anspruch 2, wobei die Zielfunktion räumliche und zeitliche Randbedingungen der nicht-negativen Matrixfaktorisierung auferlegt, so dass zeitliche Korrelationen und räumliche Korrelationen in den gesammelten Messdaten berücksichtigt werden.
  4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die Trainingsmatrix (Xtr) als eine Matrix Xtr ∈ RNL×M definiert wird, wobei NL die Anzahl repräsentiert, die durch N Überwachungseinrichtungen und L Merkmalen gebildet wird, und wobei M die Anzahl von Zeitabtastwerten repräsentiert.
  5. Verfahren nach einem der Ansprüche 2 bis 4, wobei die Zielfunktion definiert wird gemäß m i n { X t r U V T F 2 + α ( U F 2 + V F 2 ) + β ( S ( U V T ) F 2 + ( U V T ) T F 2 ) } ,
    Figure DE112015006466B4_0004
    wobei U ∈ RNL×k die Koeffizientenmatrix (U) ist, wobei V ∈ RM×k die Basismatrix (V) ist, wobei k eine Anzahl verschiedener Basismuster (1) ist, wobei α ein normierter Regularisierungskoeffizient ist, wobei β ein räumlich-zeitlicher Regularisierungskoeffizient ist, wobei S ∈ RNL×NL eine räumliche Matrix ist, die räumliche Randbedingungen repräsentiert, und wobei T ∈ RM×M eine zeitliche Matrix ist, die zeitliche Randbedingungen repräsentiert.
  6. Verfahren nach Anspruch 5, wobei die räumliche Matrix eine Adjazenzmatrix von der Topologie des Netzwerks ist.
  7. Verfahren nach Anspruch 5 oder 6, wobei die zeitliche Matrix eine Toeplitz-Matrix ist.
  8. Verfahren nach einem der Ansprüche 2 bis 7, wobei ein stochastisches Gradientenabstiegsverfahren, SGD (Stochastic Gradient Descent)-Verfahren, verwendet wird, um eine Lösung der Zielfunktion zu berechnen.
  9. Verfahren nach einem der Ansprüche 1 bis 8, wobei die aktuelle Laufzeit-Koeffizientenmatrix (Ur) berechnet wird durch Projektion der aktuellen Laufzeitmatrix auf die Basismatrix (V).
  10. Verfahren nach einem der Ansprüche 1 bis 9, wobei die aktuelle Laufzeit-Koeffizientenmatrix (Ur) mit einer zuvor berechneten Koeffizientenmatrix (U) verglichen wird, indem die Differenz zwischen den Matrizen berechnet wird.
  11. Verfahren nach Anspruch 10, wobei eine anormale Änderung und/oder Unregelmäßigkeit detektiert und/oder ausgelöst wird, wenn die berechnete Differenz über einem vordefinierten Schwellwert liegt.
  12. Verfahren nach einem der Ansprüche 1 bis 11, wobei die Merkmale zur Konstruktion der Trainingsmatrix (Xtr) und der aktuellen Laufzeitmatrix Latenzzeiten, Jitter und/oder Paketverlust zwischen Verbindungspaaren in dem Netzwerk umfassen.
  13. Verfahren nach einem der Ansprüche 1 bis 12, wobei die Messzeitgranularität der Merkmale, die in der Online-Phase zur Erstellung der aktuellen Laufzeitmatrix gemessen werden, mit der in der Offline-Phase gewählten Messzeitgranularität kompatibel ist.
  14. Verfahren nach einem der Ansprüche 1 bis 13, wobei die Stabilität von Basismustern (1) durch eine oder mehrere statistische Eigenschaften der gesampelten Messdaten gewonnen wird.
  15. System zur Unterstützung der Detektion von Unregelmäßigkeiten in einem Netzwerk, wobei das System eine oder mehrere Überwachungseinrichtungen, eine Offline-Komponente und eine Online-Komponente umfasst, wobei die Überwachungseinrichtungen derart konfiguriert sind, dass Merkmale des Netzwerks überwacht werden, um räumlich-zeitliche Messdaten zu sammeln, wobei die Offline-Komponente derart konfiguriert ist, dass eine Trainingsmatrix (Xtr) bereitgestellt wird, in der Messdaten in einem vorgegebenen Zeitfenster derart aggregiert werden, dass die Trainingsmatrix (Xtr) räumlich-zeitliche Korrelationen umfasst, wobei die Offline-Komponente weiter so konfiguriert ist, dass eine nicht-negative Matrixfaktorisierung durchgeführt wird, um die Trainingsmatrix (Xtr) in eine Koeffizientenmatrix (U) und eine Basismatrix (V) zu zerlegen, wobei zeitliche Korrelationen und räumliche Korrelationen gemeinsam berücksichtigt werden, wobei die Online-Komponente so konfiguriert ist, dass eine aktuelle Laufzeitmatrix auf Basis von neu in der Online-Phase gesammelten Messdaten erstellt wird, wobei die Online-Komponente weiter so konfiguriert ist, dass eine aktuelle Laufzeit-Koeffizientenmatrix (Ur) auf Basis von der aktuellen Laufzeitmatrix und Basismatrix (V) berechnet wird, und wobei die Online-Komponente weiter so konfiguriert ist, dass die aktuelle Laufzeit-Koeffizientenmatrix (Ur) mit mindestens einer Koeffizientenmatrix (U) verglichen wird, die zuvor berechnet worden ist.
DE112015006466.4T 2015-10-23 2015-10-23 Verfahren und System zur Unterstützung der Detektion von Unregelmässigkeiten in einem Netzwerk Active DE112015006466B4 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2015/074673 WO2017067615A1 (en) 2015-10-23 2015-10-23 Method and system for supporting detection of irregularities in a network

Publications (2)

Publication Number Publication Date
DE112015006466T5 DE112015006466T5 (de) 2018-01-04
DE112015006466B4 true DE112015006466B4 (de) 2024-05-02

Family

ID=54542211

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112015006466.4T Active DE112015006466B4 (de) 2015-10-23 2015-10-23 Verfahren und System zur Unterstützung der Detektion von Unregelmässigkeiten in einem Netzwerk

Country Status (4)

Country Link
US (1) US20180048530A1 (de)
CN (1) CN107409064B (de)
DE (1) DE112015006466B4 (de)
WO (1) WO2017067615A1 (de)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11140167B1 (en) 2016-03-01 2021-10-05 Exabeam, Inc. System, method, and computer program for automatically classifying user accounts in a computer network using keys from an identity management system
US10887325B1 (en) 2017-02-13 2021-01-05 Exabeam, Inc. Behavior analytics system for determining the cybersecurity risk associated with first-time, user-to-entity access alerts
US10645109B1 (en) 2017-03-31 2020-05-05 Exabeam, Inc. System, method, and computer program for detection of anomalous user network activity based on multiple data sources
US10841338B1 (en) 2017-04-05 2020-11-17 Exabeam, Inc. Dynamic rule risk score determination in a cybersecurity monitoring system
US20180300621A1 (en) * 2017-04-13 2018-10-18 International Business Machines Corporation Learning dependencies of performance metrics using recurrent neural networks
US11423143B1 (en) 2017-12-21 2022-08-23 Exabeam, Inc. Anomaly detection based on processes executed within a network
US11431741B1 (en) 2018-05-16 2022-08-30 Exabeam, Inc. Detecting unmanaged and unauthorized assets in an information technology network with a recurrent neural network that identifies anomalously-named assets
CN110858311B (zh) * 2018-08-23 2022-08-09 山东建筑大学 基于深度非负矩阵分解的链路预测方法及***
CN109547358B (zh) * 2018-12-11 2022-04-01 浙江工商大学 一种时间敏感网络切片的构造方法
US11178168B1 (en) 2018-12-20 2021-11-16 Exabeam, Inc. Self-learning cybersecurity threat detection system, method, and computer program for multi-domain data
US20200265119A1 (en) * 2019-02-14 2020-08-20 Accenture Global Solutions Limited Site-specific anomaly detection
US11625366B1 (en) 2019-06-04 2023-04-11 Exabeam, Inc. System, method, and computer program for automatic parser creation
US11960374B1 (en) * 2019-12-25 2024-04-16 Dell Products L.P. System for managing an instructure security
US11960601B2 (en) * 2019-12-25 2024-04-16 Dell Products L.P. System for managing an instructure with security
US11784888B2 (en) * 2019-12-25 2023-10-10 Moogsoft Inc. Frequency-based sorting algorithm for feature sparse NLP datasets
US11956253B1 (en) 2020-06-15 2024-04-09 Exabeam, Inc. Ranking cybersecurity alerts from multiple sources using machine learning
US11336530B2 (en) 2020-09-14 2022-05-17 Cisco Technology, Inc. Spatio-temporal event weight estimation for network-level and topology-level representations
CN112202771B (zh) * 2020-09-29 2022-10-14 中移(杭州)信息技术有限公司 网络流量检测方法、***、电子设备和存储介质
US20220210171A1 (en) * 2020-12-29 2022-06-30 IronNet Cybersecurity, Inc. Systems and methods for detecting malicious network traffic using multi-domain machine learning
US11991531B2 (en) * 2021-04-14 2024-05-21 Samsung Electronics Co., Ltd. Communication load forecasting accuracy with adaptive feature boosting
CN113449210B (zh) * 2021-07-01 2023-01-31 深圳市数字尾巴科技有限公司 基于时空特征的个性化推荐方法、装置、电子设备及存储介质
CN113992718B (zh) * 2021-10-28 2022-10-04 安徽农业大学 一种基于动态宽度图神经网络的群体传感器异常数据检测方法和***
US20230164156A1 (en) * 2021-11-19 2023-05-25 IronNet Cybersecurity, Inc. Detection of abnormal events
CN115935264B (zh) * 2023-03-09 2023-05-12 湖南大学 一种基于时空信息同步学习的电网暂态电压稳定评估方法
CN116448019B (zh) * 2023-06-14 2023-08-25 山西首科工程质量检测有限公司 建筑节能工程质量平面度智能检测装置及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0318627A1 (de) 1987-12-03 1989-06-07 René Linder Vorrichtung zum Antreiben der Ausgleichsmassen von dynamischen Auswuchtgeräten verwendet bei Schleifmaschinen und anderen Maschinen

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5810014A (en) * 1997-03-25 1998-09-22 Davis; Dennis W. Method and system for detection of physiological conditions
AU2006263653A1 (en) * 2005-06-29 2007-01-04 Trustees Of Boston University Whole-network anomaly diagnosis
EP1964036A4 (de) * 2005-12-23 2010-01-13 Univ Sherbrooke Räumlich-zeitliche mustererkennung unter verwendung eines neuronalen spiking-netzwerks und verarbeitung dafür auf einem tragbaren und/oder verteilten computer
US7890449B2 (en) * 2007-09-12 2011-02-15 International Business Machines Corporation Method for performance bottleneck diagnosis and dependency discovery in distributed systems and computer networks
US8458109B2 (en) * 2009-05-27 2013-06-04 Yin Zhang Method and apparatus for spatio-temporal compressive sensing
CN101866403B (zh) * 2010-06-11 2012-07-04 西安电子科技大学 基于改进obs-nmf算法的入侵检测方法
US8396963B2 (en) * 2010-09-29 2013-03-12 Schneider Electric USA, Inc. Networked devices for monitoring utility usage and methods of using the same
CN102111312B (zh) * 2011-03-28 2013-05-01 钱叶魁 基于多尺度主成分分析的网络异常检测方法
US8903748B2 (en) * 2011-06-27 2014-12-02 International Business Machines Corporation Systems and methods for large-scale randomized optimization for problems with decomposable loss functions
CN102982386A (zh) * 2012-09-07 2013-03-20 浙江大学 一种基于空时压缩感知的蜂窝网络流量预测方法
US8983888B2 (en) * 2012-11-07 2015-03-17 Microsoft Technology Licensing, Llc Efficient modeling system for user recommendation using matrix factorization
CN103023927B (zh) * 2013-01-10 2016-03-16 西南大学 一种稀疏表达下的基于非负矩阵分解的入侵检测方法及***
US9734161B2 (en) * 2013-03-15 2017-08-15 The Florida International University Board Of Trustees Streaming representation of moving objects and shapes in a geographic information service
US20150032887A1 (en) * 2013-07-29 2015-01-29 Zerodesktop, Inc. Cloud-Based Access Management and Activity Monitoring of Mobile Devices
CN104850533A (zh) * 2015-04-22 2015-08-19 南京大学 一种带约束的非负矩阵分解方法及求解方法
US10402653B2 (en) * 2016-03-30 2019-09-03 Nec Corporation Large margin high-order deep learning with auxiliary tasks for video-based anomaly detection
US10776718B2 (en) * 2016-08-30 2020-09-15 Triad National Security, Llc Source identification by non-negative matrix factorization combined with semi-supervised clustering

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0318627A1 (de) 1987-12-03 1989-06-07 René Linder Vorrichtung zum Antreiben der Ausgleichsmassen von dynamischen Auswuchtgeräten verwendet bei Schleifmaschinen und anderen Maschinen

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
A. Nagata, K. Kotera, K. Nakamura, Y. Hori: „Behavioral Anomaly Detection System on Network Application Traffic from Many Sensors", Computer Software and Applications Conference (COMPSAC), 2014 IEEE 38th Annual, pp. 600, 601, 21-25 July 2014
eon Bottou: „Large-Scale Machine Learning with Stochastic Gradient Deseent" in COMPSTAT2010 - Proceedings of the 19th International Conference on Computational Statistics, pages 177-187, 2010
H. Huang, H. Al-Azzawi, and H. Brani: „Network traffic anomaly detection", ArXiv:1402.0856v1, 2014
H. Kriegel, M. Schubert, and A. Zimek: „Angle-based outlier detection", In Proc. ACM SIGKDD Int. Conf on Knowledge Discovery and Data Mining (SiGKDD) Las Ilegas NV, 2008
HUANG, Hong [u.a.]: etwork Traffic Anomaly Detection. In: ArXiv. 1402.0856v1, 4.2.2014, 1-26.
Leon Bottou: „Large-Scale Machine Learning with Stochastic Gradient Descent" in COMPSTA T 20 10 - Proceedings of the 19th International Conference on Computational Statistics, pages 177-187, 2010
NAGATA, Akira [u.a.]: Behavioral Anomaly Detection System on Network Application Traffic from Many Sensors. In: 38th Annual International Computers, Software and Applications Conference, 2014, 1-2.
Peng C, Jin X, Wong K-C, Shi M, Liò P: „Collective Human Mobility Pattern from Taxi Trips in Urban Area" PLoS ONE 7(4): e34487. doi:10. 1371/journal.pone.0034487, 2012
Y. Zhou, G. Hu, D. Wu: „A data mining system for distributed abnormal event detection in backbone networks", Security and Communication Networks, Volume 7, Issue 5, pages 904-913, May 2014 und in H. Madhyastha, E. Katz-Bassett, T. Anderson, A. Krishnamurthy, and A. Venkataramani: „iPlane Nano: Path Prediction for Peer-to-Peer Applications", ΛlSDl, page 137-152, USENIX Association, 2009

Also Published As

Publication number Publication date
DE112015006466T5 (de) 2018-01-04
CN107409064B (zh) 2020-06-05
WO2017067615A1 (en) 2017-04-27
US20180048530A1 (en) 2018-02-15
CN107409064A (zh) 2017-11-28

Similar Documents

Publication Publication Date Title
DE112015006466B4 (de) Verfahren und System zur Unterstützung der Detektion von Unregelmässigkeiten in einem Netzwerk
DE602005000383T2 (de) Fehlererkennung und -diagnose
DE112014003964B4 (de) Adaptives Überwachen für Mobilfunknetze
DE112013003277B4 (de) Erkennen von Anomalien in Echtzeit in mehreren Zeitreihendaten mit automatisierter Schwellenwertbildung
DE102022201746A1 (de) Verwaltung von rechenzentren mit maschinellem lernen
DE69925557T2 (de) Überwachung des Durchsatzes eines Computersystems und eines Netzwerkes
DE102019112734A1 (de) Verbesserte analoge Funktionssicherheit mit Anomaliedetektion
DE112019002178T5 (de) Verfahren und System zum Rückverfolgen der Qualität vorgefertigter Komponenten während der gesamten Lebensdauer basierend auf einer Blockkette
DE112016001742T5 (de) Integrierte Gemeinschafts- und Rollenentdeckung in Unternehmensnetzwerken
DE112018004325T5 (de) Systeme und verfahren für die risikoanalyse
DE112012000797T5 (de) Mehrfach-Modellierungsparadigma für eine Vorhersageanalytik
DE112016005290T5 (de) Anomliefusion auf temporalen kausalitätsgraphen
DE10135138A1 (de) Integrierte mehrfache biomedizinische Informationsquellen
DE112017000687T5 (de) Geräteverwaltungsvorrichtung, Geräteverwaltungssystem, computerlesbares Medium und Geräteverwaltunsverfahren
CN103856774A (zh) 一种视频监控智能检测***及方法
DE112021000370T5 (de) Auf maschinellem lernen beruhende datenüberwachung
DE102014116367A1 (de) Verwaltung von leistungsstufen von informationstechnologiesystemen
DE102021109767A1 (de) Systeme und methoden zur vorausschauenden sicherheit
DE10306598B4 (de) Verfahren und Vorrichtung zum Bestimmen einer Verfügbarkeit von zusammenarbeitende Hardware- und Softwarekomponenten umfassenden elektronischen Systemen und entsprechendes Computerprogramm
DE112021003747T5 (de) Erkennen von anomalien in einer netzwerktopologie
DE112012003670T5 (de) Fehlererkennung auf der Grundlage von Diagnoseprotokollen
DE112017006993T5 (de) System und Verfahren zum Erfassen einer Netztopologie
DE102014223810A1 (de) Verfahren und Assistenzsystem zur Erkennung einer Störung in einer Anlage
EP3528162B1 (de) Verfahren zur erkennung von anormalen betriebszuständen
DE602005002418T2 (de) Verwaltungsverfahren und -system für Netzverwaltungssysteme

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: PATENT- UND RECHTSANWAELTE ULLRICH & NAUMANN P, DE

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: H04L0012240000

Ipc: H04L0041000000

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R081 Change of applicant/patentee

Owner name: NEC CORP., JP

Free format text: FORMER OWNER: NEC LABORATORIES EUROPE GMBH, 69115 HEIDELBERG, DE