DE112020003538T5

DE112020003538T5 - Kreuzmodale wiedergewinnung mit wortüberlappungsbasiertem clustern

Info

Publication number: DE112020003538T5
Application number: DE112020003538.7T
Authority: DE
Inventors: Yuncong Chen; Hao Yuan; Dongjin Song; Cristian Lumezanu; Haifeng Chen; Takehiko Mizoguchi
Original assignee: NEC Laboratories America Inc
Current assignee: NEC Laboratories America Inc
Priority date: 2019-07-24
Filing date: 2020-07-02
Publication date: 2022-05-05
Also published as: WO2021015936A1; JP7345046B2; US11520993B2; JP2022544019A; US20210027019A1

Abstract

Es wird ein System (200) für einen kreuzmodalen Datenabruf bzw. eine kreuzmodale Datenwiedergewinnung bereitgestellt, das ein neuronales Netz mit einem Zeitreihenencoder (211) und einem Textencoder (212) enthält, die unter Verwendung einer unüberwachten Trainingsmethode gemeinsam trainiert werden, die auf einer Verlustfunktion basiert. Die Verlustfunktion wertet gemeinsam eine Ähnlichkeit von Merkmalsvektoren von Trainingssätzen von zwei unterschiedlichen Modalitäten von Zeitreihen und Freiformtextkommentaren und eine Kompatibilität der Zeitreihe und der Freiformtextkommentare mit einer wortüberlappungsbasierten spektralen Cluster-Methode aus, die konfiguriert ist, um Pseudobeschriftungen für die unüberwachte Trainingsmethode zu berechnen. Das Computerverarbeitungssystem enthält weiterhin eine Datenbank (205) zum Speichern der Trainingssätze mit Merkmalsvektoren, die aus Codierungen der Trainingssätze extrahiert sind. Die Codierungen werden durch Codieren eines Trainingssatzes der Zeitreihe unter Verwendung des Zeitreihencodierers und Codieren eines Trainingssatzes der Freiformtextkommentare unter Verwendung des Textcodierers erhalten.

Description

INFORMATION BEZÜGLICH ZUGEHÖRIGER ANMELDUNG
Diese Anmeldung beansprucht die Priorität der am 1. Juli 2020 eingereichten nicht vorläufigen US-Patentanmeldung mit der seriellen Nummer 16/918,848 , die die Priorität der vorläufigen US-Patentanmeldung mit der seriellen Nummer 62/878,781 , eingereicht am 26. Juli 2019, und der vorläufigen US-Patentanmeldung mit der seriellen Nummer 62/877,952 , eingereicht am 24. Juli 2019, beansprucht, welche alle hierin durch Bezugnahme in ihrer Gesamtheit enthalten sind.
HINTERGRUND
Technisches Gebiet
Die vorliegende Erfindung betrifft Informationsverarbeitung und insbesondere eine unüberwachte kreuzmodale Wiedergewinnung in Datensätzen von Zeitreihendaten und Textdaten unter Verwendung eines wortüberlappungsbasierten Clusterns.
Beschreibung des zugehörigen Standes der Technik
Zeitreihendaten (TS) sind im Zeitalter von Big-Data bzw. Massendaten weit verbreitet. Ein Beispiel ist ein industrielles Überwachen, wobei Messungen aus einer großen Anzahl von Sensoren komplexe Zeitreihen bilden. Moderne Datenanalysesoftware verwendet maschinelles Lernen, um Muster aus Zeitreihen zu erkennen. Jedoch ist aktuelle Analysesoftware nicht sehr freundlich zu menschlichen Benutzern. Zum Beispiel sind die folgenden Probleme sehr häufig.
Erstens werden, während maschinelle Lernsysteme spezifische Klassifizierungsaufgaben durchführen können, die Ergebnisse normalerweise ohne Erklärungen zurückgegeben. Benutzer möchten, dass Ergebnisse einer Maschinenanalyse ausgearbeiteter und natürlicher präsentiert werden.
Zweitens wird mit dem ständig wachsenden Volumen an Zeitreihendaten eine automatisierte Suche über historische Daten hinweg notwendig. Traditionell werden beispielhafte Segmente als Suchanfragen verwendet. Es besteht jedoch häufig eine Notwendigkeit, mehr beschreibende Abfragen zu verwenden. Datenbank-Abfragesprachen wie SQL können komplexere Kriterien ausdrücken, sind aber für durchschnittliche Benutzer nicht verständlich.
ZUSAMMENFASSUNG
Gemäß Aspekten der vorliegenden Erfindung wird ein Computerverarbeitungssystem zum kreuzmodalen Abrufen bzw. Wiedergewinnen von Daten bereitgestellt. Das Computerverarbeitungssystem enthält ein neuronales Netzwerk mit einem Zeitreihencodierer und einem Textcodierer, die unter Verwendung einer unüberwachten Trainingsmethode gemeinsam trainiert werden, die auf einer Verlustfunktion basiert. Die Verlustfunktion wertet eine Ähnlichkeit von Merkmalsvektoren von Trainingssätzen von zwei unterschiedlichen Modalitäten von Zeitreihen und Freiformtextkommentaren und eine Kompatibilität der Zeitreihen und der Freiformtextkommentare mit einer wortüberlappungsbasierten spektralen Cluster-Methode gemeinsam aus, die so konfiguriert ist, dass Pseudobeschriftungen für die unüberwachte Trainingsmethode berechnet werden. Das Computerverarbeitungssystem enthält weiterhin eine Datenbank zum Speichern der Trainingssätze mit Merkmalsvektoren, die aus Codierungen der Trainingssätze extrahiert sind. Die Codierungen werden durch Codieren eines Trainingssatzes der Zeitreihe unter Verwendung des Zeitreihencodierers und Codieren eines Trainingssatzes der Freiformtextkommentare unter Verwendung des Textcodierers erhalten. Das Computerverarbeitungssystem enthält auch einen Hardwareprozessor zum Abrufen der Merkmalsvektoren entsprechend wenigstens einer der zwei unterschiedlichen Modalitäten aus der Datenbank zum Einfügen in einen Merkmalsraum zusammen mit wenigstens einem Merkmalsvektor entsprechend einer Testeingabe in Bezug auf wenigstens eine Test-Zeitreihe und einem Test-Freiformtextkommentar, Bestimmen eines Satzes bzw. einer Gruppe von nächsten Nachbarn unter den Merkmalsvektoren im Merkmalsraum basierend auf Abstands- bzw. Entfernungskriterien und Ausgeben von Testergebnissen für die Testeingabe basierend auf der Gruppe von nächsten Nachbarn.
Gemäß anderen Aspekten der vorliegenden Erfindung wird ein computerimplementiertes Verfahren zum kreuzmodalen Abrufen bzw. Wiedergewinnen von Daten bereitgestellt. Das Verfahren enthält ein gemeinsames Trainieren eines neuronalen Netzwerks mit einem Zeitreihencodierer und einem Textcodierer unter Verwendung einer unüberwachten Trainingsmethode, die auf einer Verlustfunktion basiert. Die Verlustfunktion wertet gemeinsam eine Ähnlichkeit von Merkmalsvektoren von Trainingssätzen von zwei unterschiedlichen Modalitäten von Zeitreihen und Freiformtextkommentaren und eine Kompatibilität der Zeitreihen und der Freiformtextkommentare mit einer wortüberlappungsbasierten spektralen Cluster-Methode aus, die so konfiguriert ist, dass Pseudobeschriftungen für die unüberwachte Trainingsmethode berechnet werden. Das Verfahren enthält weiterhin ein Speichern der Trainingssätze in einer Datenbank mit Merkmalsvektoren, die aus Codierungen der Trainingssätze extrahiert sind. Die Codierungen werden erhalten durch Codieren eines Trainingssatzes der Zeitreihe unter Verwendung des Zeitreihencodierers und Codieren eines Trainingssatzes der Freiformtextkommentare unter Verwendung des Textcodierers. Das Verfahren enthält auch ein Abrufen der Merkmalsvektoren entsprechend wenigstens einer der zwei unterschiedlichen Modalitäten aus der Datenbank für ein Einfügen in einen Merkmalsraum zusammen mit wenigstens einem Merkmalsvektor entsprechend einer Testeingabe in Bezug auf wenigstens eine Test-Zeitreihe und einem Test-Freiformtextkommentar. Das Verfahren enthält zusätzliche ein Bestimmen eines Satzes bzw. einer Gruppe von nächsten Nachbarn aus den Merkmalsvektoren im Merkmalsraum basierend auf Abstands- bzw. Entfernungskriterien und ein Ausgeben von Testergebnissen für die Testeingabe basierend auf der Gruppe von nächsten Nachbarn.
Gemäß noch weiteren Aspekten der vorliegenden Erfindung wird ein Computerprogrammprodukt zum kreuzmodalen Abrufen bzw. Wiedergewinnen von Daten bereitgestellt. Das Computerprogrammprodukt enthält ein nicht transitorisches computerlesbares Speichermedium mit darin enthaltenen bzw. damit verkörperten Programmanweisungen. Die Programmanweisungen sind durch einen Computer ausführbar, um zu veranlassen, dass der Computer ein Verfahren durchführt. Das Verfahren enthält ein gemeinsames Trainieren eines neuronalen Netzwerks mit einem Zeitreihencodierer und einem Textcodierer unter Verwendung einer unüberwachten Trainingsmethode, die auf einer Verlustfunktion basiert. Die Verlustfunktion wertet gemeinsam eine Ähnlichkeit von Merkmalsvektoren von Trainingssätzen von zwei unterschiedlichen Modalitäten von Zeitreihen und Freiformtextkommentaren und eine Kompatibilität der Zeitreihen und der Freiformtextkommentare mit einer wortüberlappungsbasierten spektralen Cluster-Methode aus, die so konfiguriert ist, dass Pseudobeschriftungen für die unüberwachte Trainingsmethode berechnet werden. Das Verfahren enthält auch ein Speichern der Trainingssätze in einer Datenbank mit Merkmalsvektoren, die aus Codierungen der Trainingssätze extrahiert sind. Die Codierungen werden erhalten durch Codieren eines Trainingssatzes der Zeitreihe unter Verwendung des Zeitreihencodierers und Codieren eines Trainingssatzes der Freiformtextkommentare unter Verwendung des Textcodierers. Das Verfahren enthält zusätzlich ein Abrufen der Merkmalsvektoren entsprechend wenigstens einer der zwei unterschiedlichen Modalitäten aus der Datenbank für ein Einfügen in einen Merkmalsraum zusammen mit wenigstens einem Merkmalsvektor entsprechend einer Testeingabe in Bezug auf wenigstens eine Test-Zeitreihe und einem Test-Freiformtextkommentar. Das Verfahren enthält weiterhin ein Bestimmen eines Satzes bzw. einer Gruppe von nächsten Nachbarn aus den Merkmalsvektoren im Merkmalsraum basierend auf Abstands- bzw. Entfernungskriterien und ein Ausgeben von Testergebnissen für die Testeingabe basierend auf der Gruppe von nächsten Nachbarn.
Diese und weitere Merkmale und Vorteile werden aus der folgenden detaillierten Beschreibung von illustrativen Ausführungsformen davon offensichtlich werden, die in Zusammenhang mit den beigefügten bzw. assoziierten Zeichnungen zu lesen ist.
Figurenliste
Die Offenbarung wird Details in der folgenden Beschreibung bevorzugter Ausführungsformen unter Bezugnahme auf die folgenden Figuren bereitstellen, wobei:

1 ein Blockdiagramm, das eine beispielhafte Computing - bzw. Rechenvorrichtung zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
2 ein Blockdiagramm, das ein beispielhaftes Kraftwerksszenario zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
3 ein Blockdiagramm auf hoher Ebene, das ein beispielhaftes System/Verfahren zum Erklären von Zeitreihen in natürlicher Sprache zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
4 ein Blockdiagramm auf hoher Ebene, das ein beispielhaftes System/Verfahren zum Suchen nach historischen Zeitreihen mit Textbeschreibungen zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
5 ein Blockdiagramm auf hoher Ebene, das ein beispielhaftes System/Verfahren zum Suche nach historischen Zeitreihen mit beispielhaften Reihen und Textbeschreibung zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
6 ein Blockdiagramm auf hoher Ebene, das ein beispielhaftes System/Verfahren zum kreuzmodalen Wiedergewinnen zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
7 ein Blockdiagramm auf hoher Ebene, das eine beispielhafte Trainingsarchitektur 700 zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
8 ein Flussdiagramm, das ein beispielhaftes Trainingsverfahren zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
9 ein Blockdiagramm, das eine beispielhafte Architektur des Textcodierers 715 der 7 zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
10 ein Blockdiagramm, das eine beispielhafte Architektur des Zeitreihencodierers 710 der 7 zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
11 ein Flussdiagramm, das ein beispielhaftes Verfahren zum kreuzmodalen Wiedergewinnen zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
12 ein Blockdiagramm auf hoher Ebene, das ein beispielhaftes System/Verfahren zum Bereitstellen einer Erklärung einer Eingabezeitreihe zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist;
13 ein Blockdiagramm auf hoher Ebene, das ein beispielhaftes System/Verfahren zum Abrufen bzw. Wiedergewinnen von Zeitreihen basierend auf Eingaben in natürlicher Sprache zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist; und
14 ein Blockdiagramm auf hoher Ebene, das ein beispielhaftes System/Verfahren zur gemeinsamen Modalitätssuche zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung ist.

DETAILLIERTE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
Gemäß Ausführungsformen der vorliegenden Erfindung werden Systeme und Verfahren zum unüberwachten kreuzmodalen Abrufen bzw. Wiedergewinnen in Datensätzen von Zeitreihendaten und Textdaten unter Verwendung von wortüberlappungsbasiertem Clustern bereitgestellt.
In vielen Szenarien einer realen Welt werden Zeitreihen mit von Gebiets- bzw. Bereichs- bzw. Domänenexperten geschriebenen Textkommentaren versehen bzw. markiert. Wenn zum Bespiel ein Kraftwerksbetreiber einen Sensorausfall bemerkt, kann er Notizen schreiben, die die Signalform, die Ursachen, die Lösungen und einen erwarteten zukünftigen Zustand beschreiben. Solche Daten enthalten gepaarte Beispiele von zwei Modalitäten (multivariate Zeitreihen und Text). Einrichtungen können im Laufe ihres Betriebs große Mengen solcher multimodalen Daten angesammelt haben. Sie können verwendet werden, um eine Korrelation zwischen Zeitreihendaten und menschlichen Erklärungen zu lernen. Sie sind auch eine gute Ressource, um Wissen über spezifische Anwendungsdomänen zu lernen. Unter der Vorgabe, dass diese Daten ein reiches Fachwissen enthalten, nutzt die vorliegende Erfindung dasselbe für eine Vielfalt unterschiedlicher Anwendungen.
Eine oder mehrere Ausführungsformen der vorliegenden Erfindung verwenden Wortüberlappung zwischen zwei Texten, um eine beispielhafte Ähnlichkeit in Bezug auf ein Ähnlichkeitsmaß zu messen. Basierend auf der Ähnlichkeitsmatrix wird eine Clusterbildung der Beispiele unter Verwendung eines spektralen Clusterns berechnet. Die Cluster-Zuordnung wird als Pseudo-Labels bzw. -Bezeichnungen bzw. -Beschriftungen verwendet. Eine oder mehrere Ausführungsformen der vorliegenden Erfindung verwenden neuronale Netze, um Zeitreihensegmente und Textnotizen in Vektordarstellungen zu codieren. Eine zusammengesetzte Verlustfunktion wird über den Vektordarstellungen basierend auf Beispielhaften Pseudobeschriftungen definiert. Ein Trainieren der neuronalen Netze wird durch Minimieren dieser Verlustfunktion realisiert.
Inzwischen identifizieren eine oder mehrere Ausführungsformen der vorliegenden Erfindung Phrasen, die häufig in Texten erscheinen, die denselben Clustern zugeordnet sind. Die Phrasen können verwendet werden, um allgemeine Konzepte im gegebenen Datensatz zu ermitteln bzw. finden. Zum Beispiel kann die vorliegende Erfindung aus Kraftwerksbetriebsprotokollen Schlüsselphrasen extrahieren, die allgemeine bzw. häufige Probleme, wie beispielsweise „niedrige Temperatur“, „Turbinenschwingung“ und so weiter, darstellen.
1 ist ein Blockdiagramm, das eine beispielhafte Rechenvorrichtung bzw. Computingvorrichtung 100 zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung. Die Computingvorrichtung 100 ist konfiguriert, um ein unüberwachtes kreuzmodales Abrufen in Datensätzen von Zeitreihendaten und Textdaten unter Verwendung eines wortüberlappungsbasierten Clusterns durchzuführen.
Die Computingvorrichtung 100 kann als irgendein Typ von Berechnungs- oder Computervorrichtung verkörpert sein, die die hierin beschriebenen Funktionen durchführen kann, einschließlich, ohne Beschränkung, eines Computers, eines Servers, eines auf einem Rack basierenden Servers, eines Blade-Servers, einer Workstation, eines Desktop-Computers, eines Laptop-Computers, eines Notebook-Computers, eines Tablet-Computers, einer mobilen Computingvorrichtung, einer tragbare Computingvorrichtung, eines Netzwerkgeräts, eines Webgeräts, eines verteilten Computingsystems, eines prozessorbasierten Systems und/oder einer Unterhaltungselektronikvorrichtung. Zusätzlich oder alternativ kann die Computingvorrichtung 100 als ein oder mehrere Rechenschlitten, Speicherschlitten oder andere Racks, Schlitten, Computing-Gehäuse oder andere Komponenten einer physikalisch disaggregierten Computingvorrichtung verkörpert sein. Wie es in 1 gezeigt ist, enthält die Computingvorrichtung 100 illustrativ den Prozessor 110, ein Eingabe-/Ausgabe-Untersystem 120, einen Speicher 130, eine Datenspeichervorrichtung 140 und ein Kommunikations-Untersystem 150 und/oder andere Komponenten und Vorrichtungen, die üblicherweise in einem Server oder einer ähnlichen Computingvorrichtung zu finden sind. Natürlich kann die Computingvorrichtung 100 bei anderen Ausführungsformen andere oder zusätzliche Komponenten enthalten, wie beispielsweise diejenigen, die üblicherweise in einem Servercomputer zu finden sind (z.B. verschiedene Eingabe-/Ausgabe-Vorrichtungen). Zusätzlich kann oder können bei einigen Ausführungsformen eine oder mehrere der illustrativen Komponenten in eine andere Komponente eingebaut sein oder anderweitig einen Teilbereich davon bilden. Zum Beispiel kann der Speicher 130, oder können Teilbereiche davon, bei einigen Ausführungsformen im Prozessor 110 eingebaut sein.
Der Prozessor 110 kann als irgendein Typ von Prozessor verkörpert sein, der die hierin beschriebenen Funktionen durchführen kann. Der Prozessor 110 kann als einzelner Prozessor, mehrere Prozessoren, zentrale Verarbeitungseinheit(en) (CPU(s)), Grafikverarbeitungseinheit(en) (GPU(s)), Einzel- oder Mehrkernprozessor(en), Digitalsignalprozessor(en), Mikrosteuerung(en) oder anderer Prozessor (andere Prozessoren) oder Verarbeitungs-/Steuerungs-Schaltung(en) verkörpert sein.
Der Speicher 130 kann als irgendein Typ von flüchtigem oder nichtflüchtigem Speicher oder Datenspeicher verkörpert sein, der die hierin beschriebenen Funktionen durchführen kann. Im Betrieb kann der Speicher 130 verschiedene Daten und Software speichern, die während des Betriebs bzw. einer Operation der Computingvorrichtung 100, wie beispielsweise von Betriebssystemen, Anwendungen, Programmen, Bibliotheken und Treibern, verwendet werden. Der Speicher 130 ist kommunikativ mit dem Prozessor 110 über das I/O-Untersystem 120 gekoppelt, das als Schaltung und/oder Komponenten verkörpert sein kann, um Eingabe-/Ausgabe-Operationen mit dem Prozessor 110, dem Speicher 130 und anderen Komponenten der Computingvorrichtung 100 zu ermöglichen. Zum Beispiel kann das I/O-Untersystem 120 als Speichersteuerungs-Hubs, Eingabe-/Ausgabe-Steuerungs-Hubs, Plattformsteuerungs-Hubs, integrierte Steuerschaltung, Firmware-Vorrichtungen, Kommunikationsverbindungen (z.B. Punkt-zu-Punkt-Verbindungen, Busverbindungen, Drähte, Kabel, Lichtleiter, Leiterbahnen der Leiterplatten etc.) und/oder andere Komponenten und Untersysteme verkörpert sind oder diese anderweitig enthalten, um die Eingabe-/Ausgabe-Operationen zu ermöglichen bzw. erleichtern. Bei einigen Ausführungsformen kann das I/O-Untersystem 120 einen Teilbereich eines Systems auf einem Chip (SOC (= system-on-a-chip)) bilden und zusammen mit dem Prozessor 110, dem Speicher 130 und anderen Komponenten der Computingvorrichtung 100 auf einem einzigen integrierten Schaltungschip eingebaut sein.
Die Datenspeichervorrichtung 140 kann als irgendein Typ von Vorrichtung oder Vorrichtungen verkörpert sein, die für die kurzfristige oder langfristige Speicherung von Daten konfiguriert ist oder sind, wie zum Beispiel Speichervorrichtungen und -schaltungen, Speicherkarten, Festplattenlaufwerke, Festkörperlaufwerke oder andere Datenspeichervorrichtungen. Die Datenspeichervorrichtung 140 kann einen Programmcode 140A zur Konzeptfindung und kreuzmodalen Wiedergewinnung in Datensätzen von Zeitreihendaten und Textdaten unter Verwendung eines wortüberlappungsbasierten Clusterns speichern. Das Kommunikationssubsystem 150 der Computingvorrichtung 100 kann als irgendeine Netzwerkschnittstellensteuerung oder irgendeine andere Kommunikationsschaltung, -vorrichtung oder -sammlung bzw. -kollektion davon verkörpert sein, die Kommunikationen zwischen der Computingvorrichtung 100 und anderen entfernten Geräten bzw. Vorrichtungen über ein Netzwerk ermöglichen bzw. freigeben kann. Das Kommunikations-Untersystem 150 kann konfiguriert sein, um irgendeine oder mehrere Kommunikationstechnologien (z.B. drahtgebundene oder drahtlose Kommunikationen) und assoziierte bzw. zugehörige Protokolle (z.B. Ethernet, InfiniBand®, Bluetooth®, Wi-Fi®, WiMAX usw.) zu verwenden, um eine solche Kommunikation zu bewirken.
Wie es gezeigt ist, kann die Computingvorrichtung 100 auch eine oder mehrere periphere Vorrichtungen 160 enthalten. Die peripheren Vorrichtungen 160 können irgendeine Anzahl zusätzlicher Eingabe-/Ausgabe-Vorrichtungen, Schnittstellenvorrichtungen und/oder anderer peripherer Vorrichtungen enthalten. Zum Beispiel können die peripheren Vorrichtungen 160 bei einigen Ausführungsformen eine Anzeige, einen Berührungsbildschirm, eine Grafikschaltung, eine Tastatur, eine Maus, ein Lautsprechersystem, ein Mikrofon, eine Netzwerkschnittstelle und/oder andere Eingabe-/Ausgabe-Vorrichtungen, Schnittstellenvorrichtungen und/oder periphere Vorrichtungen enthalten.
Natürlich kann die Computingvorrichtung 100 auch andere Elemente (nicht gezeigt) enthalten, wie es von einem Fachmann auf dem Gebiet leicht in Betracht gezogen wird, sowie bestimmte Elemente weglassen. Zum Beispiel können verschiedene andere Eingabevorrichtungen und/oder Ausgabevorrichtungen in der Computingvorrichtung 100 enthalten sein, und zwar abhängig von der bestimmten Implementierung derselben, wie es von einem Fachmann auf dem Gebiet leicht verstanden wird. Zum Beispiel können verschiedene Typen von drahtlosen und/oder drahtgebundenen Eingabe- und/oder Ausgabevorrichtungen verwendet werden. Darüber hinaus können zusätzliche Prozessoren, Steuerungen, Speicher und so weiter bei verschiedenen Konfigurationen auch verwendet werden. Diese und andere Variationen des Verarbeitungssystems 100 werden angesichts der hierin bereitgestellten Lehren der vorliegenden Erfindung von einem Fachmann auf dem Gebiet leicht in Betracht gezogen.
Wie er hierin verwendet wird, kann sich der Begriff „Hardwareprozessor-Untersystem“ oder „Hardwareprozessor“ auf einen Prozessor, einen Speicher (einschließlich RAM, Cache(s) und so weiter), Software (einschließlich Speichermanagementsoftware) oder Kombinationen davon beziehen, die zusammenarbeiten, um eine oder mehrere spezifische Aufgaben durchzuführen. Bei nützlichen Ausführungsformen kann das Hardwareprozessor-Untersystem ein oder mehrere Datenverarbeitungselemente (z.B. Logikschaltungen, Verarbeitungsschaltungen, Anweisungsausführungsvorrichtungen etc.) enthalten. Das eine oder die mehreren Datenverarbeitungselemente kann oder können in einer zentralen Verarbeitungseinheit, einer Grafikverarbeitungseinheit und/oder einer separaten prozessor- oder computingelementbasierten Steuerung (z.B. Logikgatter etc.) enthalten sein. Das Hardwareprozessor-Untersystem kann einen oder mehrere integrierte Speicher bzw. Onboard-Speicher (z.B. Caches, bestimmte bzw. dedizierte Speicherarrays, einen Nurlesespeicher etc.) enthalten. Bei einigen Ausführungsformen kann das Hardwareprozessor-Untersystem einen oder mehrere Speicher enthalten, die onboard oder offboard sein können oder die zur Verwendung durch das Hardwareprozessor-Untersystem bestimmt bzw. dediziert sein können (z.B. ROM, RAM, BIOS (Basic Input/Output System (= Grundlegendes Eingabe-/Ausgabe-System)) etc.).
Bei einigen Ausführungsformen kann das Hardwareprozessor-Untersystem ein oder mehrere Softwareelemente umfassen und ausführen. Das eine oder die mehreren Softwareelemente kann oder können ein Betriebssystem und/oder eine oder mehrere Anwendungen und/oder einen spezifischen Code enthalten, um ein spezifiziertes bzw. bestimmtes Ergebnis zu erzielen.
Bei anderen Ausführungsformen kann das Hardwareprozessor-Untersystem eine dedizierte, spezialisierte Schaltung enthalten, die eine oder mehrere elektronische Verarbeitungsfunktionen durchführt, um ein bestimmtes Ergebnis zu erzielen. Eine solche Schaltung kann eine oder mehrere anwendungsspezifische integrierte Schaltungen (ASICs), FPGAs und/oder PLAs enthalten.
Diese und andere Variationen eines Hardwareprozessor-Untersystems werden gemäß Ausführungsformen der vorliegenden Erfindung auch in Betracht gezogen.
2 ist ein Blockdiagramm, das ein beispielhaftes Kraftwerksszenario 200 zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
Das Kraftwerksszenario 200 enthält eine Brennstoffversorgung/einen Generator/einen Transformator 210 und eine Leitwarte bzw. einen Kontrollraum 220.
Die Kraftstoffversorgung/der Generator/der Transformator 210 enthält Steuergeräte bzw. steuerbare Geräte 211 und Sensoren 212.
Der Kontrollraum 220 enthält einen menschlichen Bediener (oder mehrere davon) 221, ein Datenanalysesystem 222 und Textprotokolle 223.
Somit sammeln Sensoren 212, die an verschiedenen Stellen der Anlage eingesetzt werden, im Kontext eines Kraftwerksbetriebs Zeitreihen-(TS-(= time series))Daten 240, die den Status des Stromerzeugungsprozesses charakterisieren. TS-Daten werden zum Datenanalysesystem 222 übertragen, das in einem Computer im Kontrollraum 220 installiert ist. Ein oder mehrere menschliche Bediener 221 untersuchen die Daten auf einem Monitor und können Notizen in Freiformtext erstellen. Wenn die Daten abnormal sind, wird erwartet, dass die Notizen Details wie Ursachenanalyse und Auflösung enthalten. Die Textnotizen und die Zeitreihendaten werden in einer Datenbank 250 gespeichert und zum Trainieren des hierin beschriebenen kreuzmodalen Abrufsystems verwendet, das Teil des Datenanalysesystems 222 ist.
Der menschliche Bediener 221 kann mit dem kreuzmodalen Abrufsystem auf ein Paar von Arten interagieren, wie es nachstehend erklärt wird.
Eine oder mehrere Ausführungsformen der vorliegenden Erfindung stellen ein Verfahren zum unüberwachten Trainieren eines neuronalen Netzwerks und auch ein Verfahren zum Verwenden eines kreuzmodalen Abrufs bzw. einer kreuzmodalen Wiedergewinnung für Zeitreihendaten und Textdaten bereit. Bei Vorgabe einer Datenbank, die gepaarte Daten von diesen zwei Modalitäten enthält, kann das trainierte System Daten abrufen, die einer vom Benutzer gegebenen Abfrage aus der Datenbank ähneln. Abhängig von der Modalität der Abfrage und den abgerufenen Ergebnissen hat das System drei beispielhafte Anwendungen wie folgt: (1) Erklären von Zeitreihen in natürlicher Sprache; (2) Suchen nach historischen Zeitreihen mit Textbeschreibung; und (3) Suchen nach historischen Zeitreihen mit Referenzreihen und Textbeschreibung. Natürlich werden andere beispielhafte Anwendungen angesichts der hierin bereitgestellten Lehren der vorliegenden Erfindung leicht von einem durchschnittlichen Fachmann auf dem Gebiet in Betracht gezogen.
3 ist ein Blockdiagramm auf hoher Ebene, das ein beispielhaftes System/Verfahren 300 zum Erklären von Zeitreihen in natürlicher Sprache zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
4 ist ein Blockdiagramm auf hoher Ebene, das ein beispielhaftes System/Verfahren 400 zum Suchen nach historischen Zeitreihen mit Textbeschreibungen zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
5 ist ein Blockdiagramm auf hoher Ebene, das ein beispielhaftes System/Verfahren 500 zum Suchen nach historischen Zeitreihen mit beispielhaften Reihen und Textbeschreibung zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
Nimmt man Bezug auf 3, enthält das System/Verfahren 300 einen Bediener 301, ein Abfrage-Zeitreihen-(TS-)Segment 302, ein Datenanalysesystem 303 und relevante Textbeschreibungen 304. Bei Vorgabe eines Zeitreihensegments 302 erfolgt ein Abrufen relevanter Kommentartexte 304, die als Erklärungen für das Abfragesegment 302 dienen können, und zwar unter Verwendung des Datenanalysesystem 303.
Nimmt man Bezug auf 4, enthält das System/Verfahren 400 einen Bediener 401, eine Beschreibung einer Ziel-Zeitreihe (TS) 402, ein Datenanalysesystem 403 und eine Kandidaten-Zeitreihe 404. Bei Vorgabe einer Textbeschreibung (eines Satzes in natürlicher Sprache oder einer Gruppe von Schlüsselwörtern) 402 erfolgt unter Verwendung des Datenanalysesystems 403 ein Abrufen von Zeitreihensegmenten 404, die zur Beschreibung passen.
Nimmt man Bezug auf , enthält das System/Verfahren 500 einen Bediener 501, eine Beschreibung einer Ziel-Zeitreihe (TS) 502, ein Beispiel für ein Zeitreihensegment 503, ein Datenanalysesystem 504 und eine Kandidaten-Zeitreihe 505. Bei Vorgabe eines Zeitreihensegments 503 und einer Textbeschreibung 502 erfolgt unter Verwendung des Datenanalysesystems 504 ein Abrufen von historischen Segmenten, die zur Beschreibung 502 passen und auch dem Abfragesegment 503 ähneln.
6 ist ein Blockdiagramm auf hoher Ebene, das ein beispielhaftes - System/Verfahren zum kreuzmodalen Abrufen 600 zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
Das System/Verfahren 600 enthält einen auf multimodalen neuronalen Netzen basierenden Codierer 610, einen Trainingsalgorithmus 620, einen Abrufalgorithmus 630, eine Zeitreihen-(TS-) und Textpaare-Datenbank 640, eine Pseudobeschriftungs-Berechnungsmethode 650 und eine Verlustfunktion 660.
Das System/Verfahren zum kreuzmodale Abrufen 600 verwendet multimodale neuronale Netze 610, um Texte und Zeitreihendaten in Vektordarstellungen zu codieren. Die neuronalen Netze 610 werden durch den Trainingsalgorithmus 630 unter Verwendung von Beispielen in der vom Benutzer bereitgestellten Datenbank von TS-Textpaaren 640 trainiert. Der Trainingsalgorithmus 620 beinhaltet eine spezielle Pseudobeschriftungs-Berechnungsmethode 650 und eine spezielle Verlustfunktion 660. Das Trainieren erfolgt unüberwacht, was bedeutet, dass keine menschliche Beteiligung bei diesem Prozess erforderlich ist. Nachdem der Codierer des neuronalen Netzwerks 610 trainiert wurde, wird das Abrufen von Daten aus der Datenbank gemäß einer vom Benutzer bereitgestellten Abfrage gemäß dem Abruf-Algorithmus 630 realisiert.
7 ist ein Blockdiagramm auf hoher Ebene, das eine beispielhafte Trainingsarchitektur 700 zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
Die Trainingsarchitektur 700 enthält ein Datenbanksystem 705, ein neuronales Netzwerk für einen Zeitreihencodierer 710, ein neuronales Netzwerk für einen Textcodierer 715, Merkmale der Zeitreihe 720, Merkmale der Textkommentare 725, eine Verlustfunktion 730, eine Methode 735 zum Berechnen einer Affinitätsmatrix durch Wortüberlappung, eine Affinitätsmatrix 740, einen spektralen Cluster-Algorithmus 745, und eine Cluster-Zuordnung 750 von Textkommentaren.
8 ist ein Flussdiagramm, das ein beispielhaftes Trainingsverfahren 800 zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
Bei einem Block 810 erfolgt ein Berechnen der Affinitätsmatrix A 740, wobei A_ij die Anzahl von Wörtern ist, die in sowohl dem Text i als auch dem Text j vorkommen. Unter der Annahme, dass si (bzw. sj) die Gruppe von Wörtern in einem Satz i (bzw. j) ist, kann A_ij als Schnittpunkt der zwei Gruppen wie folgt berechnet werden: $A_{i j} = | s_{i} \cap s_{j} |$
Bei einem Block 820 erfolgt ein Anwenden des spektralen Cluster-Algorithmus 745 auf die Affinitätsmatrix A 740. Die Anzahl von Clustern k wird vom Benutzer geschätzt. Das Ergebnis ist eine Cluster-Zuordnungsmatrix G, wobei die i'te Zeile G_i ein 1-aus-N- bzw. One-Hot-Vektor ist, dessen Wert nur bei der Position 1 ist, die dem Cluster entspricht, dem die Textinstanz i aus der Datenbank zugeordnet ist. Es erfolgt eine Zuordnen derselben Clusterbezeichnung zu jedem Zeitreihensegment wie der damit gekoppelten Textinstanz. Diese Cluster bilden die Gruppe von Konzepten, die durch verschiedene Ausführungsformen der vorliegenden Erfindung bereitgestellt werden.
Im weiteren Detail wird beim spektralen Clustern zuerst die Gradmatrix D berechnet. Die Gradmatrix D ist eine diagonale Matrix, wobei das i-te diagonale Element D_ii = Σ_j A_ij ist. Die Laplace-Matrix L = D - A wird berechnet. Die Singulärwertzerlegung von L wird berechnet als UΣV^T = L, wobei die i-te Zeile von U die spektrale Einbettung des i-ten Trainingsbeispiels ist. Die spektralen Einbettungen aller Trainingsbeispiele werden unter Verwendung einer Standard-Cluster-Methode wie k-Means geclustert. Das Ergebnis ist, dass jedes Beispiel einem der k Cluster zugeordnet ist.
Bei einem Block 830 erfolgt ein Bilden eines neuronalen Netzwerks, das die beiden Sequenzencodierer enthält, nämlich den Textencodierer 715 und den Zeitreihencodierer 710. Der Textencodierer 715, der mit g^txt bezeichnet ist, nimmt die tokenisierten Textkommentare als Eingabe. Der Zeitreihencodierer 710, der mit g^srs bezeichnet ist, nimmt die Zeitreihe als Eingabe. Die Architektur des Textencodierers ist 9. Der Zeitreihencodierer hat fast dieselbe Architektur wie der Textencodierer, mit der Ausnahme, dass die Worteinbettungsschicht durch eine vollständig verbundene Schicht ersetzt ist, wie es in 10 gezeigt ist. Die Codiererarchitektur enthält eine Reihe von Faltungsschichten, gefolgt von einem Transformatorennetzwerk. Die Faltungsschichten erfassen lokale Kontexte (z.B. Phrasen für Textdaten). Der Transformator codiert die längerfristigen Abhängigkeiten in der Sequenz.
Bei einem Block 840 erfolgt eine Definieren von drei Verlusten wie folgt: (1) einem Kosinuseinbettungsverlust L_Paar, (2) einem Cluster-Verlust L_t für Textdaten und (3) einem Cluster-Verlust L_s für Zeitreihendaten.
L_Paar, der die Ähnlichkeit zwischen den Merkmalsvektoren des Zeitreihensegments und dem Text misst, der zu demselben Paar gehört, wird wie folgt berechnet: $L_{P a a r} = c o s (u_{i}, v_{i}) = \frac{u_{i}^{T} v_{i}}{\sqrt{‖ u_{i} ‖} \sqrt{‖ v_{i} ‖}}$
Hier sind u_i und v_i der Merkmalsvektor des i'ten Zeitreihensegments beziehungsweise derjenige des i'ten Textes. Mit anderen Worten gilt u_i = g^srs(x_i) und v_i = g^txt(y_i), wobei x_i das i'te Zeitreihensegment und y_i der i'te Text ist.
L_s (bzw. L_t) misst die Konsistenz zwischen den paarweisen Affinitätswerten zwischen Zeitreihen- (bzw. Text-Instanzen, die aus den Merkmalsvektoren unter Verwendung eines Gaußschen Kernels berechnet werden, und den Affinitätswerten, die aus dem spektralen Clustern im Block 810 berechnet werden. L_s ist wie folgt definiert: $L_{s} = \sum_{i j} G_{i}^{T} G_{j} l o g k (u_{i}, v_{i})$
Hier ist K ein Gaußscher Kernel, definiert als: $K (x, y) = e x p (\frac{{‖ x - y ‖}^{2}}{σ^{2}})$
wobei σ vom Benutzer gewählt ist.
L_t ist identisch zu L_s definiert, außer dass v anstelle von u verwendet wird.
Schließlich wird der Gesamtverlust L als Summe der drei Verluste definiert. L = L_Paar + L_s + L_t.
Bei einem Block 850 erfolgt ein gemeinsames Trainieren der Parameter von beiden Codierern 710 und 715 durch Minimieren des Gesamtverlustes L. Konkreter verläuft das Trainieren in Iterationen. Bei jeder Iteration wird ein Batch bzw. Stapel fester Größe von Datenpaaren abgetastet. Der Gesamtverlust für den Stapel und der Gradient des Verlustes in Bezug auf die Parameter der beiden Codierer 710 und 715 werden berechnet. Es erfolgt ein Updaten der Parameter unter Verwendung eines stochastischem Gradientenabfalls.
Bei einem Block 860, erfolgt in Reaktion auf eine vordefinierte Anzahl von Iterationen, die erreicht worden sind, oder darauf, dass der Verlustwert konvergiert ist, ein Speichern der Merkmalsvektoren von allen der Zeitreihensegmente und allen der Texte zusammen mit ihren Rohformen in der Datenbank 705.
9 ist ein Blockdiagramm, das eine beispielhafte Architektur 900 des Textcodierers 715 der 7 zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
Die Architektur 900 enthält eine Worteinbettungseinheit 911, einen Positionscodierer 912, eine Faltungsschicht 913, eine Normalisierungsschicht 921, eine Faltungsschicht 922, eine Skip-Verbindung 923, eine Normalisierungsschicht 931, eine Selbstaufmerksamkeitsschicht 932, eine Skip-Verbindung 933, eine Normalisierungsschicht 991, eine Feedforward-Schicht 992 und eine Skip-Verbindung 993. Die Architektur 900 stellt eine eingebettete Ausgabe 950 bereit.
Die obigen Elemente bilden ein Transformationsnetzwerk 990.
Die Eingabe ist eine Textpassage. Jedes Token der Eingabe wird durch die Worteinbettungsschicht 911 in Wortvektoren transformiert bzw. umgewandelt. Der Positionscodierer 912 hängt dann den Positionseinbettungsvektor jedes Tokens an den Wortvektor des Tokens an. Der resultierende Einbettungsvektor wird einer anfänglichen Faltungsschicht 913 zugeführt, gefolgt durch einer Reihe von restlichen Faltungsblöcken 901 (wobei der Veranschaulichung und Kürze halber einer gezeigt ist). Jeder restliche Faltungsblock 901 enthält eine Stapel- bzw. Batch-Normalisierungsschicht 921 und eine Faltungsschicht 922 und eine Skip-Verbindung 923. Als nächstes folgt ein restlicher Selbstaufmerksamkeitsblock 902. Der restliche Selbstaufmerksamkeitsblock 902 enthält eine Stapel- bzw. Batch-Normalisierungsschicht 931 und eine Selbstaufmerksamkeitsschicht 932 und eine Skip-Verbindung 933. Als nächstes folgt ein restlicher Feedforward-Block 903. Der restliche Feedforward-Block 903 enthält eine Stapel- bzw. Batch-Normalisierungsschicht 941, eine vollständig verbundene lineare Feedforward-Schicht 942 und eine Skip-Verbindung 943. Der Ausgabevektor 950 von diesem Block ist die Ausgabe des gesamten Transformationsnetzwerks und ist der Merkmalsvektor für den Eingabetext.
Diese besondere Architektur 900 ist nur eine von vielen möglichen Architekturen für neuronale Netzwerke, die den Zweck eines Codierens von Textnachrichten zu Vektoren erfüllen können. Neben der obigen besonderen Implementierung kann der Textcodierer unter Verwendung vieler Varianten von rekursiven neuronalen Netzwerken oder 1-dimensionalen neuronalen Faltungsnetzen implementiert werden. Diese und andere Architekturvariationen werden angesichts der hierin bereitgestellten Lehren der vorliegenden Erfindung von einem Fachmann auf dem Gebiet leicht in Betracht gezogen.
10 ist ein Blockdiagramm, das eine beispielhafte Architektur 1000 des Zeitreihencodierers 710 von 7 zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
Die Architektur 1000 enthält eine Worteinbettungseinheit 1011, einen Positionscodierer 1012, eine Faltungsschicht 1013, eine Normalisierungsschicht 1021, eine Faltungsschicht 1022, eine Skip-Verbindung 1023, eine Normalisierungsschicht 1031, eine Selbstaufmerksamkeitsschicht 1032, eine Skip-Verbindung 1033, eine Normalisierungsschicht 1041, eine Feedforward-Schicht 1042 und eine Skip-Verbindung 1043. Die Architektur stellt eine Ausgabe 1050 bereit.
Die obigen Elemente bilden ein Transformationsnetzwerk 1090.
Die Eingabe ist eine Zeitreihe fester Länge. Der Datenvektor zu jedem Zeitpunkt wird durch eine vollständig verbundene Schicht zu einem hochdimensionalen latenten Vektor transformiert. Der Positionscodierer hängt dann einen Positionsvektor an den latenten Vektor jedes Zeitpunkts an. Der resultierende Einbettungsvektor wird einer anfänglichen Faltungsschicht 1013 zugeführt, gefolgt von einer Reihe von restlichen bzw. verbleibenden Faltungsblöcken 1001 (wobei der Veranschaulichung und Kürze halber einer gezeigt ist). Jeder restliche bzw. verbleibende Faltungsblock 1001 enthält eine Stapel- bzw. Batch-Normalisierungsschicht 1021 und eine Faltungsschicht 1022 und eine Skip-Verbindung 1023. Als nächstes folgt ein restlicher bzw. verbleibender Selbstaufmerksamkeitsblock 1002. Der verbleibende Selbstaufmerksamkeitsblock 1002 enthält eine Stapel- bzw. Batch-Normalisierungsschicht 1031 und eine Selbstaufmerksamkeitsschicht 1032 und eine Skip-Verbindung 1033. Als nächstes folgt ein restlicher bzw. verbleibender Feedforward-Block 1003. Der verbleibende Feedforward-Block 1003 enthält eine Stapel- bzw. Batch-Normalisierungsschicht 1041, eine vollständig verbundene lineare Feedforward-Schicht 1042 und eine Skip-Verbindung 1043. Der Ausgabevektor 1050 von diesem Block ist die Ausgabe des gesamten Transformationsnetzwerks und ist der Merkmalsvektor für die Eingabezeitreihe.
Diese besondere Architektur 1000 ist nur eine von vielen möglichen Architekturen für neuronale Netzwerke, die den Zweck eines Codierens von Zeitreihen zu Vektoren erfüllen können. Daneben kann der Zeitreihencodierer unter Verwendung vieler Varianten von rekursiven neuronalen Netzen oder temporalen dilationalen neuronalen Faltungsnetzen implementiert werden.
11 ist ein Flussdiagramm, das ein beispielhaftes Verfahren 1100 zur kreuzmodalen Wiedergewinnung zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
Bei einem Block 1110 erfolgt ein Empfangen einer Abfrage in Zeitreihen- und/oder Textform.
Bei einem Block 1120 erfolgt ein Verarbeiten der Abfrage unter Verwendung des Zeitreihencodierers 710 und/oder des Textcodierers 715, um Merkmalsvektoren zu erzeugen, die in einen Merkmalsraum enthalten sein sollen.
Bei einem Block 1130 erfolgt ein Durchführen einer Suche nach dem nächsten Nachbarn im Merkmalsraum, der mit einem oder mehreren Merkmalsvektoren gefüllt ist, die aus einem Verarbeiten der Abfrage erhalten sind, und Merkmalsvektoren aus der Datenbank 705, um Suchergebnisse in wenigstens einer der zwei Modalitäten auszugeben. Bei einer Ausführungsform kann eine Eingabemodalität mit ihrer entsprechenden Ausgabemodalität in den Suchergebnissen verknüpft bzw. assoziiert sein, wobei sich die Eingabe- und Ausgabemodalitäten unterscheiden oder eine oder mehrere derselben Modalitäten an einem Ende enthalten (Eingabe oder Ausgabe, abhängig von der Implementierung und einer entsprechenden Systemkonfiguration zu diesem Zweck, wie es angesichts der hierin bereitgestellten Lehren ohne weiteres einzusehen ist).
Bei einem Block 1140 erfolgt ein Durchführen einer Aktion in Reaktion auf die Suchergebnisse.
Beispielhafte Aktionen können zum Beispiel ein Erkennen von Anomalien in Computerverarbeitungssystemen/Energiesystemen und ein Steuern des Systems, in dem eine Anomalie erkannt wird, enthalten, sind aber nicht darauf beschränkt. Zum Beispiel kann eine Abfrage in der Form von Zeitreihendaten von einem Hardwaresensor oder einem Sensornetzwerk (z.B. einem Mesh bzw. vermaschten Netz) als anomales Verhalten (gefährliche oder anderweitig zu hohe Betriebsgeschwindigkeit (z.B. Motor, Zahnradverbindung), gefährliche oder anderweitig übermäßige Betriebswärme (z.B. Motor, Zahnradverbindung), gefährlich oder anderweitig außerhalb einer Toleranzausrichtung (z.B. Motor, Zahnradverbindung etc.)) unter Verwendung einer Textnachricht als Beschriftung bzw. Markierung charakterisiert werden. In einer Verarbeitungspipeline bzw. -kette kann eine anfängliche Eingabezeitreihe in mehrere Textnachrichten verarbeitet und dann neu kombiniert werden, um eine Untergruppe bzw. Teilmenge der Textnachrichten für eine fokussiertere resultierende Ausgabezeitreihe in Bezug auf ein gegebenes Thema (z.B. Anomalietyp) zu enthalten. Demgemäß kann eine Vorrichtung ausgeschaltet, seine Betriebsgeschwindigkeit reduziert, eine Ausrichtungs-(z.B. hardwarebasierte)Prozedur durchgeführt werden, und so weiter, und zwar basierend auf der Implementierung.
Eine weitere beispielhafte Aktion kann eine Ablaufverfolgung von Betriebsparametern sein, bei der eine Historie der Parameteränderung im Laufe der Zeit protokolliert werden kann, wie sie verwendet wird, um andere Funktionen, wie beispielsweise Hardware-Maschinensteuerungsfunktionen einschließlich Ein- oder Ausschalten, Verlangsamen, Beschleunigen, positionelles Anpassen und so weiter, auf die Erkennung eines gegebenen Betriebszustands hin durchzuführen, der einer bestimmten Ausgabezeitreihe und/oder einem Textkommentar in Bezug auf historische Daten gleicht.
In der Testphase kann mit den Codierern 710 und 715 und der Datenbank 705 von Rohdaten und Merkmalen von beiden Modalitäten verfügbar die Suche nach dem nächsten Nachbarn verwendet werden, um relevante Daten für ungesehene Abfragen abzurufen. Die spezifische Prozedur für jedes der drei beispielhaften Anwendungsszenarien wird nahstehend beschrieben.
12 ist ein Blockdiagramm auf hoher Ebene, das ein beispielhaftes System/Verfahren 1200 zum Bereitstellen einer Erklärung einer Eingabezeitreihe zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
Bei einer gegebenen Abfrage 1201 als eine Zeitreihe beliebiger Länge wird sie durch den Zeitreihencodierer 1202 weitergeleitet, um einen Merkmalsvektor x 1203 zu erhalten. Dann erfolgt ein Finden aus der Datenbank 1225 der k Textinstanzen, deren Merkmale 1204 den kleinsten (euklidischen) Abstand zu diesem Vektor (nächster Nachbar 1205) haben. Diese Textinstanzen, die von Menschen geschriebene Freiformkommentare sind, werden als Abrufergebnisse 1206 zurückgebracht.
13 ist ein Blockdiagramm auf hoher Ebene, das ein beispielhaftes System/Verfahren 1300 zum Abrufen bzw. Wiedergewinnen von Zeitreihen basierend auf einer Eingabe in natürlicher Sprache zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
Bei einer gegebenen Abfrage 1301 als eine Freiform-Textpassage (d.h. Wörter oder kurze Sätze) wird sie durch den Textcodierer 1302 geführt, um einen Merkmalsvektor y 1303 zu erhalten. Dann erfolgt ein Finden aus der Datenbank 1325 der k Zeitreiheninstanzen, deren Merkmale 1304 den kleinsten Abstand zu y (nächster Nachbar 1305) haben. Diese Zeitreihen, die dieselbe semantische Klasse wie der Abfragetext haben und daher eine hohe Relevanz für die Abfrage haben, werden als Abrufergebnisse 1306 zurückgegeben bzw. zurückgebracht.
14 ist ein Blockdiagramm auf hoher Ebene, das ein beispielhaftes System/Verfahren 1400 für die gemeinsame Modalitätssuche zeigt, gemäß einer Ausführungsform der vorliegenden Erfindung.
Bei einer gegebenen Abfrage als ein Paar von (Zeitreihensegment 1401, Textbeschreibung 1402) wird die Zeitreihe durch den Zeitreihencodierer 1403 geführt, um einen Merkmalsvektor x 1405 zu erhalten, und wird die Textbeschreibung durch den Textcodierer 1404 geführt, um einen Merkmalsvektor y 1406 zu erhalten. Dann erfolgt ein Finden aus der Datenbank 1425 der n Zeitreihensegmente, deren Merkmale 1407 die nächsten Nachbarn 1408 von x sind, und der n Zeitreihensegmente, deren Merkmale die nächsten Nachbarn 1408 von y sind, und ein Erhalten deren Schnittpunkt. Es beginnt mit n = k. Wenn die Anzahl von Instanzen im Schnittpunkt kleiner als k ist, erfolgt ein Erhöhen von n und ein Wiederholen der Suche, bis wenigstens k Instanzen abgerufen sind. Diese Instanzen, die semantisch sowohl der Abfragezeitreihe als auch dem Abfragetext ähneln, werden als Abrufergebnisse 1409 zurückgegeben bzw. zurückgebracht.
Neben der beispielhaften Anwendung eines Kraftwerksbetriebs in Bezug auf 2 und dem breiteren Bereich einer industriellen Überwachung können verschiedene Ausführungsformen der vorliegenden Erfindung in vielen anderen Umgebungen bzw. Konfigurationen verwendet werden, einschließlich der folgenden, aber nicht beschränkt darauf.
Intelligentes Trainieren von Fitness oder Sport: Abruf zwischen tragbaren Sensordaten, die von Golfern, Läufern oder Schwimmern gesammelt werden, und Kommentaren des Trainers.
Gesundheitswesen: Abruf zwischen Sensordaten zur Fernüberwachung von Patienten und Notizen von Ärzten/Krankenschwestern.
Finanzen: Abruf zwischen Finanzdiagrammmustern und Handelsstrategienotizen.
Die vorstehenden Beispiele sind lediglich illustrativ, wie es von einem Durchschnittsfachmann auf dem Gebiet angesichts der hierin bereitgestellten Lehren der vorliegenden Erfindung, ohne weiteres eingesehen werden kann.
Hierin beschriebene Ausführungsformen können vollständig Hardware, vollständig Software oder sowohl Hardware- als auch Softwareelemente enthaltend sein. Bei einer bevorzugten Ausführungsform ist die vorliegende Erfindung in Software implementiert, die Firmware, residente Software, einen Microcode etc. enthält, aber nicht darauf beschränkt ist.
Ausführungsformen können ein Computerprogrammprodukt enthalten, auf das von einem computerverwendbaren oder computerlesbaren Medium aus zugegriffen werden kann, das einen Programmcode zur Verwendung durch einen Computer oder ein Anweisungsausführungssystem, oder in Verbindung damit, bereitstellt. Ein computerverwendbares oder computerlesbares Medium kann irgendeine Vorrichtung enthalten, die das Programm zur Verwendung durch das Befehlsausführungssystem, eine Vorrichtung oder ein Gerät, oder in Verbindung damit, speichert, kommuniziert, ausbreitet oder transportiert. Das Medium kann ein magnetisches, optisches, elektronisches, elektromagnetisches, infrarotes oder Halbleitersystem (oder eine Vorrichtung oder Gerät) oder ein Ausbreitungsmedium sein. Das Medium kann ein computerlesbares Speichermedium, wie beispielsweise einen Halbleiter- oder Festkörperspeicher, ein Magnetband, eine Wechselcomputerdiskette, ein Direktzugriffsspeicher (RAM), ein Nurlesespeicher (ROM), eine feste bzw. starre Magnetplatte und eine optische Scheibe bzw. Platte, etc., enthalten.
Jedes Computerprogramm kann konkret bzw. materiell in einem maschinenlesbaren Speichermedium oder einer Vorrichtung (z.B. einem Programmspeicher oder einer Magnetplatte) gespeichert sein, das oder die durch einen allgemeinen oder speziellen programmierbaren Computer lesbar ist, zum Konfigurieren und Steuern des Betriebs eines Computers, wenn das Speichermedium oder die Vorrichtung durch den Computer gelesen wird, um die hierin beschriebenen Prozeduren durchzuführen. Das erfinderische System kann auch als in einem computerlesbaren Speichermedium verkörpert angesehen werden, das mit einem Computerprogramm konfiguriert ist, wo das so konfigurierte Speichermedium veranlasst, dass ein Computer auf eine spezifische bzw. bestimmte und vordefinierte Weise arbeitet, um die hierin beschriebenen Funktionen durchzuführen.
Ein Datenverarbeitungssystem, das zum Speichern und/oder Ausführen eines Programmcodes geeignet ist, kann wenigstens einen Prozessor enthalten, der über einen Systembus direkt oder indirekt mit Speicherelementen gekoppelt ist. Die Speicherelemente können einen lokalen Speicher enthalten, der während einer tatsächlichen Ausführung des Programmcodes verwendet wird, einen Massenspeicher und Cachespeicher, die eine temporäre Speicherung von wenigstens etwas von einem Programmcode zur Verfügung stellen, um die Anzahl von Malen zu reduzieren, für welche eine Code während der Ausführung aus einem Massenspeicher abgerufen wird. Eingabe-/Ausgabe- oder I/O-Vorrichtungen (einschließlich, aber nicht darauf beschränkt, von Tastaturen, Anzeigen, Zeigevorrichtungen etc.) können entweder direkt oder über dazwischenliegende I/O-Steuerungen mit dem System gekoppelt sein.
Netzwerkadapter können auch mit dem System gekoppelt sein, um zu ermöglichen, dass das Datenverarbeitungssystem über dazwischenliegende private oder öffentliche Netzwerke mit anderen Datenverarbeitungssystemen oder Remote-Druckern bzw. entfernten Druckern oder Speichervorrichtungen gekoppelt wird. Modems, ein Kabelmodem und Ethernet-Karten sind nur einige wenige von derzeit verfügbaren Typen von Netzwerkadaptern.
Eine Bezugnahme in der Spezifikation auf „eine einzelne Ausführungsform“ oder „eine Ausführungsform“ der vorliegenden Erfindung sowie andere Variationen davon bedeutet, dass ein bestimmtes Merkmal, eine bestimmte Struktur, eine bestimmte Charakteristik und so weiter, das oder die in Verbindung mit der Ausführungsform beschrieben wird, bei wenigstens einer Ausführungsform der vorliegenden Erfindung enthalten ist. Somit beziehen sich die Erscheinungen der Formulierung „bei einer einzelnen Ausführungsform“ oder „bei einer Ausführungsform“ sowie irgendwelche anderen Variationen, die an verschiedenen Stellen in der gesamten Spezifikation erscheinen, nicht notwendigerweise alle auf dieselbe Ausführungsform. Es ist jedoch einzusehen, dass Merkmale von einer oder von mehreren Ausführungsformen bei den hierin zur Verfügung gestellten gegebenen Lehren der vorliegenden Erfindung kombiniert werden können.
Es ist einzusehen, dass die Verwendung von irgendetwas von dem folgendem „/“, „und/oder“ und „wenigstens eines von“, wie zum Beispiel in den Fällen von „A/B“, „A und/oder B“ und „wenigstens eines von A und B“, nur die Auswahl der ersten aufgelisteten Option (A) oder die Auswahl der zweiten aufgelisteten Option (B) oder die Auswahl von beiden Optionen (A und B) umfassen soll. Als ein weiteres Beispiel soll eine solche Formulierung in den Fällen „A, B und/oder C“ und „wenigstens eines von A, B und C“ nur die Auswahl der ersten aufgelisteten Option (A) oder nur die Auswahl der zweiten aufgelisteten Option (B) oder nur die Auswahl der dritten aufgelisteten Option (C) oder nur die Auswahl der ersten und zweiten aufgelisteten Optionen (A und B) oder nur die Auswahl der ersten und dritten aufgelisteten Optionen (A und C) oder nur die Auswahl der zweiten und dritten aufgelisteten Optionen (B und C) oder die Auswahl aller drei Optionen (A und B und C) umfassen. Dies kann für so viele Elemente ausgeweitet werden, wie sie aufgelistet sind.
Das Vorstehende ist in jeder Hinsicht als illustrativ und beispielhaft, aber nicht als einschränkend, zu verstehen, und der Schutzumfang der hierin offenbarten Erfindung ist nicht aus der detaillierten Beschreibung zu bestimmen, sondern aus den Ansprüchen, wie sie gemäß der vollständigen Breite interpretiert werden, die durch die Patentgesetze zulässig ist. Es ist zu verstehen, dass die hierin gezeigten und beschriebenen Ausführungsformen nur illustrativ für die vorliegende Erfindung sind und dass Fachleute auf dem Gebiet verschiedene Modifikationen implementieren können, ohne vom Schutzumfang und Sinngehalt der Erfindung abzuweichen. Fachleute auf dem Gebiet könnten verschiedene andere Merkmalskombinationen implementieren, ohne vom Schutzumfang und Sinngehalt der Erfindung abzuweichen. Nachdem somit Aspekte der Erfindung mit den von den Patentgesetzen geforderten Details und Besonderheiten beschrieben sind, wird das, was beansprucht und durch das Patent geschützt er-wünscht wird, in den beigefügten Ansprüchen dargelegt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 16/918848 [0001]
US 62/878781 [0001]
US 62/877952 [0001]

Claims

Computerverarbeitungssystem für einen kreuzmodalen Datenabruf bzw. eine kreuzmodale Datenwiedergewinnung, umfassend: ein neuronales Netz mit einem Zeitreihencodierer (211) und einem Textcodierer (212), die unter Verwendung einer unüberwachten Trainingsmethode gemeinsam trainiert werden, die auf einer Verlustfunktion basiert, wobei die Verlustfunktion eine Ähnlichkeit von Merkmalsvektoren von Trainingssätzen von zwei unterschiedlichen Modalitäten von Zeitreihen und Freiformtextkommentaren und eine Kompatibilität der Zeitreihe und der Freiformtextkommentare mit einem wortüberlappungsbasierten spektralen Cluster-Verfahren, das konfiguriert ist, um Pseudobeschriftungen für die unüberwachte Trainingsmethode zu berechnen, gemeinsam auswertet; eine Datenbank (205) zum Speichern der Trainingssätze mit Merkmalsvektoren, die aus Codierungen der Trainingssätze extrahiert sind, wobei die Codierungen durch Codieren eines Trainingssatzes der Zeitreihe mit dem Zeitreihencodierer und Codieren eines Trainingssatzes der Freiformtextkommentare mit dem Textcodierer erhalten werden; und einen Hardwareprozessor (110) zum Abrufen der Merkmalsvektoren entsprechend wenigstens einer der zwei unterschiedlichen Modalitäten aus der Datenbank für ein Einfügen in einen Merkmalsraum zusammen mit wenigstens einem Merkmalsvektor entsprechend einer Testeingabe in Bezug auf wenigstens eine Test-Zeitreihe und einen Test-Freiformtextkommentar, Bestimmen eines Satzes bzw. einer Gruppe von nächsten Nachbarn aus den Merkmalsvektoren im Merkmalsraum basierend auf Abstands- bzw. Entfernungskriterien und Ausgeben von Testergebnissen für die Testeingabe basierend auf der Gruppe von nächsten Nachbarn.
Computerverarbeitungssystem nach Anspruch 1, wobei das wortüberlappungsbasierte spektrale Cluster-Verfahren einen Ähnlichkeitswert basierend auf einem Ausmaß an Wortüberlappung berechnet, das zwischen zwei Eingaben der Freiformtextkommentare existiert.
Computerverarbeitungssystem nach Anspruch 2, wobei der Hardwareprozessor (110) eine Affinitätsmatrix basierend auf dem Ähnlichkeitswert berechnet und wobei die Affinitätsmatrix durch das wortüberlappungsbasierte spektrale Cluster-Verfahren verwendet wird, um Cluster-Zuordnungen von verschiedenen Eingaben zu erzeugen, die die Freiformtextkommentare umfassen.
Computerverarbeitungssystem nach Anspruch 3, wobei das Ausmaß an Wortüberlappung als Schnittmenge von zwei Sätzen von Freiformtextkommentaren berechnet wird.
Computerverarbeitungssystem nach Anspruch 1, wobei Cluster-Zuordnungen, die durch das wortüberlappungsbasierte spektrale Cluster-Verfahren vorgenommen werden, als Pseudobeschriftungen konfiguriert sind.
Computerverarbeitungssystem nach Anspruch 5, wobei die Cluster-Zuordnungen in einer Cluster-Zuordnungsmatrix verkörpert sind, wobei eine gegebene Zeile in der Cluster-Zuordnungsmatrix ein 1-aus-n- bzw. One-Hot-Vektor mit einem Wert von eins nur bei einer Position ist, die einer jeweiligen von Cluster-Zuordnungen aus der Datenbank entspricht, der ein gegebener Freiformtextkommentar zugeordnet ist.
Computerverarbeitungssystem nach Anspruch 1, wobei die Verlustfunktion einen Kosinuseinbettungsverlust für ein Eingabepaar, das ausgewählt ist aus irgendetwas von den Zeitreihen und den Freiformtextkommentaren, einen Cluster-Verlust für die Freiformtextkommentare und einen Cluster-Verlust für die Zeitreihe umfasst.
Computerverarbeitungssystem nach Anspruch 7, wobei die Cluster-Verluste auf einem Gaußschen Kernel basieren.
Computerverarbeitungssystem nach Anspruch 1, wobei die Testeingabe eine Eingabezeitreihe beliebiger Länge ist, die auf den Zeitreihencodierer angewendet ist, um die Testergebnisse als eine Erklärung der Eingabezeitreihe in einer Form von einem oder mehreren Freiformtextkommentaren zu erhalten.
Computerverarbeitungssystem nach Anspruch 1, wobei die Testeingabe ein Eingabefreiformtextkommentar beliebiger Länge ist, der auf den Textcodierer angewendet ist, um die Testergebnisse als eine oder mehrere Zeitreihen mit derselben semantischen Klasse wie der Eingabe-Freiformtextkommentar zu erhalten.
Computerverarbeitungssystem nach Anspruch 1, wobei die Testeingabe sowohl eine Eingabezeitreihe beliebiger Länge, die auf den Zeitreihencodierer angewendet ist, um einen ersten Vektor für das Einfügen in den Merkmalsraum zu erhalten, als auch einen Eingabe-Freiformtextkommentar beliebiger Länge, der auf den Textcodierer angewendet ist, um einen zweiten Vektor für das Einfügen in den Merkmalsraum zu erhalten, umfasst.
Computerverarbeitungssystem nach Anspruch 1, wobei mehrere Faltungsschichten des neuronalen Netzes lokale Kontexte erfassen und ein transformiertes Netz des neuronalen Netzes langfristige Kontextabhängigkeiten relativ zu den lokalen Kontexten erfasst.
Computerverarbeitungssystem nach Anspruch 1, wobei die Testeingabe gegebene Zeitreihendaten von wenigstens einem Hardwaresensor zur Anomalieerkennung eines Hardwaresystems umfasst.
Computerverarbeitungssystem nach Anspruch 13, wobei der Hardwareprozessor (110) das Hardwaresystem in Reaktion auf Testergebnisse steuert.
Computerimplementiertes Verfahren für einen kreuzmodalen Datenabruf bzw. eine kreuzmodale Datenwiedergewinnung, umfassend: gemeinsames Trainieren (300) eines neuronalen Netzes mit einem Zeitreihencodierer und einem Textcodierer unter Verwendung einer unüberwachten Trainingsmethode, die auf einer Verlustfunktion basiert, wobei die Verlustfunktion eine Ähnlichkeit von Merkmalsvektoren von Trainingssätzen von zwei unterschiedlichen Modalitäten von Zeitreihen und Freiformtextkommentaren und eine Kompatibilität der Zeitreihe und der Freiformtextkommentare mit einem wortüberlappungsbasierten spektralen Cluster-Verfahren, das konfiguriert ist, um Pseudobeschriftungen für die unüberwachte Trainingsmethode zu berechnen, gemeinsam auswertet; Speichern (330), in einer Datenbank, der Trainingssätze mit Merkmalsvektoren, die aus Codierungen der Trainingssätze extrahiert sind, wobei die Codierungen durch Codieren eines Trainingssatzes der Zeitreihe unter Verwendung des Zeitreihencodierer und Codieren eines Trainingssatzes der Freiformtextkommentare unter Verwendung des Textcodierer erhalten werden; Abrufen (360) der Merkmalsvektoren entsprechend wenigstens einer der zwei unterschiedlichen Modalitäten aus der Datenbank für ein Einfügen in einen Merkmalsraum zusammen mit wenigstens einem Merkmalsvektor entsprechend einer Testeingabe in Bezug auf wenigstens eine Testzeitreihe und einen Test-Freiformtextkommentar; und Bestimmen (370) eines Satzes bzw. einer Gruppe von nächsten Nachbarn aus den Merkmalsvektoren im Merkmalsraum basierend auf Abstands- bzw. Entfernungskriterien und Ausgeben von Testergebnissen für die Testeingabe basierend auf der Gruppe von nächsten Nachbarn.
Computerimplementiertes Verfahren nach Anspruch 15, wobei das wortüberlappungsbasierte spektrale Cluster-Verfahren einen Ähnlichkeitswert basierend auf einem Ausmaß an Wortüberlappung berechnet, das zwischen zwei Eingaben der Freiformtextkommentare existiert.
Computerimplementiertes Verfahren nach Anspruch 16, wobei eine Affinitätsmatrix basierend auf dem Ähnlichkeitswert berechnet wird und wobei die Affinitätsmatrix durch das wortüberlappungsbasierte spektrale Cluster-Verfahren verwendet wird, um Cluster-Zuordnungen von verschiedenen Eingaben zu erzeugen, die die Freiformtextkommentare umfassen.
Computerimplementiertes Verfahren nach Anspruch 17, wobei das Ausmaß an Wortüberlappung als Schnittmenge von zwei Sätzen von Freiformtextkommentaren berechnet wird.
Computerimplementiertes Verfahren nach Anspruch 15, wobei Cluster-Zuordnungen, die durch das wortüberlappungsbasierte spektrale Cluster-Verfahren vorgenommen werden, als Pseudobeschriftungen konfiguriert sind.
Computerprogrammprodukt für einen kreuzmodalen Datenabruf bzw. eine kreuzmodale Datenwiedergewinnung, wobei das Computerprogrammprodukt ein nicht transitorisches computerlesbares Speichermedium mit darin enthaltenen Programmanweisungen bzw. damit verkörperten Programmanweisungen umfasst, wobei die Programmanweisungen durch einen Computer ausführbar sind, um zu veranlassen, dass der Computer ein Verfahren durchführt, das folgendes umfasst: gemeinsames Trainieren (300) eines neuronalen Netzes mit einem Zeitreihencodierer und einem Textcodierer unter Verwendung einer unüberwachten Trainingsmethode, die auf einer Verlustfunktion basiert, wobei die Verlustfunktion eine Ähnlichkeit von Merkmalsvektoren von Trainingssätzen von zwei unterschiedlichen Modalitäten von Zeitreihen und Freiformtextkommentaren und eine Kompatibilität der Zeitreihe und der Freiformtextkommentare mit einem wortüberlappungsbasierten spektralen Cluster-Verfahren, das konfiguriert ist, um Pseudobeschriftungen für die unüberwachte Trainingsmethode zu berechnen, gemeinsam auswertet; Speichern (330), in einer Datenbank, der Trainingssätze mit Merkmalsvektoren, die aus Codierungen der Trainingssätze extrahiert sind, wobei die Codierungen durch Codieren eines Trainingssatzes der Zeitreihe unter Verwendung des Zeitreihencodierer und Codieren eines Trainingssatzes der Freiformtextkommentare unter Verwendung des Textcodierer erhalten werden; Abrufen (360) der Merkmalsvektoren entsprechend wenigstens einer der zwei unterschiedlichen Modalitäten aus der Datenbank für ein Einfügen in einen Merkmalsraum zusammen mit wenigstens einem Merkmalsvektor entsprechend einer Testeingabe in Bezug auf wenigstens eine Testzeitreihe und einen Test-Freiformtextkommentar; und Bestimmen (370) eines Satzes bzw. einer Gruppe von nächsten Nachbarn aus den Merkmalsvektoren im Merkmalsraum basierend auf Abstands- bzw. Entfernungskriterien und Ausgeben von Testergebnissen für die Testeingabe basierend auf der Gruppe von nächsten Nachbarn.