WO2024002693A1

WO2024002693A1 - Verfahren zum abschätzen von modellunsicherheiten mittels eines neuronalen netzes und eine architektur des neuronalen netzes

Info

Publication number: WO2024002693A1
Application number: PCT/EP2023/065902
Authority: WO
Inventors: Michael Volpp; Gerhard Neumann
Original assignee: Robert Bosch Gmbh
Priority date: 2022-06-29
Filing date: 2023-06-14
Publication date: 2024-01-04
Also published as: DE102022206629A1

Abstract

Die Offenbarung betrifft ein computerimplementiertes Verfahren (100) zum Abschätzen von Unsicherheiten mittels eines neuronalen Netzes (200), insbesondere ein neuronaler Prozess, bei einem Modell, wobei das Modell ein technisches System und/oder ein Systemverhalten des technischen Systems modelliert, und eine Architektur des neuronalen Netzes (200) zum Abschätzen von Unsicherheiten.

Description

Beschreibung

Verfahren zum Abschätzen von Modellunsicherheiten mittels eines neuronalen Netzes und eine Architektur des neuronalen Netzes

Stand der Technik

Die Offenbarung betrifft ein Verfahren zum Abschätzen von Unsicherheiten mittels eines neuronalen Netzes und eine Architektur des neuronalen Netzes.

In technischen Systemen, insbesondere sicherheitskritischen, technischen Systemen, können Modelle, insbesondere Modelle für aktives Lernen, bestärkendes Lernen oder Extrapolation, zur Prädiktion von Unsicherheiten, beispielsweise mittels neuronalen Netzen, eingesetzt werden.

In letzter Zeit werden verstärkt neuronale Prozesse für die Vorhersage von Modellunsicherheiten eingesetzt. Neuronale Prozesse sind im Wesentlichen eine Familie von Architekturen auf der Grundlage neuronaler Netze, die probabilistische Vorhersagen für Regressionsprobleme erstellen. Sie lernen automatisch induktive Verzerrungen, die auf eine Klasse von Zielfunktionen mit einer Art gemeinsamer Struktur zugeschnitten sind, beispielsweise quadratische Funktionen oder Dynamikmodelle eines bestimmten physikalischen Systems mit variierenden Parametern. Neuronale Prozesse werden mit sogenannten Multi- Task-Trainingsverfahren trainiert, wobei eine Funktion einer Aufgabe entspricht. Das daraus resultierende Modell liefert genaue Vorhersagen über unbekannte Zielfunktionen auf der Grundlage von nur wenigen Kontextbeobachtungen.

Zur Einspeisung der Kontextbeobachtungen in die Architektur wird ein sogenannter Aggregationsmechanismus verwendet. Ein solcher Mechanismus ermöglicht es, jeweils ein Kontexttupel, d. h. ein Eingabe-Ausgabe-Paar (x,y) aus der Zielfunktion, durch ein Encodernetzwerk zu leiten, das jedes Kontexttupel auf eine latente Beobachtung r abbildet. Anschließend werden alle latenten Beobachtungen durch eine Art Kontraktionsoperation aggregiert. Traditionell verwenden neuronale Prozesse Mittelwertaggregation, d.h. der Aggregationsmechanismus nimmt den Mittelwert über alle latenten Beobachtungen. Daneben ist es auch bekannt, eine Bayesische Kontextaggregation, engl. Bayesian Context Aggregation in neuronalen Prozessen zu verwenden. Im Gegensatz zur Mittelwertaggregation, bei der allen latenten Beobachtungen eine einheitliche Gewichtung von 1/N, wobei N die Größe der Kontextmenge ist, zugewiesen wird, ermöglicht Bayesische Kontextaggregation eine Gewichtung der latenten Beobachtungen nach einem erlernten Maß für die Mehrdeutigkeit der Aufgabe. Dies ist relevant, da verschiedene Kontexttupel unterschiedliche Mengen an Informationen über die Identität der Zielfunktion enthalten. Befindet sich das Kontexttupel in einem Bereich des x-y-Raums mit hoher Aufgabenmehrdeutigkeit, d.h. es könnte von vielen Funktionen aus der zugrundeliegenden Funktionsklasse generiert werden, ist die von diesem Kontexttupel übermittelte Informationsmenge gering. Daher muss das Gewicht der entsprechenden latenten Beobachtung in der aggregierten Menge ebenfalls gering sein, und umgekehrt muss bei einer hohen Informationsmenge das Gewicht ebenfalls hoch sein. Bei der Bayesischen Kontextaggregation wird eine aufgabenambiguitätsabhängige Gewichtung durch Hinzufügen eines zweiten Encodernetzwerks erreicht. Das zweite Encodernetzwerk lernt, die Aufgabenambiguität jedes Kontexttupels durch die Varianz der latenten Beobachtung zu quantifizieren. Diese Kodiererausgabe moduliert dann das Gewicht der entsprechenden latenten Beobachtung gemäß einem Bayesischen Beobachtungsmodell. Grundsätzlich zeigen experimentelle Ergebnisse, dass Bayesische Kontextaggregation die Vorhersageleistung von neuronalen Prozessen im Vergleich zu traditionellen Mittelwertaggregation verbessert.

Eine Aufgabe der vorliegenden Offenbarung ist es, ein Verfahren und eine Architektur bereitzustellen, die die Vorhersageleistung von Bayesische Kontextaggregation und die Vorteile, beispielsweise die ungleichmäßige Gewichtung der latenten Beobachtungen in der Aggregation, mindestens beibehalten oder verbessern können und dabei parametereffizienter als Bayesische Kontextaggregation sind.

Offenbarung der Erfindung Diese Aufgabe wird mit einem Verfahren gemäß den beschriebenen Ausführungsformen gelöst.

Eine Ausführungsform betrifft ein computerimplementiertes Verfahren zum Abschätzen von Unsicherheiten mittels eines neuronalen Netzes, insbesondere ein neuronaler Prozess, bei einem Modell, wobei das Modell ein technisches Systems und/oder ein Systemverhalten des technischen Systems modelliert, wobei in einem Schritt basierend auf einer Anzahl N an latenten Beobachtungen r_n, mit n=1... N, eine Modellunsicherheit a_z ² als Varianz einer latenten Gauß- Verteilung und ein Mittelwert ._z der latenten Gauß-Verteilung bestimmt wird, wobei die Modellunsicherheit a_z ² und der Mittelwert ._z in Abhängigkeit der latenten Beobachtungen r_n und einem Hyperparameter T bestimmt wird und in einem weiteren Schritt die latente Gauß-Verteilung durch die Varianz a_z ² und den Mittelwert ._z parametrisiert wird. Es sei angemerkt, dass das Modell anhand von Messungen an dem technischen System erstellt wurde.

Das Einführen des Hyperparameter T, auch Softmax-Temperatur, ermöglicht eine ungleichmäßige Gewichtung der latenten Beobachtungen, erfordert aber kein zweites Encoder-Netzwerk. Die Verwendung des zusätzlichen trainierbaren Hyperparameters ermöglicht eine sogenannte "Softmax-Aggregation", die herkömmliche Aggregationsverfahren, wie beispielsweise Mittelwert-Aggregation, Max-Aggregation oder Bayesische Aggregation, in auf neuronalen Prozessen basierenden Architekturen ersetzen kann.

Durch die gemäß der Offenbarung beschriebene "Softmax-Aggregation", wird die vorstehend beschriebene Bayesische Aggregation stark vereinfacht, indem die "Softmax-Aggregation" eine feste Abhängigkeit der Varianzen o² _n der latenten Beobachtungen von den latenten Beobachtungen r_n wie folgt vorschreibt:

Dies bedeutet, dass kein separates Encoder-Netzwerk zur Berechnung von o² _n erforderlich ist. Dadurch wird die Anzahl von zu lernenden Parametern reduziert. Die feste Abhängigkeit der Varianzen o² _n von den I latenten Beobachtungen r_n und dem Hyperparameter T kann in den bekannten Bayesischen Aggregationsgleichungen eingesetzt werden. Die resultierenden Gleichungen bilden dann die "Softmax-Aggregation'-Gleichungen:

Gemäß einer Ausführungsform ist vorgesehen, dass die latenten Beobachtungen r_n durch Abbilden von Kontextdatenpaaren x_n,y_n mittels eines neuronalen Encoder-Netzwerks auf eine entsprechende latente Beobachtung r_n erzeugt werden. Anschließend erfolgt die Berechnung von o_z und y._z gemäß den beschriebenen Gleichungen und die Parametrisierung der latenten Gaußverteilung mit diesen Parametern.

Es kann vorgesehen sein, dass der Hyperparameter T mittels des neuronalen Encoder-Netzwerks zum Abbilden der Kontextdatenpaaren x_n,y_n erzeugt wird.

Es kann beispielsweise vorteilhaft sein, wenn der Hyperparameter T zusammen mit Parametern des neuronalen Encoder-Netzwerks zum Abbilden der Kontextdatenpaaren x_n,y_n gelernt wird, beispielsweise in einem gemeinsamen Lernverfahren.

Gemäß einer weiteren Ausführungsform ist vorgesehen, dass der Hyperparameter T unabhängig durch Hyperparameteroptimierung bestimmt wird.

Gemäß einer weiteren Ausführungsform ist vorgesehen, dass mittels eines neuronalen Decoder-Netzwerks basierend auf der latenten Gauß-Verteilung, insbesondere basierend auf einer Eingabestelle x und basierend auf einer von der Gauß-Verteilung abgeleiteten latenten Stichprobe z, eine Varianz einer Ausgabe des Modells, auch Ausgabevarianz oy², bestimmt wird. Das neuronale Decoder-Netzwerk kann somit Vorhersagen über Zielvariablen y an Orten x auf der Grundlage von Stichproben z aus der latenten Gauß-Verteilung berechnen. Gemäß einer weiteren Ausführungsform ist vorgesehen, dass mittels eines weiteren neuronalen Decoder-Netzwerks basierend auf der latenten Gauß- Verteilung, insbesondere basierend auf einer Eingabestelle x und basierend auf einer von der Gauß-Verteilung abgeleiteten latenten Stichprobe z, ein Mittelwert fiy der Ausgabe des Modells bestimmt wird. Der Mittelwert //y, insbesondere in Kombination mit der Ausgabevarianz, liefert eine Schätzung von Zielvariablen y.

Weitere Ausführungsformen betreffen eine Architektur eines neuronalen Netzes, insbesondere eines neuronalen Prozesses, wobei das neuronale Netz ausgebildet ist, Schritte eines Verfahrens gemäß den beschriebenen Ausführungsformen zum Abschätzen von Unsicherheiten bei einem Modell, wobei das Modell ein technisches System und/oder ein Systemverhalten des technischen Systems modelliert, auszuführen.

Gemäß einer Ausführungsform umfasst das neuronale Netz wenigstens ein neuronales Encoder-Netzwerk und/oder wenigstens ein neuronales Decoder- Netzwerk, wobei das neuronale Encoder-Netzwerk dazu trainiert ist, basierend auf Kontextdatenpaaren x_n, y_n latente Beobachtungen r_n zu erzeugen und/oder wobei das neuronale Decoder-Netzwerk dazu trainiert ist, basierend auf der latenten Gauß-Verteilung eine Varianz einer Ausgabe des Modells, auch Ausgabevarianz oy², und/oder einen Mittelwert ._y der Ausgabe des Modells zu bestimmen.

Weitere Ausführungsformen betreffen eine Vorrichtung umfassend ein neuronales Netz, insbesondere einen neuronalen Prozess, mit einer Architektur gemäß den beschriebenen Ausführungsformen, wobei die Vorrichtung zum Ausführen von Schritten eines Verfahrens gemäß den beschriebenen Ausführungsformen ausgebildet ist.

Weitere Ausführungsformen betreffen ein Verwenden eines Verfahrens gemäß den beschriebenen Ausführungsformen und/oder eines neuronalen Netzes, insbesondere eines neuronalen Prozesses, mit einer Architektur gemäß den beschriebenen Ausführungsformen, zum Ermitteln einer, insbesondere unzulässigen, Abweichung eines Systemverhaltens eines technischen Systems von einem Normwertebereich. Es sei angemerkt, dass abhängig von einer ermittelten Abweichung das technische System in einen sichern Betriebsmodus geschaltet oder eine Warnung ausgegeben werden kann.

Beim Ermitteln der Abweichung des technischen Systems nutzt ein künstliches neuronales Netz, dem in einer Lernphase Eingangsdaten und Ausgangsdaten der technischen Einrichtung zugeführt werden. Durch den Vergleich mit den Eingangs- und Ausgangsdaten des technischen Systems werden die entsprechenden Verknüpfungen in dem künstlichen neuronalen Netz geschaffen und das neuronale Netz auf das Systemverhalten des technischen Systems trainiert.

In einer sich an die Lernphase anschließenden Prädiktionsphase kann mittels des neuronalen Netzes das Systemverhalten des technischen Systems zuverlässig vorhergesagt werden. Hierzu werden in der Prädiktionsphase dem neuronalen Netz Eingangsdaten des technischen Systems zugeführt und im neuronalen Netz Ausgangsvergleichsdaten berechnet, welche mit Ausgangsdaten des technischen Systems verglichen werden. Ergibt sich bei diesem Vergleich, dass die Differenz der Ausgangsdaten des technischen Systems, welche vorzugsweise als Messwerte erfasst werden, von den Ausgangsvergleichsdaten des neuronalen Netzes abweichen und die Abweichung einen Grenzwert übersteigt, so liegt eine unzulässige Abweichung des Systemverhaltens des technischen Systems von dem Normwertebereich vor. Daraufhin können geeignete Maßnahmen ergriffen werden, beispielsweise ein Warnsignal erzeugt oder abgespeichert oder Teilfunktionen des technischen Systems deaktiviert werden (Degradation der technischen Einrichtung). Gegebenenfalls kann im Fall der unzulässigen Abweichung auf alternative technische Einrichtungen ausgewichen werden.

Mithilfe des vorbeschriebenen Verfahrens kann ein reales technisches System fortlaufend überwacht werden. In der Lernphase wird das neuronale Netz mit ausreichend vielen Informationen des technischen Systems sowohl von dessen Eingangsseite als auch von dessen Ausgangsseite gespeist, so dass des technischen Systems mit hinreichender Genauigkeit in dem neuronalen Netz abgebildet und simuliert werden kann. Dies erlaubt es in der sich daran anschließenden Prädiktionsphase, das technische System zu überwachen und eine Verschlechterung des Systemverhaltens zu prädizieren. Auf diese Weise kann insbesondere die Restnutzungsdauer des technischen Systems vorhergesagt werden.

Weitere Merkmale, Anwendungsmöglichkeiten und Vorteile der Offenbarung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen der Erfindung, die in den Figuren der Zeichnung dargestellt sind. Dabei bilden alle beschriebenen oder dargestellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der Offenbarung, unabhängig von ihrer Zusammenfassung in den Patentansprüchen oder deren Rückbeziehung sowie unabhängig von ihrer Formulierung bzw. Darstellung in der Beschreibung bzw. in der Zeichnung. In der Zeichnung zeigt:

Fig. 1 schematisch ein Verfahren zum Abschätzen von Unsicherheiten gemäß einer Ausführungsform, und

Fig. 2 eine Architektur eines neuronalen Prozesses gemäß einer Ausführungsform.

Im Folgenden wird anhand der Figuren ein computerimplementiertes Verfahren zum Abschätzen von Unsicherheiten mittels eines neuronalen Netzes, insbesondere ein neuronaler Prozess, bei einem Modell, wobei das Modell ein technisches System und/oder ein Systemverhalten des technischen Systems modelliert, beschrieben.

Das Verfahren 100 umfasst einen Schritt 110, wobei in dem Schritt 110 basierend auf einer Anzahl N an latenten Beobachtungen r_n, mit n=1... N, eine Modellunsicherheit a_z ² als Varianz einer latenten Gauß-Verteilung und ein Mittelwert ._z der latenten Gauß-Verteilung bestimmt wird, wobei die Modellunsicherheit a_z ² und der Mittelwert ._z in Abhängigkeit der latenten Beobachtungen r_n und einem Hyperparameter T bestimmt wird.

Die Abhängigkeit der Varianzen o² _n der latenten Beobachtungen von den latenten Beobachtungen r_n und des Hyperparameters T ist dabei wie folgt vorgeschrieben:

Die feste Abhängigkeit der Varianzen o² _n von den I latenten Beobachtungen r_n und dem Hyperparameter T kann in bekannte Bayesische Aggregationsgleichungen

eingesetzt werden. Die resultierenden Gleichungen bilden dann die "Softmax- Aggregation'-Gleichungen:

Bei den resultierenden Gleichungen wird n_zfi = 0 und G_{Z 0} oo vorrausgesetzt.

Die Verwendung des zusätzlichen trainierbaren Hyperparameter T ermöglicht eine sogenannte "Softmax-Aggregation", die herkömmliche Aggregationsverfahren, wie beispielsweise Mittelwert-Aggregation, Max- Aggregation oder Bayesische Aggregation, in auf neuronalen Prozessen basierenden Architekturen ersetzen kann. Dabei kann es vorteilhaft sein, dass die "Softmax-Aggregation" die traditionelle Mittelwert- und Max-Aggregation vereint: Die Mittelwertaggregation wird in der Grenze T— >°° und die Max- Aggregation in der Grenze T— >0 wiederhergestellt.

Das Verfahren umfasst weiter einen Schritt 120 wobei in dem Schritt 120 die latente Gauß-Verteilung durch die Varianz a_z ² und den Mittelwert ._z parametrisiert wird. Gemäß einer Ausführungsform ist vorgesehen, dass die latenten Beobachtungen r_n durch Abbilden von Kontextdatenpaaren x_n,y_n mittels eines neuronalen Encoder-Netzwerks auf eine entsprechende latente Beobachtung r_n erzeugt werden, vgl. Schritt 130. Anschließend erfolgt die Berechnung von o_z und y._z gemäß den beschriebenen Gleichungen, vgl. Schritt 110, und die Parametrisierung der latenten Gaußverteilung mit diesen Parametern, vgl. Schritt 120.

Der Hyperparameter wird beispielsweise in einem der Verfahren 100 vorangehenden Trainings- und/oder Optimierungsverfahren, vgl. Schritt 140, bestimmt. Es kann vorgesehen sein, dass der Hyperparameter T mittels des neuronalen Encoder-Netzwerks zum Abbilden der Kontextdatenpaaren x_n,y_n erzeugt wird. Es kann beispielsweise vorteilhaft sein, wenn der Hyperparameter T zusammen mit Parametern des neuronalen Encoder-Netzwerks zum Abbilden der Kontextdatenpaaren x_n,y_n gelernt wird, beispielsweise in einem gemeinsamen Lernverfahren. Gemäß einer weiteren Ausführungsform ist vorgesehen, dass der Hyperparameter T unabhängig durch Hyperparameteroptimierung bestimmt wird.

Gemäß einer weiteren Ausführungsform ist vorgesehen, dass mittels eines neuronalen Decoder-Netzwerks basierend auf der latenten Gauß-Verteilung, insbesondere basierend auf einer Eingabestelle x und basierend auf einer von der Gauß-Verteilung abgeleiteten latenten Stichprobe z, eine Varianz einer Ausgabe des Modells, auch Ausgabevarianz oy², bestimmt wird, vgl. Schritt 150. Das neuronale Decoder-Netzwerk kann somit Vorhersagen über Zielvariablen y an Orten x auf der Grundlage von Stichproben z aus der latenten Gauß- Verteilung berechnen.

Gemäß einer weiteren Ausführungsform ist vorgesehen, dass mittels eines weiteren neuronalen Decoder-Netzwerks basierend auf der latenten Gauß- Verteilung, insbesondere basierend auf einer Eingabestelle x und basierend auf einer von der Gauß-Verteilung abgeleiteten latenten Stichprobe z, ein Mittelwert fiy der Ausgabe des Modells bestimmt wird, vgl. Schritt 150. Der Mittelwert /z_y, insbesondere in Kombination mit der Ausgabevarianz, liefert eine Schätzung von Zielvariablen y. Fig. 2 zeigt eine Architektur eines neuronalen Netzes 200, insbesondere einen neuronalen Prozess, wobei das neuronale Netz 200 ausgebildet ist, Schritte eines Verfahrens 100 gemäß den beschriebenen Ausführungsformen zum Abschätzen von Unsicherheiten bei einem Modell, wobei das Modell ein technisches System und/oder ein Systemverhalten des technischen Systems modelliert, auszuführen.

Das neuronale Netz 200 umfasst gemäß Fig. 2 ein neuronales Encoder- Netzwerk 210. Das neuronale Encoder-Netzwerk 210 ist dazu trainiert, die latenten Beobachtungen r_n durch Abbilden von Kontextdatenpaaren x_n,y_n auf eine entsprechende latente Beobachtung r_n zu erzeugen.

Das neuronale Netz 200 umfasst gemäß Fig. 2 ein erstes neuronales Decoder- Netzwerk 220, wobei das erste neuronale Decoder-Netzwerk 220 dazu trainiert ist, auf einer Eingabestelle x und einer latenten Stichprobe z die Varianz einer Ausgabe des Modells, auch Ausgabevarianz a_y ², zu bestimmen.

Das neuronale Netz 200 umfasst gemäß Fig. 2 ein weiteres neuronales Decoder- Netzwerk 230, wobei das weitere neuronales Decoder-Netzwerk 230 trainiert ist, basierend auf einer Eingabestelle x und einer latenten Stichprobe z einen Mittelwert ._y der Ausgabe zu bestimmen. Der Mittelwert /z_y, insbesondere in Kombination mit der Ausgabevarianz, liefert eine Schätzung von Zielvariablen y.

Weitere Ausführungsformen betreffen die Verwendung des Verfahrens 100 gemäß den beschriebenen Ausführungsformen und/oder eines neuronalen Netzes 200, insbesondere eines neuronalen Prozesses, mit einer Architektur gemäß den beschriebenen Ausführungsformen zum Ermitteln einer, insbesondere unzulässigen, Abweichung eines Systemverhaltens eines technischen Systems von einem Normwertebereich.

Eine Mehrzahl von in der Lernphase verwendeten Trainings-Datensätzen kann an dem technischen System gemessene und/oder für das technische System berechnete Eingangsgrößen umfassen. Die Mehrzahl von Trainings-Datensätzen kann Information in Bezug auf Betriebszustände des technischen Systems enthalten. Zusätzlich oder alternativ kann die Mehrzahl von Trainings- Datensätzen Informationen bezüglich der Umwelt des technischen Systems enthalten. In manchen Beispielen kann die Mehrzahl von Trainings-Datensätzen Sensordaten enthalten. Das Computer-implementierte Maschinenlernsystem kann für ein gewisses technisches System trainiert sein, um in diesem technischen System und/oder in dessen Umgebung anfallende Daten (z.B. Sensordaten) zu verarbeiten und eine oder mehrere für Überwachung und/oder Steuerung des technischen Systems relevante Ausgangsgröße zu berechnen. Das kann während der Auslegung des technischen Systems passieren. In diesem Fall kann das Computer-implementierte Maschinenlernsystem zur Berechnung der entsprechenden Ausgangsgrößen in Abhängigkeit von den Eingangsgrößen verwendet werden. Die gewonnenen Daten können dann in eine Überwachungs- und/oder Steuervorrichtung für das technische System eingepflegt werden. In anderen Beispielen kann das Computer-implementierte Maschinenlernsystem im Betrieb des technischen Systems eingesetzt werden, um Überwachungs- und/oder Kontrollaufgaben auszuführen.

Konkrete Anwendungsformen betreffen beispielsweise Anwendungen in verschiedenen technischen Vorrichtungen und Systemen. Zum Beispiel können die Computer-implementierten Maschinenlernsystems zur Kontrolle und / oder zum Überwachen einer Vorrichtung eingesetzt werden.

Ein erstes Beispiel betrifft die Auslegung einer technischen Vorrichtung oder eines technischen Systems. In diesem Zusammenhang können die Trainings- Datensätze Messdaten und/oder synthetische Daten und/oder Software-Daten enthalten, die für die Betriebszustände der technischen Vorrichtung oder eines technischen Systems eine Rolle spielen. Die Eingangs- bzw. Ausgangsdaten können Zustandsgrößen der technischen Vorrichtung oder eines technischen Systems und/oder Steuergrößen der technischen Vorrichtung oder eines technischen Systems sein. In einem Beispiel kann das Erzeugen des Computerimplementierten probabilistischen Maschinenlernsystems (z.B. ein probabilistischer Regressor oder Klassifikator) das Abbilden von einem Eingangsvektor einer Dimension (H ) zu einem Ausgangsvektor einer zweiten Dimension (IR^m) umfassen. Hier kann beispielweise der Eingangsvektor Elemente einer Zeitreihe für mindestens eine gemessene Eingangszustandsgröße der Vorrichtung darstellen. Der Ausgangsvektor kann mindestens eine geschätzte Ausgangszustandsgröße der Vorrichtung darstellen, die anhand der erzeugten A-Posteriori prädiktiven Verteilung vorhergesagt wird. In einem Beispiel kann die technische Vorrichtung eine Maschine, bspw. ein Motor (z.B. ein Verbrennungsmotor, ein Elektromotor oder ein Hybridmotor) sein. Die technische Vorrichtung kann in anderen Beispielen eine Brennstoffzelle sein. In einem Beispiel kann die gemessene Eingangszustandsgröße der Vorrichtung eine Drehzahl, eine Temperatur oder einen Massenstrom umfassen. In anderen Beispielen kann die gemessene Eingangszustandsgröße der Vorrichtung eine Kombination davon umfassen. In einem Beispiel kann die geschätzte Ausgangszustandsgröße der Vorrichtung ein Drehmoment, ein Wirkungsgrad, ein Druckverhältnis umfassen. In anderen Beispielen kann die geschätzte Ausgangszustandsgröße eine Kombination davon umfassen.

Die verschiedenen Eingangs- und Ausgangsgrößen können in einer technischen Vorrichtung während des Betriebs komplexe nichtlineare Abhängigkeiten aufweisen. In einem Beispiel kann mittels der Computer-implementierten Maschinenlernsysteme dieser Offenbarung eine Parametrisierung eines Kennfeldes für die Vorrichtung (z.B. für einen Verbrennungsmotor, einen Elektromotor, einen Hybridmotor oder eine Brennstoffzelle) modelliert werden. Das modellierte Kennfeld des erfindungsgemäßen Verfahrens ermöglicht vor allem die richtigen Zusammenhänge zwischen den verschiedenen Zustandsgrößen der Vorrichtung im Betrieb schnell und genau bereitzustellen. Das in dieser Art modellierte Kennfeld kann beispielweise im Betrieb der Vorrichtung (z.B. des Motors) zur Überwachung und/oder Kontrolle des Motors eingesetzt werden (beispielsweise in einer Motorsteuervorrichtung). In einem Beispiel kann das Kennfeld angeben, wie ein dynamisches Verhalten (z.B. ein Energieverbrauch) einer Maschine (z.B. eines Motors) von verschiedenen Zustandsgrößen der Maschine (z.B. Drehzahl, Temperatur, Massenstrom, Drehmoment, Wirkungsgrad und Druckverhältnis) abhängt.

Die Computer-implementierten Maschinenlernsysteme können eingesetzt werden zur Klassifikation einer Zeitreihe, insbesondere der Klassifikation von Bilddaten (d.h. die technische Vorrichtung ist ein Bildklassifikator). Die Bilddaten können zum Beispiel Kamera- , Lidar-, Radar-, Ultraschall- oder thermische Bilddaten sein (z.B. erzeugt von entsprechenden Sensoren). In manchen Beispielen können die Computer-implementierten Maschinenlernsysteme für eine Überwachungsvorrichtung (zum Beispiel eines Herstellungsprozesses und/oder zur Qualitätssicherung) oder für ein medizinisches Bildgebungssystem (zum Beispiel zum Befunden von diagnostischen Daten) ausgelegt sein oder in einer solchen Vorrichtung eingesetzt werden.

In anderen Beispielen (oder zusätzlich) können die Computer-implementierten Maschinenlernsysteme ausgelegt sein oder eingesetzt werden, um den Betriebszustand und/oder die Umgebung eines zumindest teilautonomen Roboters zu überwachen. Der zumindest teilautonome Roboter kann ein autonomes Fahrzeug sein (oder ein anderes zumindest teilautonomes Fortbewegungs- oder Transportmittel). In anderen Beispielen kann der zumindest teilautonome Roboter ein Industrieroboter sein. Beispielsweise kann unter Verwendung von Daten von Positions- und//oder Geschwindigkeits- und/oder Drehmomentsensoren, insbesondere eines Roboterarms, mittels der beschrieben Regression eine präzise probabilistische Schätzung von Position und/oder Geschwindigkeit, insbesondere des Roboterarms, bestimmt werden. In anderen Beispielen kann die technische Vorrichtung eine Maschine oder eine Gruppe von Maschinen (z.B. einer Industrielage) sein. Zum Beispiel kann ein Betriebszustand einer Werkzeugmaschine überwacht werden. In diesen Beispielen kann die Ausgangsdaten y Information bezüglich des Betriebszustands und/oder der Umgebung der jeweiligen technischen Vorrichtung enthalten.

In weiteren Beispielen kann das zu überwachende System ein Kommunikationsnetzwerk sein. In manchen Beispielen kann das Netzwerk ein Telekommunikationsnetzwerk (z.B. ein 5-G Netzwerk) sein. In diesen Beispielen können die Eingangsdaten x Auslastungsdaten in Knoten des Netzwerks und die Ausgangsdaten y Information bezüglich der Zuteilung von Ressourcen (z.B. Kanäle, Bandbreite in Kanälen des Netzwerks oder andere Ressourcen) enthalten. In anderen Beispielen kann eine Netzwerkfehlfunktion erkannt werden.

In anderen Beispielen (oder zusätzlich) können die Computer-implementierten Maschinenlernsysteme ausgelegt sein oder eingesetzt werden zur Steuerung (oder Regelung) einer technischen Vorrichtung. Die technische Vorrichtung kann wiederum eine der oben (oder unten) diskutierten Vorrichtungen sein (z.B. ein zumindest teilautonomer Roboter oder eine Maschine). In diesen Beispielen kann die Ausgangsdaten y eine Steuergröße des jeweiligen technischen Systems enthalten.

In wieder anderen Beispielen (oder zusätzlich) können die Computerimplementierten Maschinenlernsysteme ausgelegt sein oder eingesetzt werden, um ein Signal zu filtern. In manchen Fällen kann das Signal ein Audiosignal oder ein Videosignal sein. In diesen Beispielen kann die Ausgangsdaten y ein gefiltertes Signal enthalten.

Die Verfahren zum Erzeugen und Anwenden von Computer-implementierten Maschinenlernsystemen der vorliegenden Offenbarung können auf einem computerimplementierten System ausgeführt werden. Das computerimplementierte System kann mindestens einen Prozessor, mindestens einen Speicher (der Programme enthalten kann, die, wenn ausgeführt, die Verfahren der vorliegenden Offenbarung ausführen) sowie mindestens eine Schnittstelle für Eingänge und Ausgänge aufweisen. Das computerimplementierte System kann ein Stand-alone System oder ein verteiltes System sein, dass über ein Netzwerk (z.B. das Internet) kommuniziert.

Die vorliegende Offenbarung betrifft auch Computer-implementierten Maschinenlernsysteme, die mit den Verfahren der vorliegenden Offenbarung erzeugt werden. Die vorliegende Offenbarung betrifft auch Computerprogramme, welche eingerichtet sind, alle Schritte der Verfahren der vorliegenden Offenbarung auszuführen. Darüber hinaus betrifft die vorliegende Offenbarung maschinenlesbares Speichermedien (z.B. optische Speichermedien oder Festspeicher, beispielsweise FLASH-Speicher), auf denen Computerprogramme gespeichert sind, welche eingerichtet sind, alle Schritte der Verfahren der vorliegenden Offenbarung auszuführen.

Claims

Ansprüche

1. Computerimplementiertes Verfahren (100) zum Abschätzen von Unsicherheiten mittels eines neuronalen Netzes (200, 300), insbesondere ein neuronaler Prozess, bei einem Modell, wobei das Modell ein technisches Systems und/oder ein Systemverhalten des technischen Systems modelliert, wobei in einem Schritt (110) basierend auf einer Anzahl N an latenten Beobachtungen (r„), mit n=1... N, eine Modellunsicherheit (o-_z ²) als Varianz einer latenten Gauß-Verteilung und ein Mittelwert ( z_z) der latenten Gauß- Verteilung bestimmt wird, wobei die Modellunsicherheit (o-_z ²) und der Mittelwert ( z_z) in Abhängigkeit der latenten Beobachtungen (r„) und einem Hyperparameter (T) bestimmt wird und in einem weiteren Schritt (120) die latente Gauß-Verteilung durch die Varianz (o-_z ²) und den Mittelwert ( z_z) parametrisiert wird.

2. Verfahren (100) nach Anspruch 1, wobei die latenten Beobachtungen (r„) durch Abbilden von Kontextdatenpaaren (x_n,y_n) mittels eines neuronalen Encoder-Netzwerks auf eine entsprechende latente Beobachtung (r„) erzeugt werden.

3. Verfahren (100) nach Anspruch 2, wobei der Hyperparameter (T) mittels des neuronalen Encoder-Netzwerks (210) zum Abbilden der Kontextdatenpaaren (x_n,y_n) erzeugt wird.

4. Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei der Hyperparameter (T) zusammen mit Parametern des neuronalen Encoder- Netzwerks (210) zum Abbilden der Kontextdatenpaaren (x_n,y_n) gelernt wird.

5. Verfahren (100) nach Anspruch 1 oder 2, wobei der Hyperparameter (T) unabhängig durch Hyperparameteroptimierung bestimmt wird.

6. Verfahren (100) nach einem der vorgehergehenden Ansprüche, wobei mittels eines ersten neuronalen Decoder-Netzwerks (220) basierend auf der latenten Gauß-Verteilung, insbesondere basierend auf einer Eingabestelle (x) und basierend auf einer von der Gauß-Verteilung abgeleiteten latenten Stichprobe (z), eine Varianz einer Ausgabe des Modells, auch Ausgabevarianz (o-_y ²), bestimmt wird.

7. Verfahren (100) nach einem der vorgehergehenden Ansprüche, wobei mittels eines weiteren neuronalen Decoder-Netzwerks (230) basierend auf der latenten Gauß-Verteilung, insbesondere basierend auf einer Eingabestelle (x) und basierend auf einer von der Gauß-Verteilung abgeleiteten latenten Stichprobe (z), ein Mittelwert (/z_y) der Ausgabe des Modells bestimmt wird.

8. Architektur eines neuronalen Netzes (200), insbesondere eines neuronalen Prozesses, wobei das neuronale Netz (200) ausgebildet ist, Schritte eines Verfahrens (100) gemäß einem der Ansprüche 1 bis 7 zum Abschätzen von Unsicherheiten bei einem Modell, wobei das Modell ein technisches System und/oder ein Systemverhalten des technischen Systems modelliert, auszuführen.

9. Architektur nach Anspruch 8, wobei das neuronale Netz (200) wenigstens ein neuronales Encoder-Netzwerk (210) und/oder wenigstens ein neuronales Decoder-Netzwerk (220, 230) umfasst, wobei das neuronales Encoder- Netzwerk (210) dazu trainiert ist, basierend auf Kontextdatenpaaren (x_n,y_n) latente Beobachtungen (r„) zu erzeugen und/oder wobei das ein neuronale Decoder-Netzwerk (220, 230) dazu trainiert ist, basierend auf der latenten Gauß-Verteilung eine Varianz einer Ausgabe des Modells, auch Ausgabevarianz (oy²), und/oder einen Mittelwert ._y der Ausgabe des Modells zu bestimmen.

10. Vorrichtung umfassend ein neuronales Netz (200), insbesondere einen neuronalen Prozess, mit einer Architektur nach einem der Ansprüche 7 bis 9, wobei die Vorrichtung zum Ausführen von Schritten eines Verfahrens (100) nach einem der Ansprüche 1 bis 6 ausgebildet ist. Verwenden eines Verfahrens nach einem der Ansprüche 1 bis 6 und/oder eines neuronalen Netzes (200), insbesondere eines neuronalen Prozesses, mit einer Architektur nach einem der Ansprüche 8 bis 9 zum Ermitteln einer, insbesondere unzulässigen, Abweichung eines Systemverhaltens eines technischen Systems von einem Normwertebereich.