WO2024002693A1 - Verfahren zum abschätzen von modellunsicherheiten mittels eines neuronalen netzes und eine architektur des neuronalen netzes - Google Patents

Verfahren zum abschätzen von modellunsicherheiten mittels eines neuronalen netzes und eine architektur des neuronalen netzes Download PDF

Info

Publication number
WO2024002693A1
WO2024002693A1 PCT/EP2023/065902 EP2023065902W WO2024002693A1 WO 2024002693 A1 WO2024002693 A1 WO 2024002693A1 EP 2023065902 W EP2023065902 W EP 2023065902W WO 2024002693 A1 WO2024002693 A1 WO 2024002693A1
Authority
WO
WIPO (PCT)
Prior art keywords
neural
latent
neural network
network
model
Prior art date
Application number
PCT/EP2023/065902
Other languages
English (en)
French (fr)
Inventor
Michael Volpp
Gerhard Neumann
Original Assignee
Robert Bosch Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch Gmbh filed Critical Robert Bosch Gmbh
Publication of WO2024002693A1 publication Critical patent/WO2024002693A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn

Definitions

  • the disclosure relates to a method for estimating uncertainties using a neural network and an architecture of the neural network.
  • models in particular models for active learning, reinforcement learning or extrapolation, can be used to predict uncertainties, for example using neural networks.
  • Neural Processes are essentially a family of architectures based on neural networks that produce probabilistic predictions for regression problems. They automatically learn inductive biases tailored to a class of objective functions with some kind of common structure, such as quadratic functions or dynamics models of a given physical system with varying parameters. Neural processes are trained using so-called multi-task training procedures, where one function corresponds to one task. The resulting model provides accurate predictions about unknown objective functions based on just a few contextual observations.
  • a so-called aggregation mechanism is used to feed the context observations into the architecture.
  • Such a mechanism makes it possible to pass one context tuple at a time, i.e. an input-output pair (x,y) from the objective function, through an encoder network that maps each context tuple to a latent observation r. Then all latent ones Observations aggregated through a type of contraction operation.
  • neural processes use mean aggregation, that is, the aggregation mechanism takes the mean over all latent observations. It is also known to be a Bayesian context aggregation. Using Bayesian context aggregation in neural processes.
  • Bayesian context aggregation allows the latent observations to be weighted according to a learned measure of task ambiguity. This is relevant because different context tuples contain different amounts of information about the identity of the target function. If the context tuple is in a region of xy space with high task ambiguity, i.e. it could be generated by many functions from the underlying function class, the amount of information conveyed by this context tuple is small. Therefore, the weight of the corresponding latent observation in the aggregated set must also be low, and conversely, when the amount of information is large, the weight must also be high.
  • Bayesian context aggregation In Bayesian context aggregation, task ambiguity-dependent weighting is achieved by adding a second encoder network.
  • the second encoder network learns to quantify the task ambiguity of each context tuple through the variance of the latent observation.
  • This encoder output then modulates the weight of the corresponding latent observation according to a Bayesian observation model.
  • experimental results show that Bayesian context aggregation improves the predictive performance of neural processes compared to traditional mean aggregation.
  • An object of the present disclosure is to provide a method and architecture that can at least maintain or improve the predictive performance of Bayesian context aggregation and the advantages, such as the uneven weighting of the latent observations in the aggregation, while being more parameter efficient than Bayesian context aggregation.
  • z of the latent Gaussian distribution is determined, where the model uncertainty a z 2 and the mean .
  • z is determined depending on the latent observations r n and a hyperparameter T and in a further step the latent Gaussian distribution is determined by the variance a z 2 and the mean.
  • z is parameterized. It should be noted that the model was created based on measurements on the technical system.
  • hyperparameter T also known as softmax temperature
  • softmax aggregation can replace traditional aggregation methods, such as mean aggregation, max aggregation or Bayesian aggregation, in architectures based on neural processes.
  • the Bayesian aggregation described above is greatly simplified in that the "softmax aggregation" prescribes a fixed dependence of the variances o 2 n of the latent observations on the latent observations r n as follows:
  • the latent observations r n are generated by mapping context data pairs x n , y n onto a corresponding latent observation r n using a neural encoder network. Then o z and y are calculated. z according to the described equations and the parameterization of the latent Gaussian distribution with these parameters.
  • the hyperparameter T is generated by means of the neural encoder network for mapping the context data pairs x n ,y n .
  • hyperparameter T is learned together with parameters of the neural encoder network for mapping the context data pairs x n , y n , for example in a joint learning process.
  • the hyperparameter T is determined independently through hyperparameter optimization.
  • a variance of an output of the model is also determined by means of a neural decoder network based on the latent Gaussian distribution, in particular based on an input location x and based on a latent sample z derived from the Gaussian distribution Output variance oy 2 is determined.
  • the decoder neural network can thus calculate predictions about target variables y at locations x based on samples z from the latent Gaussian distribution.
  • a mean value fiy of the output of the model is determined.
  • the mean //y especially in combination with the output variance, provides an estimate of target variable y.
  • the neural network comprises at least one encoder neural network and/or at least one decoder neural network, wherein the encoder neural network is trained to generate latent observations r n based on context data pairs x n , y n and/or wherein the neural decoder network is trained to generate a variance of an output of the model, also output variance oy 2 , and/or a mean value based on the latent Gaussian distribution. y of the output of the model.
  • Further embodiments relate to using a method according to the described embodiments and/or a neural network, in particular a neural process, with an architecture according to the described embodiments, for determining a, in particular impermissible, deviation of a system behavior of a technical system from a standard value range. It should be noted that depending on one If the deviation is determined, the technical system can be switched to a safe operating mode or a warning can be issued.
  • an artificial neural network is used, to which input data and output data from the technical device are fed in a learning phase.
  • the corresponding links are created in the artificial neural network and the neural network is trained on the system behavior of the technical system.
  • the system behavior of the technical system can be reliably predicted using the neural network.
  • input data from the technical system is fed to the neural network and output comparison data is calculated in the neural network, which is compared with output data from the technical system. If this comparison shows that the difference between the output data of the technical system, which is preferably recorded as measured values, deviates from the output comparison data of the neural network and the deviation exceeds a limit value, then there is an impermissible deviation of the system behavior of the technical system from the standard value range .
  • Appropriate measures can then be taken, for example a warning signal can be generated or saved or partial functions of the technical system can be deactivated (degradation of the technical device). If necessary, alternative technical equipment can be used in the event of an impermissible deviation.
  • a real technical system can be continuously monitored.
  • the neural network is fed with a sufficient amount of information from the technical system both from its input side and from its output side, so that the technical system can be mapped and simulated with sufficient accuracy in the neural network.
  • This allows the subsequent prediction phase to monitor the technical system and predict a deterioration in system behavior. In this way In particular, the remaining useful life of the technical system can be predicted.
  • FIG. 2 shows an architecture of a neural process according to an embodiment.
  • a computer-implemented method for estimating uncertainties using a neural network, in particular a neural process, in a model, wherein the model models a technical system and/or a system behavior of the technical system, is described below using the figures.
  • the dependence of the variances o 2 n of the latent observations on the latent observations r n and the hyperparameter T is prescribed as follows:
  • the fixed dependence of the variances o 2 n on the I latent observations r n and the hyperparameter T can be expressed in well-known Bayesian aggregation equations be used.
  • the resulting equations then form the "softmax aggregation" equations:
  • the use of the additional trainable hyperparameter T enables so-called "softmax aggregation", which can replace conventional aggregation methods, such as mean aggregation, max aggregation or Bayesian aggregation, in architectures based on neural processes. It can be advantageous that the "softmax aggregation” combines the traditional mean and max aggregation: the mean aggregation is restored in the limit T— >°° and the max aggregation in the limit T— >0.
  • the method further comprises a step 120, wherein in step 120 the latent Gaussian distribution is represented by the variance a z 2 and the mean. z is parameterized.
  • the latent observations r n are generated by mapping context data pairs x n , y n onto a corresponding latent observation r n using a neural encoder network, see step 130. O z and are then calculated y. z according to the equations described, see step 110, and the parameterization of the latent Gaussian distribution with these parameters, see step 120.
  • the hyperparameter is determined, for example, in a training and/or optimization method preceding the method 100, see step 140. It can be provided that the hyperparameter T is generated by means of the neural encoder network for mapping the context data pairs x n ,y n . It may, for example, be advantageous if the hyperparameter T is learned together with parameters of the neural encoder network for mapping the context data pairs x n , y n , for example in a joint learning process. According to a further embodiment, it is provided that the hyperparameter T is determined independently through hyperparameter optimization.
  • a variance of an output of the model is also determined by means of a neural decoder network based on the latent Gaussian distribution, in particular based on an input location x and based on a latent sample z derived from the Gaussian distribution
  • Output variance oy 2 is determined, see step 150.
  • the neural decoder network can thus calculate predictions about target variables y at locations x based on samples z from the latent Gaussian distribution.
  • a mean value fiy of the output of the model is determined, see step 150.
  • the mean value /z y especially in combination with the output variance, provides an estimate of target variable y.
  • 2 shows an architecture of a neural network 200, in particular a neural process, the neural network 200 being formed, steps of a method 100 according to the described embodiments for estimating uncertainties in a model, the model being a technical system and/or a System behavior of the technical system is modeled.
  • the neural network 200 comprises an encoder neural network 210.
  • the encoder neural network 210 is trained to generate the latent observations r n by mapping context data pairs x n ,y n to a corresponding latent observation r n .
  • the neural network 200 comprises a first neural decoder network 220, the first neural decoder network 220 being trained to determine the variance of an output of the model, also output variance a y 2 , on an input location x and a latent sample z , to determine.
  • the neural network 200 comprises a further neural decoder network 230, wherein the further neural decoder network 230 is trained, based on an input location x and a latent sample z, a mean value. y of the output to determine.
  • the mean /z y especially in combination with the output variance, provides an estimate of target variable y.
  • Further embodiments relate to the use of the method 100 according to the described embodiments and/or a neural network 200, in particular a neural process, with an architecture according to the described embodiments for determining a, in particular impermissible, deviation of a system behavior of a technical system from a standard value range.
  • an artificial neural network is used, to which input data and output data from the technical device are fed in a learning phase.
  • the corresponding links are created in the artificial neural network and the neural network is trained on the system behavior of the technical system.
  • a plurality of training data sets used in the learning phase can include input variables measured on the technical system and/or calculated for the technical system.
  • the majority of training data sets can contain information relating to operating states of the technical system. Additionally or alternatively, the majority of training data sets can contain information regarding the environment of the technical system. In some examples, the majority of training data sets may include sensor data.
  • the computer-implemented machine learning system can be trained for a certain technical system in order to process data (e.g. sensor data) arising in this technical system and/or its environment and to calculate one or more output variables relevant for monitoring and/or controlling the technical system . This can happen during the design of the technical system. In this case, the computer-implemented machine learning system can be used to calculate the corresponding output variables depending on the input variables. The data obtained can then be entered into a monitoring and/or control device for the technical system. In other examples, the computer-implemented machine learning system may be used in the operation of the technical system to perform monitoring and/or control tasks.
  • the system behavior of the technical system can be reliably predicted using the neural network.
  • input data from the technical system is fed to the neural network and output comparison data is calculated in the neural network, which is compared with output data from the technical system. If this comparison shows that the difference between the output data of the technical system, which is preferably recorded as measured values, deviates from the output comparison data of the neural network and the deviation exceeds a limit value, then there is an impermissible deviation of the system behavior of the technical system from the standard value range .
  • Appropriate measures can then be taken, for example: Warning signals are generated or saved or partial functions of the technical system are deactivated (degradation of the technical device). If necessary, alternative technical equipment can be used in the event of an impermissible deviation.
  • a real technical system can be continuously monitored.
  • the neural network is fed with a sufficient amount of information from the technical system both from its input side and from its output side, so that the technical system can be mapped and simulated with sufficient accuracy in the neural network.
  • This allows the subsequent prediction phase to monitor the technical system and predict a deterioration in system behavior. In this way, the remaining useful life of the technical system can be predicted.
  • the computer-implemented machine learning systems can be used to control and/or monitor a device.
  • a first example concerns the design of a technical device or a technical system.
  • the training data sets can contain measurement data and/or synthetic data and/or software data that play a role in the operating states of the technical device or a technical system.
  • the input or output data can be state variables of the technical device or a technical system and/or control variables of the technical device or a technical system.
  • generating the computer-implemented probabilistic machine learning system may include mapping from an input vector of one dimension (H ) to an output vector of a second dimension (IR m ).
  • the input vector can represent elements of a time series for at least one measured input state variable of the device.
  • the output vector can represent at least one estimated output state variable of the device, which is predicted based on the generated posterior predictive distribution.
  • the technical device can be a machine, for example a motor (e.g. an internal combustion engine, an electric motor or a hybrid motor).
  • the technical device can be a fuel cell.
  • the measured input state variable of the device may include a speed, a temperature, or a mass flow.
  • the measured input state quantity of the device may include a combination thereof.
  • the estimated output state quantity of the device may include a torque, an efficiency, a pressure ratio.
  • the estimated initial state quantity may include a combination thereof.
  • the various input and output variables can have complex non-linear dependencies in a technical device during operation.
  • a parameterization of a map for the device may be modeled using the computer-implemented machine learning systems of this disclosure.
  • the modeled characteristic map of the method according to the invention makes it possible, above all, to quickly and accurately provide the correct relationships between the various state variables of the device during operation.
  • the map modeled in this way can be used, for example, during operation of the device (e.g. the engine) to monitor and/or control the engine (e.g. in an engine control device).
  • the map can indicate how dynamic behavior (e.g. energy consumption) of a machine (e.g. a motor) depends on various state variables of the machine (e.g. speed, temperature, mass flow, torque, efficiency and pressure ratio).
  • the computer-implemented machine learning systems can be used to classify a time series, in particular the classification of image data (ie the technical device is an image classifier).
  • the image data can be, for example, camera, lidar, radar, ultrasound or thermal image data (e.g. generated by appropriate sensors).
  • the computer-implemented machine learning systems may be for a monitoring device (e.g., a manufacturing process and/or for quality assurance) or for a medical imaging system (for example for the diagnosis of diagnostic data) or be used in such a device.
  • the computer-implemented machine learning systems may be designed or used to monitor the operating status and/or the environment of an at least partially autonomous robot.
  • the at least partially autonomous robot can be an autonomous vehicle (or another at least partially autonomous means of locomotion or transport).
  • the at least partially autonomous robot may be an industrial robot.
  • the technical device may be a machine or a group of machines (e.g. an industrial location). For example, an operating state of a machine tool can be monitored.
  • the output data y may contain information regarding the operating state and/or the environment of the respective technical device.
  • the system to be monitored may be a communications network.
  • the network may be a telecommunications network (e.g., a 5-G network).
  • the input data x may contain utilization data in nodes of the network and the output data y may contain information regarding the allocation of resources (e.g. channels, bandwidth in channels of the network or other resources).
  • resources e.g. channels, bandwidth in channels of the network or other resources.
  • a network malfunction may be detected.
  • the computer-implemented machine learning systems may be designed or used to control (or regulate) a technical device.
  • the technical device can in turn be one of the devices discussed above (or below) (e.g. an at least partially autonomous robot or a machine).
  • the output data y contains a control variable of the respective technical system.
  • the computer-implemented machine learning systems may be designed or employed to filter a signal.
  • the signal may be an audio signal or a video signal.
  • the output data y may contain a filtered signal.
  • the methods for creating and deploying computer-implemented machine learning systems of the present disclosure may be performed on a computer-implemented system.
  • the computer-implemented system may include at least one processor, at least one memory (which may contain programs that, when executed, perform the methods of the present disclosure), and at least one input and output interface.
  • the computer-implemented system may be a stand-alone system or a distributed system that communicates over a network (e.g. the Internet).
  • the present disclosure also relates to computer-implemented machine learning systems created using the methods of the present disclosure.
  • the present disclosure also relates to computer programs that are configured to carry out all steps of the methods of the present disclosure.
  • the present disclosure relates to machine-readable storage media (e.g., optical storage media or read-only memory, such as FLASH memory) on which computer programs are stored that are configured to carry out all steps of the methods of the present disclosure.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

Die Offenbarung betrifft ein computerimplementiertes Verfahren (100) zum Abschätzen von Unsicherheiten mittels eines neuronalen Netzes (200), insbesondere ein neuronaler Prozess, bei einem Modell, wobei das Modell ein technisches System und/oder ein Systemverhalten des technischen Systems modelliert, und eine Architektur des neuronalen Netzes (200) zum Abschätzen von Unsicherheiten.

Description

Beschreibung
Verfahren zum Abschätzen von Modellunsicherheiten mittels eines neuronalen Netzes und eine Architektur des neuronalen Netzes
Stand der Technik
Die Offenbarung betrifft ein Verfahren zum Abschätzen von Unsicherheiten mittels eines neuronalen Netzes und eine Architektur des neuronalen Netzes.
In technischen Systemen, insbesondere sicherheitskritischen, technischen Systemen, können Modelle, insbesondere Modelle für aktives Lernen, bestärkendes Lernen oder Extrapolation, zur Prädiktion von Unsicherheiten, beispielsweise mittels neuronalen Netzen, eingesetzt werden.
In letzter Zeit werden verstärkt neuronale Prozesse für die Vorhersage von Modellunsicherheiten eingesetzt. Neuronale Prozesse sind im Wesentlichen eine Familie von Architekturen auf der Grundlage neuronaler Netze, die probabilistische Vorhersagen für Regressionsprobleme erstellen. Sie lernen automatisch induktive Verzerrungen, die auf eine Klasse von Zielfunktionen mit einer Art gemeinsamer Struktur zugeschnitten sind, beispielsweise quadratische Funktionen oder Dynamikmodelle eines bestimmten physikalischen Systems mit variierenden Parametern. Neuronale Prozesse werden mit sogenannten Multi- Task-Trainingsverfahren trainiert, wobei eine Funktion einer Aufgabe entspricht. Das daraus resultierende Modell liefert genaue Vorhersagen über unbekannte Zielfunktionen auf der Grundlage von nur wenigen Kontextbeobachtungen.
Zur Einspeisung der Kontextbeobachtungen in die Architektur wird ein sogenannter Aggregationsmechanismus verwendet. Ein solcher Mechanismus ermöglicht es, jeweils ein Kontexttupel, d. h. ein Eingabe-Ausgabe-Paar (x,y) aus der Zielfunktion, durch ein Encodernetzwerk zu leiten, das jedes Kontexttupel auf eine latente Beobachtung r abbildet. Anschließend werden alle latenten Beobachtungen durch eine Art Kontraktionsoperation aggregiert. Traditionell verwenden neuronale Prozesse Mittelwertaggregation, d.h. der Aggregationsmechanismus nimmt den Mittelwert über alle latenten Beobachtungen. Daneben ist es auch bekannt, eine Bayesische Kontextaggregation, engl. Bayesian Context Aggregation in neuronalen Prozessen zu verwenden. Im Gegensatz zur Mittelwertaggregation, bei der allen latenten Beobachtungen eine einheitliche Gewichtung von 1/N, wobei N die Größe der Kontextmenge ist, zugewiesen wird, ermöglicht Bayesische Kontextaggregation eine Gewichtung der latenten Beobachtungen nach einem erlernten Maß für die Mehrdeutigkeit der Aufgabe. Dies ist relevant, da verschiedene Kontexttupel unterschiedliche Mengen an Informationen über die Identität der Zielfunktion enthalten. Befindet sich das Kontexttupel in einem Bereich des x-y-Raums mit hoher Aufgabenmehrdeutigkeit, d.h. es könnte von vielen Funktionen aus der zugrundeliegenden Funktionsklasse generiert werden, ist die von diesem Kontexttupel übermittelte Informationsmenge gering. Daher muss das Gewicht der entsprechenden latenten Beobachtung in der aggregierten Menge ebenfalls gering sein, und umgekehrt muss bei einer hohen Informationsmenge das Gewicht ebenfalls hoch sein. Bei der Bayesischen Kontextaggregation wird eine aufgabenambiguitätsabhängige Gewichtung durch Hinzufügen eines zweiten Encodernetzwerks erreicht. Das zweite Encodernetzwerk lernt, die Aufgabenambiguität jedes Kontexttupels durch die Varianz der latenten Beobachtung zu quantifizieren. Diese Kodiererausgabe moduliert dann das Gewicht der entsprechenden latenten Beobachtung gemäß einem Bayesischen Beobachtungsmodell. Grundsätzlich zeigen experimentelle Ergebnisse, dass Bayesische Kontextaggregation die Vorhersageleistung von neuronalen Prozessen im Vergleich zu traditionellen Mittelwertaggregation verbessert.
Eine Aufgabe der vorliegenden Offenbarung ist es, ein Verfahren und eine Architektur bereitzustellen, die die Vorhersageleistung von Bayesische Kontextaggregation und die Vorteile, beispielsweise die ungleichmäßige Gewichtung der latenten Beobachtungen in der Aggregation, mindestens beibehalten oder verbessern können und dabei parametereffizienter als Bayesische Kontextaggregation sind.
Offenbarung der Erfindung Diese Aufgabe wird mit einem Verfahren gemäß den beschriebenen Ausführungsformen gelöst.
Eine Ausführungsform betrifft ein computerimplementiertes Verfahren zum Abschätzen von Unsicherheiten mittels eines neuronalen Netzes, insbesondere ein neuronaler Prozess, bei einem Modell, wobei das Modell ein technisches Systems und/oder ein Systemverhalten des technischen Systems modelliert, wobei in einem Schritt basierend auf einer Anzahl N an latenten Beobachtungen rn, mit n=1... N, eine Modellunsicherheit az 2 als Varianz einer latenten Gauß- Verteilung und ein Mittelwert .z der latenten Gauß-Verteilung bestimmt wird, wobei die Modellunsicherheit az 2 und der Mittelwert .z in Abhängigkeit der latenten Beobachtungen rn und einem Hyperparameter T bestimmt wird und in einem weiteren Schritt die latente Gauß-Verteilung durch die Varianz az 2 und den Mittelwert .z parametrisiert wird. Es sei angemerkt, dass das Modell anhand von Messungen an dem technischen System erstellt wurde.
Das Einführen des Hyperparameter T, auch Softmax-Temperatur, ermöglicht eine ungleichmäßige Gewichtung der latenten Beobachtungen, erfordert aber kein zweites Encoder-Netzwerk. Die Verwendung des zusätzlichen trainierbaren Hyperparameters ermöglicht eine sogenannte "Softmax-Aggregation", die herkömmliche Aggregationsverfahren, wie beispielsweise Mittelwert-Aggregation, Max-Aggregation oder Bayesische Aggregation, in auf neuronalen Prozessen basierenden Architekturen ersetzen kann.
Durch die gemäß der Offenbarung beschriebene "Softmax-Aggregation", wird die vorstehend beschriebene Bayesische Aggregation stark vereinfacht, indem die "Softmax-Aggregation" eine feste Abhängigkeit der Varianzen o2 n der latenten Beobachtungen von den latenten Beobachtungen rn wie folgt vorschreibt:
Figure imgf000004_0001
Dies bedeutet, dass kein separates Encoder-Netzwerk zur Berechnung von o2 n erforderlich ist. Dadurch wird die Anzahl von zu lernenden Parametern reduziert. Die feste Abhängigkeit der Varianzen o2 n von den I latenten Beobachtungen rn und dem Hyperparameter T kann in den bekannten Bayesischen Aggregationsgleichungen eingesetzt werden. Die resultierenden Gleichungen bilden dann die "Softmax-Aggregation'-Gleichungen:
Figure imgf000005_0001
Gemäß einer Ausführungsform ist vorgesehen, dass die latenten Beobachtungen rn durch Abbilden von Kontextdatenpaaren xn,yn mittels eines neuronalen Encoder-Netzwerks auf eine entsprechende latente Beobachtung rn erzeugt werden. Anschließend erfolgt die Berechnung von oz und y.z gemäß den beschriebenen Gleichungen und die Parametrisierung der latenten Gaußverteilung mit diesen Parametern.
Es kann vorgesehen sein, dass der Hyperparameter T mittels des neuronalen Encoder-Netzwerks zum Abbilden der Kontextdatenpaaren xn,yn erzeugt wird.
Es kann beispielsweise vorteilhaft sein, wenn der Hyperparameter T zusammen mit Parametern des neuronalen Encoder-Netzwerks zum Abbilden der Kontextdatenpaaren xn,yn gelernt wird, beispielsweise in einem gemeinsamen Lernverfahren.
Gemäß einer weiteren Ausführungsform ist vorgesehen, dass der Hyperparameter T unabhängig durch Hyperparameteroptimierung bestimmt wird.
Gemäß einer weiteren Ausführungsform ist vorgesehen, dass mittels eines neuronalen Decoder-Netzwerks basierend auf der latenten Gauß-Verteilung, insbesondere basierend auf einer Eingabestelle x und basierend auf einer von der Gauß-Verteilung abgeleiteten latenten Stichprobe z, eine Varianz einer Ausgabe des Modells, auch Ausgabevarianz oy2, bestimmt wird. Das neuronale Decoder-Netzwerk kann somit Vorhersagen über Zielvariablen y an Orten x auf der Grundlage von Stichproben z aus der latenten Gauß-Verteilung berechnen. Gemäß einer weiteren Ausführungsform ist vorgesehen, dass mittels eines weiteren neuronalen Decoder-Netzwerks basierend auf der latenten Gauß- Verteilung, insbesondere basierend auf einer Eingabestelle x und basierend auf einer von der Gauß-Verteilung abgeleiteten latenten Stichprobe z, ein Mittelwert fiy der Ausgabe des Modells bestimmt wird. Der Mittelwert //y, insbesondere in Kombination mit der Ausgabevarianz, liefert eine Schätzung von Zielvariablen y.
Weitere Ausführungsformen betreffen eine Architektur eines neuronalen Netzes, insbesondere eines neuronalen Prozesses, wobei das neuronale Netz ausgebildet ist, Schritte eines Verfahrens gemäß den beschriebenen Ausführungsformen zum Abschätzen von Unsicherheiten bei einem Modell, wobei das Modell ein technisches System und/oder ein Systemverhalten des technischen Systems modelliert, auszuführen.
Gemäß einer Ausführungsform umfasst das neuronale Netz wenigstens ein neuronales Encoder-Netzwerk und/oder wenigstens ein neuronales Decoder- Netzwerk, wobei das neuronale Encoder-Netzwerk dazu trainiert ist, basierend auf Kontextdatenpaaren xn, yn latente Beobachtungen rn zu erzeugen und/oder wobei das neuronale Decoder-Netzwerk dazu trainiert ist, basierend auf der latenten Gauß-Verteilung eine Varianz einer Ausgabe des Modells, auch Ausgabevarianz oy2, und/oder einen Mittelwert .y der Ausgabe des Modells zu bestimmen.
Weitere Ausführungsformen betreffen eine Vorrichtung umfassend ein neuronales Netz, insbesondere einen neuronalen Prozess, mit einer Architektur gemäß den beschriebenen Ausführungsformen, wobei die Vorrichtung zum Ausführen von Schritten eines Verfahrens gemäß den beschriebenen Ausführungsformen ausgebildet ist.
Weitere Ausführungsformen betreffen ein Verwenden eines Verfahrens gemäß den beschriebenen Ausführungsformen und/oder eines neuronalen Netzes, insbesondere eines neuronalen Prozesses, mit einer Architektur gemäß den beschriebenen Ausführungsformen, zum Ermitteln einer, insbesondere unzulässigen, Abweichung eines Systemverhaltens eines technischen Systems von einem Normwertebereich. Es sei angemerkt, dass abhängig von einer ermittelten Abweichung das technische System in einen sichern Betriebsmodus geschaltet oder eine Warnung ausgegeben werden kann.
Beim Ermitteln der Abweichung des technischen Systems nutzt ein künstliches neuronales Netz, dem in einer Lernphase Eingangsdaten und Ausgangsdaten der technischen Einrichtung zugeführt werden. Durch den Vergleich mit den Eingangs- und Ausgangsdaten des technischen Systems werden die entsprechenden Verknüpfungen in dem künstlichen neuronalen Netz geschaffen und das neuronale Netz auf das Systemverhalten des technischen Systems trainiert.
In einer sich an die Lernphase anschließenden Prädiktionsphase kann mittels des neuronalen Netzes das Systemverhalten des technischen Systems zuverlässig vorhergesagt werden. Hierzu werden in der Prädiktionsphase dem neuronalen Netz Eingangsdaten des technischen Systems zugeführt und im neuronalen Netz Ausgangsvergleichsdaten berechnet, welche mit Ausgangsdaten des technischen Systems verglichen werden. Ergibt sich bei diesem Vergleich, dass die Differenz der Ausgangsdaten des technischen Systems, welche vorzugsweise als Messwerte erfasst werden, von den Ausgangsvergleichsdaten des neuronalen Netzes abweichen und die Abweichung einen Grenzwert übersteigt, so liegt eine unzulässige Abweichung des Systemverhaltens des technischen Systems von dem Normwertebereich vor. Daraufhin können geeignete Maßnahmen ergriffen werden, beispielsweise ein Warnsignal erzeugt oder abgespeichert oder Teilfunktionen des technischen Systems deaktiviert werden (Degradation der technischen Einrichtung). Gegebenenfalls kann im Fall der unzulässigen Abweichung auf alternative technische Einrichtungen ausgewichen werden.
Mithilfe des vorbeschriebenen Verfahrens kann ein reales technisches System fortlaufend überwacht werden. In der Lernphase wird das neuronale Netz mit ausreichend vielen Informationen des technischen Systems sowohl von dessen Eingangsseite als auch von dessen Ausgangsseite gespeist, so dass des technischen Systems mit hinreichender Genauigkeit in dem neuronalen Netz abgebildet und simuliert werden kann. Dies erlaubt es in der sich daran anschließenden Prädiktionsphase, das technische System zu überwachen und eine Verschlechterung des Systemverhaltens zu prädizieren. Auf diese Weise kann insbesondere die Restnutzungsdauer des technischen Systems vorhergesagt werden.
Weitere Merkmale, Anwendungsmöglichkeiten und Vorteile der Offenbarung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen der Erfindung, die in den Figuren der Zeichnung dargestellt sind. Dabei bilden alle beschriebenen oder dargestellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der Offenbarung, unabhängig von ihrer Zusammenfassung in den Patentansprüchen oder deren Rückbeziehung sowie unabhängig von ihrer Formulierung bzw. Darstellung in der Beschreibung bzw. in der Zeichnung. In der Zeichnung zeigt:
Fig. 1 schematisch ein Verfahren zum Abschätzen von Unsicherheiten gemäß einer Ausführungsform, und
Fig. 2 eine Architektur eines neuronalen Prozesses gemäß einer Ausführungsform.
Im Folgenden wird anhand der Figuren ein computerimplementiertes Verfahren zum Abschätzen von Unsicherheiten mittels eines neuronalen Netzes, insbesondere ein neuronaler Prozess, bei einem Modell, wobei das Modell ein technisches System und/oder ein Systemverhalten des technischen Systems modelliert, beschrieben.
Das Verfahren 100 umfasst einen Schritt 110, wobei in dem Schritt 110 basierend auf einer Anzahl N an latenten Beobachtungen rn, mit n=1... N, eine Modellunsicherheit az 2 als Varianz einer latenten Gauß-Verteilung und ein Mittelwert .z der latenten Gauß-Verteilung bestimmt wird, wobei die Modellunsicherheit az 2 und der Mittelwert .z in Abhängigkeit der latenten Beobachtungen rn und einem Hyperparameter T bestimmt wird.
Die Abhängigkeit der Varianzen o2 n der latenten Beobachtungen von den latenten Beobachtungen rn und des Hyperparameters T ist dabei wie folgt vorgeschrieben:
Figure imgf000008_0001
Die feste Abhängigkeit der Varianzen o2 n von den I latenten Beobachtungen rn und dem Hyperparameter T kann in bekannte Bayesische Aggregationsgleichungen
Figure imgf000009_0001
eingesetzt werden. Die resultierenden Gleichungen bilden dann die "Softmax- Aggregation'-Gleichungen:
Figure imgf000009_0002
Bei den resultierenden Gleichungen wird nzfi = 0 und GZ 0 oo vorrausgesetzt.
Die Verwendung des zusätzlichen trainierbaren Hyperparameter T ermöglicht eine sogenannte "Softmax-Aggregation", die herkömmliche Aggregationsverfahren, wie beispielsweise Mittelwert-Aggregation, Max- Aggregation oder Bayesische Aggregation, in auf neuronalen Prozessen basierenden Architekturen ersetzen kann. Dabei kann es vorteilhaft sein, dass die "Softmax-Aggregation" die traditionelle Mittelwert- und Max-Aggregation vereint: Die Mittelwertaggregation wird in der Grenze T— >°° und die Max- Aggregation in der Grenze T— >0 wiederhergestellt.
Das Verfahren umfasst weiter einen Schritt 120 wobei in dem Schritt 120 die latente Gauß-Verteilung durch die Varianz az 2 und den Mittelwert .z parametrisiert wird. Gemäß einer Ausführungsform ist vorgesehen, dass die latenten Beobachtungen rn durch Abbilden von Kontextdatenpaaren xn,yn mittels eines neuronalen Encoder-Netzwerks auf eine entsprechende latente Beobachtung rn erzeugt werden, vgl. Schritt 130. Anschließend erfolgt die Berechnung von oz und y.z gemäß den beschriebenen Gleichungen, vgl. Schritt 110, und die Parametrisierung der latenten Gaußverteilung mit diesen Parametern, vgl. Schritt 120.
Der Hyperparameter wird beispielsweise in einem der Verfahren 100 vorangehenden Trainings- und/oder Optimierungsverfahren, vgl. Schritt 140, bestimmt. Es kann vorgesehen sein, dass der Hyperparameter T mittels des neuronalen Encoder-Netzwerks zum Abbilden der Kontextdatenpaaren xn,yn erzeugt wird. Es kann beispielsweise vorteilhaft sein, wenn der Hyperparameter T zusammen mit Parametern des neuronalen Encoder-Netzwerks zum Abbilden der Kontextdatenpaaren xn,yn gelernt wird, beispielsweise in einem gemeinsamen Lernverfahren. Gemäß einer weiteren Ausführungsform ist vorgesehen, dass der Hyperparameter T unabhängig durch Hyperparameteroptimierung bestimmt wird.
Gemäß einer weiteren Ausführungsform ist vorgesehen, dass mittels eines neuronalen Decoder-Netzwerks basierend auf der latenten Gauß-Verteilung, insbesondere basierend auf einer Eingabestelle x und basierend auf einer von der Gauß-Verteilung abgeleiteten latenten Stichprobe z, eine Varianz einer Ausgabe des Modells, auch Ausgabevarianz oy2, bestimmt wird, vgl. Schritt 150. Das neuronale Decoder-Netzwerk kann somit Vorhersagen über Zielvariablen y an Orten x auf der Grundlage von Stichproben z aus der latenten Gauß- Verteilung berechnen.
Gemäß einer weiteren Ausführungsform ist vorgesehen, dass mittels eines weiteren neuronalen Decoder-Netzwerks basierend auf der latenten Gauß- Verteilung, insbesondere basierend auf einer Eingabestelle x und basierend auf einer von der Gauß-Verteilung abgeleiteten latenten Stichprobe z, ein Mittelwert fiy der Ausgabe des Modells bestimmt wird, vgl. Schritt 150. Der Mittelwert /zy, insbesondere in Kombination mit der Ausgabevarianz, liefert eine Schätzung von Zielvariablen y. Fig. 2 zeigt eine Architektur eines neuronalen Netzes 200, insbesondere einen neuronalen Prozess, wobei das neuronale Netz 200 ausgebildet ist, Schritte eines Verfahrens 100 gemäß den beschriebenen Ausführungsformen zum Abschätzen von Unsicherheiten bei einem Modell, wobei das Modell ein technisches System und/oder ein Systemverhalten des technischen Systems modelliert, auszuführen.
Das neuronale Netz 200 umfasst gemäß Fig. 2 ein neuronales Encoder- Netzwerk 210. Das neuronale Encoder-Netzwerk 210 ist dazu trainiert, die latenten Beobachtungen rn durch Abbilden von Kontextdatenpaaren xn,yn auf eine entsprechende latente Beobachtung rn zu erzeugen.
Das neuronale Netz 200 umfasst gemäß Fig. 2 ein erstes neuronales Decoder- Netzwerk 220, wobei das erste neuronale Decoder-Netzwerk 220 dazu trainiert ist, auf einer Eingabestelle x und einer latenten Stichprobe z die Varianz einer Ausgabe des Modells, auch Ausgabevarianz ay 2, zu bestimmen.
Das neuronale Netz 200 umfasst gemäß Fig. 2 ein weiteres neuronales Decoder- Netzwerk 230, wobei das weitere neuronales Decoder-Netzwerk 230 trainiert ist, basierend auf einer Eingabestelle x und einer latenten Stichprobe z einen Mittelwert .y der Ausgabe zu bestimmen. Der Mittelwert /zy, insbesondere in Kombination mit der Ausgabevarianz, liefert eine Schätzung von Zielvariablen y.
Weitere Ausführungsformen betreffen die Verwendung des Verfahrens 100 gemäß den beschriebenen Ausführungsformen und/oder eines neuronalen Netzes 200, insbesondere eines neuronalen Prozesses, mit einer Architektur gemäß den beschriebenen Ausführungsformen zum Ermitteln einer, insbesondere unzulässigen, Abweichung eines Systemverhaltens eines technischen Systems von einem Normwertebereich.
Beim Ermitteln der Abweichung des technischen Systems nutzt ein künstliches neuronales Netz, dem in einer Lernphase Eingangsdaten und Ausgangsdaten der technischen Einrichtung zugeführt werden. Durch den Vergleich mit den Eingangs- und Ausgangsdaten des technischen Systems werden die entsprechenden Verknüpfungen in dem künstlichen neuronalen Netz geschaffen und das neuronale Netz auf das Systemverhalten des technischen Systems trainiert.
Eine Mehrzahl von in der Lernphase verwendeten Trainings-Datensätzen kann an dem technischen System gemessene und/oder für das technische System berechnete Eingangsgrößen umfassen. Die Mehrzahl von Trainings-Datensätzen kann Information in Bezug auf Betriebszustände des technischen Systems enthalten. Zusätzlich oder alternativ kann die Mehrzahl von Trainings- Datensätzen Informationen bezüglich der Umwelt des technischen Systems enthalten. In manchen Beispielen kann die Mehrzahl von Trainings-Datensätzen Sensordaten enthalten. Das Computer-implementierte Maschinenlernsystem kann für ein gewisses technisches System trainiert sein, um in diesem technischen System und/oder in dessen Umgebung anfallende Daten (z.B. Sensordaten) zu verarbeiten und eine oder mehrere für Überwachung und/oder Steuerung des technischen Systems relevante Ausgangsgröße zu berechnen. Das kann während der Auslegung des technischen Systems passieren. In diesem Fall kann das Computer-implementierte Maschinenlernsystem zur Berechnung der entsprechenden Ausgangsgrößen in Abhängigkeit von den Eingangsgrößen verwendet werden. Die gewonnenen Daten können dann in eine Überwachungs- und/oder Steuervorrichtung für das technische System eingepflegt werden. In anderen Beispielen kann das Computer-implementierte Maschinenlernsystem im Betrieb des technischen Systems eingesetzt werden, um Überwachungs- und/oder Kontrollaufgaben auszuführen.
In einer sich an die Lernphase anschließenden Prädiktionsphase kann mittels des neuronalen Netzes das Systemverhalten des technischen Systems zuverlässig vorhergesagt werden. Hierzu werden in der Prädiktionsphase dem neuronalen Netz Eingangsdaten des technischen Systems zugeführt und im neuronalen Netz Ausgangsvergleichsdaten berechnet, welche mit Ausgangsdaten des technischen Systems verglichen werden. Ergibt sich bei diesem Vergleich, dass die Differenz der Ausgangsdaten des technischen Systems, welche vorzugsweise als Messwerte erfasst werden, von den Ausgangsvergleichsdaten des neuronalen Netzes abweichen und die Abweichung einen Grenzwert übersteigt, so liegt eine unzulässige Abweichung des Systemverhaltens des technischen Systems von dem Normwertebereich vor. Daraufhin können geeignete Maßnahmen ergriffen werden, beispielsweise ein Warnsignal erzeugt oder abgespeichert oder Teilfunktionen des technischen Systems deaktiviert werden (Degradation der technischen Einrichtung). Gegebenenfalls kann im Fall der unzulässigen Abweichung auf alternative technische Einrichtungen ausgewichen werden.
Mithilfe des vorbeschriebenen Verfahrens kann ein reales technisches System fortlaufend überwacht werden. In der Lernphase wird das neuronale Netz mit ausreichend vielen Informationen des technischen Systems sowohl von dessen Eingangsseite als auch von dessen Ausgangsseite gespeist, so dass des technischen Systems mit hinreichender Genauigkeit in dem neuronalen Netz abgebildet und simuliert werden kann. Dies erlaubt es in der sich daran anschließenden Prädiktionsphase, das technische System zu überwachen und eine Verschlechterung des Systemverhaltens zu prädizieren. Auf diese Weise kann insbesondere die Restnutzungsdauer des technischen Systems vorhergesagt werden.
Konkrete Anwendungsformen betreffen beispielsweise Anwendungen in verschiedenen technischen Vorrichtungen und Systemen. Zum Beispiel können die Computer-implementierten Maschinenlernsystems zur Kontrolle und / oder zum Überwachen einer Vorrichtung eingesetzt werden.
Ein erstes Beispiel betrifft die Auslegung einer technischen Vorrichtung oder eines technischen Systems. In diesem Zusammenhang können die Trainings- Datensätze Messdaten und/oder synthetische Daten und/oder Software-Daten enthalten, die für die Betriebszustände der technischen Vorrichtung oder eines technischen Systems eine Rolle spielen. Die Eingangs- bzw. Ausgangsdaten können Zustandsgrößen der technischen Vorrichtung oder eines technischen Systems und/oder Steuergrößen der technischen Vorrichtung oder eines technischen Systems sein. In einem Beispiel kann das Erzeugen des Computerimplementierten probabilistischen Maschinenlernsystems (z.B. ein probabilistischer Regressor oder Klassifikator) das Abbilden von einem Eingangsvektor einer Dimension (H ) zu einem Ausgangsvektor einer zweiten Dimension (IRm) umfassen. Hier kann beispielweise der Eingangsvektor Elemente einer Zeitreihe für mindestens eine gemessene Eingangszustandsgröße der Vorrichtung darstellen. Der Ausgangsvektor kann mindestens eine geschätzte Ausgangszustandsgröße der Vorrichtung darstellen, die anhand der erzeugten A-Posteriori prädiktiven Verteilung vorhergesagt wird. In einem Beispiel kann die technische Vorrichtung eine Maschine, bspw. ein Motor (z.B. ein Verbrennungsmotor, ein Elektromotor oder ein Hybridmotor) sein. Die technische Vorrichtung kann in anderen Beispielen eine Brennstoffzelle sein. In einem Beispiel kann die gemessene Eingangszustandsgröße der Vorrichtung eine Drehzahl, eine Temperatur oder einen Massenstrom umfassen. In anderen Beispielen kann die gemessene Eingangszustandsgröße der Vorrichtung eine Kombination davon umfassen. In einem Beispiel kann die geschätzte Ausgangszustandsgröße der Vorrichtung ein Drehmoment, ein Wirkungsgrad, ein Druckverhältnis umfassen. In anderen Beispielen kann die geschätzte Ausgangszustandsgröße eine Kombination davon umfassen.
Die verschiedenen Eingangs- und Ausgangsgrößen können in einer technischen Vorrichtung während des Betriebs komplexe nichtlineare Abhängigkeiten aufweisen. In einem Beispiel kann mittels der Computer-implementierten Maschinenlernsysteme dieser Offenbarung eine Parametrisierung eines Kennfeldes für die Vorrichtung (z.B. für einen Verbrennungsmotor, einen Elektromotor, einen Hybridmotor oder eine Brennstoffzelle) modelliert werden. Das modellierte Kennfeld des erfindungsgemäßen Verfahrens ermöglicht vor allem die richtigen Zusammenhänge zwischen den verschiedenen Zustandsgrößen der Vorrichtung im Betrieb schnell und genau bereitzustellen. Das in dieser Art modellierte Kennfeld kann beispielweise im Betrieb der Vorrichtung (z.B. des Motors) zur Überwachung und/oder Kontrolle des Motors eingesetzt werden (beispielsweise in einer Motorsteuervorrichtung). In einem Beispiel kann das Kennfeld angeben, wie ein dynamisches Verhalten (z.B. ein Energieverbrauch) einer Maschine (z.B. eines Motors) von verschiedenen Zustandsgrößen der Maschine (z.B. Drehzahl, Temperatur, Massenstrom, Drehmoment, Wirkungsgrad und Druckverhältnis) abhängt.
Die Computer-implementierten Maschinenlernsysteme können eingesetzt werden zur Klassifikation einer Zeitreihe, insbesondere der Klassifikation von Bilddaten (d.h. die technische Vorrichtung ist ein Bildklassifikator). Die Bilddaten können zum Beispiel Kamera- , Lidar-, Radar-, Ultraschall- oder thermische Bilddaten sein (z.B. erzeugt von entsprechenden Sensoren). In manchen Beispielen können die Computer-implementierten Maschinenlernsysteme für eine Überwachungsvorrichtung (zum Beispiel eines Herstellungsprozesses und/oder zur Qualitätssicherung) oder für ein medizinisches Bildgebungssystem (zum Beispiel zum Befunden von diagnostischen Daten) ausgelegt sein oder in einer solchen Vorrichtung eingesetzt werden.
In anderen Beispielen (oder zusätzlich) können die Computer-implementierten Maschinenlernsysteme ausgelegt sein oder eingesetzt werden, um den Betriebszustand und/oder die Umgebung eines zumindest teilautonomen Roboters zu überwachen. Der zumindest teilautonome Roboter kann ein autonomes Fahrzeug sein (oder ein anderes zumindest teilautonomes Fortbewegungs- oder Transportmittel). In anderen Beispielen kann der zumindest teilautonome Roboter ein Industrieroboter sein. Beispielsweise kann unter Verwendung von Daten von Positions- und//oder Geschwindigkeits- und/oder Drehmomentsensoren, insbesondere eines Roboterarms, mittels der beschrieben Regression eine präzise probabilistische Schätzung von Position und/oder Geschwindigkeit, insbesondere des Roboterarms, bestimmt werden. In anderen Beispielen kann die technische Vorrichtung eine Maschine oder eine Gruppe von Maschinen (z.B. einer Industrielage) sein. Zum Beispiel kann ein Betriebszustand einer Werkzeugmaschine überwacht werden. In diesen Beispielen kann die Ausgangsdaten y Information bezüglich des Betriebszustands und/oder der Umgebung der jeweiligen technischen Vorrichtung enthalten.
In weiteren Beispielen kann das zu überwachende System ein Kommunikationsnetzwerk sein. In manchen Beispielen kann das Netzwerk ein Telekommunikationsnetzwerk (z.B. ein 5-G Netzwerk) sein. In diesen Beispielen können die Eingangsdaten x Auslastungsdaten in Knoten des Netzwerks und die Ausgangsdaten y Information bezüglich der Zuteilung von Ressourcen (z.B. Kanäle, Bandbreite in Kanälen des Netzwerks oder andere Ressourcen) enthalten. In anderen Beispielen kann eine Netzwerkfehlfunktion erkannt werden.
In anderen Beispielen (oder zusätzlich) können die Computer-implementierten Maschinenlernsysteme ausgelegt sein oder eingesetzt werden zur Steuerung (oder Regelung) einer technischen Vorrichtung. Die technische Vorrichtung kann wiederum eine der oben (oder unten) diskutierten Vorrichtungen sein (z.B. ein zumindest teilautonomer Roboter oder eine Maschine). In diesen Beispielen kann die Ausgangsdaten y eine Steuergröße des jeweiligen technischen Systems enthalten.
In wieder anderen Beispielen (oder zusätzlich) können die Computerimplementierten Maschinenlernsysteme ausgelegt sein oder eingesetzt werden, um ein Signal zu filtern. In manchen Fällen kann das Signal ein Audiosignal oder ein Videosignal sein. In diesen Beispielen kann die Ausgangsdaten y ein gefiltertes Signal enthalten.
Die Verfahren zum Erzeugen und Anwenden von Computer-implementierten Maschinenlernsystemen der vorliegenden Offenbarung können auf einem computerimplementierten System ausgeführt werden. Das computerimplementierte System kann mindestens einen Prozessor, mindestens einen Speicher (der Programme enthalten kann, die, wenn ausgeführt, die Verfahren der vorliegenden Offenbarung ausführen) sowie mindestens eine Schnittstelle für Eingänge und Ausgänge aufweisen. Das computerimplementierte System kann ein Stand-alone System oder ein verteiltes System sein, dass über ein Netzwerk (z.B. das Internet) kommuniziert.
Die vorliegende Offenbarung betrifft auch Computer-implementierten Maschinenlernsysteme, die mit den Verfahren der vorliegenden Offenbarung erzeugt werden. Die vorliegende Offenbarung betrifft auch Computerprogramme, welche eingerichtet sind, alle Schritte der Verfahren der vorliegenden Offenbarung auszuführen. Darüber hinaus betrifft die vorliegende Offenbarung maschinenlesbares Speichermedien (z.B. optische Speichermedien oder Festspeicher, beispielsweise FLASH-Speicher), auf denen Computerprogramme gespeichert sind, welche eingerichtet sind, alle Schritte der Verfahren der vorliegenden Offenbarung auszuführen.

Claims

Ansprüche
1. Computerimplementiertes Verfahren (100) zum Abschätzen von Unsicherheiten mittels eines neuronalen Netzes (200, 300), insbesondere ein neuronaler Prozess, bei einem Modell, wobei das Modell ein technisches Systems und/oder ein Systemverhalten des technischen Systems modelliert, wobei in einem Schritt (110) basierend auf einer Anzahl N an latenten Beobachtungen (r„), mit n=1... N, eine Modellunsicherheit (o-z 2) als Varianz einer latenten Gauß-Verteilung und ein Mittelwert ( zz) der latenten Gauß- Verteilung bestimmt wird, wobei die Modellunsicherheit (o-z 2) und der Mittelwert ( zz) in Abhängigkeit der latenten Beobachtungen (r„) und einem Hyperparameter (T) bestimmt wird und in einem weiteren Schritt (120) die latente Gauß-Verteilung durch die Varianz (o-z 2) und den Mittelwert ( zz) parametrisiert wird.
2. Verfahren (100) nach Anspruch 1, wobei die latenten Beobachtungen (r„) durch Abbilden von Kontextdatenpaaren (xn,yn) mittels eines neuronalen Encoder-Netzwerks auf eine entsprechende latente Beobachtung (r„) erzeugt werden.
3. Verfahren (100) nach Anspruch 2, wobei der Hyperparameter (T) mittels des neuronalen Encoder-Netzwerks (210) zum Abbilden der Kontextdatenpaaren (xn,yn) erzeugt wird.
4. Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei der Hyperparameter (T) zusammen mit Parametern des neuronalen Encoder- Netzwerks (210) zum Abbilden der Kontextdatenpaaren (xn,yn) gelernt wird.
5. Verfahren (100) nach Anspruch 1 oder 2, wobei der Hyperparameter (T) unabhängig durch Hyperparameteroptimierung bestimmt wird.
6. Verfahren (100) nach einem der vorgehergehenden Ansprüche, wobei mittels eines ersten neuronalen Decoder-Netzwerks (220) basierend auf der latenten Gauß-Verteilung, insbesondere basierend auf einer Eingabestelle (x) und basierend auf einer von der Gauß-Verteilung abgeleiteten latenten Stichprobe (z), eine Varianz einer Ausgabe des Modells, auch Ausgabevarianz (o-y 2), bestimmt wird.
7. Verfahren (100) nach einem der vorgehergehenden Ansprüche, wobei mittels eines weiteren neuronalen Decoder-Netzwerks (230) basierend auf der latenten Gauß-Verteilung, insbesondere basierend auf einer Eingabestelle (x) und basierend auf einer von der Gauß-Verteilung abgeleiteten latenten Stichprobe (z), ein Mittelwert (/zy) der Ausgabe des Modells bestimmt wird.
8. Architektur eines neuronalen Netzes (200), insbesondere eines neuronalen Prozesses, wobei das neuronale Netz (200) ausgebildet ist, Schritte eines Verfahrens (100) gemäß einem der Ansprüche 1 bis 7 zum Abschätzen von Unsicherheiten bei einem Modell, wobei das Modell ein technisches System und/oder ein Systemverhalten des technischen Systems modelliert, auszuführen.
9. Architektur nach Anspruch 8, wobei das neuronale Netz (200) wenigstens ein neuronales Encoder-Netzwerk (210) und/oder wenigstens ein neuronales Decoder-Netzwerk (220, 230) umfasst, wobei das neuronales Encoder- Netzwerk (210) dazu trainiert ist, basierend auf Kontextdatenpaaren (xn,yn) latente Beobachtungen (r„) zu erzeugen und/oder wobei das ein neuronale Decoder-Netzwerk (220, 230) dazu trainiert ist, basierend auf der latenten Gauß-Verteilung eine Varianz einer Ausgabe des Modells, auch Ausgabevarianz (oy2), und/oder einen Mittelwert .y der Ausgabe des Modells zu bestimmen.
10. Vorrichtung umfassend ein neuronales Netz (200), insbesondere einen neuronalen Prozess, mit einer Architektur nach einem der Ansprüche 7 bis 9, wobei die Vorrichtung zum Ausführen von Schritten eines Verfahrens (100) nach einem der Ansprüche 1 bis 6 ausgebildet ist. Verwenden eines Verfahrens nach einem der Ansprüche 1 bis 6 und/oder eines neuronalen Netzes (200), insbesondere eines neuronalen Prozesses, mit einer Architektur nach einem der Ansprüche 8 bis 9 zum Ermitteln einer, insbesondere unzulässigen, Abweichung eines Systemverhaltens eines technischen Systems von einem Normwertebereich.
PCT/EP2023/065902 2022-06-29 2023-06-14 Verfahren zum abschätzen von modellunsicherheiten mittels eines neuronalen netzes und eine architektur des neuronalen netzes WO2024002693A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102022206629.4 2022-06-29
DE102022206629.4A DE102022206629A1 (de) 2022-06-29 2022-06-29 Verfahren zum Abschätzen von Modellunsicherheiten mittels eines neuronalen Netzes und eine Architektur des neuronalen Netzes

Publications (1)

Publication Number Publication Date
WO2024002693A1 true WO2024002693A1 (de) 2024-01-04

Family

ID=86904267

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2023/065902 WO2024002693A1 (de) 2022-06-29 2023-06-14 Verfahren zum abschätzen von modellunsicherheiten mittels eines neuronalen netzes und eine architektur des neuronalen netzes

Country Status (2)

Country Link
DE (1) DE102022206629A1 (de)
WO (1) WO2024002693A1 (de)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE202018102632U1 (de) * 2018-05-09 2018-05-22 Robert Bosch Gmbh Vorrichtung zum Erstellen einer Modellfunktion für ein physikalisches System
US20220108153A1 (en) * 2020-10-02 2022-04-07 Robert Bosch Gmbh Bayesian context aggregation for neural processes

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE202018102632U1 (de) * 2018-05-09 2018-05-22 Robert Bosch Gmbh Vorrichtung zum Erstellen einer Modellfunktion für ein physikalisches System
US20220108153A1 (en) * 2020-10-02 2022-04-07 Robert Bosch Gmbh Bayesian context aggregation for neural processes

Also Published As

Publication number Publication date
DE102022206629A1 (de) 2024-01-04

Similar Documents

Publication Publication Date Title
DE102016008987B4 (de) Maschinenlernverfahren und Maschinenlernvorrichtung zum Lernen von Fehlerbedingungen, und Fehlervorhersagevorrichtung und Fehlervorhersagesystem, das die Maschinenlernvorrichtung einschließt
DE102018003266B4 (de) Controller und maschinelle lernvorrichtung
DE69324296T2 (de) Verfahren zur Diagnose eines laufenden Prozesses
DE102019131385A1 (de) Sicherheits- und leistungsstabilität von automatisierung durch unsicherheitsgetriebenes lernen und steuern
DE102016011520B4 (de) Produktionsausrüstung mit Maschinenlernsystem und Montage-und Prüfeinheit
EP1715352A2 (de) Verfahren und Vorrichtung zur Fehlerdiagnose mechatronischer Systeme
DE202018102632U1 (de) Vorrichtung zum Erstellen einer Modellfunktion für ein physikalisches System
DE102020215201A1 (de) Verfahren und Vorrichtung zur Vorhersage eines Alterungszustands einer Gerätebatterie in einem batteriebetriebenen Gerät
DE102020212502A1 (de) Bayessche kontext-aggregation für neuronale prozesse
WO2019149664A1 (de) Verfahren zum ermitteln eines zeitlichen verlaufs einer messgrösse, prognosesystem, aktorsteuerungssystem, verfahren zum trainieren des aktorsteuerungssystems, trainingssystem, computerprogramm und maschinenlesbares speichermedium
EP3748551A1 (de) Verfahren, vorrichtung und computerprogramm zum einstellen eines hyperparameters
DE102019114787A1 (de) Steuerung im stabilen betrieb von auf modellprädiktiver steuerung basiertem antriebsstrang mit stufenlosem getriebe
WO2010006928A1 (de) Verfahren und vorrichtung zur überprüfung und feststellung von zuständen eines sensors
DE102020212280A1 (de) Verfahren und Vorrichtung zum Trainieren eines auf künstlicher Intelligenz-basierendem Zustandsmodells zum Ermitteln einer Zustandsgröße eines elektrischen Energiespeichers
DE102020107001A1 (de) Verfahren und Vorrichtung zur Ermittlung des Zustands eines elektrischen Bordnetzes eines Fahrzeugs
WO2024002693A1 (de) Verfahren zum abschätzen von modellunsicherheiten mittels eines neuronalen netzes und eine architektur des neuronalen netzes
WO2023072528A1 (de) Verfahren und steuereinrichtung zum steuern eines technischen systems
DE102021114768A1 (de) Fahrzeugsteuerung unter Verwendung eines Controllers eines neuronalen Netzes in Kombination mit einem modellbasierten Controller
WO2021180428A1 (de) Verfahren und vorrichtung zur überwachung eines elektrischen bordnetzes eines fahrzeugs
DE102022207279A1 (de) Verfahren zum Abschätzen von Modellunsicherheiten mittels eines neuronalen Netzes und eine Architektur des neuronalen Netzes
DE102022203034A1 (de) Verfahren zum Abschätzen von Modellunsicherheiten mittels eines neuronalen Netzes und eine Architektur des neuronalen Netzes
DE202019103233U1 (de) Vorrichtung zum Einstellen eines Hyperparameters
DE112021006961T5 (de) Numerische Steuervorrichtung
DE102019002506A1 (de) Gerät zum Anpassen von Messvorgangsparametern, maschinelle Lernvorrichtung und System
DE102018128315A1 (de) Verfahren, Vorrichtung, Computerprogramm und Computerprogrammprodukt zur Überprüfung eines ersten adaptiven Systemmodells

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23733264

Country of ref document: EP

Kind code of ref document: A1