DE102020211595A1

DE102020211595A1 - Verfahren, Computerprogramm, Speichermedium, Vorrichtung zur Erstellung eines Trainings-, Validierungs- und Testdatensatzes für ein KI-Modul

Info

Publication number: DE102020211595A1
Application number: DE102020211595.8A
Authority: DE
Inventors: Alexandru Paul Condurache; Rainer Stal; Sebastian Muenzner; Florian Faion; Mark Schoene; Claudius Glaeser; Florian Drews; Jasmin Ebert; Lars Rosenbaum; Thomas Gumpp; Michael Ulrich
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2022-03-17
Also published as: CN114202007A; US20220083820A1

Abstract

Einteilen (101) der Messdaten, insbesondere in Zeitabschnitte;Anwenden (102) einer mathematischen Funktion auf die eingeteilten Teile der Messdaten, um die jeweils eingeteilten Teile der Messdaten repräsentierende Signaturen zu erhalten;Bestimmen (103) eines Maßes für die Häufigkeit des Auftretens einer jeweiligen Signatur;Erstellen (104) eines Trainings-, Validierungs- bzw. Testdatensatzes aus den Messdaten in Abhängigkeit von dem bestimmen Maß für die Häufigkeit.

Description

Die vorliegende Erfindung betrifft in einem ersten Aspekt ein Verfahren zur Erstellung eines Trainings-, Validierungs- und Testdatensatzes für ein KI-Modul. In weiteren Aspekten betrifft die vorliegende Erfindung entsprechende Computerprogramme, Speichermedien, Vorrichtungen sowie KI-Module.
Stand der Technik
Bei der Aufnahme von Messdaten, bspw. im Straßenverkehr mittels einer Umfeldsensorik eines Fahrzeugs, gibt es verschiedene Arten von Szenen. Diese sind naturgemäß nicht gleichverteilt und führen zu unbalancierten Datensätzen. Bspw. sind Heckansichten von vorausfahrenden Fahrzeugen häufiger vertreten als andere Szenen. Dies führt bei der statistischen Auswertung, bspw. durch lernende Systeme, zu einer Übergewichtung häufiger Szenen. Dies äußert sich in einem nicht generalisierenden Verhalten des lernenden Systems, bspw. eines lernenden Regressionssystems, insbesondere bei selten vorkommenden Szenen. Dadurch wird die Qualität der Ausgaben solcher Systeme auf diesen Szenen eingeschränkt.
Aus Johnson, J.M. & Khoshgoftaar, T.M. J Big Data (2019) 6: 27. https://doi.org/10.1186/s40537-019-0192-5 sind Ansätze zum Umgang mit gelabelten, unbalancierten Klassendaten bekannt. Darunter u. a. die nachfolgenden Abtasttechniken:

- Überabtastung unterrepräsentierter Klassen (engl. oversample minority class)
- Unterabtastung überrepräsentierter Klassen (engl. undersample majority class)
- Generierung synthetischer Beispiele der unterrepräsentierten Klassen
- Berücksichtigung der Klassenverteilung in der Fehler- und Auswertungsfunktion (überrepräsentative Bestrafung bei Fehlern basierend auf unterrepräsentierten Klassen)

Vorteile der Erfindung
KI-Module zur Steuerung eines technischen Systems werden typischerweise mittels eines Datensatzes trainiert, der sich aus aufgezeichneten Messdaten für das technische System ableitet. Diese Messdaten sind typischerweise unbalanciert. Unter unbalanciert kann vorliegend verstanden werden: Wenn bspw. die Messdaten aus Messungen während einer realen Anwendung des technischen Systems resultieren, dann werden typische Anwendungsfälle des technischen Systems häufiger gemessen, als Grenzfälle (engl. corner cases). Demnach sind typische Anwendungsfälle häufiger in den Messdaten vertreten, als Grenzfälle.
Aufgabe der vorliegenden Erfindung ist daher, die Erstellung eines balancierten Trainings-, Validierungs- und Testdatensatzes, aus Messdaten, bspw. Zeitreihenmessdaten, ohne Szenenlabel u. a. mit dem Ziel eine Balancierung und eine Einteilung des Trainings-, Validierungs- bzw. Testdatensatzes für ein Kl-Modul, wie bspw. ein lernendes System, bspw. ein Regressionssystem, zu erreichen. Auch kann durch das Verfahren sichergestellt werden, dass die Verteilung der Zeitreihenmessdaten annährend uniform ist. Durch die vorliegende Erfindung kann ein höheres Generalisierungsvermögen und eine höhere Performanz des mittels des erstellten Datensatzes trainierten KI-Moduls, insbesondere bei Grenzfällen (engl. corner cases), erreicht werden.
Vor diesem Hintergrund schafft die vorliegende Erfindung in einem ersten Aspekt ein Verfahren zur Erstellung eines Trainings-, Validierungs- bzw. Testdatensatzes zum Training eines KI-Moduls. Dazu weist das Verfahren die nachstehenden Schritte auf:

Einteilen der Messdaten. Bei zeitlich nicht korrelierten Messdaten kann die Einteilung, abhängig von der Natur der Daten bzw. der Zielanwendung des KI-Moduls erfolgen. Bei zeitlich korrelierten Messdaten kann die Einteilung in Zeitabschnitte erfolgen.

Bei den Messdaten kann es sich um Zeitreihenmessdaten, wie bspw. die über die Zeit aufgenommenen Daten eines Fahrzeugsensors handeln.
Anwenden einer mathematischen Funktion auf die eingeteilten Teile der Messdaten, um Signaturen zu erhalten, die die jeweils eingeteilten Teile der Messdaten repräsentieren.
Unter einer mathematischen Funktion kann vorliegend eine simple Abbildung wie bspw. der Mittelwert, die Standardabweichung oder Ähnliches verstanden werden. Ferner kann vorliegend unter einer mathematischen Funktion auch eine komplexe Funktion wie bspw. ein Verfahren des maschinellen Lernens, wie bspw. ein Autoencoder, eine Principle Component Analysis, ein rekurrentes künstliches neuronales Netz odgl. verstanden werden. Ferner kann auch eine Kombination oder Serien von mathematischen Funktionen darunter verstanden werden.
Unter einer Signatur kann vorliegend ein Wert, Wertpaar oder allgemein ein Tupel verstanden werden, der bzw. das als Ergebnis der Anwendung der vorstehend beschriebenen mathematischen Funktionen auf den jeweiligen Teil der Messdaten den jeweiligen Teil der Messdaten repräsentiert.
Bestimmen eines Maßes für die Häufigkeit des Auftretens einer jeweiligen Signatur.
Unter einem Maß für die Häufigkeit kann bei der vorliegenden Erfindung ein Wert, Wertpaar oder allgemein ein Tupel verstanden werden, der wiedergibt wie häufig eine bestimmte Signatur bzw. eine Menge von Signaturen aus der Anwendung der mathematischen Funktion auf die eingeteilten Teile der Messdaten auftritt.
Erstellen eines Trainings-, Validierungs- bzw. Testdatensatzes aus den Messdaten in Abhängigkeit von dem bestimmen Maß für die Häufigkeit.
Bei dem KI-Modul kann es sich um ein Klassifikationssystem oder ein Regressionssystem handeln.
Gemäß einer Ausführungsform des Verfahrens der vorliegenden Erfindung erfolgt im Schritt des Einteilens der Messdaten die Einteilung der Messdaten in feste Zeitabschnitte.
Diese Ausführungsform weist den Vorteil auf, dass dadurch eine gleichmäßige Granularität der erfassten Messdaten sichergestellt werden kann.
Gemäß einer Ausführungsform des Verfahrens der vorliegenden Erfindung wird im Schritt des Anwendens die mathematische Funktion nicht auf alle Teil der Messdaten angewendet.
Diese Ausführungsform weist den Vorteil auf, dass durch das Auslassen von Zeitabschnitten die verbleibenden Zeitabschnitte, auf die eine mathematische Funktion angewendet wird und die dann für die Erstellung des Trainings-, Validierungs- bzw. Testdatensatzes herangezogen werden, weniger stark zeitlich korrelieren. Dies sorgt für ein verbessertes Training von Kl-Modulen.
Gemäß einer Ausführungsform des Verfahrens der vorliegenden Erfindung wird das Verfahren unüberwacht ausgeführt. Unter einer unüberwachten (engl. unsupervised) Ausführung kann vorliegend eine Ausführung verstanden werden, bei der die Trainingsdaten nicht annotiert (engl. labeled) sind oder bei der keine Ergebnisdatensätze für die Trainingsdaten vorliegen.
Ein weiterer Aspekt der vorliegenden Erfindung ist ein Computerprogramm, welches eingerichtet ist alle Schritte des Verfahrens gemäß der vorliegenden Erfindung auszuführen.
Ein weiterer Aspekt der vorliegenden Erfindung ist ein maschinenlesbares Speichermedium, auf dem das Computerprogramm gemäß einem Aspekt der vorliegenden Erfindung gespeichert ist.
Ein weiter Aspekt der vorliegenden Erfindung ist eine Vorrichtung, welche eingerichtet ist alle Schritte des Verfahrens gemäß der vorliegenden Erfindung auszuführen.
Ein weiterer Aspekt der vorliegenden Erfindung ist ein KI-Modul, das geeignet ist ein technisches System zu steuern. Das KI-Modul wurde dabei trainiert mit einem Trainingsdatensatz, der mittels einem Verfahren gemäß dem ersten Aspekt der vorliegenden Erfindung erstellt wurde.
Bei dem technischen System kann es sich im Rahmen der vorliegenden Erfindung u. a. um einen Roboter, ein Fahrzeug, ein Werkzeug oder eine Werkmaschine handeln.
Nach einer Ausführungsform des KI-Moduls gemäß der vorliegenden Erfindung, erfolgt das Training des KI-Moduls in Abhängigkeit von dem bestimmen Maß für die Häufigkeit.
Diese Ausführungsform basiert auf der Erkenntnis, dass ein Trainingsverfahren für ein KI-Modul mittels eines gemäß dem Verfahren der vorliegenden Erfindung erstellten Trainingsdatensatz verbessert werden kann, wenn die gewonnene Information über die Messdaten, mithin das Maß für die Häufigkeiten der jeweiligen Signaturen in den Messdaten für die Steuerung des Trainingsverfahrens eingesetzt wird.
Dies kann bspw. derart erfolgen, dass zunächst ein Training mittels eines gemäß der vorliegenden Erfindung balancierten Datensatzes erfolgt und im Laufe des Trainings der Trainingsdatensatz kontinuierlich zurückfällt zur ursprünglich gemessenen Verteilung der Messdaten.
Diese Steuerung des Trainingsverfahrens basierend auf den Informationen, die im Laufe des Erstellens des Trainingsdatensatzes gemäß dem Verfahren der vorliegenden Erfindung gewonnen werden und weist den Vorteil auf, dass zu Beginn des Trainings ein balancierter Datensatz zur Anwendung kommt, während zum Abschluss des Trainings ein realistischer Datensatz zu Anwendung kommt.
So können zu Beginn, also zu der Zeit, zu der die Lernschritte groß sind, optimierte Datensätze verwendet werden und zum Abschluss, wenn die Lernschritte kleiner sind und Grenzfälle (engl. Corner Cases) einen geringeren Einfluss auf die Gesamtperformanz des KI-Moduls haben, realistische Datensätze zu Anwendung kommen.
Dies führt insgesamt dazu ein ausgewogeneres KI-Modul zu erhalten.
Nachfolgend werden Ausführungsformen der vorliegenden Erfindung anhand von Zeichnungen näher erläutert.
Es zeigen

1 ein Ablaufdiagramm einer Ausführungsform des Trainingsverfahrens gemäß der vorliegenden Erfindung;
2a, 2b Darstellungen eines Messdatensatzes und eines daraus resultierenden Trainingsdatensatzes.

1 zeigt ein Ablaufdiagramm einer Ausführungsform des Verfahrens 100 zur Erstellung von Trainings-, Validierungs- bzw. Testdatensatzes für ein KI-Modul gemäß der vorliegenden Erfindung.
In Schritt 101 wird der Messdatensatz eingeteilt. Je nach Natur der Messdaten kann eine geeignete Einteilung werden. Bei zeitlich korrelierten Messdaten, wie Zeitreihenmessdaten kann die Einteilung in geeignete Zeitabschnitte. Ggf. in feste Zeitabschnitte erfolgen. Handelt es sich bspw. um Messdaten einer Umfeldsensorik eines Fahrzeugs, die bspw. die Orientierung und den Azimut-Winkel eines vorausliegenden Objekts, bspw. eines Fahrzeugs, repräsentieren, so kann ein Zeitschritt von Δt = 5s geeignet sein.
In Schritt 102 wird eine mathematische Funktion auf die eingeteilten Teile der Messdaten angewendet, um die jeweiligen Teile repräsentierende Signaturen zu erhalten.
Unter einer mathematischen Funktion kann vorliegend eine simple Abbildung wie bspw. der Mittelwert, die Standardabweichung oder Ähnliches verstanden werden. Ferner kann vorliegend auch eine komplexe Funktion wie bspw. ein Verfahren des maschinellen Lernens, wie bspw. ein Autoencoder, eine Principle Component Analysis, ein rekurrentes künstliches neuronales Netz odgl. verstanden werden. Ferner kann auch eine Kombination oder Serien von einzelnen mathematischen Funktionen darunter verstanden werden.
Unter einer Signatur kann vorliegend ein Wert, Wertpaar oder allgemein ein Tupel verstanden werden, der bzw. das als Ergebnis der Anwendung einer mathematischen Funktion gemäß der vorliegenden auf den jeweiligen Teil der Messdaten den jeweiligen Teil der Messdaten repräsentiert.
In Schritt 103 wird ein Maß für Häufigkeit des Auftretens einer jeweiligen Signatur bestimmt. Unter einem Maß für die Häufigkeit kann bei der vorliegenden Erfindung ein Wert, Wertpaar oder allgemein ein Tupel verstanden werden, der wiedergibt wie häufig eine bestimmte Signatur bzw. eine Menge von Signaturen aus der Anwendung der mathematischen Funktion auf die eingeteilten Teile der Messdaten auftritt.
In Schritt 104 wird ein Trainings-, Validierungs- bzw. Testdatensatz aus den Messdaten in Abhängigkeit von dem bestimmten Maß für die Häufigkeit erstellt.
Die Erstellung eines Trainings-, Validierungs- bzw. Testdatensatzes kann ausgehend von den zusätzlichen Informationen, die in den für die jeweiligen Teile der Messdaten ermittelten Signaturen abgebildet sind, auf verschiedene Arten erfolgen.
Eine Möglichkeit kann vorsehen, dass in Abhängigkeit von dem bestimmten Maß für die Häufigkeit aus den Messdaten eine Untermenge für einen balancierten Trainings-, Validierungs- bzw. Testdatensatz für ein KI-Moduls ausgewählt wird (engl. re-sampling).
Eine weitere Möglichkeit kann vorsehen, dass unterrepräsentierte Teile der Messdaten, d. h. Teile deren Signaturen gemäß dem ermittelten Maß für die Häufigkeit seltener vorkommen, mehrfach für die Erstellung eines Trainings-, Validierungs- bzw. Testdatensatzes ausgewählt werden.
Eine weitere Möglichkeit kann vorsehen, dass für unterrepräsentierte Teile der Messdaten künstlich Trainings-, Validierungs- bzw. Testdaten erzeugt werden. Für die Erzeugung von künstlichen Daten können dabei Verfahren des maschinellen Lernens, wie bspw. Generative Adversial Networks (GAN), Variational Autoencoder udgl. angewendet werden. Denkbar wäre zudem klassische Verfahren zur physikalischen Modellierung zu verwenden, bspw. Ray-Tracing-Techniken.
Eine weitere Möglichkeit kann vorsehen, die unterrepräsentierten Zeitabschnitte durch Data Augmentation zu unterstützen. Unter Data Augmentation versteht man das künstliche Verändern der Eingangsdaten unter Nutzung von künstlichem Rauschen und anderen plausiblen Veränderungen. Diese müssen physikalisch Plausibel bleiben und bewegen den Eingangsdatenpunkt minimal im Raum.
Eine weitere Möglichkeit kann vorsehen, überrepräsentierte Teile der Messdaten weniger stark zu berücksichtigen. Dies kann bspw. dadurch erfolgen, dass überrepräsentierte Zeitabschnitte für die Erstellung des Trainings-, Validierungs- bzw. Testdatensatzes aus dem Messdatensatz gekürzt werden. Denkbar wäre auch, durch die geringere Auswahl von überrepräsentierten Zeitabschnitten für die Erstellung des Trainings-, Validierungs- bzw. Testdatensatzes erfolgen. Denkbar wäre zudem, die Wahrscheinlichkeit des Auswählens eines überrepräsentierten Zeitabschnitts für die Erstellung des Trainings-, Validierungs- bzw. Testdatensatzes umgekehrt proportional zu dem Maße für die Häufigkeit zu gestalten.
Ferner ist denkbar, dass weiter Messdaten erfasst werden, die im besonderen Maße die unterrepräsentierten Zeitabschnitte betreffen, um deren Auftreten zu stärken. Das weitere Erfassen von Messdaten kann dabei dadurch erfolgen, dass die entsprechenden Sensoren, derartigen Messumgebungen ausgesetzt werden, die die Erfassung den unterrepräsentierten Zeitabschnitt begünstigen. Wird bspw. deutlich, dass es sich bei den unterrepräsentierten Zeitabschnitten, um bestimmte Situationen im Bereich des zumindest teilweise automatisierten Betreibens eines Fahrzeugs handelt, so könnten entsprechend ausgestattete Messfahrzeuge den entsprechenden Situationen ausgesetzt werden, um Daten zu erzeugen, die den unterrepräsentierten Zeitabschnitten entsprechen.
2a und 2b zeigen eine Darstellung der Häufigkeit des Auftretens einer Signatur in einem beispielhaften Messdatensatz bzw. in einem aus dem Messdatensatz mittels des Verfahrens der vorliegenden Erfindung erstellten Trainings, Validierungs- bzw. Testdatensatz.
Genutzt wurden zeitlich korrelierte Messdaten einer Umfeldsensorik, vorliegend eines Radarsensors & eines DGPS. Diese Daten wurden in Zeitabschnitte eingeteilt. Für jeden Zeitabschnitt wurde eine Signatur berechnet, vorliegend der Durchschnitt (Mean), dargestellt in 2a, und die Standardabweichung (Std), dargestellt in 2b, der Orientierung und des Azimut-Winkels. Das Auftreten einer jeweiligen Signatur wurde gezählt. Die gezählte Anzahl einer Signatur ist mittels der Intensität des Grauwertes dargestellt.
Der linke Graph zeigt die Verteilung der gesamten Messdaten. Aufgrund der Natur der Daten handelt es sich dabei um einen unbalancierten Datensatz. Nach Anwendung des Verfahrens der vorliegenden Erfindung liegt ein annähernd balancierter Trainings-, Validierungs- bzw. Testdatensatz vor. Die Balancierung des Trainings-, Validierungs- bzw. Testdatensatzes wurde vorliegend mittels des Sequential Importance Resampling erreicht. Durch die Anwendung des Verfahrens der vorliegenden Erfindung wurde die Anzahl sehr häufig auftretender Signaturen im Trainings-, Validierungs- bzw. Testdatensatz reduziert. Dies ist u. a. an der Ausdünnung der Datenpunkte in der Mitte des rechten Graphens der 2a und am linken Rand des rechten Graphens der 2b erkennbar.

Claims

Verfahren (100) zur Erstellung von Trainings-, Validierungs- und/oder Testdatensatzes für ein KI-Modul, insbesondere eines Regressionssystems, aus Messdaten, insbesondere aus Zeitreihenmessdaten, mit den Schritten: Einteilen (101) der Messdaten, insbesondere in Zeitabschnitte; Anwenden (102) einer mathematischen Funktion auf die eingeteilten Teile der Messdaten, um die jeweiligen Teile repräsentierende Signaturen zu erhalten; Bestimmen (103) eines Maßes für die Häufigkeit des Auftretens einer jeweiligen Signatur; Erstellen (104) eines Trainings-, Validierungs- bzw. Testdatensatzes aus den Messdaten in Abhängigkeit von dem bestimmen Maß für die Häufigkeit.
Verfahren (100) nach Anspruch 1, wobei die Messdaten zeitlich korrelieren und wobei im Schritt des Einteilens (101) der Messdaten die Einteilung in feste Zeitabschnitte erfolgt.
Verfahren (100) nach Anspruch 1 oder 2, wobei im Schritt des Anwendens (102) die mathematische Funktion nicht auf alle eingeteilten Teile angewendet wird.
Verfahren (100) nach einem der vorhergehenden Ansprüche, wobei das Verfahren (100) unüberwacht ausgeführt wird.
Computerprogramm, welches eingerichtet ist, alle Schritte eines Verfahrens (100) nach einem der vorhergehenden Ansprüche auszuführen.
Maschinenlesbares Speichermedium, auf dem ein Computerprogramm nach Anspruch 5 gespeichert ist.
Vorrichtung, welche eingerichtet ist, alle Schritte eines Verfahrens (100) nach einem der vorhergehenden Ansprüche auszuführen.
KI-Modul zur Steuerung eines technischen Systems trainiert mit einem Trainingsdatensatz, der mittels einem Verfahren (100) nach einem der Ansprüche 1 bis 4 erstellt wurde.
KI-Modul nach Anspruch 8, wobei das Training des KI-Moduls in Abhängigkeit von dem bestimmen Maß für die Häufigkeit erfolgt.