DE102020211595A1 - Verfahren, Computerprogramm, Speichermedium, Vorrichtung zur Erstellung eines Trainings-, Validierungs- und Testdatensatzes für ein KI-Modul - Google Patents

Verfahren, Computerprogramm, Speichermedium, Vorrichtung zur Erstellung eines Trainings-, Validierungs- und Testdatensatzes für ein KI-Modul Download PDF

Info

Publication number
DE102020211595A1
DE102020211595A1 DE102020211595.8A DE102020211595A DE102020211595A1 DE 102020211595 A1 DE102020211595 A1 DE 102020211595A1 DE 102020211595 A DE102020211595 A DE 102020211595A DE 102020211595 A1 DE102020211595 A1 DE 102020211595A1
Authority
DE
Germany
Prior art keywords
measurement data
training
module
validation
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020211595.8A
Other languages
English (en)
Inventor
Alexandru Paul Condurache
Rainer Stal
Sebastian Muenzner
Florian Faion
Mark Schoene
Claudius Glaeser
Florian Drews
Jasmin Ebert
Lars Rosenbaum
Thomas Gumpp
Michael Ulrich
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102020211595.8A priority Critical patent/DE102020211595A1/de
Priority to CN202111079702.XA priority patent/CN114202007A/zh
Priority to US17/475,500 priority patent/US20220083820A1/en
Publication of DE102020211595A1 publication Critical patent/DE102020211595A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)
  • Testing Of Devices, Machine Parts, Or Other Structures Thereof (AREA)

Abstract

Einteilen (101) der Messdaten, insbesondere in Zeitabschnitte;Anwenden (102) einer mathematischen Funktion auf die eingeteilten Teile der Messdaten, um die jeweils eingeteilten Teile der Messdaten repräsentierende Signaturen zu erhalten;Bestimmen (103) eines Maßes für die Häufigkeit des Auftretens einer jeweiligen Signatur;Erstellen (104) eines Trainings-, Validierungs- bzw. Testdatensatzes aus den Messdaten in Abhängigkeit von dem bestimmen Maß für die Häufigkeit.

Description

  • Die vorliegende Erfindung betrifft in einem ersten Aspekt ein Verfahren zur Erstellung eines Trainings-, Validierungs- und Testdatensatzes für ein KI-Modul. In weiteren Aspekten betrifft die vorliegende Erfindung entsprechende Computerprogramme, Speichermedien, Vorrichtungen sowie KI-Module.
  • Stand der Technik
  • Bei der Aufnahme von Messdaten, bspw. im Straßenverkehr mittels einer Umfeldsensorik eines Fahrzeugs, gibt es verschiedene Arten von Szenen. Diese sind naturgemäß nicht gleichverteilt und führen zu unbalancierten Datensätzen. Bspw. sind Heckansichten von vorausfahrenden Fahrzeugen häufiger vertreten als andere Szenen. Dies führt bei der statistischen Auswertung, bspw. durch lernende Systeme, zu einer Übergewichtung häufiger Szenen. Dies äußert sich in einem nicht generalisierenden Verhalten des lernenden Systems, bspw. eines lernenden Regressionssystems, insbesondere bei selten vorkommenden Szenen. Dadurch wird die Qualität der Ausgaben solcher Systeme auf diesen Szenen eingeschränkt.
  • Aus Johnson, J.M. & Khoshgoftaar, T.M. J Big Data (2019) 6: 27. https://doi.org/10.1186/s40537-019-0192-5 sind Ansätze zum Umgang mit gelabelten, unbalancierten Klassendaten bekannt. Darunter u. a. die nachfolgenden Abtasttechniken:
    • - Überabtastung unterrepräsentierter Klassen (engl. oversample minority class)
    • - Unterabtastung überrepräsentierter Klassen (engl. undersample majority class)
    • - Generierung synthetischer Beispiele der unterrepräsentierten Klassen
    • - Berücksichtigung der Klassenverteilung in der Fehler- und Auswertungsfunktion (überrepräsentative Bestrafung bei Fehlern basierend auf unterrepräsentierten Klassen)
  • Vorteile der Erfindung
  • KI-Module zur Steuerung eines technischen Systems werden typischerweise mittels eines Datensatzes trainiert, der sich aus aufgezeichneten Messdaten für das technische System ableitet. Diese Messdaten sind typischerweise unbalanciert. Unter unbalanciert kann vorliegend verstanden werden: Wenn bspw. die Messdaten aus Messungen während einer realen Anwendung des technischen Systems resultieren, dann werden typische Anwendungsfälle des technischen Systems häufiger gemessen, als Grenzfälle (engl. corner cases). Demnach sind typische Anwendungsfälle häufiger in den Messdaten vertreten, als Grenzfälle.
  • Aufgabe der vorliegenden Erfindung ist daher, die Erstellung eines balancierten Trainings-, Validierungs- und Testdatensatzes, aus Messdaten, bspw. Zeitreihenmessdaten, ohne Szenenlabel u. a. mit dem Ziel eine Balancierung und eine Einteilung des Trainings-, Validierungs- bzw. Testdatensatzes für ein Kl-Modul, wie bspw. ein lernendes System, bspw. ein Regressionssystem, zu erreichen. Auch kann durch das Verfahren sichergestellt werden, dass die Verteilung der Zeitreihenmessdaten annährend uniform ist. Durch die vorliegende Erfindung kann ein höheres Generalisierungsvermögen und eine höhere Performanz des mittels des erstellten Datensatzes trainierten KI-Moduls, insbesondere bei Grenzfällen (engl. corner cases), erreicht werden.
  • Vor diesem Hintergrund schafft die vorliegende Erfindung in einem ersten Aspekt ein Verfahren zur Erstellung eines Trainings-, Validierungs- bzw. Testdatensatzes zum Training eines KI-Moduls. Dazu weist das Verfahren die nachstehenden Schritte auf:
    • Einteilen der Messdaten. Bei zeitlich nicht korrelierten Messdaten kann die Einteilung, abhängig von der Natur der Daten bzw. der Zielanwendung des KI-Moduls erfolgen. Bei zeitlich korrelierten Messdaten kann die Einteilung in Zeitabschnitte erfolgen.
  • Bei den Messdaten kann es sich um Zeitreihenmessdaten, wie bspw. die über die Zeit aufgenommenen Daten eines Fahrzeugsensors handeln.
  • Anwenden einer mathematischen Funktion auf die eingeteilten Teile der Messdaten, um Signaturen zu erhalten, die die jeweils eingeteilten Teile der Messdaten repräsentieren.
  • Unter einer mathematischen Funktion kann vorliegend eine simple Abbildung wie bspw. der Mittelwert, die Standardabweichung oder Ähnliches verstanden werden. Ferner kann vorliegend unter einer mathematischen Funktion auch eine komplexe Funktion wie bspw. ein Verfahren des maschinellen Lernens, wie bspw. ein Autoencoder, eine Principle Component Analysis, ein rekurrentes künstliches neuronales Netz odgl. verstanden werden. Ferner kann auch eine Kombination oder Serien von mathematischen Funktionen darunter verstanden werden.
  • Unter einer Signatur kann vorliegend ein Wert, Wertpaar oder allgemein ein Tupel verstanden werden, der bzw. das als Ergebnis der Anwendung der vorstehend beschriebenen mathematischen Funktionen auf den jeweiligen Teil der Messdaten den jeweiligen Teil der Messdaten repräsentiert.
  • Bestimmen eines Maßes für die Häufigkeit des Auftretens einer jeweiligen Signatur.
  • Unter einem Maß für die Häufigkeit kann bei der vorliegenden Erfindung ein Wert, Wertpaar oder allgemein ein Tupel verstanden werden, der wiedergibt wie häufig eine bestimmte Signatur bzw. eine Menge von Signaturen aus der Anwendung der mathematischen Funktion auf die eingeteilten Teile der Messdaten auftritt.
  • Erstellen eines Trainings-, Validierungs- bzw. Testdatensatzes aus den Messdaten in Abhängigkeit von dem bestimmen Maß für die Häufigkeit.
  • Bei dem KI-Modul kann es sich um ein Klassifikationssystem oder ein Regressionssystem handeln.
  • Gemäß einer Ausführungsform des Verfahrens der vorliegenden Erfindung erfolgt im Schritt des Einteilens der Messdaten die Einteilung der Messdaten in feste Zeitabschnitte.
  • Diese Ausführungsform weist den Vorteil auf, dass dadurch eine gleichmäßige Granularität der erfassten Messdaten sichergestellt werden kann.
  • Gemäß einer Ausführungsform des Verfahrens der vorliegenden Erfindung wird im Schritt des Anwendens die mathematische Funktion nicht auf alle Teil der Messdaten angewendet.
  • Diese Ausführungsform weist den Vorteil auf, dass durch das Auslassen von Zeitabschnitten die verbleibenden Zeitabschnitte, auf die eine mathematische Funktion angewendet wird und die dann für die Erstellung des Trainings-, Validierungs- bzw. Testdatensatzes herangezogen werden, weniger stark zeitlich korrelieren. Dies sorgt für ein verbessertes Training von Kl-Modulen.
  • Gemäß einer Ausführungsform des Verfahrens der vorliegenden Erfindung wird das Verfahren unüberwacht ausgeführt. Unter einer unüberwachten (engl. unsupervised) Ausführung kann vorliegend eine Ausführung verstanden werden, bei der die Trainingsdaten nicht annotiert (engl. labeled) sind oder bei der keine Ergebnisdatensätze für die Trainingsdaten vorliegen.
  • Ein weiterer Aspekt der vorliegenden Erfindung ist ein Computerprogramm, welches eingerichtet ist alle Schritte des Verfahrens gemäß der vorliegenden Erfindung auszuführen.
  • Ein weiterer Aspekt der vorliegenden Erfindung ist ein maschinenlesbares Speichermedium, auf dem das Computerprogramm gemäß einem Aspekt der vorliegenden Erfindung gespeichert ist.
  • Ein weiter Aspekt der vorliegenden Erfindung ist eine Vorrichtung, welche eingerichtet ist alle Schritte des Verfahrens gemäß der vorliegenden Erfindung auszuführen.
  • Ein weiterer Aspekt der vorliegenden Erfindung ist ein KI-Modul, das geeignet ist ein technisches System zu steuern. Das KI-Modul wurde dabei trainiert mit einem Trainingsdatensatz, der mittels einem Verfahren gemäß dem ersten Aspekt der vorliegenden Erfindung erstellt wurde.
  • Bei dem technischen System kann es sich im Rahmen der vorliegenden Erfindung u. a. um einen Roboter, ein Fahrzeug, ein Werkzeug oder eine Werkmaschine handeln.
  • Nach einer Ausführungsform des KI-Moduls gemäß der vorliegenden Erfindung, erfolgt das Training des KI-Moduls in Abhängigkeit von dem bestimmen Maß für die Häufigkeit.
  • Diese Ausführungsform basiert auf der Erkenntnis, dass ein Trainingsverfahren für ein KI-Modul mittels eines gemäß dem Verfahren der vorliegenden Erfindung erstellten Trainingsdatensatz verbessert werden kann, wenn die gewonnene Information über die Messdaten, mithin das Maß für die Häufigkeiten der jeweiligen Signaturen in den Messdaten für die Steuerung des Trainingsverfahrens eingesetzt wird.
  • Dies kann bspw. derart erfolgen, dass zunächst ein Training mittels eines gemäß der vorliegenden Erfindung balancierten Datensatzes erfolgt und im Laufe des Trainings der Trainingsdatensatz kontinuierlich zurückfällt zur ursprünglich gemessenen Verteilung der Messdaten.
  • Diese Steuerung des Trainingsverfahrens basierend auf den Informationen, die im Laufe des Erstellens des Trainingsdatensatzes gemäß dem Verfahren der vorliegenden Erfindung gewonnen werden und weist den Vorteil auf, dass zu Beginn des Trainings ein balancierter Datensatz zur Anwendung kommt, während zum Abschluss des Trainings ein realistischer Datensatz zu Anwendung kommt.
  • So können zu Beginn, also zu der Zeit, zu der die Lernschritte groß sind, optimierte Datensätze verwendet werden und zum Abschluss, wenn die Lernschritte kleiner sind und Grenzfälle (engl. Corner Cases) einen geringeren Einfluss auf die Gesamtperformanz des KI-Moduls haben, realistische Datensätze zu Anwendung kommen.
  • Dies führt insgesamt dazu ein ausgewogeneres KI-Modul zu erhalten.
  • Nachfolgend werden Ausführungsformen der vorliegenden Erfindung anhand von Zeichnungen näher erläutert.
  • Es zeigen
    • 1 ein Ablaufdiagramm einer Ausführungsform des Trainingsverfahrens gemäß der vorliegenden Erfindung;
    • 2a, 2b Darstellungen eines Messdatensatzes und eines daraus resultierenden Trainingsdatensatzes.
  • 1 zeigt ein Ablaufdiagramm einer Ausführungsform des Verfahrens 100 zur Erstellung von Trainings-, Validierungs- bzw. Testdatensatzes für ein KI-Modul gemäß der vorliegenden Erfindung.
  • In Schritt 101 wird der Messdatensatz eingeteilt. Je nach Natur der Messdaten kann eine geeignete Einteilung werden. Bei zeitlich korrelierten Messdaten, wie Zeitreihenmessdaten kann die Einteilung in geeignete Zeitabschnitte. Ggf. in feste Zeitabschnitte erfolgen. Handelt es sich bspw. um Messdaten einer Umfeldsensorik eines Fahrzeugs, die bspw. die Orientierung und den Azimut-Winkel eines vorausliegenden Objekts, bspw. eines Fahrzeugs, repräsentieren, so kann ein Zeitschritt von Δt = 5s geeignet sein.
  • In Schritt 102 wird eine mathematische Funktion auf die eingeteilten Teile der Messdaten angewendet, um die jeweiligen Teile repräsentierende Signaturen zu erhalten.
  • Unter einer mathematischen Funktion kann vorliegend eine simple Abbildung wie bspw. der Mittelwert, die Standardabweichung oder Ähnliches verstanden werden. Ferner kann vorliegend auch eine komplexe Funktion wie bspw. ein Verfahren des maschinellen Lernens, wie bspw. ein Autoencoder, eine Principle Component Analysis, ein rekurrentes künstliches neuronales Netz odgl. verstanden werden. Ferner kann auch eine Kombination oder Serien von einzelnen mathematischen Funktionen darunter verstanden werden.
  • Unter einer Signatur kann vorliegend ein Wert, Wertpaar oder allgemein ein Tupel verstanden werden, der bzw. das als Ergebnis der Anwendung einer mathematischen Funktion gemäß der vorliegenden auf den jeweiligen Teil der Messdaten den jeweiligen Teil der Messdaten repräsentiert.
  • In Schritt 103 wird ein Maß für Häufigkeit des Auftretens einer jeweiligen Signatur bestimmt. Unter einem Maß für die Häufigkeit kann bei der vorliegenden Erfindung ein Wert, Wertpaar oder allgemein ein Tupel verstanden werden, der wiedergibt wie häufig eine bestimmte Signatur bzw. eine Menge von Signaturen aus der Anwendung der mathematischen Funktion auf die eingeteilten Teile der Messdaten auftritt.
  • In Schritt 104 wird ein Trainings-, Validierungs- bzw. Testdatensatz aus den Messdaten in Abhängigkeit von dem bestimmten Maß für die Häufigkeit erstellt.
  • Die Erstellung eines Trainings-, Validierungs- bzw. Testdatensatzes kann ausgehend von den zusätzlichen Informationen, die in den für die jeweiligen Teile der Messdaten ermittelten Signaturen abgebildet sind, auf verschiedene Arten erfolgen.
  • Eine Möglichkeit kann vorsehen, dass in Abhängigkeit von dem bestimmten Maß für die Häufigkeit aus den Messdaten eine Untermenge für einen balancierten Trainings-, Validierungs- bzw. Testdatensatz für ein KI-Moduls ausgewählt wird (engl. re-sampling).
  • Eine weitere Möglichkeit kann vorsehen, dass unterrepräsentierte Teile der Messdaten, d. h. Teile deren Signaturen gemäß dem ermittelten Maß für die Häufigkeit seltener vorkommen, mehrfach für die Erstellung eines Trainings-, Validierungs- bzw. Testdatensatzes ausgewählt werden.
  • Eine weitere Möglichkeit kann vorsehen, dass für unterrepräsentierte Teile der Messdaten künstlich Trainings-, Validierungs- bzw. Testdaten erzeugt werden. Für die Erzeugung von künstlichen Daten können dabei Verfahren des maschinellen Lernens, wie bspw. Generative Adversial Networks (GAN), Variational Autoencoder udgl. angewendet werden. Denkbar wäre zudem klassische Verfahren zur physikalischen Modellierung zu verwenden, bspw. Ray-Tracing-Techniken.
  • Eine weitere Möglichkeit kann vorsehen, die unterrepräsentierten Zeitabschnitte durch Data Augmentation zu unterstützen. Unter Data Augmentation versteht man das künstliche Verändern der Eingangsdaten unter Nutzung von künstlichem Rauschen und anderen plausiblen Veränderungen. Diese müssen physikalisch Plausibel bleiben und bewegen den Eingangsdatenpunkt minimal im Raum.
  • Eine weitere Möglichkeit kann vorsehen, überrepräsentierte Teile der Messdaten weniger stark zu berücksichtigen. Dies kann bspw. dadurch erfolgen, dass überrepräsentierte Zeitabschnitte für die Erstellung des Trainings-, Validierungs- bzw. Testdatensatzes aus dem Messdatensatz gekürzt werden. Denkbar wäre auch, durch die geringere Auswahl von überrepräsentierten Zeitabschnitten für die Erstellung des Trainings-, Validierungs- bzw. Testdatensatzes erfolgen. Denkbar wäre zudem, die Wahrscheinlichkeit des Auswählens eines überrepräsentierten Zeitabschnitts für die Erstellung des Trainings-, Validierungs- bzw. Testdatensatzes umgekehrt proportional zu dem Maße für die Häufigkeit zu gestalten.
  • Ferner ist denkbar, dass weiter Messdaten erfasst werden, die im besonderen Maße die unterrepräsentierten Zeitabschnitte betreffen, um deren Auftreten zu stärken. Das weitere Erfassen von Messdaten kann dabei dadurch erfolgen, dass die entsprechenden Sensoren, derartigen Messumgebungen ausgesetzt werden, die die Erfassung den unterrepräsentierten Zeitabschnitt begünstigen. Wird bspw. deutlich, dass es sich bei den unterrepräsentierten Zeitabschnitten, um bestimmte Situationen im Bereich des zumindest teilweise automatisierten Betreibens eines Fahrzeugs handelt, so könnten entsprechend ausgestattete Messfahrzeuge den entsprechenden Situationen ausgesetzt werden, um Daten zu erzeugen, die den unterrepräsentierten Zeitabschnitten entsprechen.
  • 2a und 2b zeigen eine Darstellung der Häufigkeit des Auftretens einer Signatur in einem beispielhaften Messdatensatz bzw. in einem aus dem Messdatensatz mittels des Verfahrens der vorliegenden Erfindung erstellten Trainings, Validierungs- bzw. Testdatensatz.
  • Genutzt wurden zeitlich korrelierte Messdaten einer Umfeldsensorik, vorliegend eines Radarsensors & eines DGPS. Diese Daten wurden in Zeitabschnitte eingeteilt. Für jeden Zeitabschnitt wurde eine Signatur berechnet, vorliegend der Durchschnitt (Mean), dargestellt in 2a, und die Standardabweichung (Std), dargestellt in 2b, der Orientierung und des Azimut-Winkels. Das Auftreten einer jeweiligen Signatur wurde gezählt. Die gezählte Anzahl einer Signatur ist mittels der Intensität des Grauwertes dargestellt.
  • Der linke Graph zeigt die Verteilung der gesamten Messdaten. Aufgrund der Natur der Daten handelt es sich dabei um einen unbalancierten Datensatz. Nach Anwendung des Verfahrens der vorliegenden Erfindung liegt ein annähernd balancierter Trainings-, Validierungs- bzw. Testdatensatz vor. Die Balancierung des Trainings-, Validierungs- bzw. Testdatensatzes wurde vorliegend mittels des Sequential Importance Resampling erreicht. Durch die Anwendung des Verfahrens der vorliegenden Erfindung wurde die Anzahl sehr häufig auftretender Signaturen im Trainings-, Validierungs- bzw. Testdatensatz reduziert. Dies ist u. a. an der Ausdünnung der Datenpunkte in der Mitte des rechten Graphens der 2a und am linken Rand des rechten Graphens der 2b erkennbar.

Claims (9)

  1. Verfahren (100) zur Erstellung von Trainings-, Validierungs- und/oder Testdatensatzes für ein KI-Modul, insbesondere eines Regressionssystems, aus Messdaten, insbesondere aus Zeitreihenmessdaten, mit den Schritten: Einteilen (101) der Messdaten, insbesondere in Zeitabschnitte; Anwenden (102) einer mathematischen Funktion auf die eingeteilten Teile der Messdaten, um die jeweiligen Teile repräsentierende Signaturen zu erhalten; Bestimmen (103) eines Maßes für die Häufigkeit des Auftretens einer jeweiligen Signatur; Erstellen (104) eines Trainings-, Validierungs- bzw. Testdatensatzes aus den Messdaten in Abhängigkeit von dem bestimmen Maß für die Häufigkeit.
  2. Verfahren (100) nach Anspruch 1, wobei die Messdaten zeitlich korrelieren und wobei im Schritt des Einteilens (101) der Messdaten die Einteilung in feste Zeitabschnitte erfolgt.
  3. Verfahren (100) nach Anspruch 1 oder 2, wobei im Schritt des Anwendens (102) die mathematische Funktion nicht auf alle eingeteilten Teile angewendet wird.
  4. Verfahren (100) nach einem der vorhergehenden Ansprüche, wobei das Verfahren (100) unüberwacht ausgeführt wird.
  5. Computerprogramm, welches eingerichtet ist, alle Schritte eines Verfahrens (100) nach einem der vorhergehenden Ansprüche auszuführen.
  6. Maschinenlesbares Speichermedium, auf dem ein Computerprogramm nach Anspruch 5 gespeichert ist.
  7. Vorrichtung, welche eingerichtet ist, alle Schritte eines Verfahrens (100) nach einem der vorhergehenden Ansprüche auszuführen.
  8. KI-Modul zur Steuerung eines technischen Systems trainiert mit einem Trainingsdatensatz, der mittels einem Verfahren (100) nach einem der Ansprüche 1 bis 4 erstellt wurde.
  9. KI-Modul nach Anspruch 8, wobei das Training des KI-Moduls in Abhängigkeit von dem bestimmen Maß für die Häufigkeit erfolgt.
DE102020211595.8A 2020-09-16 2020-09-16 Verfahren, Computerprogramm, Speichermedium, Vorrichtung zur Erstellung eines Trainings-, Validierungs- und Testdatensatzes für ein KI-Modul Pending DE102020211595A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE102020211595.8A DE102020211595A1 (de) 2020-09-16 2020-09-16 Verfahren, Computerprogramm, Speichermedium, Vorrichtung zur Erstellung eines Trainings-, Validierungs- und Testdatensatzes für ein KI-Modul
CN202111079702.XA CN114202007A (zh) 2020-09-16 2021-09-15 用于为人工智能模块创建训练、验证和测试数据集的方法、计算机程序、存储介质、设备
US17/475,500 US20220083820A1 (en) 2020-09-16 2021-09-15 Method, Computer Program, Storage Medium and Apparatus for Creating a Training, Validation and Test Dataset for an AI Module

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102020211595.8A DE102020211595A1 (de) 2020-09-16 2020-09-16 Verfahren, Computerprogramm, Speichermedium, Vorrichtung zur Erstellung eines Trainings-, Validierungs- und Testdatensatzes für ein KI-Modul

Publications (1)

Publication Number Publication Date
DE102020211595A1 true DE102020211595A1 (de) 2022-03-17

Family

ID=80351531

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020211595.8A Pending DE102020211595A1 (de) 2020-09-16 2020-09-16 Verfahren, Computerprogramm, Speichermedium, Vorrichtung zur Erstellung eines Trainings-, Validierungs- und Testdatensatzes für ein KI-Modul

Country Status (3)

Country Link
US (1) US20220083820A1 (de)
CN (1) CN114202007A (de)
DE (1) DE102020211595A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022213969A1 (de) 2022-12-20 2024-06-20 Zf Friedrichshafen Ag Verfahren zur Erzeugung eines Trainingsdatensatzes

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102022213969A1 (de) 2022-12-20 2024-06-20 Zf Friedrichshafen Ag Verfahren zur Erzeugung eines Trainingsdatensatzes

Also Published As

Publication number Publication date
CN114202007A (zh) 2022-03-18
US20220083820A1 (en) 2022-03-17

Similar Documents

Publication Publication Date Title
WO2004090807A2 (de) Verfahren zum trainieren von neuronalen netzen
DE102019124018A1 (de) Verfahren zum Optimieren von Tests von Regelsystemen für automatisierte Fahrdynamiksysteme
EP3729213B1 (de) Verhaltensmodell eines umgebungssensors
DE102020133556A1 (de) Vorrichtung und verfahren zum ermitteln eines reibungskoeffizienten eines bremsreibungsmaterials
WO2021092639A1 (de) Verfahren und system zum analysieren und/oder optimieren einer konfiguration einer fahrzeuggattung
DE102020211595A1 (de) Verfahren, Computerprogramm, Speichermedium, Vorrichtung zur Erstellung eines Trainings-, Validierungs- und Testdatensatzes für ein KI-Modul
AT523850B1 (de) Computergestütztes Verfahren und Vorrichtung zur wahrscheinlichkeitsbasierten Geschwindigkeitsprognose für Fahrzeuge
EP2088486A1 (de) Verfahren zur Vermessung eines nichtlinearen dynamischen realen Systems mittels Versuchsplanung
WO2018206522A1 (de) Produktreifebestimmung eines technischen systems und insbesondere eines autonom fahrenden fahrzeugs
WO2018177526A1 (de) Robustheitsanalyse bei fahrzeugen
DE102009018785A1 (de) Verfahren und Vorrichtungen für eine virtuelle Testzelle
DE102021210393A1 (de) Verfahren und Vorrichtung zum Betreiben eines technischen Systems
DE102020214474A1 (de) Verfahren und Vorrichtung zum Erstellen eines Emissionsmodells eines Verbrennungsmotors
DE102016208076A1 (de) Verfahren und vorrichtung zur auswertung eines eingabewerts in einem fahrerassistenzsystem, fahrerassistenzsystem und testsystem für ein fahrerassistenzsystem
DE102019218476A1 (de) Vorrichtung und Verfahren zum Messen, Simulieren, Labeln und zur Bewertung von Komponenten und Systemen von Fahrzeugen
DE102022200285B3 (de) Verfahren und Vorrichtung zum Bereitstellen eines datenbasierten Systemmodells und zum Überprüfen eines Trainingszustands des Systemmodells
DE112018001810T5 (de) Recheneinheit, Logaufzeichnungsverfahren, Logaufzeichnungssystem
DE102019216025A1 (de) Verfahren und Steuergerät zum automatischen Selektieren von Datensätzen für ein Verfahren zum maschinellen Lernen
DE102021212728A1 (de) Verfahren zum Erzeugen von Trainingsdaten zum Trainieren eines Algorithmus des maschinellen Lernens
WO2023247589A1 (de) Verfahren zum evaluieren eines sensormodells, verfahren zum trainieren eines erkennungsalgorithmus und sensorsystem
DE102021212727A1 (de) Verfahren zum Erzeugen von Trainingsdaten zum Trainieren eines Algorithmus des maschinellen Lernens
DE102022212902A1 (de) Verfahren zum Trainieren eines künstlichen neuronalen Netzes
DE102020207921A1 (de) Verfahren zum Einrichten eines Fahrzeugsimulationsmodells
DE102023200348A1 (de) Verfahren zum Trainieren eines Vorhersagemodells zum Überwachen eines Konditionierungsprozesses
EP4318245A1 (de) Verfahren und system zur analyse von testdurchführungen