DE102021203440A1

DE102021203440A1 - Computer-implemented method, computer program and arrangement for predicting and planning trajectories

Info

Publication number: DE102021203440A1
Application number: DE102021203440.3A
Authority: DE
Inventors: Georg Schneider; Nils Murzyn; Vijay Parsi; Firas Mualla
Original assignee: ZF Friedrichshafen AG
Current assignee: ZF Friedrichshafen AG
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2022-10-13
Also published as: EP4320408A1; WO2022214414A1

Abstract

Computerimplementiertes Verfahren zum Vorhersagen und Planen von Trajektorien umfassend die Schritte: Prozessieren eines ersten Maschinenlernmodells (IntCNN) (V3), das als Eingabe die hybride Szenen-Repräsentation (HSRV) erhält und trainiert ist oder mittels Referenz-Vorhersagen trainiert wird, Interaktionen zwischen den statischen (stat) und dynamischen(dyn) Umfeldmerkmalen zu bestimmen, wobei eine Funktion des ersten Maschinenlernmodells (IntCNN) auf die erste Schicht (A,B, C), die zweite Schicht (D, E) und die dritte Schicht (F, G, H) angewendet wird und eine Einbettung (M) der starren statischen Umfeldmerkmale (stat_1), der zustandswechselnden statischen Umfeldmerkmale (stat_2) und der dynamischen Umfeldmerkmale (dyn) erzeugt wird und die Einbettung (M) von dem Maschinenlernmodell (IntCNN) ausgegeben wird.Computer-implemented method for predicting and planning trajectories, comprising the steps: processing a first machine learning model (IntCNN) (V3), which receives the hybrid scene representation (HSRV) as input and is trained or is trained using reference predictions, interactions between the static (stat) and dynamic(dyn) environmental characteristics, whereby a function of the first machine learning model (IntCNN) on the first layer (A,B,C), the second layer (D,E) and the third layer (F,G, H) is applied and an embedding (M) of the rigid static environment features (stat_1), the state-changing static environment features (stat_2) and the dynamic environment features (dyn) is generated and the embedding (M) of the machine learning model (IntCNN) is output.

Description

Die Erfindung betrifft ein computerimplementiertes Verfahren, ein Computerprogramm und eine Anordnung zum Vorhersagen und Planen von Trajektorien.The invention relates to a computer-implemented method, a computer program and an arrangement for predicting and planning trajectories.

Im Rahmen von AD/ADAS-Anwendungen, aber auch im Umfeld von Industrie 4.0 und kollaborativer Mensch-Roboter-Interaktion, reicht eine reine sensorielle Erfassung der Umwelt nicht aus. Vielmehr wird die zeitliche Vorhersage der Weiterentwicklung der dynamischen Szene mit all ihren eigenständigen Interakteuren, zum Beispiel Personen, Fahrzeuge, Radfahrer, immer wichtiger, um intelligente Entscheidungen für beispielsweise automatisierte Fahrzeuge treffen zu können. Hierbei ist nicht nur die Interaktion aller Interakteure, beispielsweise Verkehrsteilnehmer, untereinander wichtig, sondern auch die Interaktion dieser mit ihrer direkten Umwelt, zum Beispiel dem Verkehrsraum und/oder der Infrastruktur.In the context of AD/ADAS applications, but also in the context of Industry 4.0 and collaborative human-robot interaction, purely sensory detection of the environment is not sufficient. Rather, the temporal prediction of the further development of the dynamic scene with all its independent interactors, e.g. people, vehicles, cyclists, is becoming increasingly important in order to be able to make intelligent decisions for automated vehicles, for example. Not only the interaction of all interactors, for example road users, is important here, but also the interaction of these with their direct environment, for example the traffic area and/or the infrastructure.

Um eine verlässliche und leistungsstarke Szenen-Vorhersage gewährleisten zu können, müssen alle diese expliziten, impliziten, regional geprägten und ereignisgeprägten Regeln/Informationen in Betracht gezogen werden und zur zeitlichen Vorhersage herangezogen werden. Die deutsche Patentanmeldung mit dem Aktenzeichen 10 2020 210 379.8 offenbart eine hybride Szenen-Repräsentation, die Interaktionen zwischen statischen und dynamischen Objekten und/oder Informationen modelliert.In order to ensure reliable and powerful scene prediction, all of these explicit, implicit, regional and event-driven rules/information must be considered and used for temporal prediction. The German patent application with the file number 10 2020 210 379.8 discloses a hybrid scene representation that models interactions between static and dynamic objects and/or information.

Weiterer Stand der Technik ist in

• Yibiao Zhao, Yizhou Wang, and Ying Nian Wu: Multi-agent tensor fusion for contextual trajectory prediction, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2019 und
• Nachiket Deo and Mohan M. Trivedi: Convolutional social pooling for vehicle trajectory prediction, IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, June 2018

offenbart.Further prior art is in

• Yibiao Zhao, Yizhou Wang, and Ying Nian Wu: Multi-agent tensor fusion for contextual trajectory prediction, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2019 and
• Nachiket Deo and Mohan M. Trivedi: Convolutional social pooling for vehicle trajectory prediction, IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, June 2018

disclosed.

Der Erfindung lag die Aufgabe zugrunde, wie eine auf die hybride Szenen-Repräsentation aufbauende Verarbeitung verbessert werden kann, um eine verbesserte Bewegungsplanung für Verkehrsteilnehmer, beispielsweise automatisierte Fahrsysteme, zu ermöglichen, beispielsweise eine zeitliche Vorhersage von allen Verkehrsteilnehmern über mehrere Zeitschritte in die Zukunft.The invention was based on the object of how processing based on the hybrid scene representation can be improved in order to enable improved movement planning for road users, for example automated driving systems, for example a temporal prediction of all road users over several time steps into the future.

Die Gegenstände der Ansprüche 1, 13 und 14 lösen jeweils diese Aufgabe dadurch, dass die Interaktions-Modellierung von Verkehrsteilnehmern umfassend automatisierte Fahrsysteme über den gesamten Verkehrsraum und über eine vorgegebene Zeit in der Vergangenheit mit der Fusionierung der Historie der Verkehrsteilnehmer mit allen statischen und dynamischen Teilen der Szene die Vorhersage von allen Verkehrsteilnehmern für eine bestimmte Zeit in die Zukunft ermöglicht.The objects of claims 1, 13 and 14 each solve this problem in that the interaction modeling of road users including automated driving systems over the entire traffic area and over a predetermined time in the past with the merging of the history of the road users with all static and dynamic parts allows the scene to predict all road users for a specific time in the future.

Ein Aspekt der Erfindung betrifft ein computerimplementiertes Verfahren zum Vorhersagen und Planen von Trajektorien. Das Verfahren umfasst die Schritte

• räumliches Zusammenführen von bereitgestellten kodierten statischen und dynamischen Umfeldmerkmalen und Erhalten einer hybriden Szenen-Repräsentation umfassend wenigstens eine erste Schicht umfassend starre statische Umfeldmerkmale, eine zweite Schicht umfassend zustandswechselnde statische Umfeldmerkmale und eine dritte Schicht umfassend die dynamischen Umfeldmerkmale umfassend Trajektorienhistorien von Verkehrseilnehmern umfassend jeweils wenigstens Positionen der Verkehrsteilnehmer in Abhängigkeit der Zeit;
• Prozessieren eines ersten Maschinenlernmodells, das als Eingabe die hybride Szenen-Repräsentation erhält und trainiert ist oder mittels Referenz-Vorhersagen trainiert wird, Interaktionen zwischen den statischen und dynamischen Umfeldmerkmalen zu bestimmen, wobei eine Funktion des ersten Maschinenlernmodells auf die erste Schicht, die zweite Schicht und die dritte Schicht angewendet wird und eine Einbettung der starren statischen Umfeldmerkmale, der zustandswechselnden statischen Umfeldmerkmale und der dynamischen Umfeldmerkmale erzeugt wird und die Einbettung von dem Maschinenlernmodell ausgegeben wird;
• Bestimmen von Verkehrsteilnehmer-spezifischen Interaktionen aus der gemeinsamen Einbettung und Fusionieren dieser mit den Verkehrsteilnehmer-spezifischen dynamischen Umfeldmerkmalen für jeden der Verkehrsteilnehmer und Erhalten einer Verkehrsteilnehmer-spezifischen Einbettung für jeden der Verkehrsteilnehmer;
• Dekodieren der Verkehrsteilnehmer-spezifischen Einbettungen und Erhalten von vorhergesagten Trajektorien für jeden der Verkehrsteilnehmer, wobei einzelne der Trajektorienhistorien jeweils auf mehrere mögliche vorhergesagte Trajektorien abgebildet werden.

One aspect of the invention relates to a computer-implemented method for predicting and planning trajectories. The procedure includes the steps

• Spatial merging of provided coded static and dynamic environment features and obtaining a hybrid scene representation comprising at least a first layer comprising rigid static environment features, a second layer comprising state-changing static environment features and a third layer comprising the dynamic environment features comprising trajectory histories of road users each comprising at least positions the road user as a function of time;
• Processing of a first machine learning model, which receives the hybrid scene representation as input and is trained or is trained using reference predictions, to determine interactions between the static and dynamic environment features, with a function of the first machine learning model on the first layer, the second layer and the third layer is applied and an embedding of the rigid static environment features, the state-changing static environment features, and the dynamic environment features is generated and the embedding is output from the machine learning model;
• determining road user-specific interactions from the common embedding and fusing these with the road user-specific dynamic environment features for each of the road users and obtaining a road user-specific embedding for each of the road users;
• Decoding the road user-specific embeddings and obtaining predicted trajectories for each of the road users, with individual trajectory histories being mapped onto multiple possible predicted trajectories.

Ein weiterer Aspekt der Erfindung betrifft ein Computerprogramm zum Vorhersagen und Planen von Trajektorien. Das Computerprogramm umfasst Befehle, die bewirken, dass ein Computer, umfassend einen Computer eines Steuergeräts eines Fahrsystems für automatisierte Fahrfunktionen, die Schritte des erfindungsgemäßen Verfahrens ausführt, wenn das Computerprogramm auf dem Computer läuft.Another aspect of the invention relates to a computer program for predicting and planning trajectories. The computer program includes Commands that cause a computer, including a computer of a control unit of a driving system for automated driving functions, to carry out the steps of the method according to the invention when the computer program runs on the computer.

Ein weiterer Aspekt der Erfindung betrifft eine Anordnung zum Vorhersagen und Planen von Trajektorien. Die Anordnung umfasst

• einen RNN-Kodierer, der dynamische Umfeldmerkmale umfassend Trajektorienhistorien von Verkehrsteilnehmern basierend auf realen Fahrdaten und/oder auf virtuellen Daten kodiert;
• einen CNN-Kodierer, der Szenen-Informationen umfassend starre statische Umfeldmerkmale und zustandswechselnde statische Umfeldmerkmale kodiert;
• ein Interaktions-Tensor-Pooling-Modul, das die Kodierungen des RNN- und CNN-Kodierers zusammenführt und eine hybride Szenen-Repräsentation umfassend wenigstens eine erste Schicht umfassend die starren statische Umfeldmerkmale, eine zweite Schicht umfassend die zustandswechselnden statische Umfeldmerkmale und eine dritte Schicht umfassend dynamische Umfeldmerkmale umfassend die Trajektorienhistorien erzeugt;
• ein CNN-Interaktionsnetzwerk, das basierend auf der hybriden Szenen-Repräsentation Interaktionen zwischen den statischen, dynamischen und zwischen den statischen und dynamischen Umfeldmerkmalen bestimmt, wobei das CNN-Interaktionsnetzwerk eine erste Tensor-Einbettung der starren statischen Umfeldmerkmale, eine zweite Tensor-Einbettung der zustandswechselnden statischen Umfeldmerkmale und eine dritte Tensor-Einbettung der dynamischen Umfeldmerkmale erzeugt und die erste, zweite und dritte Tensor-Einbettung in einen Multi-Agenten-Szenen-Tensor zusammengeführt;
• ein Interaktions-Vektor-Extraktions-Modul, das pro Verkehrsteilnehmer die Merkmale des Multi-Agenten-Szenen-Tensors an der den Koordinaten des Verkehrsteilnehmers entsprechenden Stelle extrahiert, mit der dritten Tensor-Einbettung des Verkehrsteilnehmers fusioniert und pro Verkehrsteilnehmer und pro Szene eine Multi-Agenten-Szenen-Einbettung erzeugt;
• einen RNN-Trajektorien-Dekodierer, der die Multi-Agenten-Szenen-Einbettung dekodiert und pro Verkehrsteilnehmer Trajektorien vorhersagt und ausgibt;
• einen RNN- Wahrscheinlichkeits-Dekodierer, der die Multi-Agenten-Szenen-Einbettung dekodiert und pro Verkehrsteilnehmer Wahrscheinlichkeiten der vorhergesagten Trajektorien gegeneinander bewertet und einen entsprechenden Wert ausgibt.

A further aspect of the invention relates to an arrangement for predicting and planning trajectories. The arrangement includes

• an RNN encoder that encodes dynamic environment features including trajectory histories of road users based on real driving data and/or virtual data;
• a CNN encoder that encodes scene information comprising fixed static environment features and state-changing static environment features;
• an interaction tensor pooling module that merges the encodings of the RNN and CNN encoders and a hybrid scene representation comprising at least a first layer comprising the rigid static environment features, a second layer comprising the state-changing static environment features and a third layer comprehensively generates dynamic environment features comprising the trajectory histories;
• a CNN interaction network, which determines based on the hybrid scene representation interactions between the static, dynamic and between the static and dynamic environment features, the CNN interaction network a first tensor embedding of the rigid static environment features, a second tensor embedding of generating state-changing static environment features and a third tensor embedding of the dynamic environment features and merging the first, second and third tensor embeddings into a multi-agent scene tensor;
• an interaction vector extraction module that extracts per road user the features of the multi-agent scene tensor at the point corresponding to the road user's coordinates, merges them with the third tensor embedding of the road user, and per road user and per scene a multi -Generated agent scene embed;
• an RNN trajectory decoder that decodes the multi-agent scene embedding and predicts and outputs trajectories per road user;
• an RNN probability decoder that decodes the multi-agent scene embedding and compares the probabilities of the predicted trajectories for each road user and outputs a corresponding value.

Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Definitionen, den Unteransprüchen, den Zeichnungen und der Beschreibung bevorzugter Ausführungsbeispiele.Advantageous refinements of the invention result from the definitions, the dependent claims, the drawings and the description of preferred exemplary embodiments.

Verkehrsteilnehmer umfassen Interakteure in Szenen einer Umwelt, beispielsweise in Szenen eines Verkehrsraus. Verkehrsteilnehmer sind beispielsweise Personen, wie etwa Fußgänger, Fahrzeuge, Fahrsysteme, und Fahrradfahrer. Fahrsysteme umfassen automatisierte Fahrsysteme von automatisierte bis autonome Fahrzeuge, Straßenfahrzeuge, People Mover, Shuttles, Roboter und Drohnen. Zu Verkehrsteilnehmern zählen auch intelligente Agenten, beispielsweise selbstfahrende Fahrzeuge oder Roboter.Road users include interactors in scenes of an environment, for example in scenes of a traffic area. Road users are, for example, people, such as pedestrians, vehicles, driving systems, and cyclists. Driving systems include automated driving systems from automated to autonomous vehicles, road vehicles, people movers, shuttles, robots and drones. Road users also include intelligent agents, such as self-driving vehicles or robots.

Räumliches Zusammenführen bedeutet beispielsweise, dass räumliche Koordinaten der Verkehrsteilnehmer und/oder der Umfeldmerkmale in Pixeln der hybriden Szenen-Repräsentation dargestellt werden, wobei ein Pixel in jeder der Schichten der hybriden Szenen-Repräsentation einer gleichen Streckenlänge entspricht. Nach einem weiteren Aspekt der Erfindung werden die Umfeldmerkmale in Pixeln der Schichten und/oder über Merkmalsvektoren mit räumlichen Ankerpunkten oder relativ zu einem Referenzpunkt dargestellt. Die Merkmalsvektoren haben einen vorgegebenen räumlichen Ankerpunkt. Nach einem weiteren Aspekt der Erfindung werden die Umfeldmerkmale als Pixelwerte interpretiert. Nach einem weiteren Aspekt der Erfindung wird in jeder Schicht eine räumliche Lage der Umfeldmerkmale über eine korrespondierende Position in einer Karte erfasst. Dies ist vorteilhaft für eine räumlich korrespondierende Anordnung der Umfeldmerkmale.Spatial merging means, for example, that spatial coordinates of the road users and/or the environmental features are represented in pixels of the hybrid scene representation, with one pixel in each of the layers of the hybrid scene representation corresponding to the same route length. According to a further aspect of the invention, the environmental features are represented in pixels of the layers and/or via feature vectors with spatial anchor points or relative to a reference point. The feature vectors have a predetermined spatial anchor point. According to a further aspect of the invention, the environmental features are interpreted as pixel values. According to a further aspect of the invention, a spatial position of the environment features is recorded in each layer via a corresponding position on a map. This is advantageous for a spatially corresponding arrangement of the environmental features.

Umfeldmerkmale umfassen Häuser, Straßen, insbesondere Straßengeometrie und/oder -zustand, Schilder, Spurmarkierungen, Vegetation, bewegliche Verkehrsteilnehmer, Fahrzeuge, Fußgänger, Fahrradfahrer.Environmental features include houses, streets, in particular street geometry and/or condition, signs, lane markings, vegetation, moving road users, vehicles, pedestrians, cyclists.

Statische Umfeldmerkmale werden in zwei weitere Kategorien unterteilt. Elemente, die sich quasi nicht oder nur nach längeren Zeiträumen ändern, wechseln ihren Zustand kurzfristig nicht und werden als starr bezeichnet. Die starren statischen Umfeldmerkmale werden in der ersten Schicht angeordnet. Im Gegensatz dazu stehen Elemente, die den Zustand häufig wechseln können und somit zustandswechselnd sind. In die letztere Kategorie werden zum Beispiel Ampeln oder Wechselverkehrszeichen eingeordnet. Die zustandswechselnden starren Umfeldmerkmale werden in der zweiten Schicht angeordnet.Static environmental characteristics are divided into two further categories. Elements that do not change at all or only after a long period of time do not change their state in the short term and are referred to as rigid. The rigid static environmental features are placed in the first layer. In contrast, there are elements that can change state frequently and are therefore state-changing. Traffic lights or variable message signs, for example, are classified in the latter category. The state-changing rigid environmental features are placed in the second layer.

Dynamische Umfeldmerkmale betreffen die beweglichen Verkehrsteilnehmer einer Szene. Hierbei werden die Koordinaten der Verkehrsteilnehmer umfassend Positionen und/oder Orientierungen über einen bestimmten Zeitraum genutzt, um Trajektorienhistorien zu generieren. Nach einem Aspekt der Erfindung werden hier Parameter eines Fahrdynamik- oder Bewegungsdynamikmodells verwendet, beispielsweise mittels Kalman-Filter. Die Verkehrsteilnehmer werden basierend auf der letzten Koordinate räumlich angeordnet und bilden die dritte Schicht der dynamischen Umfeldmerkmale.Dynamic environment features affect the moving road users in a scene. Here, the coordinates of the road users are used comprehensively positions and/or orientations over a certain period of time in order to generate trajectory histories. According to one aspect of the invention, parameters of a vehicle dynamics or movement dynamics model are used here, for example by means of a Kalman filter. The road users are arranged spatially based on the last coordinate and form the third layer of the dynamic environment features.

Die hybride Szenen-Repräsentation schichtet ein Szenario in mehrere Schichten. Ein reales Szenario wird als Hybrid von statischen und dynamischen Informationen dargestellt. In diesem Zusammenhang wird die erfindungsgemäße Umfeldszenen-Repräsentation auch hybride Szenen-Repräsentation zur Vorhersage, abgekürzt HSRV, genannt. Das Szenario ist beispielsweise ein Bild mit i Pixeln in x-Richtung und j Pixeln in y-Richtung, in dem die räumlichen Koordinaten der Verkehrsteilnehmer in Pixeln dargestellt werden. Die einzelnen Schichten können ebenfalls als Bilder dargestellt werden und sind deckungsgleich zueinander angeordnet, beispielsweise liegen die Schichten deckungsgleich räumlich übereinander. Die erfindungsgemäße hybride Szenen-Repräsentation ist als ein Stapel übereinander liegender digitaler Fotos, beispielsweise von einer Kreuzungssituation aufgenommen aus der Vogelperspektive, vorstellbar. Andererseits wird dieser Stapel mit Bildern kombiniert mit weiteren Schichten von zum Teil rein semantischen Informationen, die zum Beispiel als reine Merkmalsvektoren repräsentiert sind.The hybrid scene representation layers a scenario into several layers. A real scenario is presented as a hybrid of static and dynamic information. In this context, the environment scene representation according to the invention is also called hybrid scene representation for prediction, abbreviated HSRV. For example, the scenario is an image with i pixels in the x-direction and j pixels in the y-direction, in which the spatial coordinates of the road users are represented in pixels. The individual layers can also be represented as images and are arranged congruently with one another, for example the layers are spatially congruently one on top of the other. The hybrid scene representation according to the invention can be imagined as a stack of digital photos lying one on top of the other, for example taken from a bird's eye view of an intersection. On the other hand, this stack of images is combined with further layers of partly purely semantic information that is represented, for example, as pure feature vectors.

Der Vorteil der erfindungsgemäßen hybriden Szenen-Repräsentation besteht darin, dass eine sehr große und sehr flexible Menge an Informationen bereitgestellt wird, auf die das erste Maschinenlernmodell zugreifen kann. Innerhalb der Trainingsphase, in der die variablen Parameter/Gewichte des ersten Maschinenlernmodells eingestellt werden, bildet sich dann die Verwendung der speziellen Informationen heraus, die am besten dazu geeignet ist, die Aufgabe der Vorhersage zu lösen.The advantage of the hybrid scene representation according to the invention is that a very large and very flexible amount of information is provided which the first machine learning model can access. Within the training phase, in which the variable parameters/weights of the first machine learning model are adjusted, the use of the specific information that is best suited to solving the prediction task then emerges.

Nach einem Aspekt der Erfindung umfasst die hybride Szenen-Repräsentation eine erste Schicht umfassend die regionalen Informationen zum Verhalten der Verkehrsteilnehmer und/oder Wetterinformationen, eine zweite Schicht umfassend Karteninformationen zur Bestimmung der Positionen der Verkehrsteilnehmer, eine dritte Schicht umfassend Verkehrsregelinformationen, eine vierte Schicht umfassend die Verkehrsweiser, eine fünfte Schicht umfassend Ankertrajektorien, eine sechste Schicht umfassend semantisch-explizite Informationen, eine siebte Schicht umfassend semantisch-latente Informationen und eine achte Schicht umfassend die Bewegungsinformationen. Damit werden unter anderem explizite, implizite, regional geprägte und Ereignis geprägte Informationen berücksichtigt und damit die Vorhersage und weitere Planung von Trajektorien verbessert, wie beispielsweise in den folgenden drei Absätzen detailliert beschrieben ist.According to one aspect of the invention, the hybrid scene representation comprises a first layer comprising the regional information on the behavior of the road users and/or weather information, a second layer comprising map information for determining the positions of the road users, a third layer comprising traffic regulation information, a fourth layer comprising the Traffic guide, a fifth layer comprising anchor trajectories, a sixth layer comprising semantically explicit information, a seventh layer comprising semantically latent information and an eighth layer comprising the movement information. This takes into account, among other things, explicit, implicit, regionally shaped and event-shaped information and thus improves the prediction and further planning of trajectories, as is described in detail in the following three paragraphs, for example.

Die erste bis dritte Schicht umfassen die starren statischen Umfeldmerkmale. Regionale Informationen und/oder Wetterinformationen verbessern die Vorhersagegüte. Je nach der Region unterscheidet sich beispielsweise das Verhalten der Verkehrsteilnehmer. Beispielsweise werden in Deutschland Verkehrsregeln relativ stark eingehalten, in Italien eher mild, in Großbritannien wird von rechts überholt, usw. Positionsdaten des Verkehrsteilnehmer und/oder der Umfeldmerkmale werden über Karteninformationen erfasst. Ein Kartenausschnitt wird gebildet, indem jedem Pixel der Karteninformation entsprechenden Schicht der Umfeldszenen-Repräsentation ein Wert zugeordnet wird. Die Werte basieren auf diskreten Labeln der Karte, beispielsweise Zahlencodes für Straße, Fußgängerweg, unterbrochene Linie, Doppellinie, usw. Neben der Karte werden die Vorfahrtsregeln über die Verkehrsregelinformationen abgebildet. Hierzu wird in der Mitte einer jeden Fahrbahn eine Linie gezogen. An Kreuzungen werden zusätzlich Linien gezogen, die alle zulässigen Manöver darstellen. Nach einem Aspekt der Erfindung werden implizit geregelte Information wie beispielsweise „Rechts vor Links“ mit der Beschilderung überlagert. Gegebenenfalls widersprüchliche Regelinformationen werden in dieser Schicht zu einer konsistenten Regel aggregiert, so dass die dann geltenden Regeln als vorrangig behandelt werden.The first through third layers include the rigid static environmental features. Regional information and/or weather information improves the forecast quality. For example, the behavior of road users differs depending on the region. For example, in Germany traffic rules are relatively strictly observed, in Italy rather mildly, in Great Britain people overtake from the right, etc. Position data of the road user and/or the environment features are recorded via map information. A map section is formed by assigning a value to each pixel of the map information corresponding layer of the environment scene representation. The values are based on discrete labels on the map, such as numeric codes for street, pedestrian walkway, broken line, double line, etc. Next to the map, the right of way rules are shown via the traffic regulation information. A line is drawn in the middle of each lane. Additional lines are drawn at intersections, representing all permissible maneuvers. According to one aspect of the invention, implicitly regulated information such as "right before left" is overlaid with the signage. Any conflicting rule information is aggregated to form a consistent rule in this layer, so that the rules then in effect are treated as having priority.

Die vierte bis fünfte Schicht umfassen die zustandswechselnden statischen Umfeldmerkmale. Verkehrsweiser umfassen zustandswechselnde und zustandsbehaftende Verkehrsweiser. Mit zustandswechselnden Verkehrsweisern werden meist optisch an den Fahrer übergebene Signale, die ihren Zustand im Laufe eines Tages mehrmals wechseln können, zusammengefasst. Beispiele dieser Kategorie sind Ampeln, Wechselverkehrszeichen auf Autobahnen und Einfahrtsanzeigen an Mautstellen. Diese Verkehrsweiser werden als den aktuellen Zustand repräsentierender Pixelwert in dem räumlichen Kontext der Umfeldszenen-Repräsentation dargestellt. Aus Gründen der Redundanz werden solche Pixelregionen in der Regel nicht auf ein Pixel beschränkt, sondern auf eine größere Anzahl von Pixel abgebildet. Die genaue Größe der Ausdehnung wird zumeist auch aus Daten auf ein Optimum angelernt. Die Ankertrajektorien kombinieren Information aus den Vorfahrtsregeln und aus den zustandswechselnden Verkehrsweisern. Die so ermittelten Ankertrajektorien werden nach einem Aspekt der Erfindung mit den Regeln der zustandswechselnden Verkehrsweiser in Einklang gebracht und entsprechend priorisiert. Die Schicht der Ankertrajektorien kann nach einem Aspekt der Erfindung je nach zeitlicher Anforderung an den Verkehrsteilnehmer, beispielsweise an das Fahrsystem, die Schichten der Verkehrsweiser und/oder der Verkehrsregelinformationen ergänzen oder ersetzen.The fourth to fifth layers include the state-changing static environment features. Traffic advisors include state-changing and stateful traffic advisors. Status-changing traffic signs are usually used to summarize signals that are passed on to the driver visually and that can change their status several times in the course of a day. Examples of this category are traffic lights, variable message signs on motorways and entry signs at toll booths. These traffic signs are represented as a pixel value representing the current state in the spatial context of the local scene representation. For reasons of redundancy, such pixel regions are generally not limited to one pixel, but rather mapped to a larger number of pixels. The exact size of the expansion is mostly learned from data to an optimum. The anchor trajectories combine information from the right-of-way rules and from the state-changing ones traffic signs. According to one aspect of the invention, the anchor trajectories determined in this way are brought into line with the rules of the status-changing traffic indicators and prioritized accordingly. According to one aspect of the invention, the layer of the anchor trajectories can supplement or replace the layers of the traffic guide and/or the traffic rule information, depending on the time required by the road user, for example the driving system.

Die sechste bis achte Schicht umfassen die dynamischen Umfeldmerkmale. Semantisch-explizite Informationen umfassen Fahrzeugklasse, beispielsweise LKW, PKW, Motorrad, Bus, Shuttle, Fahrrad, Fußgänger, Höhe und/oder Breite der Objekte und/oder Zustände der Blinklichter. Semantisch-latente Informationen sind vom Menschen nicht direkt interpretierbar, sondern in gewisser Weise implizit in den Daten enthalten. Die latenten Informationen sind beispielsweise kontinuierliche Zahlen, mit denen die Robustheit gegenüber Rauschsignalen diskreter Klassen erhöht wird, beispielsweise wenn eine diskrete Klassifizierung zwischen LKW und PKW schwankt. Die Bewegungsinformationen der achten Schicht umfassen die Trajektorienhistorien.The sixth to eighth layers contain the dynamic environment features. Semantically explicit information includes vehicle class, for example truck, car, motorcycle, bus, shuttle, bicycle, pedestrian, height and/or width of the objects and/or statuses of the blinking lights. Semantic-latent information cannot be interpreted directly by humans, but is in a certain way implicitly contained in the data. The latent information is, for example, continuous numbers with which the robustness against noise signals of discrete classes is increased, for example when a discrete classification varies between truck and car. The movement information of the eighth layer includes the trajectory histories.

Das Bestimmen der Interaktionen umfasst ein Vorhersagen von möglichen zukünftigen Interaktionen, nach einem Aspekt der Erfindung basierend auf den acht Schichten der hybriden Szenen-Repräsentation. Interaktionen betreffen jegliche Wechselwirkungen zwischen statischen und statischen, statischen und dynamischen und dynamischen und dynamischen Umfeldmerkmalen. In einem beispielhaften Szenario mit Interaktionen befindet sich ein PKW an einer Einmündung. An der Einmündung befindet sich ein Fußgänger. Die Vorfahrt wird über eine Ampel geregelt. Eine Interaktion ist die Ampelschaltung. Zeigt die Ampelschaltung beispielsweise dem PKW die grüne Ampelphase an und dem Fußgänger die rote Ampelphase, dann sind die weiteren, gelernten oder in den Trajektorienhistorien vorhandenen, Interaktionen, dass der Fußgänger stehen bleibt und der PKW in die Einmündung einfährt.Determining the interactions includes predicting possible future interactions, according to one aspect of the invention, based on the eight layers of the hybrid scene representation. Interactions relate to any interaction between static and static, static and dynamic and dynamic and dynamic environmental features. In an exemplary scenario with interactions, a car is located at an intersection. There is a pedestrian at the junction. The right of way is regulated by a traffic light. One interaction is the traffic light switch. For example, if the traffic light switch shows the car the green traffic light phase and the pedestrian the red traffic light phase, then the other interactions, learned or present in the trajectory histories, are that the pedestrian stops and the car drives into the junction.

Das erste Maschinenlernmodell wird beispielsweise mit Datenpaaren der Form (HSRV_1, GT_1), (HSRV_2, GT_2), ..., (HSRV_T, GT_T) trainiert. T gibt die Anzahl der Trainingsdatenpaare an. HSRV ist die jeweilige hybride Szenen-Repräsentation, auf deren Basis die Interaktionen und damit die Trajektorien vorhergesagt werden. GT ist die jeweilige Referenz-Vorhersage, auch ground truth genannt, das heißt die Soll-Vorhersage. Die optimalen Parameter für das erste Maschinenlernmodell umfassend Werte für Gewichte werden dann durch ein Optimierungsverfahren, beispielsweise Gradient Descent, bestimmt. Die Parameter sind optimal, wenn die Abweichung der Ist-Vorhersagen, ausgegeben von dem ersten Maschinenlernmodell, von den Soll-Vorhersagen minimiert ist.For example, the first machine learning model is trained with data pairs of the form (HSRV_1, GT_1), (HSRV_2, GT_2), ..., (HSRV_T, GT_T). T indicates the number of training data pairs. HSRV is the respective hybrid scene representation, on the basis of which the interactions and thus the trajectories are predicted. GT is the respective reference prediction, also called ground truth, i.e. the target prediction. The optimal parameters for the first machine learning model, including values for weights, are then determined by an optimization method, for example gradient descent. The parameters are optimal when the deviation of the actual predictions output from the first machine learning model from the target predictions is minimized.

Der Vorteil des erfindungsgemäßen Prozessierens der hybriden Szenen-Repräsentation besteht darin, dass sich Informationen in der zweiten Schicht häufiger ändern als in der ersten Schicht. Durch die Erzeugung der ersten und zweiten Einbettung, wobei die erste und zweite Funktion unterschiedliche Aktualisierungsraten zur Laufzeit haben, wird die Inferenzzeit des ersten Maschinenlernmodells reduziert. Damit wird die gemeinsame Einbettung, das heißt eine Art endgültige Szenen Einbettung, schneller erzeugt.The advantage of processing the hybrid scene representation according to the invention is that information in the second layer changes more frequently than in the first layer. By creating the first and second embedding, where the first and second functions have different update rates at runtime, the inference time of the first machine learning model is reduced. In this way, the joint embedding, ie a kind of final scene embedding, is generated more quickly.

Die Einbettung ist beispielsweise eine Einbettung in einen Merkmalsraum, in dem jeder der Verkehrsteilnehmer über Koordinaten identifizierbar ist. Da die Einbettung hinsichtlich der räumlichen Auflösung die gleiche Dimensionalität aufweist wie die hybride Szenen-Repräsentation, können pro Verkehrsteilnehmer die zur Einordnung in die hybride Szenen-Repräsentation verwendeten Koordinaten genutzt werden, um die für den Verkehrsteilnehmer relevanten Informationen aus der gemeinsamen Einbettung zu erhalten. Die Verkehrsteilnehmer-spezifischen Interaktionen werden aus der Einbettung beispielsweise dadurch bestimmt, dass für jeden der Verkehrsteilnehmer Merkmale, auch features genannt, der gemeinsamen Einbettung an der den Koordinaten des jeweiligen Verkehrsteilnehmers entsprechenden Stelle extrahiert werden. Diese Merkmale umfassen alle für den jeweiligen Verkehrsteilnehmer relevanten Interaktionen. Durch Fusionieren dieser Merkmale mit den jeweiligen Verkehrsteilnehmer-spezifischen dynamischen Merkmale wird die Vorhersage von Trajektorien für den jeweiligen Verkehrsteilnehmer basierend auf allen Interaktionen der gemeinsamen Einbettung berechnet.The embedding is, for example, embedding in a feature space in which each of the road users can be identified via coordinates. Since the embedding has the same dimensionality as the hybrid scene representation in terms of spatial resolution, the coordinates used for classification in the hybrid scene representation can be used for each road user in order to obtain the information relevant to the road user from the common embedding. The road user-specific interactions are determined from the embedding, for example, in that for each of the road users, characteristics, also called features, of the common embedding are extracted at the point corresponding to the coordinates of the respective road user. These features include all interactions relevant to the respective road user. By fusing these features with the respective road user-specific dynamic features, the prediction of trajectories for the respective road user is calculated based on all interactions of the common embedding.

Dadurch, dass einzelne, nach einem Aspekt der Erfindung jede, der Trajektorienhistorien auf mehrere mögliche vorhergesagte Trajektorien dekodiert werden, wird eine Vielzahl von möglichen Zukunftsmodi berechnet, das heißt es entsteht ein one-to-many-mapping. Das erste Maschinenlernmodell lernt Wahrscheinlichkeitsdichtefunktionen der unterschiedlichen Modi. Damit wird das one-to-many-mapping explizit durch Lernen von mehreren Modi abgeschätzt im Gegensatz zu einer impliziten Abschätzung mittels generativen adversariellen Netzwerken. Das ist vorteilhaft für ein Trainingsverfahren des ersten Maschinenlernmodells, da sonst das Mode-Collapse-Problem das Training beeinträchtigen würde.Because individual trajectory histories, according to one aspect of the invention, each of the trajectory histories are decoded into a plurality of possible predicted trajectories, a large number of possible future modes are calculated, ie a one-to-many mapping is produced. The first machine learning model learns probability density functions of the different modes. Thus, the one-to-many mapping is estimated explicitly by learning from multiple modes, in contrast to an implicit estimation using generative adversarial networks. This is advantageous for a training method of the first machine learning model, since otherwise the mode collapse problem would affect the training.

Die Befehle des erfindungsgemäßen Computerprogramms umfassen Maschinenbefehle, Quelltext oder Objektcode geschrieben in Assemblersprache, einer objektorientierten Programmiersprache, beispielsweise C++, oder in einer prozeduralen Programmiersprache, beispielsweise C. Das Computerprogramm ist nach einem Aspekt der Erfindung ein Hardware unabhängiges Anwendungsprogramm, das beispielsweise über einen Datenträger oder ein Datenträgersignal mittels Software Over The Air Technologie bereitgestellt wird.The instructions of the computer program according to the invention include machine instructions, source text or object code written in Assembl ling language, an object-oriented programming language, for example C++, or in a procedural programming language, for example C. According to one aspect of the invention, the computer program is a hardware-independent application program that is provided, for example, via a data carrier or a data carrier signal using software over the air technology.

Das Interaktions-Tensor-Pooling-Modul und das Interaktions-Vektor-Extraktions-Modul umfassen Software- und/oder Hardwarekomponenten. Nach einem Aspekt der Erfindung bezieht sich die Anordnung auf Recheneinheiten, die die einzelnen Kodierer, Dekodierer, Netzwerke und Module ausführen. Nach einem weiteren Aspekt der Erfindung umfassen die Dekodierer der Anordnung einen Aufmerksamkeitsmechanismus. Nach einem weiteren Aspekt der Erfindung führt die Anordnung das erfindungsgemäße Verfahren oder das erfindungsgemäße Computerprogramm aus.The interaction tensor pooling module and the interaction vector extraction module include software and/or hardware components. According to one aspect of the invention, the arrangement relates to computing units that execute the individual encoders, decoders, networks and modules. According to a further aspect of the invention, the decoders of the arrangement comprise an attention mechanism. According to a further aspect of the invention, the arrangement executes the method according to the invention or the computer program according to the invention.

Nach einem weiteren Aspekt der Erfindung wird eine erste Funktion des ersten Maschinenlernmodells auf die erste Schicht angewendet und eine erste Einbettung der starren statischen Umfeldmerkmale wird erzeugt. Eine zweite Funktion wird auf die zweite Schicht angewendet und eine zweite Einbettung der zustandswechselnden statischen Umfeldmerkmale wird erzeugt. Eine dritte Funktion wird auf die dritte Schicht angewendet wird und eine dritte Einbettung der dynamischen Umfeldmerkmale wird erzeugt. Die erste, zweite und dritte Einbettung werden zusammengeführt werden und als eine gemeinsame Einbettung von dem Maschinenlernmodell ausgegeben. Der Begriff Einbettung bezieht sich sowohl auf die Einbettung, die mit der Funktion erzeugt wird, die auf alle Schichten gemeinsam angewendet wird, als auch auf die gemeinsame Einbettung.According to another aspect of the invention, a first function of the first machine learning model is applied to the first layer and a first embedding of the rigid static environment features is created. A second function is applied to the second layer and a second embedding of the state-changing static environment features is created. A third function is applied to the third layer and a third embedding of the dynamic environment features is created. The first, second and third embedding will be merged and output as a common embedding from the machine learning model. The term embedding refers both to the embedding created with the function applied to all layers together and to the common embedding.

Nach einem weiteren Aspekt der Erfindung werden die starren statischen Umfeldmerkmale durch Schichten eines ersten künstlichen neuronalen Netzwerks prozessiert und in einen ersten Tensor eingebettet werden. Die zustandswechselnden statischen Umfeldmerkmale werden durch Schichten eines zweiten künstlichen neuronalen Netzwerks prozessiert und in einen zweiten Tensor eingebettet. Die dynamischen Umfeldmerkmale werden durch Schichten eines dritten künstlichen neuronalen Netzwerks prozessiert und in einen dritten Tensor eingebettet. Die gemeinsame Einbettung ist ein vierter Tensor erhalten aus einer räumlichen Konkatenation des ersten, zweiten und dritten Tensors.According to a further aspect of the invention, the rigid static environment features are processed by layers of a first artificial neural network and embedded in a first tensor. The state-changing static environmental features are processed by layers of a second artificial neural network and embedded in a second tensor. The dynamic environment features are processed by layers of a third artificial neural network and embedded in a third tensor. The common embedding is a fourth tensor obtained from a spatial concatenation of the first, second, and third tensors.

Das Prozessieren der Schichten des ersten, zweiten und dritten künstlichen neuronalen Netzwerks ist eine Ausführungsform der ersten, zweiten und dritten Funktion. Aktivierungsfunktionen von Neuronenverbindungen sind beispielsweise nicht-lineare Funktionen. Damit stellen das Prozessieren der Schichten des ersten, zweiten und dritten künstlichen neuronalen Netzwerks nicht-lineare Funktionen dar.Processing the layers of the first, second and third artificial neural networks is an embodiment of the first, second and third function. Activation functions of neuron connections are, for example, non-linear functions. The processing of the layers of the first, second and third artificial neural network thus represent non-linear functions.

Tensoren umfassen beispielsweise Skalare, Vektoren, Kovektoren und Matrizen. Nach einem Aspekt der Erfindung unterscheiden sich der erste, zweite und dritte Tensor in einer semantischen Tiefe. Der vierte Tensor stellt einen Multi-Agenten-Szenen-Tensor dar, wobei die Agenten den Verkehrsteilnehmern entsprechen und die Fahrsysteme umfassen. Der Multi-Agenten-Szenen-Tensor wird also basierend auf der hybriden Szenen-Repräsentation mit dem ersten Maschinenlernmodell berechnet und modelliert die gesamten Interaktionen eines Szenarios. In diesem Zusammenhang wir das erste Maschinenlernmodell auch Interaktionsnetzwerk genannt. Da der Multi-Agenten-Szenen-Tensor hinsichtlich der räumlichen Auflösung die gleiche Dimensionalität aufweist wie die hybride Szenen-Repräsentation, können pro Verkehrsteilnehmer die zur Einordnung der jeweiligen Tensoren in die hybride Szenen-Repräsentation verwendeten Koordinaten genutzt werden, um die für die Verkehrsteilnehmer relevanten Informationen aus der gemeinsamen Einbettung zu erhalten. Hierzu werden die Merkmale oder features des Multi-Agenten-Szenen-Tensors an eben der diesen Koordinaten entsprechenden Stelle genutzt und bilden so pro Verkehrsteilnehmer eine Multi-Agenten-Szenen-Einbettung. Da für jeden Verkehrsteilnehmer alle für den jeweiligen Verkehrsteilnehmer relevanten Interaktionen mittels des Multi-Agenten-Szenen-Tensors betrachtet werden, wird die Multi-Agenten-Szenen-Einbettung auch joint multi agent scene embedding genannt, abgekürzt JoMASE.Examples of tensors include scalars, vectors, covectors, and matrices. According to one aspect of the invention, the first, second and third tensors differ in a semantic depth. The fourth tensor represents a multi-agent scene tensor, where the agents correspond to the road users and encompass the driving systems. The multi-agent scene tensor is calculated based on the hybrid scene representation with the first machine learning model and models the entire interactions of a scenario. In this context, the first machine learning model is also called an interaction network. Since the multi-agent scene tensor has the same dimensionality as the hybrid scene representation in terms of spatial resolution, the coordinates used to classify the respective tensors in the hybrid scene representation can be used for each road user to determine the relevant data for the road users Get information from the shared embed. For this purpose, the features of the multi-agent scene tensor are used at the point corresponding to these coordinates and thus form a multi-agent scene embedding for each road user. Since all interactions relevant to the respective road user are considered for each road user using the multi-agent scene tensor, multi-agent scene embedding is also called joint multi-agent scene embedding, JoMASE for short.

Erfindungsgemäß wird der Multi-Agenten-Szenen-Tensor genutzt, um pro Verkehrsteilnehmer einer Szene eine Multi-Agenten-Szenen-Einbettung zu generieren. Hierbei werden pro Verkehrsteilnehmer die Merkmale des Multi-Agenten-Szenen-Tensors an der den Koordinaten des Verkehrsteilnehmers entsprechenden Stelle extrahiert und mit der dritten Einbettung des Verkehrsteilnehmers fusioniert. Nach einem Aspekt der Erfindung kann die Fusion früher stattfinden. Dieses Extrahieren wird auch Interaktions-Vektor-Extraktion genannt. Jeder Verkehrsteilnehmer, insbesondere jedes Fahrsystem, entspricht einem Vektor in dem Multi-Agenten-Szenen-Tensor. Damit werden die Verkehrsteilnehmer-, insbesondere die Fahrsystem-spezifischen Einbettungen erhalten.According to the invention, the multi-agent scene tensor is used to generate a multi-agent scene embedding for each road user in a scene. Here, the features of the multi-agent scene tensor are extracted for each road user at the point corresponding to the coordinates of the road user and merged with the third embedding of the road user. According to one aspect of the invention, the fusion can take place earlier. This extraction is also called interaction vector extraction. Each road user, in particular each driving system, corresponds to a vector in the multi-agent scene tensor. In this way, the embeddings specific to road users, in particular the driving system, are preserved.

Nach einem Aspekt der Erfindung werden die kodierten dynamischen Umfeldmerkmale aus der Vogelperspektive in einem räumlichen Tensor platziert, der mit 0 initialisiert ist und die gleiche Form, beispielsweise Breite und Höhe, hat wie das Bild der kodierten statischen Umfeldmerkmale. Dabei werden die kodierten dynamischen Umfeldmerkmale umfassend die Trajektorienhistorien in den räumlichen Tensor in Bezug auf ihre Positionen im letzten Zeitschritt ihrer vergangenen Trajektorien platziert. Dieser Tensor wird dann mit dem Bild der kodierten statischen Umfeldmerkmale konkateniert und die hybride Szenen-Repräsentation wird als ein kombinierter Tensor erhalten. Diese Informationskombination ist ein Tensor-Pooling-Verfahren und wird Interaktions-Tensor-Pooling genannt. Dieser kombinierte Tensor wird von dem ersten Maschinenlernmodell prozessiert, das die Interaktionen zwischen den Verkehrsteilnehmern und zwischen den Verkehrsteilnehmern und den statischen Umfeldmerkmalen erfindungsgemäß unter Beibehaltung der Lokalität bestimmt und den Multi-Agenten-Szenen-Tensor ausgibt.According to one aspect of the invention, the encoded dynamic bird's-eye view environment features are placed in a spatial tensor initialized to 0 and having the same shape, e.g. width and height, like the image has the encoded static environment features. In doing so, the encoded dynamic environment features comprising the trajectory histories are placed in the spatial tensor with respect to their positions in the last time step of their past trajectories. This tensor is then concatenated with the image of the encoded static environmental features and the hybrid scene representation is obtained as a combined tensor. This combination of information is a tensor pooling technique and is called interaction tensor pooling. This combined tensor is processed by the first machine learning model, which according to the invention determines the interactions between the road users and between the road users and the static environment features while maintaining the locality and outputs the multi-agent scene tensor.

Nach einem weiteren Aspekt der Erfindung umfasst das erste Maschinenlernmodell Sprungverbindungen, durch die Schichten beim Prozessieren des Maschinenlernmodells übersprungen werden, beispielsweise zwei- oder dreifacher Schichtensprung. Die Sprungverbindungen werden auch skip-connections genannt. Die Sprungverbindungen machen vorteilhafterweise high-level features der Interaktion zugänglich. Nach einem Aspekt der Erfindung umfassen die Sprungverbindungen residuale Verbindungen, die eine Restfunktion in Bezug auf die Schichteingänge lernt, wie beispielsweise in residualen neuronalen Netzwerken verwendet. Nach einem weiteren Aspekt der Erfindung umfassen die Sprungverbindungen verkettete Sprungverbindung. Eine verkettete Sprungverbindung versucht, Merkmale wiederzuverwenden, indem sie zu neuen Schichten verkettet werden, so dass mehr Informationen aus vorherigen Schichten des Netzwerks erhalten bleiben. Dies steht im Gegensatz zu beispielsweise den residualen Verbindungen, bei denen stattdessen eine elementweise Summierung verwendet wird, um Informationen aus früheren Schichten zu übernehmen.According to a further aspect of the invention, the first machine learning model comprises skip connections, through which layers are skipped when the machine learning model is processed, for example two or three layer skips. Jump connections are also called skip-connections. The hop connections advantageously expose high-level features of interaction. According to one aspect of the invention, the hop connections comprise residual connections that a residual function learns with respect to the layer inputs, such as used in residual neural networks. According to a further aspect of the invention, the hop connections comprise chained hop connections. A chained hop connection attempts to reuse features by chaining them into new layers so that more information from previous layers of the network is retained. This is in contrast to, for example, the residual connections, which instead use element-by-element summation to carry over information from earlier layers.

Nach einem weiteren Aspekt der Erfindung wird der vierte Tensor durch Schichten eines vierten künstlichen neuronalen Netzwerks prozessiert. Das vierte künstliche neuronale Netzwerk gibt ein Ausgabevolumen aus, dessen Größe gleich der hybriden Szenen-Repräsentation ist. In dem Ausgabevolumen sind die Verkehrsteilnehmer basierend auf ihrer realen räumlichen Anordnung positioniert. Durch das vierte künstliche neuronale Netzwerk werden die in dem vierten Tensor, beispielsweise in dem Multi-Agenten-Szenen-Tensor, enthaltenen Informationen fusioniert.According to a further aspect of the invention, the fourth tensor is processed by layers of a fourth artificial neural network. The fourth artificial neural network outputs an output volume equal in size to the hybrid scene representation. The road users are positioned in the output volume based on their real spatial arrangement. The information contained in the fourth tensor, for example in the multi-agent scene tensor, is merged by the fourth artificial neural network.

Nach einem weiteren Aspekt der Erfindung werden die Einbettungen mit Faltungsnetzwerken erzeugt. Nach einem weiteren Aspekt der Erfindung ist das erste Maschinenlernmodell ein Faltungsnetzwerk. Nach einem weiteren Aspekt der Erfindung sind das erste, zweite, dritte und vierte künstliche neuronale Netzwerk separate Faltungsnetzwerke oder einzelne Funktionsblöcke in dem als Faltungsnetzwerk realisiertem ersten Maschinenlernmodell. Faltungsnetzwerke, auch convolutional neural networks genannt, abgekürzt CNN, sind besonders vorteilhaft zum Verarbeiten von großen Datenmengen und von als Bilder darstellbaren Daten.According to a further aspect of the invention, the embeddings are generated with convolution networks. According to another aspect of the invention, the first machine learning model is a convolutional network. According to a further aspect of the invention, the first, second, third and fourth artificial neural network are separate convolutional networks or individual function blocks in the first machine learning model implemented as a convolutional network. Convolutional networks, also called convolutional neural networks, abbreviated CNN, are particularly advantageous for processing large amounts of data and data that can be represented as images.

Nach einem weiteren Aspekt der Erfindung werden für jeden der Verkehrsteilnehmer die Verkehrsteilnehmer-spezifischen Einbettungen von vergangen Zeitschritten der Trajektorienhistorien der Verkehrsteilnehmer in einzelnen Zeitschritten des Dekodierens unterschiedlich gewichtet. Damit wird ein Aufmerksamkeitsmechanismus angewendet.According to a further aspect of the invention, the road user-specific embeddings of past time steps of the trajectory histories of the road users are weighted differently in individual time steps of the decoding for each of the road users. This is an attention mechanism.

Ein Aspekt der Erfindung sieht ein Aufmerksamkeitsmodul oder attention layer vor, in dem Ausgaben des Enkoders akkumuliert werden. Das Aufmerksamkeitsmodul führt einen Aufmerksamkeitsalgorithmus aus, durch den während der Dekodierung der Einfluss jedes vergangenen Zeitschrittes der Trajektorienhistorien auf die aktuellen oder zukünftigen Trajektorien bewertet wird und dem Dekoder die relevantesten der vergangenen Zeitschritte der Trajektorienhistorien bereitgestellt werden.One aspect of the invention provides an attention module or attention layer in which outputs from the encoder are accumulated. The attention module executes an attention algorithm, by means of which the influence of each past time step of the trajectory histories on the current or future trajectories is evaluated during decoding and the most relevant of the past time steps of the trajectory histories are provided to the decoder.

Ein weiterer Aspekt der Erfindung sieht eine Transformer-Architektur mit self-attention vor, die auf sequentiellen Enkoder- und Dekoder-Blöcken mit einer ähnlichen Architektur basiert. Jeder der Enkoder-Blöcke umfasst beispielsweise eine self-attention Schicht und eine feed forward Schicht. Jeder der Dekoder-Blöcke umfasst beispielsweise eine self-attention Schicht, eine feed forward Schicht und eine dazwischen angeordnete Enkoder-Dekoder-self-attention Schicht. Der self-attention Algorithmus ist beispielsweise in D. Gizlyk, Neuronale Netze leicht gemacht (Teil 8): Attention Mechanismen, 8. Februar 2021, https://www.mql5.com/de/articles/8765#para2, beschrieben. Transformer Architekturen basieren beispielsweise auf Bidirectional Encoder Representations from Transformers, abgekürzt BERT, oder auf Generative Pre-trained Transformer, abgekürzt GPT.Another aspect of the invention provides a self-attention transformer architecture based on sequential encoder and decoder blocks with a similar architecture. Each of the encoder blocks includes, for example, a self-attention layer and a feed-forward layer. Each of the decoder blocks includes, for example, a self-attention layer, a feedforward layer and an encoder-decoder self-attention layer arranged in between. The self-attention algorithm is described, for example, in D. Gizlyk, Neural Networks Made Easy (Part 8): Attention Mechanisms, February 8, 2021, https://www.mql5.com/de/articles/8765#para2. Transformer architectures are based, for example, on Bidirectional Encoder Representations from Transformers, abbreviated BERT, or on Generative Pre-trained Transformer, abbreviated GPT.

Die Aufmerksamkeitsmechanismen verbessern die Vorhersagen, insbesondere langfristige Vorhersagen, und löst das Problem des information morphing. Ein Vorteil des Dekodierens mit Aufmerksamkeitsmechanismus ist eine bessere Langzeitvorhersage. Ein weiterer Vorteil des Dekodierens mit Aufmerksamkeitsmechanismus ist eine bessere Erklärbarkeit, da es ermöglicht wird, zu jedem Zeitschritt der Dekodier-Zeit herauszufinden, welche Zeitschritte in der Vergangenheit für die Vorhersage einflussreicher waren.The attentional mechanisms improve predictions, especially long-term predictions, and solve the problem of information morphing. An advantage of attentional mechanism decoding is better long-term prediction. Another advantage of decoding with an attention mechanism is a better explainability, since it is possible to find out at each time step of the decoding time which time steps in the past were more influential for the prediction.

Nach einem weiteren Aspekt der Erfindung werden für jeden der Verkehrsteilnehmer die Verkehrsteilnehmer-spezifischen Einbettungen in einen ersten Datenstrom, der verschiedene plausible Trajektorien vorhersagt, und in einen zweiten Datenstrom, der Wahrscheinlichkeiten der vorhergesagten Trajektorien gegeneinander bewertet und einen entsprechenden Wert ausgibt, dekodiert. Die Wahrscheinlichkeiten basieren auf den Trajektorienhistorien und den berechneten Interaktionen.According to a further aspect of the invention, for each of the road users, the road user-specific embeddings are decoded into a first data stream that predicts various plausible trajectories and into a second data stream that compares the probabilities of the predicted trajectories and outputs a corresponding value. The probabilities are based on the trajectory histories and the calculated interactions.

Nach einem weiteren Aspekt der Erfindung werden die starren statischen Umfeldmerkmale umfassend Karteninformationen und die zustandswechselnden statischen Umfeldmerkmale umfassend Verkehrsweiser und/oder Ankertrajektorien aus realen Daten von Umfelderkennungssensoren und/oder von Karten und/oder aus virtuellen Daten mit einem zweiten Maschinenlernmodell umfassend Schichten eines Faltungsnetzwerks kodiert. Damit wird eine umfangreiche Datenbasis bereitgestellt, die ein Training der Maschinenlernmodelle verbessert. Das zweite Maschinenlernmodell kodiert die genannten statischen Umfeldmerkmale beispielsweise in eine semantische Merkmalskarte, auch feature map, genannt, in der die einzelnen Merkmale entsprechend dem Schichtaufbau der hybriden Szenen-Repräsentation, gestapelt angeordnet sind. Das zweite Maschinenlernmodell ist damit ein Szenen-Informations-Kodierer, insbesondere ein CNN-Kodierer. Hierfür eignen sich Faltungsnetzwerke besonders gut.According to a further aspect of the invention, the rigid, static environment features including map information and the state-changing static environment features including traffic indicators and/or anchor trajectories from real data from environment recognition sensors and/or from maps and/or from virtual data are encoded with a second machine learning model including layers of a convolutional network. This provides a comprehensive database that improves training of the machine learning models. The second machine learning model encodes the static environmental features mentioned, for example, in a semantic feature map, also called feature map, in which the individual features are stacked according to the layer structure of the hybrid scene representation. The second machine learning model is thus a scene information encoder, in particular a CNN encoder. Convolution networks are particularly well suited for this.

Daten von Umfelderkennungssensoren umfassen Roh- und/oder beispielsweise mit Filtern, Verstärkern, Serializern, Komprimierungs- und/oder Konvertierungseinheiten vorverarbeitete Daten von an dem Fahrsystem angeordneten Kameras, Radarsensoren, Lidarsensoren, Ultraschallsensoren, Akustiksensoren, Car2X-Einheiten und/oder Echtzeit-/Offlinekarten. Die virtuellen Daten werden beispielsweise mittels Software-, Hardware-, Model- und/oder Vehicle-in-the-Loop Verfahren erzeugt. Nach einem weiteren Aspekt der Erfindung werden die realen Daten virtuell augmentiert und/oder variiert.Data from environment detection sensors include raw data and/or data pre-processed, for example with filters, amplifiers, serializers, compression and/or conversion units, from cameras, radar sensors, lidar sensors, ultrasonic sensors, acoustic sensors, Car2X units and/or real-time/offline maps arranged on the driving system . The virtual data is generated, for example, using software, hardware, model and/or vehicle-in-the-loop methods. According to a further aspect of the invention, the real data are virtually augmented and/or varied.

Nach einem weiteren Aspekt der Erfindung werden die dynamischen Umfeldmerkmale umfassend die Trajektorienhistorien der Verkehrsteilnehmer, basierend auf realen Fahrdaten und/oder auf virtuellen Daten, mit einem dritten Maschinenlernmodell umfassend Schichten eines rekurrenten Netzwerks kodiert. Rekurrente Netzwerke, auch recurrent neural networks genannt, abgekürzt RNN, erkennen die zeitlich kodierten Daten in den Trajektorienhistorien. Nach einem Aspekt der Erfindung ist das rekurrente Netzwerk als ein long short-term memory Netzwerk, abgekürzt LSTM, oder als ein gated recurrent unit Netzwerk umgesetzt. Das dritte Maschinenlernmodell ist damit ein RNN-Kodierer. Nach einem Aspekt der Erfindung wird die Kodierung des dritten Maschinenlernmodells mit der semantischen Merkmalskarte des zweiten Maschinenlernmodells überlagert.According to a further aspect of the invention, the dynamic environment features including the trajectory histories of the road users, based on real driving data and/or virtual data, are encoded using a third machine learning model including layers of a recurrent network. Recurrent neural networks, also known as RNN for short, recognize the time-coded data in the trajectory histories. According to one aspect of the invention, the recurrent network is implemented as a long short-term memory network, LSTM for short, or as a gated recurrent unit network. The third machine learning model is thus an RNN encoder. According to one aspect of the invention, the coding of the third machine learning model is overlaid with the semantic feature map of the second machine learning model.

Nach einem weiteren Aspekt der Erfindung werden die Verkehrsteilnehmer-spezifischen Einbettungen von einem vierten Maschinenlernmodell umfassend Schichten eines rekurrenten Netzwerks dekodiert. Das vierte Maschinenlernmodell ist damit ein RNN-Dekodierer. Nach einem Aspekt der Erfindung wird der erste Datenstrom, der verschiedene plausible Trajektorien vorhersagt, von einem ersten RNN-Dekodierer dekodiert. Der erste RNN-Dekodierer wird Wahrscheinlichkeits-Dekodierer genannt. Der zweite Datenstrom, der die Wahrscheinlichkeiten der vorhergesagten Trajektorien gegeneinander bewertet und einen entsprechenden Wert ausgibt, wird von einem zweiten RNN-Dekodierer dekodiert. Der zweite RNN-Dekodierer wird Trajektorien-Dekodierer genannt.According to a further aspect of the invention, the road user-specific embeddings are decoded by a fourth machine learning model comprising layers of a recurrent network. The fourth machine learning model is thus an RNN decoder. According to one aspect of the invention, the first data stream predicting different plausible trajectories is decoded by a first RNN decoder. The first RNN decoder is called a probability decoder. The second data stream, which compares the probabilities of the predicted trajectories and outputs a corresponding value, is decoded by a second RNN decoder. The second RNN decoder is called a trajectory decoder.

Nach einem weiteren Aspekt der Erfindung bestimmt ein Steuergerät eines der Fahrsysteme für automatisierte Fahrfunktionen Regel- und/oder Steuersignale basierend auf den vorhergesagten Trajektorien und stellt diese Signale Aktuatoren für Längs- und/oder Querführung des Fahrsystems bereit.According to a further aspect of the invention, a control unit of one of the driving systems for automated driving functions determines regulation and/or control signals based on the predicted trajectories and provides these signals to actuators for longitudinal and/or lateral guidance of the driving system.

Die Erfindung wird in den folgenden Ausführungsbeispielen verdeutlicht. Es zeigen:

1 eine Darstellung einer erfindungsgemäßen hybriden Szenen-Repräsentation,
2 eine Darstellung des erfindungsgemäßen Verfahrens,
3 eine Darstellung der erfindungsgemäßen Netzwerkarchitektur,
4 eine Darstellung von erfindungsgemäßen Verkehrsteilnehmer-spezifischen Einbettungen und
5 eine Flussdiagramm des erfindungsgemäßen Verfahrens.

The invention is illustrated in the following exemplary embodiments. Show it:

1 a representation of a hybrid scene representation according to the invention,
2 a representation of the method according to the invention,
3 a representation of the network architecture according to the invention,
4 a representation of road user-specific embeddings according to the invention and
5 a flowchart of the method according to the invention.

In den Figuren bezeichnen gleiche Bezugszeichen gleiche oder funktionsähnliche Bezugsteile. Übersichtshalber werden in den einzelnen Figuren nur die jeweils relevanten Bezugsteile hervorgehoben.In the figures, the same reference symbols denote the same or functionally similar reference parts. For the sake of clarity, only the relevant reference parts are highlighted in the individual figures.

1 zeigt beispielhaft eine erfindungsgemäße hybride Szenen-Repräsentation HSRV. In der dargestellten Umfeldszene U befindet sich ein PKW als Beispiel eines Verkehrsteilnehmers R an einer Einmündung. Der PKW ist beispielsweise das Ego-Fahrsystem. An der Einmündung befindet sich ein Fußgänger W. Die Vorfahrt wird über eine Ampel L geregelt. Die Ampelschaltung L zeigt dem PKW R die grüne Ampelphase an und dem Fußgänger W die rote. Über der Darstellung dieser Situation aus der Vogelperspektive werden die verschiedenen Schichten, die für die Vorhersage der Trajektorien der Verkehrsteilnehmer wesentlich sind, abgebildet. 1 shows an example of a hybrid scene representation HSRV according to the invention. In the environment scene U shown, there is a car as an example of a road user R at a confluence. The car, for example, is the ego driving system. At the junction there is a pedestrian W. The right of way is controlled by a traffic light L. The traffic light circuit L shows the car R the green traffic light phase and the pedestrian W the red one. The various layers that are essential for predicting the trajectories of road users are shown above the representation of this situation from a bird's eye view.

In Schicht A wird die regionale Information dargestellt. Schicht B bedient sich der Karteninformation, Schicht C der Verkehrsregelinformation. Die zustandsbehafteten Verkehrsweiser und die Ankertrajektorien sind in Schicht D und Schicht E enthalten. In Schicht F werden semantische Merkmale der einzelnen Verkehrsteilnehmer beschrieben. Schicht G und Schicht H enthalten latente Information, wobei diese Information in Schicht G auf Eigenschaften, die den Verkehrsteilnehmer beschrieben, und in Schicht H auf dem dynamischen Bewegungsverhalten basiert.Layer A shows the regional information. Layer B uses the map information, layer C the traffic regulation information. The stateful traffic signs and the anchor trajectories are contained in layer D and layer E. Layer F describes the semantic characteristics of the individual road users. Layer G and layer H contain latent information, with this information in layer G being based on properties that describe the road user and in layer H on the dynamic movement behavior.

Die Schichten A bis E sind statische Schichten und beschreiben statische Umfeldmerkmale stat der Umfeldszene U. Dabei beschreiben die Schichten A bis C starre statische Umfeldmerkmale stat_1 und die Schichten D und E zustandswechselnde statische Umfeldmerkmale stat_2.The layers A to E are static layers and describe static environmental features stat of the environmental scene U. The layers A to C describe rigid static environmental features stat_1 and the layers D and E state-changing static environmental features stat_2.

Die Schichten F bis H sind dynamische Schichten und beschreiben dynamische Umfeldmerkmale dyn der Umfeldszene U.The layers F to H are dynamic layers and describe dynamic environment features dyn of the environment scene U.

2 zeigt eine Darstellung des erfindungsgemäßen Verfahrens. Die statischen Umfeldmerkmale stat und die dynamischen Umfeldmerkmale dyn wurden in die hybride Szenen-Repräsentation HSRV zusammengeführt. Die erfindungsgemäßen Maschinenlernmodelle erhalten diese hybride Szenen-Repräsentation HSRV als Eingabe und berechnen für jeden Verkehrsteilnehmer R eine spezifische Einbettung JoMASE. Aus den Verkehrsteilnehmer-spezifischen Einbettungen JoMASE werden zukünftige Trajektorien mit zugehörigen Wahrscheinlichkeiten dekodiert. 2 shows a representation of the method according to the invention. The static environment features stat and the dynamic environment features dyn were merged into the hybrid scene representation HSRV. The machine learning models according to the invention receive this hybrid scene representation HSRV as input and calculate a specific embedding JoMASE for each road user R. Future trajectories with associated probabilities are decoded from the road user-specific embeddings JoMASE.

3 zeigt eine Anordnung einer erfindungsgemäßen Netzwerkarchitektur. 3 shows an arrangement of a network architecture according to the invention.

4 zeigt eine Darstellung der erfindungsgemäßen Verkehrsteilnehmer-spezifischen Einbettungen JoMASE. 4 shows a representation of the inventive road user-specific embedding JoMASE.

Ein drittes Maschinenlernmodell RNN-Kodierer kodiert die Trajektorienhistorien TH von Verkehrsteilnehmern basierend auf realen Fahrdaten und/oder auf virtuellen Daten. Ein zweites Maschinenlernmodell CNN-Kodierer kodiert Szenen-Informationen umfassend die starren statischen Umfeldmerkmale stat_1 und die zustandswechselnden statischen Umfeldmerkmale stat_2. Ein Interaktions-Tensor-Pooling-Modul ITPM führt die Kodierungen des RNN- und CNN-Kodierers zusammen und erzeugt daraus die hybride Szenen-Repräsentation HSRV wie in 1 gezeigt.A third machine learning model RNN coder codes the trajectory histories TH of road users based on real driving data and/or virtual data. A second machine learning model CNN encoder encodes scene information comprising the rigid static environment features stat_1 and the state changing static environment features stat_2. An interaction tensor pooling module ITPM merges the encodings of the RNN and CNN encoders and uses them to generate the hybrid scene representation HSRV as in 1 shown.

Ein erstes Maschinenlernmodell IntCNN in Form eines Faltungsnetzwerks CNN bestimmt basierend auf der hybriden Szenen-Repräsentation HSRV die Interaktionen zwischen den statischen stat, dynamischen dyn und zwischen den statischen stat und dynamischen Umfeldmerkmalen dyn und fusioniert diese Interaktionen. Dabei erzeugt das erste Maschinenlernmodell IntCNN eine erste Einbettung der starren statischen Umfeldmerkmale stat_1 in Form einer ersten Tensor-Einbettung, eine zweite Einbettung der zustandswechselnden statischen Umfeldmerkmale stat_2 in Form einer zweiten Tensor-Einbettung und eine dritte Einbettung der dynamischen Umfeldmerkmale dyn in Form einer dritten Tensor-Einbettung. Die erste, zweite und dritte Einbettung werden in eine gemeinsame Einbettung M in Form eines Multi-Agenten-Szenen-Tensors zusammengeführt.A first machine learning model IntCNN in the form of a convolutional network CNN determines the interactions between the static stat, dynamic dyn and between the static stat and dynamic environment features dyn based on the hybrid scene representation HSRV and merges these interactions. The first machine learning model IntCNN creates a first embedding of the rigid static environment features stat_1 in the form of a first tensor embedding, a second embedding of the state-changing static environment features stat_2 in the form of a second tensor embedding and a third embedding of the dynamic environment features dyn in the form of a third tensor -embedding. The first, second and third embedding are merged into a common embedding M in the form of a multi-agent scene tensor.

Ein Interaktions-Vektor-Extraktions-Modul IVEM extrahiert pro Verkehrsteilnehmer R die Merkmale des Multi-Agenten-Szenen-Tensors M an der den Koordinaten des Verkehrsteilnehmers R entsprechenden Stelle und fusioniert diese mit der dritten Tensor-Einbettung des Verkehrsteilnehmers R. Pro Verkehrsteilnehmer R und pro Szene wird die Multi-Agenten-Szenen-Einbettung JoMASE erzeugt.An interaction vector extraction module IVEM extracts the features of the multi-agent scene tensor M per road user R at the point corresponding to the coordinates of the road user R and fuses them with the third tensor embedding of the road user R. Per road user R and the multi-agent scene embedding JoMASE is generated for each scene.

Ein viertes Maschinenlernmodell RNN-Trajektorien-Dekodierer dekodiert in einem ersten Strang die Multi-Agenten-Szenen-Einbettung JoMASE und gibt pro Verkehrsteilnehmer R vorhergesagte Trajektorien aus. Ein RNN- Wahrscheinlichkeits-Dekodierer des vierten Maschinenlernmodells dekodiert in einem zweiten Strang die Multi-Agenten-Szenen-Einbettung JoMASE und bewertet pro Verkehrsteilnehmer R Wahrscheinlichkeiten der vorhergesagten Trajektorien gegeneinander und gibt jeweils einen entsprechenden Wert aus. Die Dekodierer des vierten Maschinenlernmodells umfassen beispielsweise rekurrente Netzwerke RNN.A fourth machine learning model RNN trajectory decoder decodes the multi-agent scene embedding JoMASE in a first strand and outputs R predicted trajectories for each road user. An RNN probability decoder of the fourth machine learning model decodes the multi-agent scene embedding JoMASE in a second strand and evaluates R probabilities of the predicted trajectories against each other for each road user and outputs a corresponding value in each case. The decoders of the fourth machine learning model include, for example, recurrent networks RNN.

5 zeigt das erfindungsgemäße Verfahren als Flussdiagramm. 5 shows the method according to the invention as a flow chart.

In einem Verfahrensschritt V1 werden die bereitgestellten kodierten statischen stat und dynamischen Umfeldmerkmalen dyn von dem Interaktions-Tensor-Pooling-Modul ITPM räumlich zusammengeführt.In a method step V1, the provided encoded static stat and dynamic environment features dyn are combined spatially by the interaction tensor pooling module ITPM.

In einem Verfahrensschritt V2 wird die mittels des Interaktions-Tensor-Pooling-Modul ITPM die hybriden Szenen-Repräsentation HSRV erhalten.In a method step V2, the hybrid scene representation HSRV is obtained by means of the interaction tensor pooling module ITPM.

In einem Verfahrensschritt V3 wird die hybride Szenen-Repräsentation HSRV von dem ersten Maschinenlernmodell IntCNN prozessiert. Das erste Maschinenlernmodell IntCNN bestimmt dabei die erste Einbettung der starren statischen Umfeldmerkmale stat_1, die zweite Einbettung der zustandswechselnden statischen Umfeldmerkmale stat_2 und die dritte Einbettung der dynamischen Umfeldmerkmale dyn. Die erste, zweite und dritte Einbettung werden zusammengeführt und als eine gemeinsame Einbettung M von dem ersten Maschinenlernmodell IntCNN ausgegeben.In a method step V3, the hybrid scene representation HSRV is processed by the first machine learning model IntCNN. The first machine learning model IntCNN determines the first embedding of the rigid static environment features stat_1, the second embedding of the state-changing static environment features stat_2 and the third embedding of the dynamic environment features dyn. The first, second and third embedding are merged and output as a common embedding M from the first machine learning model IntCNN.

In einem Verfahrensschritt V4 werden aus der gemeinsamen Einbettung M die Verkehrsteilnehmer R spezifischen Interaktionen bestimmt und mit den Verkehrsteilnehmer R spezifischen dynamischen Umfeldmerkmalen dyn für jeden der Verkehrsteilnehmer R fusioniert. Aus der Fusion wird die Verkehrsteilnehmer R spezifische Einbettung JoMASE für jeden der Verkehrsteilnehmer R erzeugt.In a method step V4, the road user R-specific interactions are determined from the common embedding M and merged with the road user R-specific dynamic environment features dyn for each of the road users R. From the fusion, the road user R specific embedding JoMASE is generated for each of the road users R.

In einem Verfahrensschritt V5 werden die Verkehrsteilnehmer R spezifischen Einbettungen JoMASE dekodiert und die vorhergesagten Trajektorien für jeden der Verkehrsteilnehmer R erhalten, wobei einzelne der Trajektorienhistorien TH jeweils auf mehrere mögliche vorhergesagte Trajektorien abgebildet werden.In a method step V5, the road users R-specific embeddings JoMASE are decoded and the predicted trajectories are obtained for each of the road users R, with individual trajectory histories TH being mapped onto a plurality of possible predicted trajectories.

BezugszeichenlisteReference List

RR: Verkehrsteilnehmerroad users
LL: AmpelTraffic light
WW: Fußgängerpedestrian
Uu: Umfeldszeneenvironment scene
THth: Trajektorienhistorietrajectory history
dyndynamic: dynamische Umfeldmerkmaledynamic environment features
statstat: statische Umfeldmerkmalestatic environmental features
stat_1stat_1: starre statische Umfeldmerkmalerigid static environmental features
stat_2stat_2: zustandswechselnde statische Umfeldmerkmalestate-changing static environmental features
MapMap: Karteninformationcard information
HSRVHSRV: hybriden Szenen-Repräsentationhybrid scene representation
A-HAH: Schichten der HSRVlayers of the HSRV
IntCNNIntCNN: erstes Maschinenlernmodellfirst machine learning model
CNNCNN: Faltungsnetzwerkconvolution network
MM: gemeinsame Einbettungcommon embedding
JoMASEJoMASE: Verkehrsteilnehmer-spezifische EinbettungRoad user-specific embedding
CNN-KodiererCNN encoder: zweites Maschinenlernmodellsecond machine learning model
RNN-KodiererRNN encoder: drittes Maschinenlernmodellthird machine learning model
RNNRNN: rekurrentes Netzwerk RNN-Trajektorien-Dekodierer viertes Maschinenlernmodellrecurrent network RNN trajectory decoder fourth machine learning model
RNNRNN: Wahrscheinlichkeits-Dekodierer viertes MaschinenlernmodellProbability decoder fourth machine learning model
ITPMITPM: Interaktions-Tensor-Pooling-ModulInteraction tensor pooling module
IVEMIVEM: Interaktions-Vektor-Extraktions-ModulInteraction Vector Extraction Module
V1-V5V1-V5: Verfahrensschritteprocess steps

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents cited by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturPatent Literature Cited

DE 102020210379 [0003]DE 102020210379 [0003]

Claims

Computerimplementiertes Verfahren zum Vorhersagen und Planen von Trajektorien umfassend die Schritte • räumliches Zusammenführen von bereitgestellten kodierten statischen (stat) und dynamischen (dyn) Umfeldmerkmalen (V1) und Erhalten einer hybriden Szenen-Repräsentation (HSRV) umfassend wenigstens eine erste Schicht (A, B, C) umfassend starre statische Umfeldmerkmale (stat_1), eine zweite (D, E) Schicht umfassend zustandswechselnde statische Umfeldmerkmale (stat_2) und eine dritte Schicht (F, G, H) umfassend die dynamischen Umfeldmerkmale (dyn) umfassend Trajektorienhistorien (TH) von Verkehrsteilnehmern (R) umfassend jeweils wenigstens Positionen des Verkehrsteilnehmers (R) in Abhängigkeit der Zeit (V2); • Prozessieren eines ersten Maschinenlernmodells (IntCNN) (V3), das als Eingabe die hybride Szenen-Repräsentation (HSRV) erhält und trainiert ist oder mittels Referenz-Vorhersagen trainiert wird, Interaktionen zwischen den statischen (stat) und dynamischen(dyn) Umfeldmerkmalen zu bestimmen, wobei eine Funktion des ersten Maschinenlernmodells (IntCNN) auf die erste Schicht (A, B, C), die zweite Schicht (D, E) und die dritte Schicht (F, G, H) angewendet wird und eine Einbettung (M) der starren statischen Umfeldmerkmale (stat_1), der zustandswechselnden statischen Umfeldmerkmale (stat_2) und der dynamischen Umfeldmerkmale (dyn) erzeugt wird und die Einbettung (M) von dem Maschinenlernmodell (IntCNN) ausgegeben wird; • Bestimmen von Verkehrsteilnehmer (R) spezifischen Interaktionen aus der gemeinsamen Einbettung (M) und Fusionieren dieser mit den Verkehrsteilnehmer (R) spezifischen dynamischen Umfeldmerkmalen (dyn) für jeden der Verkehrsteilnehmer (R) und Erhalten einer Verkehrsteilnehmer (R) spezifischen Einbettung (JoMASE) für jeden der Verkehrsteilnehmer (R) (V4); • Dekodieren der Verkehrsteilnehmer (R) spezifischen Einbettungen (JoMASE) und Erhalten von vorhergesagten Trajektorien für jeden der Verkehrsteilnehmer (R), wobei einzelne der Trajektorienhistorien (TH) jeweils auf mehrere mögliche vorhergesagte Trajektorien abgebildet werden (V5). Computer-implemented method for predicting and planning trajectories, comprising the steps • Spatial merging of provided coded static (stat) and dynamic (dyn) environmental features (V1) and obtaining a hybrid scene representation (HSRV) comprising at least a first layer (A, B, C) comprising rigid static environmental features (stat_1), a second (D, E) layer comprising state-changing static environment features (stat_2) and a third layer (F, G, H) comprising the dynamic environment features (dyn) comprising trajectory histories (TH) of road users (R) each comprising at least positions of the road user (R ) as a function of time (V2); • Processing of a first machine learning model (IntCNN) (V3), which receives the hybrid scene representation (HSRV) as input and is trained or is trained using reference predictions, to determine interactions between the static (stat) and dynamic (dyn) environment features , where a function of the first machine learning model (IntCNN) is applied to the first layer (A, B, C), the second layer (D, E) and the third layer (F, G, H) and an embedding (M) of the rigid static environment features (stat_1), the state-changing static environment features (stat_2) and the dynamic environment features (dyn) and the embedding (M) is output by the machine learning model (IntCNN); • Determining road user (R) specific interactions from the common embedding (M) and merging these with road user (R) specific dynamic environment features (dyn) for each road user (R) and obtaining a road user (R) specific embedding (JoMASE) for each of the road users (R) (V4); • Decoding the traffic participants (R) specific embeddings (JoMASE) and obtaining predicted trajectories for each of the traffic participants (R), whereby individual trajectory histories (TH) are each mapped to multiple possible predicted trajectories (V5).

Verfahren nach Anspruch 1, wobei eine erste Funktion des ersten Maschinenlernmodells (IntCNN) auf die erste Schicht (A,B, C) angewendet wird und eine erste Einbettung der starren statischen Umfeldmerkmale (stat_1) erzeugt, eine zweite Funktion auf die zweite Schicht (D, E) angewendet wird und eine zweite Einbettung der zustandswechselnden statischen Umfeldmerkmale (stat_2) erzeugt, eine dritte Funktion auf die dritte Schicht (F, G, H) angewendet wird und eine dritte Einbettung der dynamischen Umfeldmerkmale (dyn) erzeugt und die erste, zweite und dritte Einbettung zusammengeführt werden und als eine gemeinsame Einbettung (M) von dem Maschinenlernmodell (IntCNN) ausgegeben werden.procedure after claim 1 , where a first function of the first machine learning model (IntCNN) is applied to the first layer (A,B,C) and generates a first embedding of the rigid static environment features (stat_1), a second function is applied to the second layer (D,E). and a second embedding of the state-changing static environment features (stat_2) is generated, a third function is applied to the third layer (F, G, H) and a third embedding of the dynamic environment features (dyn) is generated, and the first, second and third embedding are merged and output as a common embedding (M) from the machine learning model (IntCNN).

Verfahren nach einem der vorangehenden Ansprüche, wobei die starren statischen Umfeldmerkmale (stat_1) durch Schichten eines ersten künstlichen neuronalen Netzwerks prozessiert und in einen ersten Tensor eingebettet werden, die zustandswechselnden statischen Umfeldmerkmale (stat_2) durch Schichten eines zweiten künstlichen neuronalen Netzwerks prozessiert und in einen zweiten Tensor eingebettet werden, die dynamischen Umfeldmerkmale (dyn) durch Schichten eines dritten künstlichen neuronalen Netzwerks prozessiert und in einen dritten Tensor eingebettet werden, und die gemeinsame Einbettung ein vierter Tensor ist erhalten aus einer räumlichen Konkatenation des ersten, zweiten und dritten Tensors.Method according to one of the preceding claims, wherein the rigid static environmental features (stat_1) are processed by layers of a first artificial neural network and embedded in a first tensor, the state-changing static environmental features (stat_2) are processed by layers of a second artificial neural network and in a second tensor are embedded, the dynamic environment features (dyn) are processed by layers of a third artificial neural network and embedded in a third tensor, and the joint embedding a fourth tensor is obtained from a spatial concatenation of the first, second and third tensor.

Verfahren nach einem der vorangehenden Ansprüche, wobei das erste Maschinenlernmodell (IntCNN) Sprungverbindungen umfasst, durch die Schichten beim Prozessieren des Maschinenlernmodells (IntCNN) übersprungen werden.A method according to any one of the preceding claims, wherein the first machine learning model (IntCNN) comprises hopping connections through which layers are skipped in processing the machine learning model (IntCNN).

Verfahren nach einem der vorangehenden Ansprüche, wobei der vierte Tensor durch Schichten eines vierten künstlichen neuronalen Netzwerks prozessiert wird und das vierte künstliche neuronale Netzwerk ein Ausgabevolumen, dessen Größe gleich der hybriden Szenen-Repräsentation (HSRV) ist, ausgibt, und in dem Ausgabevolumen die Verkehrsteilnehmer (R) basierend auf ihrer realen räumlichen Anordnung positioniert sind.Method according to one of the preceding claims, wherein the fourth tensor is processed by layers of a fourth artificial neural network and the fourth artificial neural network outputs an output volume whose size is equal to the hybrid scene representation (HSRV), and in the output volume the road users (R) are positioned based on their real spatial arrangement.

Verfahren nach einem der vorangehenden Ansprüche, wobei die Einbettungen (M, JoMASE) mit Faltungsnetzwerken (CNN) erzeugt werden.Method according to one of the preceding claims, wherein the embeddings (M, JoMASE) are generated with convolution networks (CNN).

Verfahren nach einem der vorangehenden Ansprüche, wobei für jeden der Verkehrsteilnehmer (R) die Verkehrsteilnehmer (R) spezifischen Einbettungen von vergangen Zeitschritten der Trajektorienhistorien (TH) der Verkehrsteilnehmer (R) in einzelnen Zeitschritten des Dekodierens unterschiedlich gewichtet werden.Method according to one of the preceding claims, wherein for each of the road users (R) the road users (R) specific embeddings of past time steps of the trajectory histories (TH) of the road users (R) are weighted differently in individual time steps of the decoding.

Verfahren nach einem der vorangehenden Ansprüche, wobei für jeden der Verkehrsteilnehmer (R) die Verkehrsteilnehmer (R) spezifischen Einbettungen in einen ersten Datenstrom, der verschiedene plausible Trajektorien vorhersagt, und in einen zweiten Datenstrom, der Wahrscheinlichkeiten der Trajektorien gegeneinander bewertet und einen entsprechenden Wert ausgibt, dekodiert werden.Method according to one of the preceding claims, wherein for each of the road users (R) the road users (R) specific embeddings in a first data stream, which predicts various plausible trajectories, and in a second data stream, which evaluates the probabilities of the trajectories against each other and outputs a corresponding value , to be decoded.

Verfahren nach einem der vorangehenden Ansprüche, wobei die starren statischen Umfeldmerkmale (stat_1) umfassend Karteninformationen (Map) und die zustandswechselnden statischen Umfeldmerkmale (stat_2) umfassend Verkehrsweiser und/oder Ankertrajektorien aus realen Daten von Umfelderkennungssensoren und/oder von Karten und/oder aus virtuellen Daten mit einem zweiten Maschinenlernmodell (CNN-Kodierer) umfassend Schichten eines Faltungsnetzwerks (CNN) kodiert werden.Method according to one of the preceding claims, wherein the rigid static environment features (stat_1) including map information (map) and the state-changing static environment features (stat_2) including traffic signs and/or anchor trajectories from real data from environment recognition sensors and/or from maps and/or from virtual data with a second machine learning model (CNN coder) including layers of a convolutional network (CNN).

Verfahren nach einem der vorangehenden Ansprüche, wobei die dynamischen Umfeldmerkmale (dyn) umfassend die Trajektorienhistorien (TH) der Verkehrsteilnehmer (R), basierend auf realen Fahrdaten und/oder auf virtuellen Daten, mit einem dritten Maschinenlernmodell (RNN-Kodierer) umfassend Schichten eines rekurrenten Netzwerks (RNN) kodiert werden.Method according to one of the preceding claims, wherein the dynamic environment features (dyn) comprising the trajectory histories (TH) of the road users (R), based on real driving data and / or virtual data, with a third machine learning model (RNN encoder) comprising layers of a recurrent Network (RNN) are encoded.

Verfahren nach einem der vorangehenden Ansprüche, wobei die Verkehrsteilnehmer (R) spezifischen Einbettungen von einem vierten Maschinenlernmodell (RNN-Trajektorien-Dekodierer, RNN- Wahrscheinlichkeits-Dekodierer) umfassend Schichten eines rekurrenten Netzwerks (RNN) dekodiert werden.Method according to one of the preceding claims, wherein the road users (R) specific embeddings of a fourth machine learning model (RNN trajectory decoder, RNN probability decoder) comprising layers of a recurrent network (RNN) are decoded.

Verfahren nach einem der vorangehenden Ansprüche, wobei ein Steuergerät eines der Fahrsysteme (R) für automatisierte Fahrfunktionen basierend auf den vorhergesagten Trajektorien Regel- und/oder Steuersignale bestimmt und diese Aktuatoren für Längs- und/oder Querführung des Fahrsystems bereitstellt.Method according to one of the preceding claims, wherein a control unit of one of the driving systems (R) for automated driving functions based on the predicted trajectories determines regulation and/or control signals and provides these actuators for longitudinal and/or lateral guidance of the driving system.

Computerprogramm zum Vorhersagen und Planen von Trajektorien umfassend Befehle, die bewirken, dass ein Computer, umfassend einen Computer eines Steuergeräts eines Fahrsystems für automatisierte Fahrfunktionen, die Schritte eines Verfahrens nach einem der vorangehenden Ansprüche ausführt, wenn das Computerprogramm auf dem Computer läuft.Computer program for predicting and planning trajectories, comprising instructions that cause a computer, comprising a computer of a control unit of a driving system for automated driving functions, to carry out the steps of a method according to any one of the preceding claims when the computer program runs on the computer.

Anordnung zum Vorhersagen und Planen von Trajektorien umfassend • einen RNN-Kodierer, der dynamische Umfeldmerkmale (dyn) umfassend Trajektorienhistorien (TH) von Verkehrsteilnehmer (R) basierend auf realen Fahrdaten und/oder auf virtuellen Daten kodiert; • einen CNN-Kodierer, der Szenen-Informationen umfassend starre statische Umfeldmerkmale (stat_1) und zustandswechselnde statische Umfeldmerkmale (stat_2) kodiert; • ein Interaktions-Tensor-Pooling-Modul (ITPM), das die Kodierungen des RNN- und CNN-Kodierers zusammenführt und eine hybride Szenen-Repräsentation (HSRV) umfassend wenigstens eine erste Schicht (A, B, C) umfassend die starren statische Umfeldmerkmale (stat_1), eine zweite Schicht (D, E) umfassend die zustandswechselnden statische Umfeldmerkmale (stat_2) und eine dritte Schicht (F, G, H) umfassend dynamische Umfeldmerkmale (dyn) umfassend die Trajektorienhistorien (TH) erzeugt; • ein CNN-Interaktionsnetzwerk (IntCNN), das basierend auf der hybriden Szenen-Repräsentation (HSRV) Interaktionen zwischen den statischen (stat), dynamischen (dyn) und zwischen den statischen (stat) und dynamischen Umfeldmerkmalen (dyn) bestimmt, wobei das CNN-Interaktionsnetzwerk (IntCNN) eine erste Tensor-Einbettung der starren statischen Umfeldmerkmale (stat_1), eine zweite Tensor-Einbettung der zustandswechselnden statischen Umfeldmerkmale (stat_2) und eine dritte Tensor-Einbettung der dynamischen Umfeldmerkmale (dyn) erzeugt und die erste, zweite und dritte Tensor-Einbettung in einen Multi-Agenten-Szenen-Tensor zusammengeführt; • ein Interaktions-Vektor-Extraktions-Modul (IVEM), das pro Verkehrsteilnehmer (R) die Merkmale des Multi-Agenten-Szenen-Tensors an der den Koordinaten des Verkehrsteilnehmers (R) entsprechenden Stelle extrahiert, mit der dritten Tensor-Einbettung des Verkehrsteilnehmers (R) fusioniert und pro Verkehrsteilnehmer (R) und pro Szene eine Multi-Agenten-Szenen-Einbettung (JoMASE) erzeugt; • einen RNN-Trajektorien-Dekodierer, der die Multi-Agenten-Szenen-Einbettung (JoMASE) dekodiert und pro Verkehrsteilnehmer (R) Trajektorien vorhersagt und ausgibt; • einen RNN- Wahrscheinlichkeits-Dekodierer, der die Multi-Agenten-Szenen-Einbettung (JoMASE) dekodiert und pro Verkehrsteilnehmer (R) Wahrscheinlichkeiten der vorhergesagten Trajektorien gegeneinander bewertet und einen entsprechenden Wert ausgibt.Comprising arrangement for predicting and planning trajectories • an RNN encoder that encodes dynamic environment features (dyn) including trajectory histories (TH) of road users (R) based on real driving data and/or virtual data; • a CNN encoder that encodes scene information including fixed static environment features (stat_1) and state-changing static environment features (stat_2); • an Interaction Tensor Pooling Module (ITPM) that merges the encodings of the RNN and CNN encoders and a Hybrid Scene Representation (HSRV) comprising at least a first layer (A, B, C) comprising the rigid static environment features (stat_1), a second layer (D, E) comprising the state-changing static surroundings features (stat_2) and a third layer (F, G, H) comprising dynamic surroundings features (dyn) comprising the trajectory histories (TH); • a CNN interaction network (IntCNN) that determines interactions between the static (stat), dynamic (dyn) and between the static (stat) and dynamic environment features (dyn) based on the Hybrid Scene Representation (HSRV), where the CNN -Interaction network (IntCNN) generates a first tensor embedding of the rigid static environment features (stat_1), a second tensor embedding of the state-changing static environment features (stat_2) and a third tensor embedding of the dynamic environment features (dyn) and the first, second and third Tensor embedding merged into a multi-agent scene tensor; • an Interaction Vector Extraction Module (IVEM), which extracts per road user (R) the features of the multi-agent scene tensor at the point corresponding to the road user's (R) coordinates, with the third tensor embedding of the road user (R) merged and created a multi-agent scene embedding (JoMASE) per road user (R) and per scene; • an RNN trajectory decoder that decodes the multi-agent scene embedding (JoMASE) and predicts and outputs per road user (R) trajectories; • an RNN probability decoder that decodes the multi-agent scene embedding (JoMASE) and evaluates the probabilities of the predicted trajectories against each other for each road user (R) and outputs a corresponding value.