DE102018113992A1

DE102018113992A1 - Verfahren und Gerät zum Erfassen einer Fahrspur

Info

Publication number: DE102018113992A1
Application number: DE102018113992.6A
Authority: DE
Inventors: Huan Tian; Jun Hu; Shuai Cheng; Wei Liu
Original assignee: Neusoft Corp; Neusoft Reach Automotive Technology Shanghai Co Ltd
Current assignee: Neusoft Reach Automotive Technology Shanghai Co Ltd
Priority date: 2017-11-30
Filing date: 2018-06-12
Publication date: 2019-06-06
Also published as: US10748013B2; CN109858309B; JP6572345B2; US20190163991A1; JP2019102049A; CN109858309A

Abstract

Ein Verfahren und ein Gerät zum Erfassen einer Fahrspur werden bereitgestellt. Das Verfahren weist das Erfassen eines aktuellen Straßenbilds einer Straße um ein Fahrzeug und das Eingeben des aktuellen Straßenbilds in ein Deep-Learning-Modell auf, und das Erfassen eines Fahrspurbereichs in dem aktuellen Straßenbild basierend auf einem Resultat, das von dem Deep-Learning-Modell ausgegeben wird. Das Deep-Learning-Modell weist eine erste Modelleinheit und eine zweite Modelleinheit auf. Die erste Modelleinheit weist mindestens eine erste Modellsubeinheit auf, die ein faltendes neuronales Netz und ein erstes rekurrentes neuronales Netz aufweist, und die zweite Modelleinheit weist mindestens eine zweite Modellsubeinheit auf, die ein entfaltendes neuronales Netz und ein zweites rekurrentes neuronales Netz aufweist. In dem Straßenbild, das von dem rekurrenten neuronalen Netz verarbeitet wird, wird ein Wahrnehmungsresultat auf Bildmerkmalbasis für jeden Pixelpunkt, der dem eingegebenen Bild entspricht, ausgegeben.

Description

GEBIET
Die vorliegende Offenbarung betrifft das technische Gebiet der Bildverarbeitung und insbesondere ein Verfahren und ein Gerät zum Erfassen einer Fahrspur.
ALLGEMEINER STAND DER TECHNIK
Da intelligente Systeme auf das Gebiet des Fahrzeugfahrens angewandt werden, sind immer mehr Fahrzeuge mit intelligenten Systemen ausgestattet, die automatisches Fahren oder unterstütztes Fahren ermöglichen. Um das automatische Fahren oder unterstützte Fahren auszuführen, muss das intelligente System auf dem Fahrzeug gewöhnlich eine Fahrspur aus einem Straßenbild der Straße um das Fahrzeug erfassen, um eine Fahrspur um das Fahrzeug zu bestimmen, um das Fahren zu führen. Ein neuronales Netz wird als ein Maschinenlernmodell an die Fahrspurerfassungstechnologie angewandt. Bei den Erfassungssystemen, die auf dem neuronalen Netz basieren, können jedoch nicht alle Fahrspuren präzis erfasst werden, und insbesondere können Fahrspuren nicht präzis und effektiv in einem Fall von Fahrspuren erfasst werden, die unvollständig, teilweise verdeckt oder Fahrspuren unter drastischer Lichtänderungsumgebung sind.
KURZDARSTELLUNG
Ein Verfahren und ein Gerät zum Erfassen einer Fahrspur werden bereitgestellt, mit welchen ein Bildmerkmal jedes Pixelpunkts in dem Straßenbild bei der Bildverarbeitung gewahrt werden kann, wobei Fahrspuren, wie eine unvollständige Fahrspur, eine teilweise verdeckte Fahrspur oder eine Fahrspur unter drastischer Lichtänderungsumgebung präzis und effektiv erfasst werden können.
Bei einem ersten Aspekt wird ein Verfahren zum Erfassen einer Fahrspur gemäß einer Ausführungsform der vorliegenden Offenbarung bereitgestellt. Das Verfahren weist Folgendes auf:

das Erfassen eines aktuellen Straßenbilds einer Straße um ein Fahrzeug, und
das Eingeben des aktuellen Straßenbilds in ein Deep-Learning-Modell, und Erfassen eines Fahrspurbereichs in dem aktuellen Straßenbild basierend auf einem Resultat, das von dem Deep-Learning-Modell ausgegeben wird,
wobei das Deep-Learning-Modell ein Modell ist, das basierend auf Übereinstimmungen zwischen historischen Straßenbildern und bekannten Fahrspurbereichen in den historischen Straßenbildern trainiert wurde,
das Deep-Learning-Modell eine erste Modelleinheit und eine zweite Modelleinheit umfasst, und dass eine Ausgabe der ersten Modelleinheit als eine Eingabe der zweiten Modelleinheit dient,
wobei die erste Modelleinheit mindestens eine erste Modellsubeinheit umfasst, wobei die erste Modellsubeinheit ein faltendes neuronales Netz und ein erstes rekurrentes neuronales Netz umfasst, und eine Ausgabe des faltenden neuronalen Netzes als ein Eingabe des ersten rekurrenten neuronalen Netzes dient, und
wobei die zweite Modelleinheit mindestens eine zweite Modellsubeinheit umfasst, wobei die zweite Modellsubeinheit ein entfaltendes neuronales Netz und ein zweites rekurrentes neuronales Netz umfasst, und eine Ausgabe des entfaltenden neuronalen Netzes als ein Eingabe des zweiten rekurrenten neuronalen Netzes dient.

Bei einigen Ausführungsformen sind jedes der rekurrenten neuronalen Netze und das zweite rekurrente neuronale Netze ein bidirektionales langes Kurzzeitspeichernetz.
Bei einigen Ausführungsformen wird für jeden Pixelpunkt in dem aktuellen Straßenbild eine erste Abfolge, die in das erste rekurrente neuronale Netz einzugeben ist, von einem Ausgaberesultat des faltenden neuronalen Netzes für den Pixelpunkt und Ausgaberesultaten des faltenden neuronalen Netzes für Pixelpunkte in einer Nachbarschaft des Pixelpunkts gebildet, und
für jeden Pixelpunkt in dem aktuellen Straßenbild eine zweite Abfolge, die in das zweite rekurrente neuronale Netz einzugeben ist, von einem Ausgaberesultat des entfaltenden neuronalen Netzes für den Pixelpunkt und Ausgaberesultaten des entfaltenden neuronalen Netzes für Pixelpunkte in einer Nachbarschaft des Pixelpunkts gebildet.
Bei einigen Ausführungsformen kann das Deep-Learning-Modell ferner ein drittes rekurrentes neuronales Netz aufweisen,
eine dritte Abfolge, die in das dritte rekurrente neuronale Netz einzugeben ist, wird von Resultaten, die von der zweiten Modelleinheit ausgegeben werden, gebildet, indem eine Vielzahl von Straßenbildern verarbeitet wird, wobei die Vielzahl von Straßenbildern ein aktuelles Straßenbild und kürzlich in unterschiedlichen Augenblicken erfasste Straßenbilder umfasst.
Bei einem zweiten Aspekt wird ein Gerät zum Erfassen einer Fahrspur gemäß einer Ausführungsform der vorliegenden Offenbarung bereitgestellt. Das Gerät weist Folgendes auf:

ein Bilderfassungsmodul, das konfiguriert ist, um ein aktuelles Straßenbild einer Straße um ein Fahrzeug zu erfassen, und
ein Modellverarbeitungsmodul, das konfiguriert ist, um das aktuelle Straßenbild in ein Deep-Learning-Modell einzugeben und einen Fahrspurbereich in dem aktuellen Straßenbild basierend auf einem Resultat, das von dem Deep-Learning-Modell ausgegeben wird, zu erfassen,
wobei das Deep-Learning-Modell ein Modell ist, das basierend auf Übereinstimmungen mit historischen Straßenbildern und bekannten Fahrspurbereichen in den historischen Straßenbildern trainiert wurde;
das Deep-Learning-Modell eine erste Modelleinheit und eine zweite Modelleinheit umfasst, und eine Ausgabe der ersten Modelleinheit als eine Eingabe der zweiten Modelleinheit dient,
wobei die erste Modelleinheit mindestens eine erste Modellsubeinheit umfasst, wobei die erste Modellsubeinheit ein faltendes neuronales Netz und ein erstes rekurrentes neuronales Netz, und eine Ausgabe des faltenden neuronalen Netzes als ein Eingabe des ersten rekurrenten neuronalen Netzes dient, und
wobei die zweite Modelleinheit mindestens eine zweite Modellsubeinheit umfasst, wobei die zweite Modellsubeinheit ein faltendes neuronales Netz und ein erstes rekurrentes neuronales Netz, und eine Ausgabe des faltenden neuronalen Netzes als ein Eingabe des ersten rekurrenten neuronalen Netzes dient, und eine Ausgabe des neuronalen Entfaltungsnetzes als ein Eingabe des zweiten rekurrenten neutralen Netzes dient.

Bei einigen Ausführungsformen kann jedes des ersten rekurrenten neuronalen Netzes und des zweiten rekurrenten neuronalen Netzes ein bidirektionales langes Kurzzeitspeichernetz sein.
Bei einigen Ausführungsformen wird für jeden Pixelpunkt in dem aktuellen Straßenbild eine erste Abfolge, die in das erste rekurrente neuronale Netz einzugeben ist, durch ein Ausgaberesultat des faltenden neuronalen Netzes für die Pixelpunkte und Ausgaberesultaten des faltenden neuronalen Netzes für Pixelpunkte in einer Nachbarschaft des Pixelpunkts gebildet, und
für jeden Pixelpunkt in dem aktuellen Straßenbild eine zweite Abfolge, die in das zweite rekurrente neuronale Netz einzugeben ist, von einem Ausgaberesultat des entfaltenden neuronalen Netzes für den Pixelpunkt und Ausgaberesultaten des entfaltenden neuronalen Netzes für Pixelpunkte in einer Nachbarschaft des Pixelpunkts gebildet.
Bei einigen Ausführungsformen kann das Deep-Learning-Modell ferner ein drittes rekurrentes neuronales Netz aufweisen,
eine dritte Abfolge, die in das dritte rekurrente neuronale Netz einzugeben ist, wird von Resultaten, die von der zweiten Modelleinheit ausgegeben werden, gebildet, indem eine Vielzahl von Straßenbildern verarbeitet wird, wobei die Vielzahl von Straßenbildern das aktuelle Straßenbild und kürzlich in unterschiedlichen Augenblicken erfasste Straßenbilder umfasst.
Bei einem dritten Aspekt wird ein Verfahren zum Erfassen einer Fahrspur gemäß einer Ausführungsform der vorliegenden Offenbarung bereitgestellt. Die Vorrichtung weist Folgendes auf:

einen Prozessor und
einen Speicher, wobei
der Speicher konfiguriert ist, um einen Programmcode zu speichern und den Programmcode zu dem Prozessor zu übertragen, und
der Prozessor konfiguriert ist, um als Reaktion auf eine Anweisung in dem Programmcode das Verfahren zum Erfassen einer Fahrspur gemäß dem ersten Aspekt auszuführen.

Bei einem vierten Aspekt ein Speichermedium gemäß einer Ausführungsform der vorliegenden Offenbarung. Das Speichermedium ist konfiguriert, um einen Programmcode zum Ausführen des Verfahrens zum Erfassen einer Fahrspur gemäß dem ersten Aspekt zu speichern.
Gemäß den Ausführungsformen der vorliegenden Offenbarung, wird eine Fahrspur in dem Straßenbild einer Straße um ein Fahrzeug von einem Deep-Learning-Modell erfasst. Zusätzlich zu einem faltenden neuronalen Netz (Convolutional Neural Network - CNN), wird auch ein rekurrentes neuronales Netz (Recurrent Neural Network - RNN) in dem Deep-Learning-Modell verwendet. Bei dem Straßenbildprozess durch das rekurrente neuronale Netz wird folglich ein Wahrnehmungsresultat auf Bildmerkmalbasis für jeden Pixelpunkt in einem eingegebenen Bild ausgegeben, so dass das Bildmerkmal jedes Pixelpunkts in einem Straßenbild gewahrt werden kann, und ein räumliches Merkmal einer Fahrspur in dem Straßenbild extrahiert werden kann, und Fahrspuren daher präzis und effektiv sogar in dem Fall unvollständiger Fahrspuren, teilweise verdeckter Fahrspuren oder Fahrspuren unter einer drastischen Lichtänderungsumgebung erfasst werden können.
Figurenliste
Um Ausführungsformen der vorliegenden Offenbarung oder technische Lösungen der herkömmlichen Technologie klarer zu veranschaulichen, werden unten die Zeichnungen, die in der Beschreibung der Ausführungsformen oder der herkömmlichen Technologie verwendet werden sollen, kurz beschrieben. Es ist klar, dass Zeichnungen in der folgenden Beschreibung nur einige Ausführungsformen der vorliegenden Offenbarung zeigen, und dass andere Zeichnungen von Fachleuten aus Zeichnungen ohne kreative Bemühungen erhalten werden können.

1 ist ein schematisches Diagramm eines Frameworks eines Systems in Zusammenhang mit einem Anwendungsszenario gemäß einer Ausführungsform der vorliegenden Offenbarung;
2 ist ein schematisches Ablaufdiagramm eines Verfahrens zum Erfassen einer Fahrspur gemäß einer Ausführungsform der vorliegenden Offenbarung;
3a ist ein schematisches Diagramm einer Struktur eines Deep-Learning-Modells gemäß einer Ausführungsform der vorliegenden Offenbarung;
3b ist ein schematisches Diagramm einer anderen Struktur eines Deep-Learning-Modells gemäß einer Ausführungsform der vorliegenden Offenbarung;
4 ist ein schematisches Diagramm, das Merkmalumformung veranschaulicht, die auf einem Ausgaberesultat des faltenden neuronalen Netzes gemäß einer Ausführungsform der vorliegenden Offenbarung ausgeführt wird;
5 ist ein schematisches Diagramm einer ersten Abfolgenbildung für einen Pixelpunkt A gemäß einer Ausführungsform der vorliegenden Offenbarung;
6 ist ein schematisches Diagramm einer anderen Struktur eines Deep-Learning-Modells gemäß einer Ausführungsform der vorliegenden Offenbarung, und
7 ist ein schematisches Diagramm, das Merkmalumformung für ein drittes rekurrentes neuronales Netz gemäß einer Ausführungsform der vorliegenden Offenbarung veranschaulicht;
8 ist ein schematisches Diagramm einer Struktur eines Geräts zum Erfassen einer Fahrspur gemäß einer Ausführungsform der vorliegenden Offenbarung;
9 ist ein schematisches Diagramm einer Struktur einer Vorrichtung zum Erfassen einer Fahrspur gemäß einer Ausführungsform der vorliegenden Offenbarung;

AUSFÜHRLICHE BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
Um Lösungen der vorliegenden Offenbarung für Fachleute besser verständlich zu machen, werden unten technische Lösungen in Ausführungsformen der vorliegenden Offenbarung kombiniert mit Zeichnungen in den Ausführungsformen der vorliegenden Offenbarung klar beschrieben. Es ist offensichtlich, dass die unten beschriebenen Ausführungsformen nur einige Ausführungsformen der vorliegenden Offenbarung und nicht alle der Ausführungsformen sind. Alle anderen Ausführungsformen, die Fachleute basierend auf den Ausführungsformen der vorliegenden Offenbarung ohne kreative Bemühung erhalten können, liegen innerhalb des Schutzbereichs der vorliegenden Offenbarung.
Ein Straßenbild wird von einem faltenden neuronalen Netz in einem Straßenbildverarbeitungsverfahren verarbeitet. Nachdem das Straßenbild von dem faltenden neuronalen Netz verarbeitet wurde, ist jedoch eine Pixelgröße des Straßenbilds verringert, und daher geht ein Teil von Bildmerkmalen des Bilds verloren. Spezifisch gibt bei dem Straßenbildprozess durch das faltende neuronale Netz das faltende neuronale Netz ein Bildmerkmalresultat für einen Bildbereich, der mehrere Pixelpunkte in einem eingegebenen Bild aufweist, zum Charakterisieren des Bildmerkmals des Bildbereichs aus. Für einen Bildbereich, der 9 Pixelpunkte in einem Bild aufweist, das in das faltende neuronale Netz eingegeben wird, gibt das faltende neuronale Netz nach der Verarbeitung des Bildbereichs nur ein Bildmerkmal eines Punkts aus, um das Bildmerkmal des Bildbereichs darzustellen. Auf diese Art hat das Bild, das von dem faltenden neuronalen Netz nach der Verarbeitung ausgegeben wird, falls das eingegebene Bild ursprünglich Bildmerkmale von 9×n Pixelpunkten hat, nur Bildmerkmale von n Punkten, das heißt, dass die Pixelgröße des eingegebenen Bilds 9 Mal verringert wird. Bei dem Straßenbildprozess durch das faltende neuronale Netz kann daher ein Bild nicht für jeden Pixelpunkt ausgegeben werden. In diesem Fall geht etwas Bildinformation während der Straßenbildverarbeitung verloren, was in ungenauer Spurinformation, die aus dem Straßenbild von dem faltenden neuronalen Netz identifiziert wird, resultiert. Ein rekurrentes neuronales Netz kann ein Bildmerkmalresultat für jeden Pixel punkt beim Verarbeiten eines Straßenbilds ausgeben. In diesem Fall bleibt die Pixelgröße des Bilds, das von dem rekurrenten neuronalen Netz nach dem Verarbeiten ausgegeben wird, im Vergleich zu dem des eingegebenen Bilds unverändert, wodurch Bildinformationsverlust vermieden wird, was Mängel des faltenden neuronalen Netzes ausgleicht.
Angesichts des oben Stehenden, wird eine Fahrspur in einem Straßenbild einer Straße um ein Fahrzeug durch ein Deep-Learning-Modell gemäß einer Ausführungsform der vorliegenden Offenbarung erfasst. Zusätzlich zu einem faltenden neuronalen Netz, wird auch ein rekurrentes neuronales Netz in dem Deep-Learning-Modell verwendet. Bei dem Straßenbildprozess durch das neuronale Netz wird folglich ein Wahrnehmungsresultat auf Bildmerkmalbasis für jeden Pixelpunkt in einem eingegebenen Bild ausgegeben, so dass das Bildmerkmal jedes Pixelpunkts in einem Straßenbild gewahrt werden kann, und ein räumliches Merkmal einer Fahrspur in dem Straßenbild extrahiert werden kann, und Fahrspuren daher präzis und effektiv sogar in dem Fall unvollständiger Fahrspuren, teilweise verdeckter Fahrspuren oder Fahrspuren unter einer drastischen Lichtänderungsumgebung erfasst werden können.
Ein Szenario gemäß einer Ausführungsform der vorliegenden Offenbarung kann ein System wie in 1 gezeigt sein. Das System kann zum Beispiel ein Fahrassistenzsystem sein. Spezifisch kann das System zum Beispiel ein automatisches Erfassungssystem für eine Spur sein. Das System weist eine Verarbeitungsvorrichtung 101, eine Anzeigevorrichtung 102 und eine Aufnahmevorrichtung 103 auf. Bei dem System kann die Aufnahmevorrichtung 103 aufnehmen, um ein aktuelles Straßenbild einer Spur zu erfassen und das aktuelle Straßenbild zu der Verarbeitungsvorrichtung 101 zu übertragen. Die Verarbeitungsvorrichtung 101 kann das aktuelle Straßenbild in ein Deep-Learning-Modell eingeben und einen Fahrspurbereich in dem aktuellen Straßenbild basierend auf einem Resultat, das von dem Deep-Learning-Modell ausgegeben wird, bestimmen. Die Verarbeitungsvorrichtung 101 kann dann den bestimmten Fahrspurbereich auf dem aktuellen Straßenbild identifizieren und das aktuelle Straßenbild mit dem identifizierten Fahrspurbereich zu der Anzeigevorrichtung 102 zum Anzeigen übertragen.
Zu bemerken ist, dass das Anwendungsszenario nur zur Erleichterung des Verstehens der vorliegenden Offenbarung, die nicht auf die Ausführungsform der vorliegenden Offenbarung beschränkt ist, gezeigt wird. Die Ausführungsform der vorliegenden Offenbarung kann an beliebige anwendbare Szenarien angewandt werden.
Es wird auf 2 Bezug genommen, die ein schematisches Ablaufdiagramm eines Verfahrens zum Erfassen einer Fahrspur gemäß einer Ausführungsform der vorliegenden Offenbarung ist. Das Verfahren zum Erfassen einer Fahrspur gemäß der Ausführungsform weist die folgenden Schritte S201 bis S202 auf.
Bei S201 wird ein aktuelles Straßenbild einer Straße um ein Fahrzeug erfasst.
Bei dieser Ausführungsform kann eine aktuelle Straße um ein Fahrzeug durch eine nach vorn zeigende Kamera auf dem Fahrzeug erfasst werden, und ein Bild, das von der Kamera aufgenommen wird, kann erfasst und als das aktuelle Straßenbild der Straße um das Fahrzeug verwendet werden.
Da die Deckung der nach vorn zeigenden Kamera des Fahrzeugs gewöhnlich breit ist, ist die Datenmenge des Straßenbilds, die zu verarbeiten ist, groß, falls das gesamte Straßenbild, das von der Kamera aufgenommen wird, verarbeitet wird, was die Verarbeitungsgeschwindigkeit beeinträchtigt. Zusätzlich ist das ohne große Bedeutung für das Verarbeiten von Straßenbildinhalten, die von der aktuellen Position des Fahrzeugs weit entfernt sind. Angesichts dessen kann das aktuelle Straßenbild der Straße um das Fahrzeug bei einer möglichen Umsetzung durch die folgenden Schritte A bis B erfasst werden.
Bei Schritt A wird ein aktuelles Umgebungsbild, das von einer Kamera eines Fahrzeugs aufgenommen wird, erfasst.
Bei Schritt B wird ein Bild eines voreingestellten Bereichs vor dem Fahrzeug von dem aktuellen Umgebungsbild abgefangen und als das aktuelle Straßenbild verwendet.
Als ein Beispiel kann der voreingestellte Bereich vor dem Fahrzeug ein rechteckiger Bereich direkt vor dem Fahrzeug sein, und eine Länge und eine Breite des rechteckigen Bereichs können gemäß tatsächlichen Situationen bestimmt werden. Die Länge des rechteckigen Bereichs wird zum Beispiel basierend auf einer aktuellen Fahrgeschwindigkeit des Fahrzeugs bestimmt, und die Breite des rechteckigen Bereichs wird basierend auf einer Breite der Fahrzeugkarosserie bestimmt. Zusätzlich kann der voreingestellte Bereich vor dem Fahrzeug ein Bereich in anderen Formen sein, der nicht auf die Ausführungsform beschränkt ist.
Bei S202 wird das aktuelle Straßenbild in ein Deep-Learning-Modell eingegeben, und ein Fahrspurbereich in dem aktuellen Straßenbild wird basierend auf einem Resultat, das von dem Deep-Learning-Modell ausgegeben wird, erfasst.
Zu bemerken ist, dass das Deep-Learning-Modell gemäß der Ausführungsform ein Modell ist, das basierend auf Übereinstimmungen zwischen historischen Straßenbildern und bekannten Fahrspurbereichen in den historischen Straßenbildern trainiert wurde. Das Deep-Learning-Modell wurde daher basierend auf einer großen Menge historischer Daten trainiert, und das Deep-Learning-Modell, in das das aktuelle Straßenbild eingegeben wird, kann ein Resultat ausgeben, und daher können Fahrspurinformationen des aktuellen Straßenbilds basierend auf dem Resultat bestimmt werden.
Zu bemerken ist, dass nach dem Eingeben des aktuellen Straßenbilds in das Deep-Learning-Modell, das Deep-Learning-Modell ein Bildmerkmal jedes Pixelpunkts basierend auf dem aktuellen Straßenbild extrahieren kann, daher ein Resultat für jeden Pixelpunkt ausgeben kann, und die Fahrspurinformationen des aktuellen Straßenbilds können basierend auf den ausgegebenen Resultaten für jeden Pixelpunkt bestimmt werden. Man muss verstehen, dass das Resultat, das von dem Deep-Learning-Modell für jeden Pixelpunkt ausgegeben wird, angeben kann, ob der Pixelpunkt ein Punkt in dem Fahrspurbereich ist. Ein ausgegebenes Resultat für einen Pixelpunkt i kann durch P(i) dargestellt werden. Zum Beispiel gibt P(i)=A an, dass der Pixelpunkt i ein Punkt in dem Fahrspurbereich ist, und P(i)=B gibt an, dass der Pixelpunkt i ein Punkt außerhalb des Fahrspurbereichs ist, wobei A ≠ B. Als ein anderes Beispiel gibt P(i) ∈ [C, D] an, dass der Pixelpunkt i ein Punkt in dem Fahrspurbereich ist, und P(i) ∉ [C, D] gibt an, dass der Pixelpunkt i ein Punkt außerhalb des Fahrspurbereichs ist, wobei C und D voreingestellte Werte sind.
Bei dieser Ausführungsform werden sowohl ein faltendes neuronales Netz als auch ein rekurrentes neuronales Netz in dem Deep-Learning-Modell angenommen, um zu verhindern, dass Bildinformationen in dem aktuellen Straßenbildprozess verloren gehen. Auf diese Art können Bildinformationen bei der Bildverarbeitung durch das rekurrente neuronale Netz gewahrt werden, obwohl die Bildinformationen bei der Bildverarbeitung durch das faltende neuronale Netz verloren gehen. Alle Bildinformationen in dem aktuellen Straßenbild können folglich von den neuronalen Netzen verarbeitet werden, und das Erfassungsresultat der Fahrspur in dem aktuellen Straßenbild ist präzise.
Es wird zum Beispiel auf die 3a und die 3b Bezug genommen, die schematische Diagramme von zwei beispielhaften Strukturen eines Deep-Learning-Modells gemäß den Ausführungsformen sind. Bei beiden Strukturen weist das Deep-Learning-Modell eine erste Modelleinheit 300 und eine zweite Modelleinheit 400 auf, und eine Ausgabe der ersten Modelleinheit 300 dient als eine Eingabe der zweiten Modelleinheit 400.
Zu bemerken ist, dass Daten, die in die erste Modelleinheit 300 einzugeben sind, ein aktuelles Straßenbild eines Fahrzeugs sein können, und dass ein Resultat, das von der ersten Modelleinheit 300 durch Verarbeiten des Straßenbilds ausgegeben wird, in die zweite Modelleinheit 400 eingegeben wird. Die zweite Modelleinheit 400 gibt nach dem Verarbeiten des Resultats, das von der ersten Modelleinheit 300 ausgegeben wird, ein Verarbeitungsresultat aus. Das Verarbeitungsresultat kann die Ausgabe des Deep-Learning-Modells zum Bestimmen eines Fahrspurbereichs in dem aktuellen Straßenbild sein.
Die erste Modelleinheit weist mindestens eine erste Modellsubeinheit 310 auf. Die erste Modellsubeinheit weist ein faltendes neuronales Netz 311 und ein erstes rekurrentes neuronales Netz 312 auf. Eine Ausgabe des faltenden neuronalen Netzes 311 dient als eine Eingabe des ersten rekurrenten neuronalen Netzes 312.
Die erste Modelleinheit weist mindestens eine zweite Modellsubeinheit 410 auf. Die zweite Modellsubeinheit weist ein entfaltendes neuronales Netz 411 und ein zweites rekurrentes neuronales Netz 412 auf. Eine Ausgabe des entfaltenden neuronalen Netzes 411 dient als eine Eingabe des zweiten rekurrenten neuronalen Netzes 412.
Bei dieser Ausführungsform wird ein aktuelles Straßenbild des Fahrzeugs von der ersten Modelleinheit 300 mit einer Kombination aus einem faltenden neuronalen Netz und einem ersten rekurrenten neuronalen Netz verarbeitet, und die Ausgabe der ersten Modelleinheit 300 wird weiter durch die zweite Modelleinheit 400 mit einer Kombination aus einem entfaltenden neuronalen Netz und einem zweiten rekurrenten neuronalen Netz verarbeitet.
Man muss verstehen, dass die erste Modelleinheit 300 mindestens eine Gruppe aus faltenden neuronalen Netzen 311 und ein erstes rekurrentes neuronales Netz 312 aufweist, das heißt mindestens eine erste Modellsubeinheit 310 aufweist. Die erste Modelleinheit 300 kann daher nur eine erste Modellsubeinheit 310, wie in 3a gezeigt, aufweisen. Alternativ kann die erste Modelleinheit 300 mehrere erste Modellsubeinheiten 310, wie in 3b gezeigt, aufweisen.
Bei dieser Ausführungsform muss nach dem Eingeben des aktuellen Straßenbilds in das Deep-Learning-Modell ein Resultat zum Anzeigen, ob jeder Pixelpunkt in dem aktuellen Straßenbild in einen Fahrspurbereich liegt, von dem Deep-Learning-Modell ausgegeben werden. Nachdem das Bild durch das Deep-Learning-Modell verarbeitet wurde, muss folglich die Pixelgröße des verarbeiteten Bilds unverändert sein. Sowohl ein faltendes neuronales Netz 311 als auch ein entfaltendes neuronales Netz 411 werden daher in dem Deep-Learning-Modell angenommen. Das Bild wird zunächst durch das faltende neuronale Netz 311 verarbeitet, und die Pixelgröße des verarbeiteten Bilds wird verringert. Das Bild wird dann durch das entfaltende neuronale Netz 411 verarbeitet, und die Pixelgröße des verarbeiteten Bilds wird vergrößert. Auf diese Art haben das Bild nach der Bildverarbeitung durch das Deep-Learning-Modell und das Bild, das ursprünglich in das Deep-Learning-Modell eingegeben wurde, dieselbe Pixelgröße, und das Resultat zum Angeben, ob ein Pixelpunkt in dem aktuellen Straßenbild in dem Fahrspurbereich liegt, kann für jeden Pixelpunkt in dem aktuellen Straßenbild erfasst werden.
Zu bemerken ist, dass jedes des ersten rekurrenten neuronalen Netzes 312 in der ersten Modelleinheit 300 und des zweiten rekurrenten neuronalen Netzes 412 in der zweiten Modelleinheit 400 ein beliebiges rekurrentes neuronales Netz sein kann. Ein Unterschied zwischen dem ersten rekurrenten neuronalen Netz 312 und dem zweiten rekurrenten neuronalen Netz 412 ist, dass die Eingabe des ersten rekurrenten neuronalen Netzes 312 die Ausgabe des faltenden neuronalen Netzes 311 ist, und die Eingabe des zweiten rekurrenten neuronalen Netzes 412 die Ausgabe des entfaltenden neuronalen Netzes 411 ist. Als ein Beispiel kann jedes des ersten rekurrenten neuronalen Netzes 312 und des zweiten rekurrenten neuronalen Netzes 412 ein bidirektionales langes Kurzzeitspeichernetz (Long Short-Term Memory LSTM) sein. Mit dem bidirektionalen LSTM-Netz, kann ein räumliches Merkmal jedes Pixelpunkts in dem Straßenbild gut gewahrt werden, so dass der erfasste Fahrspurbereich präzis ist.
Man muss verstehen, dass eine Struktur und eine Verarbeitungsart der ersten Modelleinheit 300 denen der zweiten Modelleinheit 400 ähnlich sind. Ein Unterschied besteht darin, dass das faltende neuronale Netz 311 in der ersten Modelleinheit 300 mit dem entfaltenden neuronalen Netz 411 in der zweiten Modelleinheit 400 ersetzt wird. Die Struktur und die Verarbeitungsart der ersten Modelleinheit 300 sind unten als ein Beispiel beschrieben.
Bei der ersten Modelleinheit 300 wird ein eingegebenes Bild der ersten Modelleinheit 300 in das faltende neuronale Netz 300 eingegeben, um von dem faltenden neuronalen Netz 311 verarbeitet zu werden, um ein erstes Ausgaberesultat zu erhalten, und das erste Ausgaberesultat des faltenden neuronalen Netzes 311 wird weiter von dem ersten rekurrenten neuronalen Netz 312 verarbeitet, um ein zweites Ausgaberesultat zu erhalten.
Zu bemerken ist, dass eine eingegebene Variable eines rekurrenten neuronalen Netzes gewöhnlich eine Abfolge ist, die mindestens ein Element aufweist. In Anbetracht dessen kann ein Merkmalumformungsprozess zwischen dem faltenden neuronalen Netz 311 und dem ersten rekurrenten neuronalen Netz 312 in der ersten Modelleinheit 300, wie in 4 gezeigt, angenommen werden. Bei dem Merkmalumformungsprozess kann eine Abfolge durch Ausgaberesultate des faltenden neuronalen Netzes 311 für jeden Pixelpunkt gemäß einer Regel gebildet werden, und die Abfolge wird dann in das erste rekurrente neuronale Netz 312 eingegeben. Die Abfolge kann Ausgaberesultate des faltenden neuronalen Netzes 311 für mehrere Pixelpunkte aufweisen.
Als ein Beispiel kann der Merkmalumformungsprozess wie folgt sein. In der ersten Modellsubeinheit 310 wird eine erste Abfolge, die in das erste rekurrente neuronale Netz 312 einzugeben ist, für den Pixelpunkt durch ein Ausgaberesultat des faltenden neuronalen Netzes 311 für jeden Pixelpunkt, und Ausgaberesultate des faltenden neuronalen Netzes 311 für Pixelpunkte in einer Nachbarschaft des Pixelpunkts gebildet. In einem Fall, in dem es zum Beispiel acht Pixelpunkte in einer Nachbarschaft jedes Pixelpunkts gibt, wird eine erste Abfolge für jeden Pixel punkt durch ein Ausgaberesultat des faltenden neuronalen Netzes 311 für den Pixelpunkt, und Ausgaberesultate des faltenden neuronalen Netzes 311 für die acht Pixelpunkte in der Nachbarschaft des Pixelpunkts gebildet. Als ein Beispiel kann in einem Fall, in dem Ausgaberesultate des faltenden neuronalen Netzes 311 für alle Pixelpunkte a, b, c, d, e, f, g, h, i erfasst werden, wobei die Pixelpunkte b, c, d, e, f, g, h, i alle Pixelpunkte in einer Nachbarschaft des Pixelpunkts a sind, die erste Abfolge X = [A, B, C, D, E, F, G, H, I] durch die Ausgaberesultate des faltenden neuronalen Netzes 311 für die Pixelpunkte a, b, c, d, e, f, g, h, i gebildet werden. Die erste Abfolge kann als eine Eingabe des ersten rekurrenten neuronalen Netzes 312 dienen. In der ersten Abfolge stellt A das Ausgaberesultat des faltenden neuronalen Netzes 311 für den Pixelpunkt a dar, B stellt das Ausgaberesultat des faltenden neuronalen Netzes 311 für den Pixelpunkt b dar, C stellt das Ausgaberesultat des faltenden neuronalen Netzes für den Pixelpunkt c dar, D stellt das Ausgaberesultat des faltenden neuronalen Netzes 311 für den Pixelpunkt d dar, E stellt das Ausgaberesultat des faltenden neuronalen Netzes 311 für den Pixelpunkt e dar, F stellt das Ausgaberesultat des faltenden neuronalen Netzes 311 für den Pixelpunkt f dar, G stellt das Ausgaberesultat des faltenden neuronalen Netzes 311 für den Pixelpunkt g dar, H stellt das Ausgaberesultat des faltenden neuronalen Netzes 311 für den Pixelpunkt h dar, und I stellt das Ausgaberesultat des faltenden neuronalen Netzes 311 für den Pixelpunkt i dar.
Zu bemerken ist, dass Ausgaberesultate für Pixelpunkte in jeder ersten Abfolge gemäß einer fixen Regel eingestuft werden können, um effektiv das räumliche Merkmal jedes Pixelpunkts zu wahren. Die fixe Regel gibt an, dass eine fixe Entsprechung zwischen einem Rang von Ausgaberesultaten für Pixelpunkte und Positionen der Pixelpunkte. Positionen der Pixelpunkte in dem Bild, die den Ausgaberesultaten entsprechen, können folglich basierend auf dem Rang der Ausgaberesultate in der ersten Abfolge bestimmt werden, um das räumliche Merkmal jedes Pixelpunkts wieder herzustellen, und daher kann das räumliche Merkmal des aktuellen Straßenbilds gewahrt werden.
Es gibt zum Beispiel zwei unterschiedliche erste Abfolgen M und N. Die erste Abfolge M weist Ausgaberesultate für Pixelpunkte in einem Bildbereich 1 auf, das heißt ein Ausgaberesultat A1 für einen Pixelpunkt a1, ein Ausgaberesultat B1 für einen Pixelpunkt b1, ein Ausgaberesultat C1 für einen Pixelpunkt c1 und ein Ausgaberesultat D1 für einen Pixelpunkt d1. Die erste Abfolge N weist Ausgaberesultate für Pixelpunkte in einem Bildbereich 2 auf, das heißt ein Ausgaberesultat A2 für einen Pixelpunkt a2, ein Ausgaberesultat B2 für einen Pixelpunkt b2, ein Ausgaberesultat C2 für einen Pixelpunkt c2 und ein Ausgaberesultat D2 für einen Pixelpunkt d2. In dem Bildbereich 1 befindet sich der Pixelpunkt a1 in der oberen linken Ecke, der Pixelpunkt b1 befindet sich in der oberen rechten Ecke, der Pixelpunkt c1 befindet sich in der unteren linken Ecke, und der Pixelpunkt d1 befindet sich in der unteren rechten Ecke. In dem Bildbereich 2 befindet sich der Pixelpunkt a2 in der oberen linken Ecke, der Pixelpunkt b2 befindet sich in der oberen rechten Ecke, der Pixelpunkt c2 befindet sich in der unteren linken Ecke, und der Pixelpunkt d2 befindet sich in der unteren rechten Ecke. Die Ausgaberesultate für die Pixelpunkte in der ersten Abfolge M können als A1→B1→C1→D1 eingestuft werden, das heißt, die erste Abfolge M ist [A1, B1, C1, D1]. Die Ausgaberesultate für die Pixelpunkte in der ersten Abfolge N können als A2→B2→C2→D2 eingestuft werden, das heißt, die erste Abfolge N ist [A2, B2, C2, D2]. In diesem Fall ist die Positionsentsprechung unter Pixelpunkten, die dem Rang der Ausgaberesultate für die Pixelpunkte in der ersten Abfolge M entsprechen, dieselbe wie die der ersten Abfolge N, und die Positionsentsprechung ist fix, das heißt, die obere linke Ecke des Bildbereichs → die obere rechte Ecke des Bildbereichs → die untere linke Ecke des Bildbereichs → die obere rechte Ecke des Bildbereichs.
Als ein Beispiel kann für eine erste Abfolge für einen Pixelpunkt A, der durch Ausgaberesultate für neun Pixelpunkte gebildet ist, der Rang der Ausgaberesultate in der ersten Abfolge für den Pixelpunkt A wie folgt festgelegt sein: ein Ausgaberesultat des faltenden neuronalen Netzwerks für einen Pixelpunkt, der in der oberen linken Ecke in einer Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des faltenden neuronalen Netzes für einen Pixelpunkt, der in der Mitte der linken Seite in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des faltenden neuronalen Netzes für einen Pixelpunkt, der in der unteren linken Ecke in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des faltenden neuronalen Netzes für einen Pixelpunkt, der in der Mitte der unteren Seite in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des faltenden neuronalen Netzes für einen Pixelpunkt, der in der unteren rechten Ecke in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des faltenden neuronalen Netzes für einen Pixelpunkt, der in der Mitte der rechten Seite in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des faltenden neuronalen Netzes für einen Pixelpunkt, der in der oberen rechten Ecke in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des faltenden neuronalen Netzes für einen Pixelpunkt, der in der Mitte der oberen Seite in der Nachbarschaft des Pixelpunkts A liegt, und ein Ausgaberesultat des faltenden neuronalen Netzes für den Pixelpunkt A.
Ein Beispiel des Bildens einer ersten Abfolge für einen Pixelpunkt A und Pixelpunkte A1 bis A8 in der Nachbarschaft des Pixelpunkts A ist zum Beispiel in 5 gezeigt. In der ersten Abfolge ist der Rang der Ausgaberesultate der Pixelpunkte A1→A2→A3→A4→A5→A6→A7→A8→A, das heißt, die erste Abfolge kann [A1, A2, A3, A4, A5, A6, A7, A8, A] sein.
Man muss verstehen, dass ein Merkmalumformungsprozess auch zwischen dem entfaltenden neuronalen Netz 411 und dem zweiten rekurrenten neuronalen Netz 412 in der zweiten Modelleinheit 400, die der ersten Modell 300 ähnlich ist, angenommen werden kann. Der Merkmalumformungsprozess kann zum Beispiel wie folgt sein. Für jeden Pixelpunkt wird eine zweite Abfolge, die in das zweite rekurrente neuronale Netz 412 einzugeben ist, durch ein Ausgaberesultat des entfaltenden neuronalen Netzes 411 für den Pixelpunkt und Ausgaberesultate des entfaltenden neuronalen Netzes 411 für Pixelpunkte in einer Nachbarschaft des Pixelpunkts gebildet.
Zu bemerken ist, dass Ausgaberesultate für Pixelpunkte in der zweiten Abfolge gemäß einer fixen Regel eingestuft werden können, die der ersten Abfolge ähnlich ist, um effektiv das räumliche Merkmal jedes Pixelpunkts zu wahren. Als ein Beispiel kann für eine zweite Abfolge für einen Pixelpunkt A, der durch Ausgaberesultate für neun Pixelpunkte gebildet ist, der Rang der Ausgaberesultate in der zweiten Abfolge für den Pixelpunkt A wie folgt festgelegt sein: ein Ausgaberesultat des entfaltenden neuronalen Netzes für einen Pixelpunkt, der in der oberen linken Ecke in einer Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des entfaltenden neuronalen Netzes für einen Pixelpunkt, der in der Mitte der linken Seite in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des entfaltenden neuronalen Netzes für einen Pixelpunkt, der in der unteren linken Ecke in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des entfaltenden neuronalen Netzes für einen Pixelpunkt, der in der Mitte der unteren Seite in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des entfaltenden neuronalen Netzes für einen Pixelpunkt, der in der unteren rechten Ecke in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des entfaltenden neuronalen Netzes für einen Pixelpunkt, der in der Mitte der rechten Seite in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des entfaltenden neuronalen Netzes für einen Pixelpunkt, der in der oberen rechten Ecke in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des entfaltenden neuronalen Netzes für einen Pixelpunkt, der in der Mitte der oberen Seite in der Nachbarschaft des Pixelpunkts A liegt, und ein Ausgaberesultat des entfaltenden neuronalen Netzes für den Pixelpunkt A.
Um das Resultat, das von dem Deep-Learning-Modell gemäß der Ausführungsform ausgegeben wird, präziser zu machen, kann ein Fahrspurbereich in dem aktuellen Straßenbild basierend auf einem Verarbeitungsresultat des Deep-Learning-Modells bestimmt werden, das durch Verarbeiten des aktuellen Straßenbilds in Kombination mit Verarbeitungsresultaten des Deep-Learning-Modells, die durch Verarbeiten von Straßenbildern erhalten werden, die während einer Zeitspanne vor einem Moment, in dem das aktuelle Straßenbild gesammelt wird, gesammelt werden, so dass der Fahrspurbereich basierend auf mehreren Straßenbildern, die in mehreren Augenblicken während einer Zeitspanne gesammelt werden, erfasst werden kann, wodurch mögliche Fehler aufgrund des Erfassens des Fahrspurbereichs basierend auf einem einzigen Straßenbild vermieden werden, und daher der Fahrspurbereichs präzis erfasst wird.
Um einen Fahrspurbereich in Kombination mit Straßenbildern, die in mehreren Augenblicken erhalten werden, zu erfassen, kann das Deep-Learning-Modell ferner eine dritte Modelleinheit 500 aufweisen, die ein drittes rekurrentes neuronales Netz, wie in 6 gezeigt, aufweist. Für das aktuelle Straßenbild und mehrere Straßenbilder, die kürzlich in unterschiedlichen Augenblicken erfasst wurden, wird eine dritte Abfolge, die in das dritte rekurrente neuronale Netz einzugeben ist, durch Resultate gebildet, die von der zweiten Modelleinheit 400 durch Verarbeiten des aktuellen Straßenbilds und der mehreren Straßenbilder, die kürzlich in unterschiedlichen Augenblicken erfasst wurden, ausgegeben werden. Das dritte rekurrente neuronale Netz kann ein bidirektionales LSTM-Netz sein, das dem ersten rekurrenten neuronalen Netz 302 und dem zweiten rekurrenten neuronalen Netz 412 ähnlich ist.
Man muss verstehen, dass eine eingegebene Variable des dritten rekurrenten neuronalen Netzes auch eine Abfolge sein kann, die mindestens ein Element aufweist, das dem ersten rekurrenten neuronalen Netz 312 und dem zweiten rekurrenten neuronalen Netz 412 ähnlich ist. In Anbetracht dessen kann ein Merkmalumformungsprozess in der dritten Modelleinheit 500 in dem Deep-Learning-Modell, wie in 7 gezeigt, angenommen werden. Bei dem Merkmalumformungsprozess kann eine Abfolge durch Ausgaberesultate zweiten Modelleinheit 400 für einen selben Pixelpunkt in mehreren Straßenbildern, die in unterschiedlichen Augenblicken gesammelt werden, gebildet werden, und die Abfolge wird dann in das dritte rekurrente neuronale Netz eingegeben (zum Beispiel das bidirektionale LSTM-Netz). Ein Fahrspurbereich in dem aktuellen Straßenbild wird basierend auf dem Ausgaberesultat des dritten rekurrenten neuronalen Netzes bestimmt.
Bei einer Umsetzung wird das Deep-Learning-Modell durch den folgenden Ausdruck ausgedrückt: $P_{t} (i) = F_{L S T M} (\sum_{k = 1}^{n} M_{i}^{t = k})$
$M_{i}^{t} = \sum F_{B i L S T M} (F_{C N N} (I))$
wobei P ein Ausgaberesultat des Deep-Learning-Modells für ein Straßenbild darstellt, das in einem Augenblick t erfasst wird, i einen Pixelpunkt darstellt, t und k jeweils einen Augenblick darstellen. P_t(i) stellt Resultate dar, die von dem dritten rekurrenten neuronalen Netz durch Verarbeiten $M_{i}^{t = k}$
jeweils den augenblicklichen t=1 bis n entsprechend ausgegeben werden. Man sieht, dass P_t(i) ein Resultat ist, das von dem Deep-Learning-Modell durch Verarbeiten des Pixelpunkts i in einem Straßenbild, das in einem Zeitpunkt n erfasst wird, ausgegeben wird, und das Resultat gibt an, ob der Pixelpunkt i in dem Straßenbild in dem Fahrspurbereich liegt. Zusätzlich stellt $M_{i}^{t}$
ein Ausgaberesultat der zweiten Modelleinheit für einen Pixelpunkt i in einem Straßenbild dar, das in einem Augenblick (t = 1, 2, 3, ... n) erfasst wird, das heißt, dass $M_{i}^{t}$
ein Bildmerkmal eines Pixelpunkts i in einem Straßenbild ist, das in einem Augenblick t erfasst wurde, das von der ersten Modelleinheit und der zweiten Modelleinheit extrahiert wird, und I stellt das eingegebene aktuelle Straßenbild dar.
F ist eine Variationsfunktion. F_BiLSTM stellt zum Beispiel ein bidirektionales LSTM dar, und F_CNN stellt ein faltendes neuronales Netz dar.
Bei dem Verfahren zum Erfassen einer Fahrspur gemäß der Ausführungsform der vorliegenden Offenbarung, wird eine Fahrspur in einem Straßenbild einer Straße um das Fahrzeug durch ein Deep-Learning-Modell erfasst. Zusätzlich zu einem faltenden neuronalen Netz, wird auch ein rekurrentes neuronales Netz in dem Deep-Learning-Modell verwendet. Bei dem Straßenbildprozess durch das neuronale Netz wird folglich ein Bildmerkmalresultat für jeden Pixel punkt in einem eingegebenen Bild ausgegeben, so dass das Bildmerkmal jedes Pixelpunkts in einem Straßenbild gewahrt werden kann, und ein räumliches Merkmal einer Fahrspur in dem Straßenbild extrahiert werden kann, und Fahrspuren daher präzis und effektiv sogar in dem Fall unvollständiger Fahrspuren, teilweise verdeckter Fahrspuren oder Fahrspuren unter einer drastischen Lichtänderungsumgebung erfasst werden können.
Es wird auf 8 Bezug genommen, die ein schematisches Diagramm einer Struktur eines Geräts zum Erfassen einer Fahrspur gemäß einer Ausführungsform der vorliegenden Offenbarung ist. Das Gerät kann zum Beispiel ein Bilderfassungsmodul 810 und ein Bildverarbeitungsmodul 820 aufweisen.
Das Bilderfassungsmodul 810 ist konfiguriert, um ein aktuelles Straßenbild einer Straße um ein Fahrzeug zu erfassen.
Das Modellverarbeitungsmodul 820 ist konfiguriert, um das aktuelle Straßenbild in ein Deep-Learning-Modell einzugeben und einen Fahrspurbereich in dem aktuellen Straßenbild basierend auf einem Resultat, das von dem Deep-Learning-Modell ausgegeben wird, zu erfassen.
Das Deep-Learning-Modell ist ein Modell, das basierend auf Übereinstimmungen zwischen historischen Straßenbildern und bekannten Fahrspurregionen in den historischen Straßenbildern trainiert wurde.
Das Deep-Learning-Modell weist eine erste Modelleinheit und eine zweite Modelleinheit auf, und eine Ausgabe der ersten Modelleinheit dient als eine Eingabe der zweiten Modelleinheit.
Die erste Modelleinheit weist eine erste Modellsubeinheit auf, wobei die erste Modellsubeinheit ein faltendes neuronales Netz und ein erstes rekurrentes neuronales Netz aufweist, und eine Ausgabe des faltenden neuronalen Netzes dient als eine Eingabe des ersten rekurrenten neuronalen Netzes.
Die zweite Modelleinheit weist mindestens eine zweite Modellsubeinheit auf, wobei die zweite Modellsubeinheit ein entfaltendes neuronales Netz und ein zweites rekurrentes neuronales Netz aufweist, und eine Ausgabe des entfaltenden neuronalen Netzes als eine Eingabe des zweiten rekurrenten neuronalen Netzes dient.
Bei einigen Ausführungsformen sind jedes der rekurrenten neuronalen Netze und des zweiten rekurrenten neuronalen Netzes ein bidirektionales langes Kurzzeitspeichernetz.
Bei einigen Ausführungsformen wird in der ersten Modellsubeinheit für jeden Pixelpunkt in dem aktuellen Straßenbild eine erste Abfolge, die in das erste rekurrente neuronalen Netz einzugeben ist, von einem Ausgaberesultat des faltenden neuronalen Netzes für den Pixelpunkt und Ausgaberesultate des faltenden neuronalen Netzes für Pixelpunkte in einer Nachbarschaft des Pixelpunkts gebildet.
Bei der zweiten Modellsubeinheit wird für jeden Pixelpunkt in dem aktuellen Straßenbild eine zweite Abfolge, die in das zweite rekurrente neuronale Netz einzugeben ist, von einem Ausgaberesultat des entfaltenden neuronalen Netzes für den Pixelpunkt und Ausgaberesultate des entfaltenden neuronalen Netzes für Pixelpunkte in einer Nachbarschaft des Pixelpunkts gebildet.
Bei einigen Ausführungsformen kann der Rang der Ausgaberesultate in der ersten Abfolge für einen Pixelpunkt A Folgendes sein: Ein Ausgaberesultat des faltenden neuronalen Netzes für einen Pixelpunkt, der in der oberen linken Ecke in einer Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des faltenden neuronalen Netzes für einen Pixelpunkt, der in der Mitte der linken Seite in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des faltenden neuronalen Netzes für einen Pixelpunkt, der in der unteren linken Ecke in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des faltenden neuronalen Netzes für einen Pixelpunkt, der in der Mitte der unteren Seite in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des faltenden neuronalen Netzes für einen Pixelpunkt, der in der unteren rechten Ecke in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des faltenden neuronalen Netzes für einen Pixelpunkt, der in der Mitte der rechten Seite in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des faltenden neuronalen Netzes für einen Pixelpunkt, der in der oberen rechten Ecke in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des faltenden neuronalen Netzes für einen Pixelpunkt, der in der Mitte der oberen Seite in der Nachbarschaft des Pixelpunkts A liegt, und ein Ausgaberesultat des faltenden neuronalen Netzes für den Pixelpunkt ab.
Der Rang der Ausgaberesultate in der zweiten Abfolge für einen Pixelpunkt A kann Folgendes sein: ein Ausgaberesultat des entfaltenden neuronalen Netzes für einen Pixelpunkt, der in der oberen linken Ecke in einer Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des entfaltenden neuronalen Netzes für den Pixelpunkt, der in der Mitte der linken Seite in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des entfaltenden neuronalen Netzes für einen Pixelpunkt, der in der unteren linken Ecke in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des entfaltenden neuronalen Netzes für einen Pixelpunkt, der in der Mitte der unteren Seite in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des entfaltenden neuronalen Netzes für einen Pixelpunkt, der in der unteren rechten Ecke in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des entfaltenden neuronalen Netzes für einen Pixelpunkt, der in der Mitte der rechten Seite in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des entfaltenden neuronalen Netzes für einen Pixelpunkt, der in der oberen rechten Ecke in der Nachbarschaft des Pixelpunkts A liegt, ein Ausgaberesultat des entfaltenden neuronalen Netzes für einen Pixelpunkt, der in der Mitte der oberen Seite in der Nachbarschaft des Pixelpunkts A liegt, und ein Ausgaberesultat des entfaltenden neuronalen Netzes für den Pixelpunkt A.
Bei einigen Ausführungsformen kann das Deep-Learning-Modell ferner ein drittes rekurrentes neuronales Netz aufweisen.
Eine dritte Abfolge, die in das dritte rekurrente neuronale Netz einzugeben ist, wird von Resultaten, die von der zweiten Modelleinheit ausgegeben werden, gebildet, indem eine Vielzahl von Straßenbildern verarbeitet wird, wobei die Vielzahl von Straßenbildern ein aktuelles Straßenbild und kürzlich in unterschiedlichen Augenblicken erfasste Straßenbilder umfasst.
Bei einigen Ausführungsformen kann das Bilderfassungsmodul 810 ein Erfassungssubmodul und ein Abfangsubmodul aufweisen.
Das Erfassungssubmodul ist konfiguriert, um ein aktuelles Umgebungsbild, das von einer Kamera auf einem Fahrzeug aufgenommen wird, zu erfassen.
Das Abfangsubmodul ist konfiguriert, um ein Bild eines voreingestellten Bereichs vor dem Fahrzeug aus dem aktuellen Umgebungsbild als das aktuelle Straßenbild abzufangen.
Mit dem Gerät zum Erfassen einer Fahrspur gemäß der Ausführungsform der Ausführungsform, wird eine Fahrspur in einem Straßenbild einer Straße um ein Fahrzeug durch ein Deep-Learning-Modell erfasst. Zusätzlich zu einem faltenden neuronalen Netz, wird auch ein rekurrentes neuronales Netz in dem Deep-Learning-Modell verwendet. Bei dem Straßenbildprozess durch das neuronale Netz wird folglich ein Bildmerkmalresultat für jeden Pixelpunkt in einem eingegebenen Bild ausgegeben, so dass das Bildmerkmal jedes Pixelpunkts in einem Straßenbild gewahrt werden kann, und ein räumliches Merkmal einer Fahrspur in dem Straßenbild extrahiert werden kann, und Fahrspuren daher präzis und effektiv sogar in dem Fall unvollständiger Fahrspuren, teilweise verdeckter Fahrspuren oder Fahrspuren unter einer drastischen Lichtänderungsumgebung erfasst werden können.
Es wird auf 9 Bezug genommen, die ein schematisches Diagramm einer Struktur einer Vorrichtung zum Erfassen einer Fahrspur gemäß einer Ausführungsform der vorliegenden Offenbarung ist. Die Vorrichtung weist einen Prozessor 910 und einen Speicher 920 auf.
Der Speicher 920 ist konfiguriert, um einen Programmcode zu speichern und den Programmcode zu dem Prozessor 910 über einen Kommunikationsbus 930 zu übertragen
Der Prozessor 910 ist konfiguriert, um als Reaktion auf eine Anweisung in dem Programmcode das Verfahren zum Erfassen einer Fahrspur gemäß einer beliebigen der oben stehenden Ausführungsformen der vorliegenden Offenbarung auszuführen.
Zusätzlich wird weiter ein Speichermedium gemäß einer Ausführungsform der vorliegenden Offenbarung bereitgestellt. Das Speichermedium ist konfiguriert, um einen Programmcode zum Ausführen des Verfahrens zum Erfassen einer Fahrspur gemäß einer beliebigen der oben stehenden Ausführungsformen der vorliegenden Offenbarung zu speichern.
Zu bemerken ist, dass Beziehungsterminologien, wie „erste(r)(s)“, „zweite(r)(s)“ hier nur zum Unterscheiden einer Entität oder eines Vorgangs von einem anderen verwendet werden, und erfordern oder bedingen nicht, dass eine tatsächliche Beziehung oder Reihenfolge zwischen den Entitäten oder Vorgängen besteht. Ferner bezwecken Begriffe wie „aufweisen“, „umfassen“ oder beliebige andere Varianten nicht, exklusiv zu sein. Ein Prozess, ein Verfahren, ein Artikel oder eine Vorrichtung, die mehrere Elemente aufweist, weist folglich nicht nur die Elemente auf, sondern auch andere Elemente, die nicht aufgezählt sind, oder kann die Elemente auch inhärent für den Prozess, das Verfahren, den Artikel oder die Vorrichtung aufweisen. Außer wenn sie ausdrücklich anderswie begrenzt ist, schließt die Aussage „umfassend (aufweisend) ein...“ den Fall nicht aus, dass andere ähnliche Elemente in dem Prozess, dem Verfahren, dem Artikel oder der Vorrichtung existieren können.
Da die Vorrichtungsausführungsformen im Wesentlichen den Verfahrensausführungsformen entsprechen, kann für die Vorrichtungsausführungsformen eine auf die verwandte Beschreibung der Verfahrensausführungsformen verweisen. Die Systemausführungsformen, die oben beschrieben sind, sind nur schematisch, die Module, die als separate Bauteile veranschaulicht sind, können physisch getrennt sein oder nicht, und Bauteile, die als Module angezeigt sind, können physische Module sein oder nicht, das heißt, dass die Bauteile an einer selben Stelle liegen oder auf mehrere Netzeinheiten verteilt sein können. Die Aufgabe der Lösungen der Ausführungsform kann durch Auswählen eines Teils oder alle der Module nach Bedarf erzielt werden. Fachleute können die vorliegende Offenbarung ohne irgendwelche kreative Bemühungen verstehen und umsetzen.
Oben Stehendes zeigt nur spezifische Ausführungsformen der vorliegenden Offenbarung. Zu bemerken ist, dass Fachleute mehrere Verbesserungen und Änderungen vornehmen können, ohne vom Schutzbereich der vorliegenden Offenbarung abzuweichen, und die Verbesserungen und Änderungen sollten als in den Schutzbereich der vorliegenden Offenbarung fallend betrachtet werden.

Claims

Verfahren zum Erfassen einer Fahrspur, das Folgendes umfasst: Erfassen (S201) eines aktuellen Straßenbilds einer Straße um ein Fahrzeug, und Eingeben (S202) des aktuellen Straßenbilds in ein Deep-Learning-Modell, und Erfassen eines Fahrspurbereichs in dem aktuellen Straßenbild basierend auf einem Resultat, das von dem Deep-Learning-Modell ausgegeben wird, wobei das Deep-Learning-Modell ein Modell ist, das basierend auf Übereinstimmungen zwischen historischen Straßenbildern und bekannten Fahrspurregionen in den historischen Straßenbildern trainiert wurde, wobei das Deep-Learning-Modell eine erste Modelleinheit (300) und eine zweite Modelleinheit (400) umfasst, und eine Ausgabe der ersten Modelleinheit (300) als eine Eingabe der zweiten Modelleinheit (400) dient, wobei die erste Modelleinheit (300) mindestens eine erste Modellsubeinheit (310) umfasst, wobei die erste Modellsubeinheit (310) ein faltendes neuronales Netz (311) und ein erstes rekurrentes neuronales Netz (312), und eine Ausgabe des faltenden neuronalen Netzes (311) als eine Eingabe des ersten rekurrenten neuronalen Netzes (312) dient, und wobei die zweite Modelleinheit (400) mindestens eine zweite Modellsubeinheit (410) umfasst, wobei die zweite Modellsubeinheit (410) ein entfaltendes neuronales Netz (411) und ein erstes rekurrentes neuronales Netz (412) umfasst, und eine Ausgabe des entfaltenden neuronalen Netzes (411) als eine Eingabe des zweiten rekurrenten neuronalen Netzes (412) dient.
Verfahren nach Anspruch 1, wobei jedes des ersten rekurrenten neuronalen Netzes (312) und des zweiten rekurrenten neuronalen Netzes (412) ein bidirektionales langes Kurzzeitspeichernetz ist.
Verfahren nach Anspruch 1, wobei für jeden Pixelpunkt in dem aktuellen Straßenbild eine erste Abfolge, die in das erste rekurrente neuronalen Netz (312) einzugeben ist, von einem Ausgaberesultat des faltenden neuronalen Netzes (311) für den Pixelpunkt und Ausgaberesultaten des faltenden neuronalen Netzes (311) für Pixel punkte in einer Nachbarschaft des Pixel punkts gebildet wird, und für jeden Pixelpunkt in dem aktuellen Straßenbild eine zweite Abfolge, die in das zweite rekurrente neuronale Netz (412) einzugeben ist, von einem Ausgaberesultat des entfaltenden neuronalen Netzes (411) für den Pixelpunkt und Ausgaberesultate des entfaltenden neuronalen Netzes (411) für Pixelpunkte in einer Nachbarschaft des Pixelpunkts gebildet wird.
Verfahren nach Anspruch 1, wobei das Deep-Learning-Modell ferner ein drittes rekurrentes neuronales Netz (500) umfasst, wobei eine dritte Abfolge, die in das dritte rekurrente neuronale Netz (500) einzugeben ist, von Resultaten, die von der zweiten Modelleinheit (400) ausgegeben werden, gebildet wird, indem eine Vielzahl von Straßenbildern verarbeitet wird, wobei die Vielzahl von Straßenbildern das aktuelle Straßenbild und kürzlich in unterschiedlichen Augenblicken erfasste Straßenbilder umfasst.
Gerät zum Erfassen einer Fahrspur, das Folgendes umfasst: ein Bilderfassungsmodul (810), das konfiguriert ist, um ein aktuelles Straßenbild einer Straße um ein Fahrzeug zu erfassen, und ein Modellverarbeitungsmodul (820), das konfiguriert ist, um das aktuelle Straßenbild in ein Deep-Learning-Modell einzugeben und einen Fahrspurbereich in dem aktuellen Straßenbild basierend auf einem Resultat, das von dem Deep-Learning-Modell ausgegeben wird, zu erfassen, wobei das Deep-Learning-Modell ein Modell ist, das basierend auf Übereinstimmungen zwischen historischen Straßenbildern und bekannten Fahrspurregionen in den historischen Straßenbildern trainiert wurde, wobei das Deep-Learning-Modell eine erste Modelleinheit (300) und eine zweite Modelleinheit (400) umfasst, und eine Ausgabe der ersten Modelleinheit (300) als eine Eingabe der zweiten Modelleinheit (400) dient, wobei die erste Modelleinheit (300) mindestens eine erste Modellsubeinheit (310) umfasst, wobei die erste Modellsubeinheit (310) ein faltendes neuronales Netz (311) und ein erstes rekurrentes neuronales Netz (312), und eine Ausgabe des faltenden neuronalen Netzes (311) als eine Eingabe des ersten rekurrenten neuronalen Netzes (312) dient, und wobei die zweite Modelleinheit (400) mindestens eine zweite Modellsubeinheit (410) umfasst, wobei die zweite Modellsubeinheit (410) ein entfaltendes neuronales Netz (411) und ein erstes rekurrentes neuronales Netz (412) umfasst, und eine Ausgabe des entfaltenden neuronalen Netzes (411) als eine Eingabe des zweiten rekurrenten neuronalen Netzes (412) dient.
Gerät nach Anspruch 5, wobei jedes des ersten rekurrenten neuronalen Netzes (312) und des zweiten rekurrenten neuronalen Netzes (412) ein bidirektionales langes Kurzzeitspeichernetz ist.
Gerät nach Anspruch 5, wobei für jeden Pixelpunkt in dem aktuellen Straßenbild eine erste Abfolge, die in das erste rekurrente neuronale Netz (312) einzugeben ist, von einem Ausgaberesultat des faltenden neuronalen Netzes (311) für den Pixelpunkt und Ausgaberesultaten des faltenden neuronalen Netzes (311) für Pixelpunkte in einer Nachbarschaft des Pixelpunkts gebildet wird, und für jeden Pixelpunkt in dem aktuellen Straßenbild eine zweite Abfolge, die in das zweite rekurrente neuronale Netz (412) einzugeben ist, von einem Ausgaberesultat des entfaltenden neuronalen Netzes (411) für den Pixelpunkt und Ausgaberesultaten des entfaltenden neuronalen Netzes (411) für Pixelpunkte in einer Nachbarschaft des Pixelpunkts gebildet werden.
Gerät nach Anspruch 5, wobei das Deep-Learning-Modell weiter ein drittes rekurrentes neuronales Netz (500) umfasst, wobei eine dritte Abfolge, die in das dritte rekurrente neuronale Netz (500) einzugeben ist, von Resultaten, die von der zweiten Modelleinheit (400) ausgegeben werden, gebildet wird, indem eine Vielzahl von Straßenbildern verarbeitet wird, wobei die Vielzahl von Straßenbildern das aktuelle Straßenbild und kürzlich in unterschiedlichen Augenblicken erfasste Straßenbilder umfasst.
Vorrichtung zum Erfassen einer Fahrspur, die Folgendes umfasst: einen Prozessor (910) und einen Speicher (920), wobei der Speicher (920) konfiguriert ist, um einen Programmcode zu speichern und den Programmcode zu dem Prozessor (910) zu übertragen, und der Prozessor (910) konfiguriert ist, um als Reaktion auf eine Anweisung in dem Programmcode das Verfahren zum Erfassen einer Fahrspur gemäß einem beliebigen der Ansprüche 1 bis 4 auszuführen.
Speichermedium, das einen Programmcode zum Ausführen des Verfahrens zum Erfassen einer Fahrspur gemäß einem beliebigen der Ansprüche 1 bis 4 speichert.