DE102019115874A1 - Systeme und verfahren zur verbesserten entfernungsschätzung durch eine monokamera unter verwendung von radar- und bewegungsdaten - Google Patents

Systeme und verfahren zur verbesserten entfernungsschätzung durch eine monokamera unter verwendung von radar- und bewegungsdaten Download PDF

Info

Publication number
DE102019115874A1
DE102019115874A1 DE102019115874.5A DE102019115874A DE102019115874A1 DE 102019115874 A1 DE102019115874 A1 DE 102019115874A1 DE 102019115874 A DE102019115874 A DE 102019115874A DE 102019115874 A1 DE102019115874 A1 DE 102019115874A1
Authority
DE
Germany
Prior art keywords
image
depth
estimated
radar
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102019115874.5A
Other languages
English (en)
Inventor
Wei Tong
Shuqing Zeng
Mohannad Murad
Alaa M. Khamis
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of DE102019115874A1 publication Critical patent/DE102019115874A1/de
Granted legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/93Radar or analogous systems specially adapted for specific applications for anti-collision purposes
    • G01S13/931Radar or analogous systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/86Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
    • G01S13/867Combination of radar systems with cameras
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/89Radar or analogous systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/02Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
    • G01S7/41Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/02Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
    • G01S7/41Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • G01S7/417Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section involving the use of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • G06T2207/10044Radar image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/20Linear translation of whole images or parts thereof, e.g. panning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electromagnetism (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Traffic Control Systems (AREA)
  • Image Processing (AREA)

Abstract

Systeme und Verfahren für eine Tiefenschätzung von Bilder aus einer Monokamera unter Verwendung von Radardaten durch: Empfangen einer Vielzahl von Eingabebildern aus der Monokamera; Erzeugen eines geschätzten Tiefenbildes durch die Verarbeitungseinheit durch überwachtes Training eines Bildschätzmodells; Erzeugen eines synthetischen Bildes aus einem ersten Eingabebild und einem zweiten Eingabebild aus der Monokamera durch die Verarbeitungseinheit durch Anwenden einer geschätzten Transformationspose; Vergleichen einer geschätzten dreidimensionalen (3D) Punktwolke mit Radardaten durch die Verarbeitungseinheit durch Anwenden einer anderen geschätzten Transformationsposc auf eine 3D-Punktwolke, wobei die 3D-Punktwolke anhand eines Tiefenbildes durch überwachtes Training des Bildschätzmodells an einer Radarentfernung und an einer Radar-Dopplermessungen geschätzt wird; Korrigieren einer Tiefenschätzung des geschätzten Tiefenbildes durch Verluste, die aus Differenzen der Folgenden abgeleitet werden: des synthetischen Bildes und originaler Bilder; eines geschätzten Tiefenbildes und einer gemessenen Radarentfernung; und geschätzter Dopplerinformationen und gemessener Radar-Dopplerinformationen.

Description

  • STAND DER TECHNIK
  • Das Gebiet der Technik bezieht sich allgemein auf Systeme und Verfahren zum Schätzen von Bildtiefen und bezieht sich genauer auf Systeme und Verfahren zur Erzeugung hochauflösender Tiefenbilder auf der Basis von Daten aus monokularen Kameras für Anwendungen zur Vermeidung stationärer und sich bewegender Hindernisse durch Trainieren eines überwachten Modells basierend auf fusionierten Daten aus heterogenen Quellen, ohne eine manuelle Datenmarkierung zu erfordern.
  • Die Raumtiefen- bzw. Tiefenschätzung ist eine integrale Aufgabe von Anwendungen heutiger Fahrzeugsysteme, wie etwa Kollisionsvermeidungssysteme. Ferner benötigen autonome und teilautonome Fahrzeuge für Sicherheit und Funktionstüchtigkeit sehr genaue Schätzungen der Raumtiefe. Tiefenschätzungen unter Verwendung einer monokularen Kamera sind schwierig, da bei einem bildgebenden Verfahren die Entfernungsinformationen im 3D-Kontext verworfen werden, wenn das 2D-Bild erzeugt wird. Um die fehlenden Entfernungsinformationen anhand des 2D-Bildes schätzen zu können, müssen daher bestimmte Annahmen gemacht werden. In der Realität kann es jedoch sein, dass solche Annahmen nicht ausreichend korrekt sind, was zur Folge hat, dass die Tiefen-/Entfernungsschätzung, die nur aus einem 2D-Bild realisiert wird, nicht genau und zuverlässig ist.
  • Darüber hinaus werden andere wünschenswerte Merkmale und Eigenschaften der vorliegenden Erfindung aus der nachfolgenden detaillierten Beschreibung und den beigefügten Ansprüchen in Verbindung mit den begleitenden Zeichnungen und dem vorstehenden technischen Gebiet und Hintergrund offenbar werden.
  • KURZDARSTELLUNG
  • Es werden ein System und ein Verfahren zum Verbessern einer Tiefenschätzung eines Bildes aus einer Monokamera unter Verwendung von Radardaten aus einem überwachten Training eines Tiefenschätzmodells in einem Fahrzeug offenbart.
  • In einer Ausführungsform wird ein Verfahren zur verbesserten Tiefenschätzung von Bildern aus einer Monokamera unter Verwendung von Radardaten offenbart. Das Verfahren schließt Folgendes ein: Empfangen einer Vielzahl von Eingabebildern aus der mit einem Fahrzeug gekoppelten Monokamera an einer in einem Fahrzeug angeordneten Vcrarbcitungscinhcit, wobei jedes Eingabebild ein zweidimensionales (2D) Bild einer Szene in der Umgebung des Fahrzeugs ist; Erzeugen eines geschätzten Tiefenbildes durch die Verarbeitungseinheit durch überwachtes Training eines Bildschätzmodells; Erzeugen eines synthetischen Bildes aus einem ersten Eingabebild und einem zweiten Eingabebild aus der Monokamera durch die Verarbeitungseinheit durch Anwenden einer geschätzten Transformationspose; Vergleichen einer geschätzten dreidimensionalen (3D) Punktwolke mit Radardaten durch die Verarbeitungseinheit durch Anwenden einer anderen geschätzten Transformationspose auf eine 3D-Punktwolke, wobei die 3D-Punktwolke anhand eines Tiefenbildes durch überwachtes Training des Bildschätzmodells an einem Radarabstand und einer Radar-Dopplermessung geschätzt wird; Korrigieren einer Tiefenschätzung des geschätzten Tiefenbildes durch Verluste, die aus Differenzen des synthetischen Bildes und originaler Bilder abgeleitet werden; Korrigieren der Tiefenschätzung des geschätzten Tiefenbildes durch Verluste, die aus Differenzen eines geschätzten Tiefenbildes und einer gemessenen Radarentfernung abgleitet werden; und Korrigieren der Tiefenschätzung des geschätzten Tiefenbildes aus Verlusten, die aus Differenzen von geschätzten Dopplerinformationen und gemessenen Radar-Dopplerinformationen abgeleitet werden.
  • In verschiedenen Ausführungsformen ist das erste Eingabebild eine Quellansicht Is zwischen < I1, ... In >, und das zweite Eingabebild ist eine Zielansicht von It(1 ≤ t ≤ N, s ≠ t). Das Verfahren schließt ferner Folgendes ein: Korrigieren der Tiefenschätzung durch Berechnen des Verlustes aus einem Tiefenfehler des Eingabebildes, abgeleitet durch die folgende Funktion: l v s = 1 w h t p | I t ( p ) I s ^ ( p ) |
    Figure DE102019115874A1_0001
    wobei I s ^
    Figure DE102019115874A1_0002
    die Quellansicht Is ist, gewarpt auf die Zielansicht auf Basis eines geschätzten Tiefenbildes einer geschätzten Tiefe D s ^
    Figure DE102019115874A1_0003
    und einer geschätzten Transformationspose R, T des Quellansichtsbildes und der Zielansichtsbilder. Das Verfahren schließt ferner Folgendes ein: Korrigieren der Tiefenschätzung durch Berechnen des Verlustes aus einem Radartiefenfehler, der abgeleitet wird durch die folgende Funktion: l d e p t h = 1 n x y j w j ( r x z r j ^ ) ,
    Figure DE102019115874A1_0004
    wobei n eine Gesamtzahl von Radarpunkten ist, die mit jedem Punkt der 3D-Punktwolke verglichen werden, wobei ℕ eine Nachbarschaft von (x, y) ist und r eine Abstandsmessung von einem Radarsensor ist und r̂ eine geschätzte Bildtiefe ist, wobei w ein entsprechendes Gewicht ist. Das Verfahren schließt ferner Folgendes ein: Korrigieren der Tiefenschätzung durch Berechnen des Verlustes aus einem Dopplerradartiefenfehler. Das Verfahren schließt ferner Folgendes ein: Berechnen des Verlustes des Dopplerradartiefenfehlers, abgeleitet durch folgende Funktion: l d o p p l e r = 1 n x y j w j ( r r x y r r j ^ ) ,
    Figure DE102019115874A1_0005
    wobei n eine Gesamtzahl von Radarpunkten ist, die mit der 3D-Punktwolke verglichen werden, wobei ℕ die Nachbarschaft von (x,y) ist, rr eine Radar-Dopplermessungen ist und r r ^
    Figure DE102019115874A1_0006
    eine geschätzte Dopplerinformation ist, wobei w das entsprechende Gewicht ist. Das Verfahren schließt ferner Folgendes ein: Korrigieren der Tiefenschätzung durch Berechnen des Verlustes, der abgeleitet wird durch die folgende Funktion: ℓfinal = α1vs + α2depth + α3doppler + α4smooth/reg, wobei ℓsmooth/reg ein Glättungsregulierungsterm ist und αi ein Gewichtungsparameter ist. ℓsmooth/reg ist ein optionaler Term.
  • In einer anderen Ausgestaltung wird ein System angegeben, das Folgendes einschließt: eine Tiefenschätzungsverarbeitungseinheit, die in einem Fahrzeug angeordnet ist, das einen oder mehrere Prozessoren einschließt, die durch Programmierbefehle konfiguriert werden, die auf einem nichttransitorischen computerlesbaren Medium kodiert sind. Das System schließt Folgendes ein: die Tiefenschätzungsverarbeitungseinheit, die für Folgendes konfiguriert ist: Empfangen einer Vielzahl von Eingabebildern aus einer mit dem Fahrzeug gekoppelten Monokamera, wobei jedes Eingabebild ein zweidimensionales (2D) Bild einer Szene in der Umgebung des Fahrzeugs ist; Erzeugen eines geschätzten Tiefenbildes durch Vergleiche zwischen den einzelnen Eingabebildern eines Satzes von der Vielzahl von Eingabebildern; Erzeugen eines synthetischen Bildes aus einem ersten Eingabebild und einem zweiten Eingabebild aus der Monokamera durch Anwenden einer geschätzten Transformationspose, wobei das synthetische Bild durch überwachtes Training eines Bildeschätzmodells erzeugt wird; Vergleichen einer geschätzten dreidimensionalen (3D) Punktwolke mit Radardaten aus einem Radar des Fahrzeugs durch Anwenden einer anderen geschätzten Transformationspose auf eine 3D-Punktwolke, wobei die 3D-Punktwolke durch überwachtes Training des Bildschätzmodells an einer Radarentfernung und an einer Radar-Dopplermessung verglichen wird; und Korrigieren einer Tiefenschätzung des geschätzten Tiefenbildes durch Verluste, die aus Differenzen der Folgenden abgeleitet werden: des synthetischen Bildes und originaler Bilder, eines geschätzten Tiefenbildes und einer gemessenen Radarentfernung und geschätzter Dopplerinformationen und gemessener Radar-Dopplerinformationen.
  • In verschiedenen Ausführungsformen ist das erste Eingabebild eine Quellansicht Is zwischen < I1,... In > und ist das zweite Eingabebild eine Zielansicht von It(1 ≤ t ≤ N, s ≠ t). Das System schließt ferner Folgendes ein: Korrigieren der Tiefenschätzung durch Berechnen des Verlustes aus einem Tiefenfehler des Eingabebildes, der durch die folgende Funktion abgeleitet wird: l v s = 1 w h t p | I t ( p ) I s ^ ( p ) |
    Figure DE102019115874A1_0007
    wobei I s ^
    Figure DE102019115874A1_0008
    die Quellansicht Is ist, die auf die Zielansicht gewarpt ist, basierend auf einem geschätzten Tiefenbild einer geschätzten Tiefe D s ^
    Figure DE102019115874A1_0009
    und einer geschätzten Transformationsposc R, T des ersten Eingabebilds und der Zielansichtsbilder. Das System schließt ferner Folgendes ein: Korrigieren der Tiefenschätzung durch Berechnen des Verlustes aus einem Radartiefenfehler, der abgeleitet wird durch die folgende Funktion: l d e p t h = 1 n x y j w j ( r x z r j ^ ) ,
    Figure DE102019115874A1_0010
    wobei n eine Gesamtzahl von Radarpunkten ist, die mit jedem Punkt der 3D-Punktwolke verglichen werden, wobei ℕ eine Nachbarschaft von (x, y) ist und r eine Abstandsmessung von einem Radarsensor ist und r̂ die geschätzte Bildtiefe ist, wobei w ein entsprechendes Gewicht ist. Das System schließt ferner Folgendes ein: Korrigieren der Tiefenschätzung durch Berechnen des Verlustes aus einem Dopplerradartiefenfehler. Das System schließt ferner Folgendes ein: Berechnen des Verlustes des Dopplerradartiefenfehlers, abgeleitet durch folgende Funktion: l d o p p l e r = 1 n x y j w j ( r r x y r r j ^ ) ,
    Figure DE102019115874A1_0011
    wobei n eine Gesamtzahl von Radarpunkten ist, die mit der 3D-Punktwolke verglichen werden, wobei ℕ die Nachbarschaft von (x, y) ist, rr eine Dopplermessung aus einem Radarsensor ist und r r ^
    Figure DE102019115874A1_0012
    eine geschätzte Dopplerinformation ist, wobei w das entsprechende Gewicht ist. Das System schließt ferner Folgendes ein: Korrigieren der Tiefenschätzung durch Berechnen des Verlustes, der abgeleitet wird durch die folgende Funktion: ℓfinal = α1vs + α2depth + α3doppler + α4smooth/reg, wobei ℓsmooth/reg ein Glättungsregulierungsterm ist und αi ein Gewichtungsparameter ist. ℓsmooth/reg ist ein optionaler Term.
  • In noch einer anderen Ausführungsform wird ein Fahrzeug bereitgestellt, das eine Monokamera, ein Radar und eine Tiefenschätzeinheit einschließt, die einen oder mehrere Prozessoren und nichttransitorische computerlesbare Medien einschließt, die mit Programmieranweisungen codiert sind. Das Fahrzeug schließt Folgendes ein: die Tiefenschätzeinheit, die für Folgendes konfiguriert ist: Empfangen einer Vielzahl von Eingabebildern aus einer mit dem Fahrzeug gekoppelten Monokamera, wobei jedes Eingabebild ein zweidimensionales (2D) Bild einer Szene in der Umgebung des Fahrzeugs ist; Erzeugen eines geschätzten Tiefenbildes durch Vergleiche zwischen den einzelnen Eingabebildern eines Satzes von der Vielzahl von Eingabebildern; Erzeugen eines synthetischen Bildes aus einem ersten Eingabebild und einem zweiten Eingabebild aus der Monokamera durch Anwenden einer geschätzten Transformationspose, wobei das synthetische Bild durch überwachtes Training eines Bildschätzmodells erzeugt wird; Vergleichen einer geschätzten dreidimensionalen (3D) Punktwolke mit Radardaten aus dem Radar durch Anwenden einer anderen geschätzten Transformationspose auf eine 3D-Punktwolke, wobei die 3D-Punktwolke durch überwachtes Training des Bildschätzmodells an einer Radarentfernung und an Radar-Dopplermessungen verglichen wird; Korrigieren einer Tiefenschätzung des geschätzten Tiefenbildes durch Verluste, die aus Differenzen des synthetischen Bildes und originaler Bilder abgeleitet werden; Korrigieren der Tiefenschätzung eines geschätzten Tiefenbildes, die aus Differenzen eines geschätzten Tiefenbildes und einer gemessenen Radarentfernung abgeleitet werden; und Korrigieren der Tiefenschätzung des geschätzten Ticfcnbildcs durch Verluste, die aus Differenzen geschätzter Dopplerinformationen und gemessener Radar-Dopplerinformationen abgeleitet werden.
  • Das Fahrzeug schließt ferner Folgendes ein: die Tiefenschätzungsverarbeitungseinheit, die für Folgendes konfiguriert ist: Korrigieren der Tiefenschätzung durch Berechnen des Verlustes aus einem Tiefenfehler des Eingabebildes, der durch die folgende Funktion abgeleitet wird: l v s = 1 w h t p | I t ( p ) I s ^ ( p ) | ,
    Figure DE102019115874A1_0013
    wobei I s ^
    Figure DE102019115874A1_0014
    eine Quellansicht Is ist, die auf eine Zielansicht gewarpt ist, die auf einem geschätzten Tiefenbild einer geschätzten Tiefe D s ^
    Figure DE102019115874A1_0015
    und einer geschätzten Transformationspose R, T des ersten Eingabebildes und eines Zielbildes basiert, wobei das erste Eingabebild eine Quellansicht Iszwischen < I1... In > ist und das zweite Eingabebild eine Quellansicht It(1 ≤ t ≤ N, s ≠ t) ist. Das Fahrzeug schließt ferner Folgendes ein: die Tiefenschätzungsverarbeitungseinheit, die für Folgendes konfiguriert ist: Korrigieren der Tiefenschätzung durch: Berechnen des Verlustes aus einem Tiefenfehler des Eingabebildes, der durch die folgende Funktion abgeleitet wird: l v s = 1 w h t p | I t ( p ) I s ^ ( p ) |
    Figure DE102019115874A1_0016
    wobei I s ^
    Figure DE102019115874A1_0017
    die Quellansicht Is ist, gewarpt auf die Zielansicht auf Basis eines geschätzten Tiefenbildes einer geschätzten Tiefe D s ^
    Figure DE102019115874A1_0018
    und einer geschätzten Transformationspose R, T eines Quellansichtsbildes und der Zielansichtsbilder; Berechnen des Verlustes aus einem Radartiefenfehler, der durch die folgende Funktion abgeleitet wird: l d e p t h = 1 n x y j w j ( r x y r j ^ ) ,
    Figure DE102019115874A1_0019
    wobei n eine Gesamtzahl von Radarpunkten ist, die mit den einzelnen Punkten der 3D-Punktwolke verglichen werden, wobei ℕ eine Nachbarschaft von (x, y) ist, r eine Abstandsmessung von einem Radarsensor ist und r die geschätzte Bildtiefe ist, wobei w ein entsprechendes Gewicht ist; und Berechnen des Verlustes des Doppler-Radartiefenfehlers, der durch die folgende Funktion abgeleitet wird: l d o p p l e r = 1 n x y j w j ( r r x y r r j ^ ) ,
    Figure DE102019115874A1_0020
    wobei ℕ die Nachbarschaft von (x,y) ist, rr eine Dopplermessung vom Radarsensor ist und r r ^
    Figure DE102019115874A1_0021
    eine geschätzte Dopplcrinformation ist, wobei w das entsprechende Gewicht ist. Das Fahrzeug schließt ferner Folgendes ein: die Tiefenschätzeinheit, die für Folgendes konfiguriert ist: Korrigieren der Tiefenschätzung durch: Berechnen eines Gesamtverlustes durch die Funktion ℓfinal = α1vs + α2depth + α3doppler + α4smooth/reg, wobei ℓsmooth/reg ein Glätteregulierungsterm ist und αi Gewichtungsparameter sind, wobei ℓsmooth/reg ein optionaler Term ist.
  • Figurenliste
  • Die Ausführungsbeispiele werden im Folgenden in Verbindung mit den folgenden Zeichnungsfiguren beschrieben, wobei gleiche Bezugszeichen gleiche Elemente bezeichnen, und wobei:
    • 1 ein Blockdiagramm veranschaulicht, das ein beispielhaftes Fahrzeug abbildet, das einen Prozessor zum Schätzen von Tiefen von Hindernissen in Kamerabildern unter Verwendung eines Monokamera-Tiefenschätzmodells gemäß einer Ausführungsform einschließen kann;
    • 2 ein Diagramm einer an einem Fahrzeug montierten Kamera und der Verarbeitung der Monokameradaten und der Radardaten, um ein Modell zur Tiefenschätzung an Bildern des Monokamera-Tiefenschätzsystems durch selbstüberwachtes oder überwachtes Lernens zu trainieren, gemäß einer Ausführungsform veranschaulicht;
    • 3 ein Diagramm der Systemarchitektur unter Verwendung des trainierten Modells für die Monokameramodellierung durch überwachtes Lernen, um eine Tiefe in Bildern des Monokamera-Tiefenschätzsystems zu bestimmen, gemäß einer Ausführungsform veranschaulicht;
    • 4 ein Diagramm einer synthetisierten Ansicht unter Überwachung, für die keine Markierung und keine Zuordnung erforderlich sind, des Monokamera-Tiefenschätzsystems gemäß einer Ausführungsform veranschaulicht;
    • 5 ein Diagramm einer synthetisierten Ansicht mit Überwachung aus Radarabstandsmessungen und aus Radar-Dopplermessungen des Monokamera-Tiefenschätzsystems gemäß einer Ausführungsform veranschaulicht;
    • 6 ein Diagramm der endgültigen Verlustberechnungen für das selbstüberwachte Trainingsmodell unter Verwendung von Fehlerschätzungen von Radarabstandsmessungen und Radar-Dopplermessungen und kamerabasierten Fehlertiefenberechnungen für verbesserte Entfernungsschätzungen des Monokamera-Tiefenschätzsystems gemäß einer Ausführungsform veranschaulicht; und
    • 7 ein Flussdiagramm der Korrektur der Tiefenschätzung des geschätzten Ticfcnbildcs durch Verluste des Monokamera-Tiefenschätzsystems gemäß einer Ausführungsform veranschaulicht.
  • DETAILLIERTE BESCHREIBUNG
  • Die folgende detaillierte Beschreibung ist lediglich beispielhafter Natur und soll die Anwendung und deren Verwendungen nicht einschränken. Darüber hinaus besteht keine Absicht, an eine ausdrückliche oder implizite Theorie gebunden zu sein, die im vorstehenden technischen Gebiet, Hintergrund, in der Zusammenfassung oder in der folgenden detaillierten Beschreibung dargestellt wird.
  • Wie hierin verwendet, bezieht sich der Begriff „Modul“ auf jede Hardware, Software, Firmware, elektronische Steuerkomponente, Verarbeitungslogik und/oder Prozessorvorrichtung, einzeln oder in beliebiger Kombination, einschließlich, aber nicht beschränkt auf: anwendungsspezifische integrierte Schaltung (ASIC), ein feldprogrammierbares Gate-Array (FPGA), eine elektronische Schaltung, einen Prozessor (gemeinsam, dediziert oder Gruppe) und Speicher, der/die eine oder mehrere Software- oder Firmwareprogramme, eine kombinatorische Logikschaltung und/oder andere geeignete Komponenten ausführt, die die beschriebene Funktionalität bereitstellen.
  • Ausführungsformen der vorliegenden Offenbarung können hierin in Form von funktionalen und/oder logischen Blockkomponenten und verschiedenen Verarbeitungsschritten beschrieben werden. Es sollte klar sein, dass solche Blockkomponenten durch eine beliebige Anzahl von Hardware-, Software- und/oder Firmwarekomponenten realisiert werden können, die zur Ausführung der spezifizierten Funktionen konfiguriert sind. Beispielsweise kann eine Ausführungsform der vorliegenden Offenbarung verschiedene Komponenten einer integrierten Schaltung verwenden, z. B. Speieherelemente, Digitalsignalverarbeitungselemente, Logikelemente, Zuordnungstabellen oder dergleichen, die eine Reihe verschiedener Funktionen unter der Steuerung eines oder mehrerer Mikroprozessoren oder anderer Steuervorrichtungen ausführen können. Darüber hinaus wird der Fachmann verstehen, dass Ausführungsformen der vorliegenden Offenbarung in Verbindung mit einer beliebigen Anzahl von Systemen praktiziert werden können und dass die hierin beschriebenen Systeme lediglich Ausführungsbeispiele der vorliegenden Offenbarung sind.
  • Für die Zwecke dieser Offenbarung werden alle Bezugnahmen auf die Selbstüberwachung als automatisierter Prozess des überwachten Lernens mit Rückkopplung basierend auf vorhergesagten Ergebnissen betrachtet. Das heißt als automatisierte Aufgabe des Lernens von Tiefenschätzungen durch Abbilden von Eingaben von Trainingsdaten zur Entwicklung eines Monokamera-Maschinenlern(ML)-Modells basierend auf Radar- und Bilddaten eines Fahrzeugs. Das Trainingsmodell beruht auf einer kontinuierlichen Ausgabe von Fehlerschätzungen für die Abbildung von Gittern und basiert auf fusionierten heterogenen Daten, die aus Bild- und Radarvorrichtungen empfangen werden.
  • Autonome und teilautonome Fahrzeuge sind in der Lage, ihre Umgebung zu erfassen und basierend auf der erfassten Umgebung zu navigieren. Solche Fahrzeuge erfassen ihre Umgebung unter Verwendung mehrerer Arten von Sensorvorrichtungen, wie etwa Radar, Lidar, Bildsensoren und dergleichen. Bei derartigen Fahrzeugen ist die Verwendung nur einer einzelnen Monokamera, um die Umgebung wahrzunehmen und zu analysieren, aufgrund der Tiefengenauigkeit und Robustheit begrenzt. Außerdem ist die Verwendung von Monokameras begrenzt, da Monokameras nicht in der Lage sind, genaue Abstands- und Geschwindigkeitsinformationen über die Objekte in der Szene bereitzustellen.
  • Das Fehlen von Entfernungsinformationen ist eine Schwierigkeit, die bewältigt werden muss, wenn ein Monokamerasystem zur Verwendung durch autonome oder teilautonome Fahrzeuge entwickelt wird. Der Grund dafür ist, dass es nicht immer möglich ist, aus einem zweidimensionalen Bild ausreichende Tiefeninformationen zu erhalten. Die Verwendung von Maschinenlernalgorithmen ist eine umsetzbare Lösung, um die Tiefeninformation durch Fusionieren der Informationen aus einem Monokamerasystem mit Daten von z. B. einem Radarsystem zu schätzen. Dies nutzt die Fähigkeit der Monokamera, Objekte in einem breiten Sichtfeld zu erfassen, zusammen mit den Entfernungsinformationen vom Radar.
  • In verschiedenen Ausführungsformen beschreibt die vorliegende Offenbarung Systeme und Verfahren zur Tiefenschätzung eines zweidimensionalen (2D) Bildes durch Schätzen der Tiefe einer Szene in einem Bild und durch überwachtes Testen durch Analysieren perspektivischer Transformationen über einem bezeichneten Zeitraum.
  • In verschiedenen Ausführungsbeispielen beschreibt die vorliegende Offenbarung Systeme und Verfahren zum Trainieren eines Modells zur Erzeugung hochaufgelöster Tiefenbilder zur Erzielung verbesserter Abstands- und Geschwindigkeitsinformationen über Objekte in einem Bild lediglich auf der Basis von Monokameradaten für stationäre und sich bewegende Objekte unter Verwendung von globalen Verlustfehlerberechnungen für Tiefenschätzungen, die aus mehreren heterogenen Scnsordatcnqucllcn abgeleitet werden, um in einem Fahrzeug aktive Sicherheit und Fähigkeiten für ein autonomes Fahren zu ermöglichen.
  • In verschiedenen Ausführungsbeispielen beschreibt die vorliegende Offenbarung Systeme und Verfahren zum Trainieren eines Modells zur Erzeugung hochaufgelöster Tiefenbilder, das nicht auf Structure-from-Motion(SfM)-Techniken beruht, die ineffizient sind, da SfM-Tcchnikcn bedeutende Verarbeitungsschritte einer großen (x- oder y-) Rotation, ein großes Sichtfeld und Tiefenvariationen und kontinuierliche Kamerakalibrierungen erfordern.
  • In verschiedenen Ausführungsbeispielen beschreibt die vorliegende Offenbarung Systeme und Verfahren zum Trainieren eines Modells zur Erzeugung hochaufgelöster Tiefenbilder, das mehrere Quellen (d. h. Radars, Doppler-Radar, Kameravorrichtungen usw.) für überwachte Informationen von heterogenen und homogenen Bilddaten, akustischen und optischen Daten nutzt, die zusammen oder separat verwendet werden, um die zusätzlichen Verarbeitungsschritte der manuellen Markierung von Eingabebilderm zu vermeiden.
  • In verschiedenen Ausführungsbeispielen beschreibt die vorliegende Offenbarung Systeme und Verfahren zum Trainieren eines Modells zur Erzeugung hochaufgelöster Tiefenbilder durch Fusionieren von Daten mehrerer Ansichten, um Datenfehler zu reduzieren und die räumliche Abdeckung und Zuverlässigkeit der Fahrzeugtiefenschätzung der Umgebung zu erhöhen.
  • In verschiedenen Ausführungsbeispielen beschreibt die vorliegende Offenbarung Systeme und Verfahren zum Trainieren eines Modells zur Erzeugung hochaufgelöster Tiefenbilder durch Überwachung, ohne dass künstliche Landmarkenmarker, vorgefertigte Karten oder bekannte Vorlagen und Ziele erforderlich sind, um die Objekte in einem Bild von Interesse einzuschätzen.
  • In verschiedenen Ausführungsbeispielen beschreibt die vorliegende Offenbarung Systeme und Verfahren zum Trainieren eines Modells zur Erzeugung hochaufgelöster Tiefenbilder, das flexibel ist für eine Übertragung auf unterschiedliche Kameraeinstellungen unter Berücksichtigung sowohl einer intrinsischen als auch einer extrinsischen Kalibrierung der jeweils verwendeten Kameras.
  • 1 stellt ein Blockdiagramm dar, das ein beispielhaftes Fahrzeug abbildet, das einen Prozessor zum Schätzen von Tiefen von Hindernissen in Kamerabildern unter Verwendung eines Monokamera-Tiefenschätzmodells 100 einschließen kann. Im Allgemeinen sind die Verlustfehlerberechnungen in einem Monokamera-Tiefenschätzmodell (oder einfach „System“) 100 eingeschlossen, das unter Verwendung des Monokamera-Tiefenschätzmodells und des Trainings des Schätzmodells zur Berechnung exakter Tiefen die geschätzten Tiefen in Szenen zur Steuerung eines autonomen Fahrzeugs bestimmt.
  • Wie abgebildet in 1 schließt das Fahrzeug 10 im Allgemeinen ein Fahrgestell 12, eine Karosserie 14, Vorderräder 16 und Hinterräder 18 ein. Die Karosserie 14 ist auf dem Fahrgestell 12 angeordnet und umschließt im Wesentlichen Komponenten des Fahrzeugs 10. Die Karosserie 14 und das Fahrgestell 12 können gemeinsam einen Rahmen bilden. Die Fahrzeugräder 16-18 sind jeweils in der Nähe einer entsprechenden Ecke der Karosserie 14 drehbar mit dem Fahrgestell 12 gekoppelt. Das Fahrzeug 10 ist in der dargestellten Ausführungsform als Personenkraftwagen abgebildet, aber man beachte, dass auch jedes andere Fahrzeug, einschließlich Motorräder, Lastkraftwagen, Geländewagen (SUVs), Freizeitfahrzeuge (RVs), Seeschiffe, Flugzeuge usw., verwendet werden kann.
  • Wie gezeigt, schließt das Fahrzeug 100 im Allgemeinen ein Antriebssystem 20, ein Kraftübertragungssystem 22, ein Lenksystem 24, ein Bremssystem 26, ein Sensorsystem 28, ein Stellantriebsystem 30, mindestens eine Datenspeichervorrichtung 32, mindestens eine Steuereinheit 34 und ein Kommunikationssystem 36 ein. Das Antriebssystem 20 kann in diesem Beispiel eine elektrische Maschine, wie etwa einen Permanentmagnet (PM)-Motor, einschließen. Das Kraftübertragungssystem 22 ist dafür konfiguriert, Kraft vom Antriebssystem 20 gemäß auswählbaren Übersetzungen auf die Fahrzeugräder 16 und 18 zu übertragen.
  • Das Bremssystem 26 ist dazu konfiguriert, ein Bremsmoment für die Fahrzeugräder 16 und 18 bereitzustellen. Das Bremssystem 26 kann in verschiedenen Ausführungsformen Reibungsbremsen, Brake-by-Wire, ein regeneratives Bremssystem, wie etwa eine elektrische Maschine, und/oder andere geeignete Bremssysteme einschließen.
  • Das Lenksystem 24 beeinflusst eine Position der Fahrzeugräder 16 und/oder 18. Obwohl das Lenksystem in der Darstellung zu veranschaulichenden Zwecken mit einem Lenkrad abgebildet ist, schließt das Lenksystem 24 in einigen Ausführungsformen, die innerhalb des Schutzumfangs der vorliegenden Offenbarung in Erwägung gezogen werden, möglicherweise kein Lenkrad ein.
  • Das Sensorsystem 28 schließt eine oder mehrere Abtastvorrichtungen 40a-40n ein, die beobachtbare Zustände der Außenumgebung und/oder der Innenumgebung des Fahrzeugs 10 erfassen und Sensordaten in Bezug darauf erzeugen.
  • Das Stellantriebsystem 30 schließt eine oder mehrere Stellantriebvorrichtungen 42a-42n ein, die ein oder mehrere Fahrzeugmerkmale steuern, wie etwa, ohne darauf beschränkt zu sein, das Antriebssystem 20, das Kraftübertragungssystem 22, das Lenksystem 24 und das Bremssystem 26. In verschiedenen Ausführungsformen kann das Fahrzeug 10 auch innere und/oder äußere Fahrzeugmerkmale einschließen, die nicht dargestellt sind in 1, wie etwa verschiedene Türen, einen Kofferraum, sowie Insassenraummerkmale, wie etwa Lüftungs-, Musik-, Beleuchtungs-, Touchscreen-Anzeigekomponenten und dergleichen.
  • Die Datenspeichervorrichtung 32 speichert Daten zur Verwendung beim Steuern des Fahrzeugs 10. Die Datenspeichervorrichtung 32 kann Teil der Steuereinheit 34, getrennt von der Steuereinheit 34, oder Teil der Steuereinheit 34 und Teil eines separaten Systems sein.
  • Die Steuereinheit 34 schließt mindestens einen Prozessor 44 (integriert mit dem System 100 oder verbunden mit dem System 100) und eine computerlesbare Speichervorrichtung oder ein computerlesbares Speichermedium 46 ein. Der Prozessor 44 kann ein beliebiger individuell gefertigter oder handelsüblicher Prozessor, eine Zentralverarbeitungseinheit (CPU), eine grafische Verarbeitungseinheit (GPU), eine anwendungsspezifische integrierte Schaltung (ASIC) (z. B. eine individuell gefertigte ASIC zur Implementierung eines Lern- oder Vorhersagemodells auf einem AI-Chip), ein im Feld programmierbares Gate-Array (FPGA), ein Hilfsprozessor unter mehreren Prozessoren, die der Steuereinheit 34 zugeordnet sind, ein halbleiterbasierter Mikroprozessor (in Form eines Mikrochips oder Chipsatzes) oder eine beliebige Kombination davon oder allgemein eine beliebige Vorrichtung zum Ausführen von Anweisungen sein. Die computerlesbare Speichervorrichtung oder das Medium 46 kann einen flüchtigen und einen nichtflüchtigen Speicher einschließen, beispielsweise als Nur-Lese-Speicher (ROM), Direktzugriffsspeicher (RAM) und Keep-Alive-Speicher (KAM). KAM ist ein persistenter oder nichtflüchtiger Speicher, der verwendet werden kann, um verschiedene Betriebsvariablen zu speichern, während der Prozessor 44 heruntergefahren wird. Die computerlesbare Speichervorrichtung oder das computerlesbare Speichermedium 46 kann unter Verwendung einer beliebigen Anzahl bekannter Speichervorrichtungen implementiert werden, wie etwa PROMs (programmierbarer Nur-Lese-Speicher), EPROMs (elektrischer PROM), EEPROMs (elektrisch löschbarer PROM), Flash-Speicher oder jeder anderen elektrischen, magnetischen, optischen oder kombinierten Speichervorrichtung, die Daten speichern kann, von denen einige ausführbare Anweisungen darstellen, die von der Steuereinheit 34 zur Steuerung des Fahrzeugs 10 verwendet werden.
  • Die Anweisungen können ein oder mehrere separate Programme einschließen, von denen jedes eine geordnete Auflistung ausführbarer Anweisungen zum Implementieren logischer Funktionen einschließt. Die Anweisungen, wenn sie vom Prozessor 44 ausgeführt werden, empfangen und verarbeiten Signale (z. B. Sensordaten) vom Sensorsystem 28, führen Logik, Berechnungen, Verfahren und/oder Algorithmen zum automatischen Steuern der Komponenten des Fahrzeugs 10 durch und erzeugen Steuersignale, die an das Stellantriebsystem 30 übertragen werden, um die Komponenten des Fahrzeugs 10 basierend auf der Logik, den Berechnungen, Verfahren und/oder Algorithmen automatisch zu steuern. Obwohl nur eine Steuereinheit 34 gezeigt ist in 1, können Ausführungsformen des Fahrzeugs 10 eine beliebige Anzahl von Steuereinheiten 34 einschließen, die über ein geeignetes Kommunikationsmedium oder eine Kombination von Kommunikationsmedien kommunizieren und zusammenarbeiten, um die Sensorsignale zu verarbeiten, Logik, Berechnungen, Verfahren und/oder Algorithmen durchzuführen und Steuersignale zur automatischen Steuerung von Merkmalen des Fahrzeugs 10 zu erzeugen.
  • Zum Beispiel kann das System 100 eine beliebige Anzahl zusätzlicher Untermodule einschließen, die in die Steuereinheit 34 eingebettet sind und die kombiniert werden und/oder weiter unterteilt werden können, um auf ähnliche Weise hierin beschriebene Systeme und Verfahren zu implementieren. Außerdem können Eingaben in das System 100 vom Sensorsystem 28 empfangen werden, von anderen dem Fahrzeug 10 zugeordneten Steuermodulen (nicht gezeigt) empfangen werden und/oder durch andere Untermodule (nicht gezeigt) bestimmt/modelliert werden, die enthalten sind in der Steuereinheit 34 von 1. Ferner könnten die Eingaben auch einer Vorverarbeitung unterzogen werden, wie etwa einer Unterabtastung, einer Rauschreduktion, einer Normalisierung, einer Merkmalsextraktion, einer Verringerung fehlender Daten und dergleichen.
  • 2 veranschaulicht ein Diagramm 200 einer an einem Fahrzeug montierten Kamera und die Verarbeitung der Monokameradaten und der Radardaten, um ein Modell zur Tiefenschätzung in Bildern des Monokamera-Tiefenschätzsystems durch selbstüberwachtes oder überwachtes Lernen gemäß einer Ausführungsform zu trainieren. In 2 weist ein Fahrzeug 205 eine am Fahrzeug 205 montierte Kamera 210 mit einem Sichtfeld 216 vor dem Fahrzeug 205 auf. Es gibt eine zweite Kamera 211, die an der Motorhaube angebracht ist oder an der Front (d. h. am Grill, am vorderen Stoßfänger usw.) des Fahrzeugs 205 angeordnet ist. Da sich die Kamera 210 an einer höher liegenden Stelle befindet als die zweite Kamera 211, weist sie ein anderes Sichtfeld 216 auf als die zweite Kamera 211. Um das Fahrzeug 205 herum ist ein Satz von Nahbereichsradaren 203 angeordnet, die in den vorderen zwei Ecken des Fahrzeugs 205 und an den hinteren Ecken angeordnet sind, sowie ein zusätzliches Nahbereichsradar 203, das in der hinteren Mitte des Kofferraums oder Heekstoßfängers des Fahrzeugs 205 angeordnet ist. Ebenso gibt es ein Fernbereichsradar 219, das neben der zweiten Kamera 211 positioniert ist, mit einer Radarrcichwcitc 218, die eine größere Entfernung abdeckt als das längere Sichtfeld 216 der Kamera 210 sowie das kürzere Sichtfeld 212 der daneben positionierten Kamera 211. Zwei Nahbereichsradars 203 sind an der Vorderseite des Fahrzeugs 205 positioniert und weisen eine Reichweite 214 auf, die dargestellt ist in 2.
  • Wie abgebildet in 2 empfängt das Monokamera-Tiefenschätzsystem 200 Weitbereichsdaten und Geschwindigkeitsdaten von mindestens einem der Nahbereichsradare 203, die an der Vorderseite des Fahrzeugs 205 positioniert sind, mit einer nach vorne gerichteten Erfassung in der Vorausrichtung der Bewegung des Fahrzeugs 205. Das Monokamera-Tiefenschätzsystem 200 empfängt auch Videodaten von Bildern aus der Kamera 210 und/oder der zweiten Kamera 211. In verschiedenen Ausführungsbeispielen wird in Betracht gezogen, dass die Videodaten von einer einzelnen Monokamera erzeugt werden können. Die Radardaten können entweder die Nahbcrcichsradardatcn oder Fernbereichsradardaten sein. Außerdem können die Nahbereichs- und/oder Fernbereichs-Radarvorrichtungen als eine Reihe verschiedener Radartypen konfiguriert sein, unter anderem als Radare für bewegliche Ziele, als Puls-Doppler-Radare usw. In verschiedenen alternativen Ausführungsbeispielen können LIDAR-Vorrichtungen oder Abtast-Laservorrichtungen verwendet werden, um die Radardaten zu erzeugen. Ferner können die Videodaten in einer Radarvcrarbcitungscinhcit 215 verwendet werden, und die Monokameradaten werden von einer Monokamera-Verarbeitungseinheit 220 empfangen.
  • In alternativen Ausführungsformen können die Radardaten auch Doppler-Radardaten für eine Verlustschätzung bei der Fehlerschätzung einschließen und können mit einer Verlustschätzung der Kameradaten kombiniert werden. Die Radardaten stellen Grundinformationen für Abstand und zeitabhängige Abstandsänderung bereit. Die Kameradaten und Radardaten werden miteinander zu kombinierten Daten fusioniert und in einem Datenkombinations-Repository 225 gespeichert, um sie zur weiteren Datenverarbeitung durch eine Datenverarbeitungseinheit 230 zu senden, die näher beschrieben ist in 3-7. Die Datenverarbeitungseinheit 230 führt ein Monokamera-Trainings(d. h. Deep-Learning-Entwicklungsphasen)-Modell 235 aus durch Senden der Daten an eine Vorverarbeitungseinrichtung 240 zum Vorverarbeiten der Daten durch Filtern der Daten zur Verwendung beim Training und beim Testen. Die Trainings- und Testeinheit teilt den vorverarbeiteten Datensatz in Trainings-, Validierungs- und Test-Datensätze auf, die verwendet werden, um ein Maschinenlernmodell 255 unter Verwendung verschiedener ML-Algorithmen 250 zu entwickeln. Ein trainiertes Modell (d. h. ein Modellkandidat) 260 wird unter Verwendung des ML-Algorithmus erzeugt, der die besten Ergebnisse liefert. Das trainierte Modell 260 wird in einem rekursiven oder Rückkopplungsprozess 265 für eine Hyperparameteroptimierung weiter abgestimmt, um die angestrebte Leistung zu erzielen. Das optimierte Modell 270 wird zur Verwendung bei der Testung 275 des Monokameramodells erzeugt. Durch das Testen 275 des Monokameramodells werden genaue Abstands- und Geschwindigkeitsinformationen über Objekte in der Szene gewährleistet, und zwar mit einer zusätzlichen Verarbeitung durch die Monokameramodelltestung 275, die durch intrinsische und extrinsische Kalibrierung 285 der Monokameraverarbeitungseinheit 220 (d. h. des jeweiligen Typs, Kameramodells) für bestimmte Arten von Bildeingaben (d. h. eine Videosequenz aus mehreren Einzelbildern) 280 konfiguriert ist.
  • 3 stellt ein Blockdiagramm der Systemarchitektur 300 unter Verwendung des trainierten Modells für die Monokameramodellierung durch überwachtes Lernen für die Schätzungen der Tiefe in den Bildern des Monokameratiefenschätzsystems gemäß einer Ausführungsform dar.
  • 3 stellt einen Pfad (1) zum Lernen des Schätzens und Vorhcrsagcns eines Tiefenbildes (315) aus einer Sequenz von Bildern und einen Pfad (2) zum Lernen des Schätzens und Vorhersagens eines Tiefenbildes aus einem Radar (350) dar. Die Monokameradaten eines 2D-Bildes in einem Eingabebild Is 305 werden empfangen, um ein entsprechendes Tiefenbild zu schätzen. Das Bild Is kann direkt aus der unverarbeiteten Kameraausgabe kommen oder vorverarbeitet, wie etwa größenangepasst, verbessert, usw. sein. Das Eingabebild Is 305 wird in ein Vorhersagemodell 310 zum Schätzen eines Tiefenbildes 315 eingespeist. Jedes Pixel D (n) in 315 ist die geschätzte Tiefe des entsprechenden Pixels p im Eingabebild 305. Um das Vorhersagemodell 310 robuster gegenüber verschiedenen Kameras zu machen, werden außerdem die Kamerakalibrierungsparameter als Eingabe genommen, die versucht, die Wirkung der Kameraparameter während der Trainingsphase des Modells zu erlernen. Das Tiefenbild 315 für das gesamte Bild wird mit einer Matrix von Pixeln aus Tiefenpunkten D (p) erzeugt.
  • Auf dem zweiten Pfad werden das Bild Is ein Bild It in ein anderes Vorhersagemodell 340 eingespeist, um die Rotations- und Translationsparameter 345 zwischen den zwei Bildern zu schätzen. Diese Rotations- und Translationsparameter werden dann auf dem Pfad 343 mit dem geschätzten Tiefenbild 315 kombiniert, um ein gewarptes Bild I s ^
    Figure DE102019115874A1_0022
    zu erzeugen. Die Differenz zwischen dem erzeugten Warp-Bild I s ^
    Figure DE102019115874A1_0023
    und dem Bild It 335 wird dann als die Überwachungsinformation verwendet, um das Vorhersagemodell 310 und 340 zu trainieren. Ähnlich dem Vorhersagemodell 310 nimmt das Vorhersagemodell 340 auch die Kamerakalibrierungsinformation als eine der Eingaben, um robustere Modelle zu lernen, die gegenüber verschiedenen Kameras unempfindlich sind.
  • Der dritte Pfad zeigt, wie die Radarinformationen zu verwenden sind, um die Schätzung der Tiefe zu unterstützen. Das Tiefenbild 315 wird zuerst mit den geschätzten Rotations- und Translationsparametern 345 von der Quellansicht auf die Zielansicht in eine Darstellung einer 3D-Punktwolke 325 umgewandelt, dann wird die 3D-Punktwolke 325 in der Quellansicht in eine 3D-Punktwolke 365 in der Zielansicht umgewandelt. Die 3D-Punktwolke 365 in der Zielansicht wird dann unter Verwendung der Rotations- und Translationsparameter 360 zwischen Kamerasensor und Radarsensor weiter in eine Entfernungsmessung in der Radaransicht r̂ transformiert. Die transformierte Entfernungsmessung r̂ wird dann mit den Radarsensordaten 340 kombiniert, die aus einem Radar 350 empfangen werden, um die überwachten Informationen zu erzeugen, die auch verwendet werden können, um das Vorhersagemodell 310 zu erlernen. Neben der direkten Verwendung der Radarentfernungsmessung zur Überwachung des Lernablaufs kann ebenso auch die Radar-Dopplermessung zur Überwachung des Lernens verwendet werden. Man beachte außerdem, dass die Kamera-Radar-Rotations- und Translationsparameter 360 nicht gelernt werden, sondern im Voraus aus dem Kalibrierungsablauf erhalten werden.
  • 4 veranschaulicht ein Diagramm einer synthetisierten Ansicht unter Überwachung, wofür keine Markierung und keine Zuordnung für das Monokamera-Tiefenschätzsystem erforderlich sind, gemäß einer Ausführungsform. In 4 veranschaulicht das Diagramm 400 eine Quellenansicht 405 und ein Synthese-Zielansichtsbild 435 aus einer anderen Kamerapose zur Erzeugung eines Modells für eine Vorhersage einer Bildtiefe ohne eine entsprechende Grundtiefensicherheit, auf die eine vorhergesagte Bildtiefe gegründet werden könnte. Um aus der geschätzten Bildtiefe ein synthetisches Bild zu erzeugen, ist es daher notwendig, eine Differenz zwischen einem synthetischen Bild und einem echten Bild (d. h. einem aufgenommenen oder eingegebenen Bild) aus der Kamera so stark wie möglich zu reduzieren, um eine ausreichende Bildschätzung der Bildtiefe (d. h. der tatsächlichen Bildtiefe ohne Fehler) zu ermöglichen.
  • Auf einem Pfad (1) für das Training des Modells für die Schätzung der Bildtiefe in 4 wird von der Quellansicht 405 eines Eingabebildes durch ein Vorhersagemodell 410 geschickt, um die Tiefe jedes Pixels für das Tiefenbild 415 zu schätzen. Dann werden auf einem zweiten Pfad (2) in 4 das Quellansichtsbild 430, das 405 gleich ist, und ein Zielansichtsbild 435, das zu einer anderen Zeit aufgenommen wurde als das Quellansichtsbild 430, an ein Vorhersagemodell geschickt, um die Rotations- und Translationsparameter des Bildes aus der Quellansicht Is auf die Zielansicht It vorherzusagen. Nachdem sowohl das vorhergesagte Tiefenbild 415 als auch die Rotations- und Translationsparameter 445 Ts→t bestimmt worden sind, kann bei 420 ein synthetisches Bild I s ^
    Figure DE102019115874A1_0024
    in der Ziclansicht erzeugt werden. Wenn sowohl die vorhergesagte Tiefe als auch die Rotations- und Translationsparameter des Modells ausreichend sind, ähnelt das bei 420 erzeugte synthetische Bild I s ^
    Figure DE102019115874A1_0025
    dem Zielansichtsbild 435. Die Differenz zwischen dem synthetischen Bild bei 420 und dem Zielansichtsbild bei 435 kann zum Trainieren des Überwachungsmodells verwendet werden. Um zu ermöglichen, dass das Überwachungsmodell für unterschiedliche Kameras robuster und leichter anwendbar ist, können die Kalibrierungsparameter der Kamera während des Trainings eingegeben werden (zum Beispiel beim Trainieren eines neuronalen Netzes für das trainierte Modell 235 von 2).
  • Die Bildfolge wird mit < I1 to IN > bezeichnet, wobei eines der Bilder eine Quellansicht Is ist und der Rest Zielansichten It (1 ≤ t ≤ N, s ≠ t) sind, der Verlust wird dann konfiguriert als: l v s = 1 w h t p | I t ( p ) I s ^ ( p ) |
    Figure DE102019115874A1_0026
  • Der Parameter I s ^
    Figure DE102019115874A1_0027
    ist die Quellansicht Is , gewarpt auf die Zielansicht auf Basis des vorhergesagten Tiefenbildes D s ^
    Figure DE102019115874A1_0028
    und der vorhergesagten Kameratransformation R, T von der Quellansicht zur Zielansicht.
  • 5 stellt ein Diagramm einer synthetisierten Ansicht mit Überwachung aus Radarabstandsmessungen und aus Radar-Dopplermessungen des Monokamera-Tiefenschätzsystems gemäß einer Ausführungsform dar. In 5 stellt das Diagramm 500 die Verwendung von Radarmessungen, um das Lernen des geschätzten (d. h. vorhergesagten) Tiefenbildes 500 eines Quellansichts-Eingabebildes 505 zu erleichtern, dar. In 5 ist das Radar 550 in der Lage, die Entfernung (d. h. die Tiefe) und die zeitabhängige Abstandsänderung (d. h. den Dopplereffekt) für Objekte zu messen, die in das überwachte Training der Schätzung (d. h. Vorhersage) für das Ticfcnbildmodcll einbezogen werden. In 5, ähnlich 4, ist der Pfad (1) das Schätzmodell eines Tiefenbildes 515 über das Vorhersagemodell 510, um durch Training die Tiefe des Quellansichtsbildes 505 festzustellen und um die Rotations- und Translationsparameter der Transformationspose 545 der Quellansichtsbilder des Bildes 530 (desselben Bildes wie das Quellansichts-Eingabebild 505) und des Zielansichtsbildes 535, das zu einem anderen Zeitpunkt erfasst wurde als das Quellansichtsbild, zu bestimmen.
  • Mit den vorhergesagten Tiefenbildern kann die 3D-Punktwolke 525 für das Quellansichts-Eingabebild 505 abgeleitet werden. Die 3D-Punktwolke 525 wird dann mit den vorhergesagten Rotations- und Translationsparametern R und T 545 kombiniert, um eine transformierte 3D-Punktwolke 565 für das Ziel zu erzeugen.
  • Die 3D-Punktwolke 565 für die Zielansicht ist die Kameraansicht als Ergebnis davon, dass der Radarsensor und der Kamerasensor nicht am exakt gleichen Punkt am Fahrzeug befestigt sind. Diese Differenz in den Ansichten erfordert eine weitere Rotation und Translation einer Transformationspose 560, die im Voraus unter Verwendung von Standard-Sensorkalibricrungsverfahren geschätzt werden kann. Die 3D-Punktwolke 565 wird daher von der Kamera-Zielansicht in die Zielansicht des Radars 550 transformiert. Außerdem kann die 3D-Punktwolke 525 der Kameraansicht in der Quellansicht auch in die Ansicht des Radars 550 transformiert werden. Daher können zwei 3D-Punktwolken erzeugt werden und die Informationen über die zeitabhängige Abstandsänderung (d. h. über den Dopplereffekt) ( r r ^ )
    Figure DE102019115874A1_0029
    können anhand der 3D-Punktwolken geschätzt werden.
  • Die 3D-Punktwolke in der Ziclansicht kann mit den Messungen r von Radarsensordaten 540 des Radars 550 mit Dopplereffekt 555 rr verglichen werden, die in einer Ansicht von oben nach unten auf ein Belegungsgitter mit der transformierten 3D-Punktwolke 565, die durch die Transformationspose 560 transformiert wurde, gezeigt wurden. In verschiedenen alternativen Ausführungsformen können Radare befähigt werden, 3D-Punktwolkenmessungen bereitzustellen, ohne dass ein Belegungsgitter erforderlich ist.
  • Die Entfernungsmessungen jedes entsprechenden Punktes zwischen der erzeugten 3D-Punktwolke und Radarmessungen sind ähnlich, und die Differenz wird in die Trainingsdaten für das überwachte Training auf dem Pfad (1) aufgenommen. Als Nächstes werden die geschätzten (d. h. vorhergesagten) zwei 3D-Punktwolken 525 und 565 verwendet, um die Informationen über die zeitabhängige Abstandsänderung für die Punkte abzuleiten, die nahe an den entsprechenden Radardopplermessungen liegen. Die Differenz kann auch als Überwachungsinformation während des Trainings der Tiefenschätzmodells für das Tiefenbild 515 verwendet werden.
  • Die Verlustfunktion für die Überwachung des Trainings von Tiefenschätzungen anhand der Radarabstandsmcssung ist wie folgt: l d e p t h = 1 n x y j w j ( r x y r j ^ )
    Figure DE102019115874A1_0030
  • Wobei n die Gesamtheit der Radarpunkte ist, jeder Punkt in dem Radarbelegungsgitter die Abstandsmessung r ist. N ist die Nachbarschaft des Punktes (x, y), r ^
    Figure DE102019115874A1_0031
    ist der entsprechende geschätzte Abstand aus dem Bild und w sind die entsprechenden Gewichte.
  • Der Verlust für das Training der Tiefenschätzung aus der Radarmessung der zeitabhängige Abstandsänderung ist wie folgt: l d o p p l e r = 1 n x y j w j ( r r x y r r j ^ )
    Figure DE102019115874A1_0032
  • Wobei n die Gesamtheit der Radarpunkte ist, jeder Punkt im Radarbelegungsgitter die zeitabhängige Abstandsänderung rr ist, ℕ die Nachbarschaft eines Punktes (x, y) ist. r r ^
    Figure DE102019115874A1_0033
    die entsprechende geschätzte zeitabhängige Abstandsänderung ist und wj die entsprechenden Gewichte sind.
  • Der endgültige Verlust wird für die Radardaten auf der Basis von auf Radar basierenden Tiefenfehlerberechnungen und/oder auf Radar-Doppler basierenden Fehlerberechnungen für die überwachten auf 3D3D basierenden und kamerabasierten Tiefenfehlerberechnungen wie folgt berechnet: l f i n a l = a 1 l v s + a 2 l d e p t h + a 3 l d o p p l e r + a 4 l s m o o t h / r e g
    Figure DE102019115874A1_0034
  • Ein Gewichtungsschema und eine Glättungsregelung werden auf die globale Verlustberechnung angewendet. Das heißt, in einem Ausführungsbeispiel ist ℓsmooth/reg der optionale Glättungsregulierungsterm, z. B. die ɩ1-Norm der Gradienten zweiter Ordnung des vorhergesagten Tiefenbildes, und αi sind die Gewichtungsparameter für jede Komponente. 6 stellt ein Diagramm der endgültigen Verlustberechnungen für das selbstüberwachte Trainingsmodell unter Verwendung von Fehlerschätzungen aus Radarabstandsmessungen und Radar-Dopplermessungen und kamerabasierten Tiefenberechnungen für verbesserte Entfernungsschätzungen des Monokamera-Tiefenschätzsystems gemäß einer Ausführungsform dar. Für die endgültige Verlustmodellierung des Diagramms 600 empfängt das Monokamera-Tiefenschätzsystem Monokameradaten 605, die als Eingabe einer Ansicht einer Szene (d. h. eines 2D-Einzelbildes) in die Bilderzeugungseinheit 615 gesendet werden, mit Eingaben der 3D-Punktwolke der Zielansicht, die durch eine photometrische Fehlerminimierungseinheit 635 verarbeitet werden, um einen photometrischen Fehler zu minimieren, und auf die Monokamera-Kalibrierungsparameter 620 konfiguriert werden. Die Tiefenbilddaten, die eine Abfolge sequentiell geordneter 2D-Einzelbilder bei unterschiedlichen Posen sind, werden als eine Eingabe in die Bildrekonstruktionseinheit 625 empfangen. Die Bildrekonstruktionseinheit 625 empfängt auch Kamerakalibrierungsparameter von der Kamerakalibrierungsparametereinheit 620 und eine Eingabe von Daten der synthetisierten Ansicht, um sie an die End-to-End-Posenschätzeinheit 630 zu senden. Daten von der End-to-End-Posenschätzeinheit 630 und von der End-to-End-Abstandsschätzeinheit 610 werden an die kamerabasierte Tiefenfehlerberechnungseinheit 640 gesendet, um einen Tiefenfehler ɩvs zu berechnen.
  • Als Nächstes sendet die Radardateneinheit 645 Radar-Dopplerdaten an ein Belegungsgitter mit der Doppler-Einheit 660. Das Belegungsgitter mit der Dopplereinheit 660 sendet Daten an die Doppler-basierte Abstandsschätzeinheit 665 der Abstandsschätzung. Die Einzelbilddaten werden an die Belegungsgittererzeugungseinheit 650 gesendet. Die radarbasierte Abstandsschätzeinheit 655 empfängt Gitterdaten aus der Belegungsgittererzeugungseinheit 650 und gibt Schätzungen von Entfernungsdaten an die radarbasierte Tiefenfehlerberechnungseinheit 670 aus. Die radarbasierte Tiefenfehlerberechnungseinheit 670 empfängt zusätzlich Radardaten 645 und berechnet einen radarbasierten Tiefenverlust ℓdepth, um ihn an die globale Verlustberechnungseinheit 680 zu senden. Die Dopplerdaten werden vom Belegungsgitter mit der Dopplereinheit 660 empfangen, und Gitterdaten werden an die Doppler-basierte Schätzeinheit 665 gesendet. Die Doppler-basierte Entfernungsschätzeinheit 665 erzeugt geschätzte Abstandsdaten für den Empfang durch die Doppler-basierte Tiefenfehlerberechnungseinheit 675. Die Doppler-Basisabstandsberechnungseinheit empfängt zusätzlich Radardaten 645 und berechnet den Dopplerverlust ℓdoppler, um ihn an die globale Verlustberechnungseinheit 680 zu senden.
  • Die globale Verlustberechnungseinheit 680 empfängt sowohl den Betrag des berechneten Radarverlusttiefenfehlers als auch den Betrag des berechneten Doppler-basierten Tiefenfehlers und den Betrag des berechneten kamerabasierten Tiefenfehlers und summiert alle berechneten Verluste mit einem Gewichtungsschema 685 und einer Glättungs-/Regulierungsfunktion 690 wie folgt: l f i n a l = a 1 l v s + a 2 l d e p t h + a 3 l d o p p l e r + a 4 l s m o o t h / r e g
    Figure DE102019115874A1_0035
  • Das Modell wird dann neu trainiert 695, um die endgültigen Verlustdaten ℓfinal an die End-to-End-Abstandsschätzeinheit 610 zu senden. Die End-to-End-Abstandsschätzeinheit 610 berücksichtigt den endgültigen Verlust und erzeugt verbesserte Entfernungsschätzungen. 7 veranschaulicht ein Flussdiagramm der Korrektur der Tiefenschätzung des geschätzten Tiefenbildes durch Verluste des Monokamera-Tiefenschätzsystems gemäß einer Ausführungsform. Das Flussdiagramm 700 schließt Folgendes ein: bei 710 das Empfangen einer Vielzahl von Eingabebildern aus der Monokamera, die mit einem Fahrzeug gekoppelt ist, durch eine Verarbeitungseinheit, die in einem Fahrzeug angeordnet ist, wobei jedes Eingabebild ein 2D-Bild einer das Fahrzeug umgebenden Szene ist. Bei 720 das Erzeugen eines geschätzten Tiefenbildes durch die Verarbeitungseinheit durch Vergleiche zwischen den einzelnen Eingabebildern eines Satzes aus der Vielzahl der Eingabebilder. Bei 730 das Erzeugen eines synthetischen Bildes aus einem ersten Eingabebild und einem zweiten Eingabebild aus der Monokamera durch die Verarbeitungseinheit durch Anwenden einer geschätzten Transformationspose. Bei 740 das Vergleichen einer geschätzten 3D-Punktwolke mit Radardaten durch Anwenden einer weiteren geschätzten Transformationspose auf die 3D-Punktwolke durch die Verarbeitungseinheit, wobei die 3D-Punktwolke durch überwachtes Training des Bildschätzmodells an Radarentfernungs- und Radardopplermessungen geschätzt wird. Bei 750 das Korrigieren einer Tiefenschätzung des geschätzten Tiefenbildes durch Verluste, die aus Differenzen des synthetischen Bildes und von Originalbildern abgeleitet werden. Bei 760 das Korrigieren der Tiefenschätzung des geschätzten Tiefenbildes durch Verluste, die aus Differenzen des synthetischen Tiefenbilds und einer gemessenen Radarentfernung abgeleitet werden. Bei 770 das Korrigieren der Tiefenschätzung des geschätzten Tiefenbildes durch Verluste, die aus Differenzen geschätzter Dopplerinformationen und gemessener Radar-Dopplerinformationen abgeleitet werden.
  • Die obige detaillierte Beschreibung dient lediglich der Veranschaulichung und soll weder die Ausführungsformen des Gegenstands noch die Anwendung und Verwendung solcher Ausführungsformen einschränken. Der hier verwendete Begriff „exemplarisch“ ist als „Beispiel, Instanz oder Illustration“ zu verstehen. Jede hierin als exemplarisch beschriebene Implementierung ist nicht unbedingt als bevorzugt oder vorteilhaft gegenüber anderen Implementierungen zu interpretieren. Darüber hinaus besteht keine Absicht, sich an eine ausdrücklich formulierte oder implizite Theorie zu binden, die im vorstehenden technischen Gebiet, im Hintergrund, in der Kurzfassung oder in der detaillierten Beschreibung dargestellt wird.
  • Obwohl zumindest ein Ausführungsbeispiel in der vorstehenden ausführlichen Beschreibung vorgestellt wurde, sollte es sich verstehen, dass eine große Anzahl von Variationen existiert.
  • Es sollte sich außerdem verstehen, dass das Ausführungsbeispiel oder die Ausführungsbeispiele lediglich Beispiele und den Schutzumfang, die Anwendbarkeit oder Konfiguration der Offenbarung in keiner Weise einzuschränken sollen. Vielmehr stellt die vorstehende ausführliche Beschreibung Fachleuten eine brauchbare Anleitung zur Realisierung des Ausführungsbeispiels oder der Ausführungsbeispielen bereit.
  • Es versteht sich, dass verschiedene Änderungen an der Funktion und Anordnung von Elementen vorgenommen werden können, ohne vom Schutzumfang der Offenbarung abzuweichen, wie in den beigefügten Ansprüchen und deren gesetzlichen Äquivalenten dargelegt.

Claims (11)

  1. Beansprucht wird:
  2. Verfahren zur Verbesserung einer Tiefenschätzung von Bildern aus einer Monokamera unter Verwendung von Radardaten, wobei das Verfahren Folgendes umfasst: Empfangen einer Vielzahl von Eingabebildern aus der Monokamera, die mit einem Fahrzeug gekoppelt ist, durch eine Verarbeitungseinheit, die in einem Fahrzeug angeordnet ist, wobei jedes Eingabebild ein 2D-Bild einer das Fahrzeug umgebenden Szene ist; Erzeugen eines geschätzten Tiefenbilds durch die Verarbeitungseinheit durch überwachtes Training eines Bildschätzmodells; Erzeugen eines synthetischen Bildes aus einem ersten Eingabebild und einem zweiten Eingabebild aus der Monokamera durch die Verarbeitungseinheit durch Anwenden einer geschätzten Transformationspose; Vergleichen einer geschätzten 3D-Punktwolke mit Radardaten durch die Verarbeitungseinheit durch Anwenden einer weiteren geschätzten Transformationsposc auf die 3D-Punktwolke, wobei die 3D-Punktwolke durch überwachtes Training des Bildschätzmodells an einer Radarentfernung und einer Radardopplermessung aus einem Tiefenbild geschätzt wird; Korrigieren einer Tiefenschätzung des geschätzten Tiefenbilds durch Verluste, die aus Differenzen des synthetischen Bildes und von Originalbildern abgeleitet werden; Korrigieren der Tiefenschätzung des geschätzten Tiefenbilds durch Verluste, die aus Differenzen des synthetischen Tiefenbilds und einer gemessenen Radarentfernung abgeleitet werden; und Korrigieren der Tiefenschätzung des geschätzten Tiefenbilds durch Verluste, die aus Differenzen geschätzter Dopplerinformationen und gemessener Radar-Dopplerinformationen abgeleitet werden.
  3. Verfahren nach Anspruch 1, wobei das erste Eingabebild eine Quellansicht Iszwischen < I1, ... In > ist und das zweite Eingabebild eine Zielansicht von It(1 ≤ t ≤ N,s ≠ t) ist.
  4. Verfahren nach Anspruch 2, ferner umfassend: Korrigieren der Tiefenschätzung durch Berechnen des Verlustes aus einem Tiefenfehler des Eingabebildes, abgeleitet durch die folgende Funktion: l v s = 1 w h t p | I t ( p ) I s ^ ( p ) |
    Figure DE102019115874A1_0036
     wobei I s ^
    Figure DE102019115874A1_0037
    die Quellansicht Is, gewarpt auf die Zielansicht, basierend auf einem geschätzten Tiefenbild einer geschätzten Tiefe D s ^
    Figure DE102019115874A1_0038
    und einer geschätzten Transformationspose R, T des Quellansichtsbilds und von Zielansichtsbildern, ist.
  5. Verfahren nach Anspruch 3, ferner umfassend: Korrigieren der Tiefenschätzung durch Berechnen des Verlustes aus einem Radartiefenfehler, der abgeleitet wird durch die folgende Funktion: l d e p t h = 1 n x y j w j ( r x z r j ^ ) ,
    Figure DE102019115874A1_0039
    wobei n eine Gesamtzahl von Radarpunkten ist, die mit jedem Punkt der 3D-Punktwolke verglichen werden, wobei ℕ eine Nachbarschaft von (x, y) ist, r eine gemessene Entfernung von einem Radarsensor ist, und r̂ die geschätzte Bildtiefe in der Nachbarschaft ist, wobei w ein entsprechendes Gewicht ist.
  6. Verfahren nach Anspruch 4, ferner umfassend: Korrigieren der Tiefenschätzung durch Berechnen des Verlustes aus einem Radartiefenfehler.
  7. Verfahren nach Anspruch 5, ferner umfassend: Berechnen des Verlustes des Radar-Dopplerfehlers, abgeleitet durch folgende Funktion: l d o p p l e r = 1 n x y j w j ( r r x z r r j ^ ) ,
    Figure DE102019115874A1_0040
    wobei n eine Gesamtzahl von Radarpunkten ist, die mit der 3D-Punktwolke verglichen werden, wobei ℕ die Nachbarschaft von (x, y) ist, rr eine gemessene Radar-Dopplerinformation ist und r r ^
    Figure DE102019115874A1_0041
    eine geschätzte Dopplerinformation ist, wobei w das entsprechende Gewicht ist.
  8. Verfahren nach Anspruch 6, ferner umfassend: Korrigieren der Tiefenschätzung durch Berechnen des Verlustes, der abgeleitet wird durch die folgende Funktion: ℓfinal = α1vs + α2depth + α3doppler + α4smooth/reg, wobei ℓsmooth/reg ein Glättungsregulierungsterm ist und αi ein Gewichtungsparameter ist.
  9. Verfahren nach Anspruch 7, wobei ℓsmooth/reg ein optionaler Term ist.
  10. System umfassend: eine Tiefenschätzungsverarbeitungseinheit, die in einem Fahrzeug angeordnet ist und einen oder mehrere Prozessoren umfasst, die durch Programmieren von Anweisungen konfiguriert sind, die auf nichttransitorischen computerlesbaren Medien codiert sind, wobei die Tiefenschätzungsverarbeitungseinheit konfiguriert ist zum: Empfangen einer Vielzahl von Eingabebildern aus einer Monokamera, die mit dem Fahrzeug gekoppelt ist, wobei jedes Eingabebild ein 2D-Bild einer das Fahrzeug umgebenden Szene ist; Erzeugen eines geschätzten Tiefenbildes durch überwachtes Training eines Bildschätzmodells; Erzeugen eines synthetischen Bildes aus einem ersten Eingabebild und einem zweiten Eingabebild aus der Monokamera durch Anwenden einer geschätzten Transformationspose; Vergleichen einer geschätzten 3D-Punktwolke mit Radardaten aus einem Radar des Fahrzeugs durch Anwenden einer weiteren geschätzten Transformationspose auf die 3D-Punktwolke, wobei die 3D-Punktwolke durch überwachtes Training des Bildschätzmodells an einer Radarentfernung und einer Radardopplermessung aus einem Tiefenbild geschätzt wird; und Korrigieren einer Tiefenschätzung des geschätzten Tiefenbildes durch Verluste, die abgeleitet werden aus Differenzen der Folgenden: des synthetischen Bildes und Originalbildern, eines geschätzten Tiefenbildes und einer gemessenen Radarentfernung und einer geschätzten Dopplerinformation und einer gemessenen Radar-Dopplerinformation.
  11. System nach Anspruch 9, wobei das erste Eingabebild eine Quellansicht Is zwischen < I1, ... In > ist und das zweite Eingabebild eine Zielansicht von It(1 ≤ t ≤ N, s ≠ t) ist.
DE102019115874.5A 2018-11-27 2019-06-11 Systeme und verfahren zur verbesserten entfernungsschätzung durch eine monokamera unter verwendung von radar- und bewegungsdaten Granted DE102019115874A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/200,932 US10861176B2 (en) 2018-11-27 2018-11-27 Systems and methods for enhanced distance estimation by a mono-camera using radar and motion data
US16/200,932 2018-11-27

Publications (1)

Publication Number Publication Date
DE102019115874A1 true DE102019115874A1 (de) 2020-05-28

Family

ID=70545963

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019115874.5A Granted DE102019115874A1 (de) 2018-11-27 2019-06-11 Systeme und verfahren zur verbesserten entfernungsschätzung durch eine monokamera unter verwendung von radar- und bewegungsdaten

Country Status (3)

Country Link
US (1) US10861176B2 (de)
CN (1) CN111223135B (de)
DE (1) DE102019115874A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112673233A (zh) * 2020-12-10 2021-04-16 北京嘀嘀无限科技发展有限公司 地图构建***和方法
DE102022123465A1 (de) 2022-09-14 2024-03-14 Gestigon Gmbh Verfahren und system zum trainieren eines auswertungsmodells zum erkennen eines sitzbelegungszustands einer sitzanordnung auf basis von radarpunktwolken

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200071293A (ko) * 2018-12-11 2020-06-19 삼성전자주식회사 3차원 컬러 맵 기반의 측위 방법 및 장치
US10823562B1 (en) 2019-01-10 2020-11-03 State Farm Mutual Automobile Insurance Company Systems and methods for enhanced base map generation
US11341719B2 (en) * 2020-05-07 2022-05-24 Toyota Research Institute, Inc. System and method for estimating depth uncertainty for self-supervised 3D reconstruction
US20220005217A1 (en) * 2020-07-06 2022-01-06 Toyota Research Institute, Inc. Multi-view depth estimation leveraging offline structure-from-motion
CN112241978A (zh) * 2020-10-21 2021-01-19 广州小鹏自动驾驶科技有限公司 一种数据处理的方法和装置
CN112884003A (zh) * 2021-01-18 2021-06-01 中国船舶重工集团公司第七二四研究所 一种基于样本扩充器的雷达目标样本扩充生成方法
US11688090B2 (en) * 2021-03-16 2023-06-27 Toyota Research Institute, Inc. Shared median-scaling metric for multi-camera self-supervised depth evaluation
CN114608520B (zh) * 2021-04-29 2023-06-02 北京石头创新科技有限公司 一种测距方法、装置、机器人和存储介质
CN113635299B (zh) * 2021-07-23 2022-11-25 深圳市朗驰欣创科技股份有限公司 一种机械臂的校正方法、终端设备及存储介质
CN113674421B (zh) * 2021-08-25 2023-10-13 北京百度网讯科技有限公司 3d目标检测方法、模型训练方法、相关装置及电子设备
US20230080638A1 (en) * 2021-09-13 2023-03-16 Toyota Research Institute, Inc. Systems and methods for self-supervised learning of camera intrinsic parameters from a sequence of images
CN114440821B (zh) * 2022-02-08 2023-12-12 三一智矿科技有限公司 基于单目相机的测距方法及装置、介质、设备
US20230316728A1 (en) * 2022-03-31 2023-10-05 GM Global Technology Operations LLC Robust neural network learning system
CN115909255B (zh) * 2023-01-05 2023-06-06 北京百度网讯科技有限公司 图像生成、图像分割方法、装置、设备、车载终端及介质
CN115953410B (zh) * 2023-03-15 2023-05-12 安格利(成都)仪器设备有限公司 一种基于目标检测监督学习的腐蚀坑自动检测方法
CN117970318A (zh) * 2024-04-02 2024-05-03 所托(杭州)汽车智能设备有限公司 目标融合方法、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2753197C (en) * 2009-02-20 2018-09-11 Digital Signal Corporation System and method for generating three dimensional images using lidar and video measurements
US10341633B2 (en) * 2015-11-20 2019-07-02 Qualcomm Incorporated Systems and methods for correcting erroneous depth information
US10592805B2 (en) * 2016-08-26 2020-03-17 Ford Global Technologies, Llc Physics modeling for radar and ultrasonic sensors
US10445928B2 (en) * 2017-02-11 2019-10-15 Vayavision Ltd. Method and system for generating multidimensional maps of a scene using a plurality of sensors of various types
US10755428B2 (en) * 2017-04-17 2020-08-25 The United States Of America, As Represented By The Secretary Of The Navy Apparatuses and methods for machine vision system including creation of a point cloud model and/or three dimensional model
US10824862B2 (en) * 2017-11-14 2020-11-03 Nuro, Inc. Three-dimensional object detection for autonomous robotic systems using image proposals
US20190349571A1 (en) * 2018-05-11 2019-11-14 Ford Global Technologies, Llc Distortion correction for vehicle surround view camera projections
US20200074230A1 (en) * 2018-09-04 2020-03-05 Luminar Technologies, Inc. Automatically generating training data for a lidar using simulated vehicles in virtual space

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112673233A (zh) * 2020-12-10 2021-04-16 北京嘀嘀无限科技发展有限公司 地图构建***和方法
CN112673233B (zh) * 2020-12-10 2024-04-16 北京嘀嘀无限科技发展有限公司 地图构建***和方法
DE102022123465A1 (de) 2022-09-14 2024-03-14 Gestigon Gmbh Verfahren und system zum trainieren eines auswertungsmodells zum erkennen eines sitzbelegungszustands einer sitzanordnung auf basis von radarpunktwolken

Also Published As

Publication number Publication date
CN111223135B (zh) 2024-04-30
US10861176B2 (en) 2020-12-08
CN111223135A (zh) 2020-06-02
US20200167941A1 (en) 2020-05-28

Similar Documents

Publication Publication Date Title
DE102019115874A1 (de) Systeme und verfahren zur verbesserten entfernungsschätzung durch eine monokamera unter verwendung von radar- und bewegungsdaten
DE102008027723B4 (de) Bildverarbeitungsvorrichtung zum Verringern von Effekten von Nebel bezüglich Abbildungen, die von einer in ein Fahrzeug eingebauten Kamera erzielt werden, und Fahrerunterstützungsvorrichtung, welche sich ergebende verarbeitete Abbildungen verwendet
DE102018121019A1 (de) Erweitern von realen sensoraufzeichnungen mit simulierten sensordaten
DE102019133536A1 (de) Verfahren und Vorrichtung zum Ermöglichen der sequentiellen Bodenansichts-Bildprojektionssynthese und der komplizierten Szenenrekonstruktion an Kartenanomalie-Hotspots
DE102017120112A1 (de) Tiefenkartenschätzung mit stereobildern
DE112017001322T5 (de) Signalverarbeitungsvorrichtung und Signalverarbeitungsverfahren
DE102020214863A1 (de) Selbstüberwachtes verfahren und system zur tiefenschätzung
DE102013209415A1 (de) Dynamische Hinweisüberlagerung mit Bildbeschneidung
DE102020113848A1 (de) Ekzentrizitätsbildfusion
DE102017218366A1 (de) Verfahren und system zur fussgängererfassung in einem fahrzeug
DE102012001554A1 (de) Verfahren zum Betreiben einer Fahrerassistenzeinrichtung eines Kraftfahrzeugs,Fahrerassistenzeinrichtung und Kraftfahrzeug
DE102016203710B4 (de) Abstands- und Richtungsschätzung eines Zielpunkts von einem Fahrzeug unter Verwendung einer monokularen Videokamera
DE102021129544A1 (de) Systeme und verfahren zur tiefenabschätzung in einem fahrzeug
DE102020102712A1 (de) Entfernung von fehlalarmen in der keulenbildungsphase zum erfassen von radaren unter verwendung eines tiefen neuronalen netzwerks
DE102021103370A1 (de) Objekterkennung mittels low-level-kamera-radar-fusion
DE112018004529T5 (de) Positionsschätzeinrichtung und positionsschätzverfahren einer mobileinheit
DE112022001546T5 (de) Systeme und Verfahren zur Erzeugung von Objekterkennungs-Labels unter Verwendung fovealer Bildvergrößerung für autonomes Fahren
DE102022102934A1 (de) Ereignisbasierte fahrzeugposenschätzung unter verwendung monochromatischer bildgebung
DE102023101354A1 (de) Sensorfusion
DE102022108656A1 (de) Neuronales quantilnetz
DE102021125592A1 (de) Verkehrskamerakalibrierung
DE102022108842A1 (de) Online-Validierung der LIDAR-LIDAR-Ausrichtung und der LIDAR-Fahrzeug-Ausrichtung
DE102021120966A1 (de) Sensorfusion
DE112021003430T5 (de) Bildverarbeitungsvorrichtung
DE102021202641A1 (de) Verfahren zur Bestimmung eines Bewegungszustands eines starren Körpers

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: LK GLOBAL PATENTANWAELTE PARTGMBB, DE

R016 Response to examination communication
R018 Grant decision by examination section/examining division