WO2022058243A1

WO2022058243A1 - Verfahren und system zur monokularen tiefenschätzung

Info

Publication number: WO2022058243A1
Application number: PCT/EP2021/074935
Authority: WO
Inventors: Dirk Raproeger; Emil Schreiber; Masato Takami; Moritz Michael Knorr; Dimitrios Bariamis; Uwe Brosch
Original assignee: Robert Bosch Gmbh
Priority date: 2020-09-17
Filing date: 2021-09-10
Publication date: 2022-03-24
Also published as: DE102020211670A1

Abstract

Die Erfindung betrifft ein computerimplementiertes Verfahren zum Bereitstellen eines trainierten Algorithmus (A1) maschinellen Lernens zur monokularen Tiefenschätzung. Die Erfindung betrifft des Weiteren ein computerimplementiertes Verfahren und System zur monokularen Tiefenschätzung. Das System umfasst einen Kamerasensor (112), welcher dazu eingerichtet ist, Bilddaten (D2') eines aufgenommenen Einzelbildes (116) einer Szene (18) bereitzustellen. Das System umfasst ferner eine Recheneinrichtung (24), welche dazu eingerichtet ist, das Verfahren zur monokularen Tiefenschätzung auszuführen.

Description

Beschreibung

Titel

Verfahren und System zur monokularen Tiefenschätzung

Die Erfindung betrifft ein computerimplementiertes Verfahren zum Bereitstellen eines trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung. Die Erfindung betrifft des Weiteren ein computerimplementiertes Verfahren zur monokularen Tiefenschätzung. Die Erfindung betrifft ferner ein System zur monokularen Tiefenschätzung.

Eine Aufgabenstellung für moderne Computer- Vision-Systeme ist eine Bildtiefenschätzung anhand eines einzelnen Kamerabildes. Dabei soll eine Tiefenkarte bzw. sollen Tiefenwerte erstellt werden, die zu jedem Bildpixel bzw. Bildpunkt den jeweiligen Abstand des sichtbaren Objekts von der Kamera enthält. Anders als bei Verfahren, die auf mehreren Kameraperspektiven beruhen, z.B. Stereo-Tiefenschätzung oder Structure-from-Motion, muss bei der Einzelkamera-Tiefenschätzung die nötige Information aus den Bildinhalten, z.B. Größe, Lage und relative Beziehung der sichtbaren Objekte hergeleitet werden. Hierzu kommen tiefe neuronale Netze zum Einsatz.

Ein wichtiger bestehender Ansatz, um solche neuronalen Netze für die Tiefenschätzung zu trainieren, ist die Nutzung einer photometrischen Kostenfunktion, die die Ähnlichkeit einer mit Hilfe der Tiefenkarte synthetisierten Kameraansicht mit einer Referenzansicht vergleicht. Hierfür werden in der Regel Aufnahmen mit Stereo- Kameras für das Training verwendet. Eine Veröffentlichung, die diese grundlegende Methode vorstellt, ist C. Godard, O. Mac Aodha, G. J. Brostow, 2016: Unsupervised Monocular Depth Estimation with Left- Right Consistency. Neuere Veröffentlichungen entwickeln diese Idee weiter, basieren dabei aber weiter auf dem gleichen Ansatz einer photometrischen Kostenfunktion auf Stereo-Bilddaten, z.B. F. Tosi, F. Aleotti, M. Poggi, S. Mattoccia, 2019: Learning monocular depth estimation infusing traditional stereo knowledge.

Diese Trainingsmethode wird selbstüberwacht genannt, da außer den Stereobilddaten keine weiteren Label-Informationen verfügbar sein müssen. Dies ist ein großer Vorteil gegenüber den alternativen klassischen überwachten Methoden für die die Tiefeninformation als ground truth vorliegen muss, z.B. basierend auf LIDAR oder über voll synthetische Daten.

Bisherige Methoden des selbstüberwachten Trainings mit photometrischer Kostenfunktion setzen voraus, dass die Stereokameradaten zuvor in ein vereinheitlichtes Kamerakoordinatensystem überführt bzw. rektifiziert werden. Dies ermöglicht die Synthese der zweiten Kameraansicht durch Verschiebung der Bildinhalte ausschließlich entlang horizontaler Linien.

Nachteil der Rektifizierung ist, dass es insbesondere für Kameramodelle, die stark von einem einfachen Lochkameramodell abweichen, z.B.

Fischaugenkameras, zu ungewollten Verzerrungen und Verlusten durch die Rektifizierung kommen kann. Dazu zählen ein effektiver Auflösungsverlust in Teilbereichen des Bildes durch die nötige Reprojektion und Interpolation sowie ein Abschneiden von Randbereichen, die nach der Rektifizierung nicht mehr in das rechteckige Ausgabeformat fallen.

Weitere Nachteile sind eine teilweise starke Verzerrung der Proportionen von Bildobjekten am Rand des Blickfeldes und eine generelle Unmöglichkeit der Abbildung von Blickfeldern mit Öffn ungswin kein von 180 Grad oder mehr.

Der Erfindung liegt somit die Aufgabe zugrunde, ein verbessertes Verfahren zum Bereitstellen eines trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung sowie ein Verfahren und System zur monokularen Tiefenschätzung bereitzustellen. Die Aufgabe wird mit einem computerimplementierten Verfahren zum Bereitstellen eines trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung mit den Merkmalen des Patentanspruchs 1 gelöst.

Des Weiteren wird die Aufgabe mit einem computerimplementierten Verfahren zur monokularen Tiefenschätzung mit den Merkmalen des Patentanspruchs 12 gelöst.

Ferner wird die Aufgabe mit einem System zur monokularen Tiefenschätzung mit den Merkmalen des Patentanspruchs 13, einem Computerprogramm mit den Merkmalen des Patentanspruchs 14 und einem computerlesbaren Datenträger mit den Merkmalen des Patentanspruchs 15 gelöst.

Offenbarung der Erfindung

Die vorliegende Erfindung schafft ein computerimplementiertes Verfahren zum Bereitstellen eines trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung. Das Verfahren umfasst ein Bereitstellen von ersten Bilddaten eines durch einen ersten Kamerasensor aufgenommenen ersten Einzelbildes einer Szene und von zweiten Bilddaten eines durch einen zweiten Kamerasensor aufgenommenen zweiten Einzelbildes der Szene.

Bei dem Algorithmus maschinellen Lernens handelt es sich um ein mathematisches bzw. statistisches Modell, welches auf Trainingsdaten beruht, d.h. unter Verwendung von Trainingsdaten angelernt wurde.

Das Verfahren umfasst des Weiteren ein Empfangen der zweiten Bilddaten durch einen ersten Algorithmus maschinellen Lernens, welcher den zweiten Bilddaten zugeordnete Tiefenwerte ermittelt. Ferner umfasst das Verfahren ein Empfangen der ersten Bilddaten und der den zweiten Bilddaten zugeordneten Tiefenwerte durch einen zweiten Algorithmus, welcher durch geometrisches Transformieren der ersten Bilddaten dritte Bilddaten eines dem zweiten Einzelbild entsprechenden virtuellen zweiten Einzelbildes berechnet. Darüber hinaus umfasst das Verfahren ein Ermitteln eines pixelweisen photometrischen Verlustes durch Berechnen einer Pixelwertdifferenz von Pixelwerten der zweiten Bilddaten des zweiten Einzelbildes und Pixelwerten der dritten Bilddaten des virtuellen zweiten Einzelbildes. Ferner umfasst das Verfahren ein Trainieren des ersten Algorithmus maschinellen Lernens durch einen Optimierungsalgorithmus, welcher einen Extremwert einer photometrischen Verlustfunktion der ermittelten Pixelwertdifferenz berechnet.

Die vorliegende Erfindung schafft des Weiteren ein computerimplementiertes Verfahren zur monokularen Tiefenschätzung. Das Verfahren umfasst ein Bereitstellen von Bilddaten eines durch einen Kamerasensor aufgenommenen Einzelbildes einer Szene, ein Empfangen der Bilddaten durch einen erfindungsgemäßen trainierten Algorithmus maschinellen Lernens, welcher auf die Bilddaten angewendet wird und ein Ermitteln sowie Ausgeben von den Bilddaten zugeordneten Tiefenwerten durch den Algorithmus maschinellen Lernens.

Die Erfindung schafft darüber hinaus ein System zur monokularen Tiefenschätzung mit einem Kamerasensor, welcher dazu eingerichtet ist, Bilddaten eines aufgenommenen Einzelbildes einer Szene bereitzustellen, und eine Recheneinrichtung, welche dazu eingerichtet ist, das erfindungsgemäße Verfahren zur monokularen Tiefenschätzung auszuführen.

Die Erfindung schafft darüber hinaus ein Computerprogramm mit Programmcode, um zumindest eines der erfindungsgemäßen Verfahren durchzuführen, wenn das Computerprogramm auf einem Computer ausgeführt wird.

Die Erfindung schafft ferner einen computerlesbaren Datenträger mit Programmcode eines Computerprogramms, um zumindest eines der erfindungsgemäßen Verfahren durchzuführen, wenn das Computerprogramm auf einem Computer ausgeführt wird.

Eine Idee der vorliegenden Erfindung ist es, dadurch, dass der erste Algorithmus maschinellen Lernens die zweiten Bilddaten in einem nicht-rektifizierten Zustand verarbeiten kann, das erfindungsgemäße Verfahren zum Bereitstellen eines trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung sowie das Verfahren zur monokularen Tiefenschätzung für beliebige Kameramodelle einzusetzen.

Mithilfe des erfindungsgemäßen Verfahrens können somit für beliebige Kameramodelle virtuelle Kameraansichten synthetisiert werden, sodass das Training des Algorithmus maschinellen Lernens zur Tiefenschätzung direkt auf beliebigen Eingangsbilddaten ermöglicht wird. Gerade bei Anwendungen, welche Kamerasensoren mit großem Öffnungswinkel verwenden, ist dies von Vorteil, da wie vorstehend erwähnt die Rektifizierung mit mitunter starken Verzerrungen und/oder Informationsverlust durch Beschneidung einhergeht.

Das erfindungsgemäße Verfahren bietet somit eine verbesserte Tiefenschätzung aus Einzelbilddaten beispielsweise für einen Einsatz im Automobil-, Überwachungs-, Robotik- und/oder Consumerbereich. Ferner ist die Verwendung im Rahmen einer Fahrzeuginsassenbeobachtung denkbar, da bei sämtlichen der vorstehend genannten Einsatzszenarien Kamerasensoren mit großem Öffnungswinkel, insbesondere Fischaugen- Kamerasensoren, zum Einsatz kommen. Für diese Anwendungsfälle schafft das Verfahren somit eine verbesserte Tiefenschätzung basierend auf Einzelbildern eines Kamerasensors.

Vorteilhafte Ausführungsformen und Weiterbildungen ergeben sich aus den Unteransprüchen sowie aus der Beschreibung unter Bezugnahme auf die Figuren.

Gemäß einer bevorzugten Weiterbildung ist vorgesehen, dass der erste Algorithmus maschinellen Lernens durch ein neuronales Faltungsnetz gebildet ist, und wobei der Optimierungsalgorithmus ein Gradientenverfahren verwendet, bei welchem der Extremwert, insbesondere ein Minimum oder ein Maximum, auf einer durch einen Definitionsbereich der Pixelwerte der zweiten Bilddaten des zweiten Einzelbildes und einen Wertebereich der Pixelwerte der dritten Bilddaten des virtuellen zweiten Einzelbildes gebildeten Hyperfläche bestimmt wird. Somit kann das neuronale Faltungsnetz in vorteilhafter Weise sukzessive trainiert werden, Tiefenwerte der zweiten Bilddaten zu erzeugen, welche die Berechnung virtueller zweiter Einzelbilder ermöglicht, die den ursprünglichen durch den zweiten Kamerasensor aufgenommenen zweiten Einzelbilder möglichst exakt entsprechen.

Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass die Pixelwerte der zweiten Bilddaten des zweiten Einzelbildes und die Pixelwerte der dritten Bilddaten des virtuellen zweiten Einzelbildes eine Bildhelligkeit repräsentieren. Die Bildhelligkeit kann beispielsweise anhand von Graustufenwerten oder RGB- Farbwerten gegeben sein. Somit kann in vorteilhafter Weise eine exakte Bestimmung der Pixelwertdifferenz zwischen den Pixelwerten der zweiten Bilddaten des zweiten Einzelbildes und den Pixelwerten der dritten Bilddaten des virtuellen zweiten Einzelbildes ermittelt werden.

Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass die bereitgestellten ersten Bilddaten des durch den ersten Kamerasensor aufgenommenen ersten Einzelbildes der Szene unter Verwendung eines Rektifizierungsalgorithmus, insbesondere eines Interpolationsverfahrens, eines parametrischen Verfahrens oder einer Transformationsgleichung, rektifiziert werden. Die Rektifizierung wird somit an den ersten Bilddaten vorgenommen, welche nicht zur Bestimmung der Tiefenwerte verwendet werden.

Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass die durch den ersten Algorithmus maschinellen Lernens ermittelten Tiefenwerte und die bereitgestellten zweiten Bilddaten des durch den zweiten Kamerasensor aufgenommenen zweiten Einzelbildes der Szene unter Verwendung des Rektifizierungsalgorithmus rektifiziert werden. Die Rektifizierung erfolgt somit in vorteilhafter Weise nach Verarbeitung der zweiten Bilddaten durch den ersten Algorithmus maschinellen Lernens.

Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass auf die durch den zweiten Algorithmus berechneten, rektifizierten dritten Bilddaten des dem zweiten Einzelbild entsprechenden virtuellen zweiten Einzelbildes ein Rektifizierungsumkehralgorithmus angewendet wird, um ein virtuelles zweites Einzelbild in den Bildkoordinaten des ursprünglich bereitgestellten zweiten Einzelbildes zu erhalten. Somit kann das Ermitteln des pixelweisen photometrischen Verlustes durch Berechnen der Pixelwertdifferenz von Pixelwerten der zweiten Bilddaten des zweiten Einzelbildes und Pixelwerten der dritten Bilddaten des virtuellen zweiten Einzelbildes auf Basis nicht-rektifizierter Bilddaten erfolgen.

Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass zu jedem Pixel des zweiten Einzelbildes ein normierter 3 D-Sichtstrahl bestimmt wird, welcher mit dem durch den ersten Algorithmus maschinellen Lernens ermittelten Tiefenwert des Pixels zum Berechnen von 3D- Weltkoordinaten des Pixels multipliziert wird. Somit kann das zweidimensionale Einzelbild des zweiten Kamerasensors in 3D-Weltkoordinaten übertragen werden.

Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass die 3D- Weltkoordinaten der Pixel des zweiten Einzelbildes unter Verwendung einer Information einer Rotation und Translation zwischen dem ersten Kamerasensor und dem zweiten Kamerasensor von einem 3D-Koordinatensystem des zweiten Einzelbildes in ein 3D- Koordinatensystem des ersten Einzelbildes übertragen werden. Somit können die Bilddaten des zweiten Einzelbildes aufgrund der durchgeführten Transformation in das Koordinatensystem des ersten Einzelbildes übertragen werden.

Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass die in das 3D- Koordinatensystem des ersten Einzelbildes übertragenen 3D- Weltkoordinaten der Pixel des zweiten Einzelbildes in ein 2D-Koordinatensystem des ersten Einzelbildes projiziert werden, und wobei durch Auslesen von Farboder Graustufenwerten der Pixel in dem 2D-Koordinatensystem des ersten Einzelbildes das virtuelle zweite Einzelbild erzeugt wird.

Durch vorstehend genannte Verfahrensschritte ist es somit in vorteilhafter Weise möglich, durch Anwendung im Wesentlichen umgekehrter Berechnungen aus den 3D- Weltkoordinaten des ersten Einzelbildes 2D- Koordinaten des virtuellen zweiten Einzelbildes zu berechnen.

Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass der Schritt des Bestimmens des normierten 3D-Sichtstrahls zu jedem Pixel des zweiten Einzelbildes und/oder des Projizierens der in das 3D- Koordinatensystem des ersten Einzelbildes übertragenen 3D-Weltkoordinaten der Pixel des zweiten Einzelbildes in das 2D- Koordinatensystem des ersten Einzelbildes unter Verwendung einer Wertetabelle durchgeführt wird. Wiederkehrende Berechnungsschritte können somit in effizienter Art und Weise durch Verwendung einer entsprechenden Wertetabelle durchgeführt werden.

Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass die bereitgestellten ersten Bilddaten des durch den ersten Kamerasensor aufgenommenen ersten Einzelbildes der Szene und/oder die bereitgestellten zweiten Bilddaten des durch den zweiten Kamerasensor aufgenommenen zweiten Einzelbildes der Szene durch einen Transformationsalgorithmus in ein vorgegebenes Kamerakoordinatensystem geometrisch transformiert werden.

Somit ist es in vorteilhafter Weise möglich, die Bilddaten der jeweiligen Einzelbilder in ein beliebiges gewünschtes Kamerakoordinatensystem zu transformieren. Wenn beispielsweise der erste Kamerasensor einen Öffnungswinkel von 60° und der zweite Kamerasensor einen Öffnungswinkel von 90° aufweist, können die Daten eines der Kamerasensoren somit in das Kamerakoordinatensystem des anderen Kamerasensors übertragen werden.

Die beschriebenen Ausgestaltungen und Weiterbildungen lassen sich beliebig miteinander kombinieren.

Weitere mögliche Ausgestaltungen, Weiterbildungen und Implementierungen der Erfindung umfassen auch nicht explizit genannte Kombinationen von zuvor oder im Folgenden bezüglich der Ausführungsbeispiele beschriebenen Merkmale der Erfindung.

Kurze Beschreibung der Zeichnungen

Die beiliegenden Zeichnungen sollen ein weiteres Verständnis der Ausführungsformen der Erfindung vermitteln. Sie veranschaulichen Ausführungsformen und dienen im Zusammenhang mit der Beschreibung der Erklärung von Prinzipien und Konzepten der Erfindung. Andere Ausführungsformen und viele der genannten Vorteile ergeben sich im Hinblick auf die Zeichnungen. Die dargestellten Elemente der Zeichnungen sind nicht notwendigerweise maßstabsgetreu zueinander gezeigt.

Es zeigen:

Fig. 1 ein Ablaufdiagramm eines computerimplementierten Verfahrens zum Bereitstellen eines trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung sowie eines Verfahrens zur monokularen Tiefenschätzung gemäß einer ersten Ausführungsform der Erfindung;

Fig. 2 ein Ablaufdiagramm des computerimplementierten Verfahrens zum Bereitstellen des trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung sowie des Verfahrens zur monokularen Tiefenschätzung gemäß einer zweiten Ausführungsform der Erfindung;

Fig. 3 ein Ablaufdiagramm des computerimplementierten Verfahrens zum Bereitstellen des trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung sowie des Verfahrens zur monokularen Tiefenschätzung gemäß einer dritten Ausführungsform der Erfindung;

Fig. 4 ein Ablaufdiagramm einer verallgemeinerten Ansichtssynthese ohne Rektifizierung der Bilddaten gemäß der zweiten und dritten Ausführungsform der Erfindung; und

Fig. 5 eine schematische Darstellung eines Systems zur monokularen Tiefenschätzung gemäß der ersten bis dritten Ausführungsform der Erfindung. In den Figuren der Zeichnungen bezeichnen gleiche Bezugszeichen gleiche oder funktionsgleiche Elemente, Bauteile oder Komponenten, soweit nichts Gegenteiliges angegeben ist.

Fig. 1 zeigt ein Ablaufdiagramm eines computerimplementierten Verfahrens zum Bereitstellen eines trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung sowie eines Verfahrens zur monokularen Tiefenschätzung gemäß einer ersten Ausführungsform der Erfindung.

Das Verfahren umfasst ein Bereitstellen S1 von ersten Bilddaten Dl eines durch einen ersten Kamerasensor 10 aufgenommenen ersten Einzelbildes 14 einer Szene 18 und von zweiten Bilddaten D2 eines durch einen zweiten Kamerasensor 12 aufgenommenen zweiten Einzelbildes 16 der Szene 18.

Der erste Kamerasensor 10 kann beispielsweise ein linker Kamerasensor und der zweite Kamerasensor 12 ein rechter Kamerasensor sein, welche in einem vorbestimmen Abstand zueinander angeordnet sind und dieselbe Szene 18 aus verschiedenen Perspektiven bzw. Sichtwinkeln aufnehmen.

Die bereitgestellten ersten Bilddaten Dl des durch den ersten Kamerasensor 10 aufgenommenen ersten Einzelbildes 14 der Szene 18 werden unter Verwendung eines Rektifizierungsalgorithmus A4, insbesondere eines Interpolationsverfahrens, eines parametrischen Verfahrens oder einer Transformationsgleichung, rektifiziert 14R.

Das Verfahren umfasst des Weitern ein Empfangen S2 der zweiten Bilddaten D2 durch einen ersten Algorithmus Al maschinellen Lernens, welcher den zweiten Bilddaten D2 zugeordnete Tiefenwerte TW ermittelt S3.

Die durch den ersten Algorithmus Al maschinellen Lernens ermittelten Tiefenwerte TW und die bereitgestellten zweiten Bilddaten D2 des durch den zweiten Kamerasensor 12 aufgenommenen zweiten Einzelbildes 16 der Szene 18 werden unter Verwendung des Rektifizierungsalgorithmus A4 rektifiziert 16R. Darüber hinaus umfasst das Verfahren ein Empfangen S4 der ersten Bilddaten Dl und der den zweiten Bilddaten D2 zugeordneten Tiefenwerte TW durch einen zweiten Algorithmus A2, welcher durch geometrisches Transformieren der ersten Bilddaten Dl dritte Bilddaten D3 eines dem zweiten Einzelbild 16 entsprechenden virtuellen zweiten Einzelbildes 16‘R berechnet.

Auf die durch den zweiten Algorithmus A2 berechneten, rektifizierten dritten Bilddaten D3 des dem zweiten Einzelbild 16 entsprechenden virtuellen zweiten Einzelbildes 16‘ wird ein Rektifizierungsumkehralgorithmus A5 angewendet, um ein virtuelles zweites Einzelbild 16‘ in den Bildkoordinaten des ursprünglich bereitgestellten zweiten Einzelbildes 16 zu erhalten.

Ferner umfasst das Verfahren ein Ermitteln S5 eines pixelweisen photometrischen Verlustes L durch Berechnen einer Pixelwertdifferenz AP von Pixelwerten PW2 der zweiten Bilddaten D2 des zweiten Einzelbildes 16 und Pixelwerten PW3 der dritten Bilddaten D3 des virtuellen zweiten Einzelbildes 16‘, und ein Trainieren T, S6 des ersten Algorithmus Al maschinellen Lernens durch einen Optimierungsalgorithmus A3, welcher einen Extremwert E einer photometrischen Verlustfunktion CF der ermittelten Pixelwertdifferenz AP berechnet.

Der erste Algorithmus Al maschinellen Lernens ist durch ein neuronales Faltungsnetz gebildet. Der Optimierungsalgorithmus A3 verwendet ein Gradientenverfahren, bei welchem der Extremwert E, insbesondere ein Minimum oder ein Maximum, auf einer durch einen Definitionsbereich DB der Pixelwerte PW2 der zweiten Bilddaten D2 des zweiten Einzelbildes 16 und einen Wertebereich WB der Pixelwerte PW3 der dritten Bilddaten D3 des virtuellen zweiten Einzelbildes 16‘ gebildeten Hyperfläche bestimmt wird.

Die Pixelwerte PW2 der zweiten Bilddaten D2 des zweiten Einzelbildes 16 und die Pixelwerte PW3 der dritten Bilddaten D3 des virtuellen zweiten Einzelbildes 16‘ repräsentieren eine Bildhelligkeit.

Fig. 1 zeigt ferner die Inferenz (I) des trainierten Algorithmus Al maschinellen Lernens zur monokularen Tiefenschätzung. Das computerimplementierte Verfahren zur monokularen Tiefenschätzung, welches den nach den vorhergehend beschriebenen Schritten trainierten Algorithmus Al maschinellen Lernens einsetzt, umfasst ein Bereitstellen S1‘ von Bilddaten D2‘ eines durch einen Kamerasensor 112 aufgenommenen Einzelbildes 116 einer Szene 18.

Ferner umfasst das Verfahren ein Empfangen S2‘ der Bilddaten D2‘ durch den erfindungsgemäß trainierten Algorithmus Al maschinellen Lernens, welcher auf die Bilddaten D2‘ angewendet wird.

Überdies umfasst das Verfahren ein Ermitteln S3‘ und Ausgeben S4‘ von den Bilddaten D2‘ zugeordneten Tiefenwerten TW durch den Algorithmus Al maschinellen Lernens.

Fig. 2 zeigt ein Ablaufdiagramm des computerimplementierten Verfahrens zum Bereitstellen des trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung sowie des Verfahrens zur monokularen Tiefenschätzung gemäß einer zweiten Ausführungsform der Erfindung.

Das Verfahren umfasst des Weitern ein Empfangen S2 der zweiten Bilddaten D2 durch einen ersten Algorithmus Al maschinellen Lernens, welcher den zweiten Bilddaten D2 zugeordnete Tiefenwerte TW ermittelt S3. Darüber hinaus umfasst das Verfahren ein Empfangen S4 der ersten Bilddaten Dl und der den zweiten Bilddaten D2 zugeordneten Tiefenwerte TW durch einen zweiten Algorithmus A2, welcher durch geometrisches Transformieren der ersten Bilddaten Dl dritte Bilddaten D3 eines dem zweiten Einzelbild 16 entsprechenden virtuellen zweiten Einzelbildes 16‘ berechnet.

Ferner umfasst das Verfahren ein Ermitteln S5 eines pixelweisen photometrischen Verlustes L. Die Berechnung und das Training des ersten Algorithmus Al maschinellen Lernens wird dabei wie mit Bezug auf Fig. 1 beschrieben durchgeführt.

Fig. 2 zeigt ferner die Inferenz (I) des trainierten Algorithmus Al maschinellen Lernens zur monokularen Tiefenschätzung.

Das computerimplementierte Verfahren zur monokularen Tiefenschätzung, welches den nach den vorhergehend beschriebenen Schritten trainierten Algorithmus Al maschinellen Lernens einsetzt, umfasst dieselben Verfahrensschritte wie mit Bezug auf Fig. 1 beschrieben.

Fig. 3 zeigt ein Ablaufdiagramm des computerimplementierten Verfahrens zum Bereitstellen des trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung sowie des Verfahrens zur monokularen Tiefenschätzung gemäß einer dritten Ausführungsform der Erfindung.

Die bereitgestellten ersten Bilddaten Dl des durch den ersten Kamerasensor 10 aufgenommenen ersten Einzelbildes 14 der Szene 18 und/oder die bereitgestellten zweiten Bilddaten D2 des durch den zweiten Kamerasensor 12 aufgenommenen zweiten Einzelbildes 16 der Szene 18 werden durch einen Transformationsalgorithmus A6 in ein vorgegebenes Kamerakoordinatensystem geometrisch transformiert 14T, 16T. Das Verfahren umfasst des Weitern ein Empfangen S2 der zweiten Bilddaten D2 durch einen ersten Algorithmus Al maschinellen Lernens, welcher den zweiten Bilddaten D2 zugeordnete Tiefenwerte TW ermittelt S3.

Darüber hinaus umfasst das Verfahren ein Empfangen S4 der ersten Bilddaten Dl und der den zweiten Bilddaten D2 zugeordneten Tiefenwerte TW durch einen zweiten Algorithmus A2, welcher durch geometrisches Transformieren der ersten Bilddaten Dl dritte Bilddaten D3 eines dem zweiten Einzelbild 16 entsprechenden virtuellen zweiten Einzelbildes 16‘ berechnet.

Fig. 3 zeigt ferner die Inferenz (I) des trainierten Algorithmus Al maschinellen Lernens zur monokularen Tiefenschätzung.

Das computerimplementierte Verfahren zur monokularen Tiefenschätzung, welches den nach den vorhergehend beschriebenen Schritten trainierten Algorithmus Al maschinellen Lernens einsetzt, umfasst ein Bereitstellen S1‘ von Bilddaten D2‘ eines durch einen Kamerasensor 112 aufgenommenen Einzelbildes 116 einer Szene 18.

Die bereitgestellten Bilddaten D2‘ werden anschließend durch einen Transformationsalgorithmus A6 in ein vorgegebenes Kamerakoordinatensystem geometrisch transformiert 16T.

Ferner umfasst das Verfahren ein Empfangen S2‘ der Bilddaten D2‘ durch den erfindungsgemäß trainierten Algorithmus Al maschinellen Lernens, welcher auf die geometrisch transformierten Bilddaten D2‘ angewendet wird. Überdies umfasst das Verfahren ein Ermitteln S3‘ und Ausgeben S4‘ von den geometrisch transformierten Bilddaten D2‘ zugeordneten Tiefenwerten TW durch den Algorithmus Al maschinellen Lernens.

Fig. 4 zeigt ein Ablaufdiagramm einer verallgemeinerten Ansichtssynthese ohne Rektifizierung der Bilddaten gemäß der zweiten und dritten Ausführungsform der Erfindung.

Zu jedem Pixel des zweiten Einzelbildes 16 wird ein normierter 3D-Sichtstrahl 20 bestimmt, welcher mit dem durch den ersten Algorithmus Al maschinellen Lernens ermittelten Tiefenwert TW des Pixels zum Berechnen von 3D- Weltkoordinaten 22 des Pixels multipliziert wird.

Die 3D-Weltkoordinaten 22 der Pixel des zweiten Einzelbildes 16 werden unter Verwendung einer Information einer Rotation und Translation zwischen dem ersten Kamerasensor 10 und dem zweiten Kamerasensor 12 von einem 3D- Koordinatensystem 3DKS2 des zweiten Einzelbildes 16 in ein 3D- Koordinatensystem 3DKS1 des ersten Einzelbildes 14 übertragen.

Die in das 3D- Koordinatensystem 3DKS1 des ersten Einzelbildes 14 übertragenen 3D- Weltkoordinaten 22 der Pixel des zweiten Einzelbildes 16 werden in ein 2D- Koordinatensystem 2DKS1 des ersten Einzelbildes 14 projiziert. Durch Auslesen 26 von Färb- oder Graustufenwerten der Pixel in dem 2D- Koordinatensystem 2DKS1 des ersten Einzelbildes 14 wird das virtuelle zweite Einzelbild 16‘ erzeugt.

Der Schritt des Bestimmens des normierten 3D-Sichtstrahls 20 zu jedem Pixel des zweiten Einzelbildes 16 und/oder des Projizierens der in das 3D- Koordinatensystem 3DKS1 des ersten Einzelbildes 14 übertragenen 3D- Weltkoordinaten der Pixel des zweiten Einzelbildes 16 in das 2D- Koordinatensystem 2DKS1 des ersten Einzelbildes 14 wird unter Verwendung einer Wertetabelle WT durchgeführt.

Fig. 5 zeigt eine schematische Darstellung eines Systems zur monokularen Tiefenschätzung gemäß der ersten bis dritten Ausführungsform der Erfindung. Das System umfasst einen Kamerasensor 112, welcher dazu eingerichtet ist, Bilddaten D2‘ eines aufgenommenen Einzelbildes 116 einer Szene 18 bereitzustellen. Ferner umfasst das System eine Recheneinrichtung 24, welche dazu eingerichtet ist, das mit Bezug auf Fig.l bis Fig.4 beschriebene, erfindungsgemäße Verfahren auszuführen.

Claims

Ansprüche

1. Computerimplementiertes Verfahren zum Bereitstellen eines trainierten Algorithmus (Al) maschinellen Lernens zur monokularen Tiefenschätzung, mit den Schritten:

Bereitstellen (Sl) von ersten Bilddaten (Dl) eines durch einen ersten Kamerasensor (10) aufgenommenen ersten Einzelbildes (14) einer Szene (18) und von zweiten Bilddaten (D2) eines durch einen zweiten Kamerasensor (12) aufgenommenen zweiten Einzelbildes (16) der Szene (18);

Empfangen (S2) der zweiten Bilddaten (D2) durch einen ersten Algorithmus (Al) maschinellen Lernens, welcher den zweiten Bilddaten (D2) zugeordnete Tiefenwerte (TW) ermittelt (S3);

Empfangen (S4) der ersten Bilddaten (Dl) und der den zweiten Bilddaten (D2) zugeordneten Tiefenwerte (TW) durch einen zweiten Algorithmus (A2), welcher durch geometrisches Transformieren der ersten Bilddaten (Dl) dritte Bilddaten (D3) eines dem zweiten Einzelbild (16) entsprechenden virtuellen zweiten Einzelbildes (16‘) berechnet;

Ermitteln (S5) eines pixelweisen photometrischen Verlustes (L) durch Berechnen einer Pixelwertdifferenz (AP) von Pixelwerten (PW2) der zweiten Bilddaten (D2) des zweiten Einzelbildes (16) und Pixelwerten (PW3) der dritten Bilddaten (D3) des virtuellen zweiten Einzelbildes (16‘); und

Trainieren (S6) des ersten Algorithmus (Al) maschinellen Lernens durch einen Optimierungsalgorithmus (A3), welcher einen Extremwert (E) einer photometrischen Verlustfunktion (CF) der ermittelten Pixelwertdifferenz (AP) berechnet.

2. Computerimplementiertes Verfahren nach Anspruch 1, wobei der erste Algorithmus (Al) maschinellen Lernens durch ein neuronales Faltungsnetz gebildet ist, und wobei der Optimierungsalgorithmus (A3) ein Gradientenverfahren verwendet, bei welchem der Extremwert (E), insbesondere ein Minimum oder ein Maximum, auf einer durch einen Definitionsbereich (DB) der Pixelwerte (PW2) der zweiten Bilddaten (D2) des zweiten Einzelbildes (16) und einen Wertebereich (WB) der Pixelwerte (PW3) der dritten Bilddaten (D3) des virtuellen zweiten Einzelbildes (16‘) gebildeten Hyperfläche bestimmt wird. Computerimplementiertes Verfahren nach Anspruch 1 oder 2, wobei die Pixelwerte (PW2) der zweiten Bilddaten (D2) des zweiten Einzelbildes (16) und die Pixelwerte (PW3) der dritten Bilddaten (D3) des virtuellen zweiten Einzelbildes (16‘) eine Bildhelligkeit repräsentieren. Computerimplementiertes Verfahren nach einem der vorhergehenden Ansprüche, wobei die bereitgestellten ersten Bilddaten (Dl) des durch den ersten Kamerasensor (10) aufgenommenen ersten Einzelbildes (14) der Szene (18) unter Verwendung eines Rektifizierungsalgorithmus (A4), insbesondere eines Interpolationsverfahrens, eines parametrischen Verfahrens oder einer Transformationsgleichung, rektifiziert werden. Computerimplementiertes Verfahren nach Anspruch 4, wobei die durch den ersten Algorithmus (Al) maschinellen Lernens ermittelten Tiefenwerte (TW) und die bereitgestellten zweiten Bilddaten (D2) des durch den zweiten Kamerasensor (12) aufgenommenen zweiten Einzelbildes (16) der Szene (18) unter Verwendung des Rektifizierungsalgorithmus (A4) rektifiziert werden. Computerimplementiertes Verfahren nach Anspruch 4 oder 5, wobei auf die durch den zweiten Algorithmus (A2) berechneten, rektifizierten dritten Bilddaten (D3) des dem zweiten Einzelbild (16) entsprechenden virtuellen zweiten Einzelbildes (16‘) ein Rektifizierungsumkehralgorithmus (A5) angewendet wird, um ein virtuelles zweites Einzelbild (16‘) in den Bildkoordinaten des ursprünglich bereitgestellten zweiten Einzelbildes (16) zu erhalten. Computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 3, wobei zu jedem Pixel des zweiten Einzelbildes (16) ein normierter 3D- Sichtstrahl (20) bestimmt wird, welcher mit dem durch den ersten - 19 -

Algorithmus (Al) maschinellen Lernens ermittelten Tiefenwert (TW) des Pixels zum Berechnen von 3D- Weltkoordinaten (22) des Pixels multipliziert wird. Computerimplementiertes Verfahren nach Anspruch 7, wobei die 3D- Weltkoordinaten (22) der Pixel des zweiten Einzelbildes (16) unter Verwendung einer Information einer Rotation und Translation zwischen dem ersten Kamerasensor (10) und dem zweiten Kamerasensor (12) von einem 3D-Koordinatensystem (3DKS2) des zweiten Einzelbildes (16) in ein 3D- Koordinatensystem (3DKS1) des ersten Einzelbildes (14) übertragen werden. Computerimplementiertes Verfahren nach Anspruch 8, wobei die in das 3D- Koordinatensystem (3DKS1) des ersten Einzelbildes (14) übertragenen 3D- Weltkoordinaten (22) der Pixel des zweiten Einzelbildes (16) in ein 2D-Koordinatensystem (2DKS1) des ersten Einzelbildes (14) projiziert werden, und wobei durch Auslesen (26) von Färb- oder Graustufenwerten der Pixel in dem 2D-Koordinatensystem (2DKS1) des ersten Einzelbildes (14) das virtuelle zweite Einzelbild (16‘) erzeugt wird. Computerimplementiertes Verfahren nach Anspruch 7 oder 8, wobei der Schritt des Bestimmens des normierten 3D-Sichtstrahls (20) zu jedem Pixel des zweiten Einzelbildes (16) und/oder des Projizierens der in das 3D- Koordinatensystem (3DKS1) des ersten Einzelbildes (14) übertragenen 3D- Weltkoordinaten der Pixel des zweiten Einzelbildes (16) in das 2D- Koordinatensystem (2DKS1) des ersten Einzelbildes (14) unter Verwendung einer Wertetabelle (WT) durchgeführt wird. Computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 3, wobei die bereitgestellten ersten Bilddaten (Dl) des durch den ersten Kamerasensor (10) aufgenommenen ersten Einzelbildes (14) der Szene (18) und/oder die bereitgestellten zweiten Bilddaten (D2) des durch den zweiten Kamerasensor (12) aufgenommenen zweiten Einzelbildes (16) der Szene (18) durch einen Transformationsalgorithmus (A6) in ein vorgegebenes Kamerakoordinatensystem geometrisch transformiert werden. - 20 - Computerimplementiertes Verfahren zur monokularen Tiefenschätzung, mit den Schritten:

Bereitstellen (S1‘) von Bilddaten (D2‘) eines durch einen Kamerasensor (112) aufgenommenen Einzelbildes (116) einer Szene (18);

Empfangen (S2‘) der Bilddaten (D2‘) durch einen nach einem der Ansprüche 1 bis 11 trainierten Algorithmus (Al) maschinellen Lernens, welcher auf die Bilddaten (D2‘) angewendet wird; und Ermitteln (S3‘) und Ausgeben (S4‘) von den Bilddaten (D2‘) zugeordneten Tiefenwerten (TW) durch den Algorithmus (Al) maschinellen Lernens. System (100) zur monokularen Tiefenschätzung, aufweisend: einen Kamerasensor (112), welcher dazu eingerichtet ist, Bilddaten (D2‘) eines aufgenommenen Einzelbildes (116) einer Szene (18) bereitzustellen; und einer Recheneinrichtung (24), welche dazu eingerichtet ist, das Verfahren nach Anspruch 12 auszuführen. Computerprogramm mit Programmcode, um zumindest eines der Verfahren nach einem der Ansprüche 1 bis 12 durchzuführen, wenn das Computerprogramm auf einem Computer ausgeführt wird. Computerlesbarer Datenträger mit Programmcode eines Computerprogramms, um zumindest eines der Verfahren nach einem der Ansprüche 1 bis 12 durchzuführen, wenn das Computerprogramm auf einem Computer ausgeführt wird.