WO2022058243A1 - Verfahren und system zur monokularen tiefenschätzung - Google Patents

Verfahren und system zur monokularen tiefenschätzung Download PDF

Info

Publication number
WO2022058243A1
WO2022058243A1 PCT/EP2021/074935 EP2021074935W WO2022058243A1 WO 2022058243 A1 WO2022058243 A1 WO 2022058243A1 EP 2021074935 W EP2021074935 W EP 2021074935W WO 2022058243 A1 WO2022058243 A1 WO 2022058243A1
Authority
WO
WIPO (PCT)
Prior art keywords
image data
image
computer
individual image
algorithm
Prior art date
Application number
PCT/EP2021/074935
Other languages
English (en)
French (fr)
Inventor
Dirk Raproeger
Emil Schreiber
Masato Takami
Moritz Michael Knorr
Dimitrios Bariamis
Uwe Brosch
Original Assignee
Robert Bosch Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch Gmbh filed Critical Robert Bosch Gmbh
Publication of WO2022058243A1 publication Critical patent/WO2022058243A1/de

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/529Depth or shape recovery from texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • the invention relates to a computer-implemented method for providing a trained machine learning algorithm for monocular depth estimation.
  • the invention further relates to a computer-implemented method for monocular depth estimation.
  • the invention also relates to a system for monocular depth estimation.
  • a task for modern computer vision systems is an image depth estimation based on a single camera image.
  • a depth map or depth values are to be created that contain the respective distance of the visible object from the camera for each image pixel or image point.
  • the necessary information must be derived from the image content, e.g. size, position and relative relationship of the visible objects. Deep neural networks are used for this.
  • This training method is called self-monitored because no label information other than the stereo image data needs to be available. This is a great advantage over the alternative classic monitored methods for which the depth information must be available as ground truth, e.g. based on LIDAR or fully synthetic data.
  • Previous methods of self-monitored training with a photometric cost function require that the stereo camera data is converted or rectified into a unified camera coordinate system beforehand. This enables the synthesis of the second camera view by shifting the image content exclusively along horizontal lines.
  • the disadvantage of rectification is that it is particularly difficult for camera models that differ greatly from a simple pinhole camera model, e.g.
  • the invention is therefore based on the object of providing an improved method for providing a trained machine learning algorithm for monocular depth estimation and a method and system for monocular depth estimation.
  • the object is achieved with a computer-implemented method for providing a trained machine learning algorithm for monocular depth estimation with the features of patent claim 1 .
  • the present invention provides a computer-implemented method for providing a trained machine learning algorithm for monocular depth estimation.
  • the method includes providing first image data of a first individual image of a scene recorded by a first camera sensor and second image data of a second individual image of the scene recorded by a second camera sensor.
  • the machine learning algorithm is a mathematical or statistical model that is based on training data, i.e. was learned using training data.
  • the method also includes receiving the second image data by a first machine learning algorithm, which determines depth values associated with the second image data.
  • the method also includes receiving the first image data and the depth values assigned to the second image data by a second algorithm, which calculates third image data of a virtual second individual image corresponding to the second individual image by geometrically transforming the first image data.
  • the method includes determining a pixel-by-pixel photometric loss by calculating a pixel value difference between pixel values of the second image data of the second individual image and pixel values of the third image data of the virtual second individual image.
  • the method also includes training the first machine learning algorithm using an optimization algorithm which calculates an extreme value of a photometric loss function of the determined pixel value difference.
  • the present invention further provides a computer-implemented method for monocular depth estimation.
  • the method includes providing image data of a single image of a scene recorded by a camera sensor, receiving the image data using a machine learning algorithm that is trained according to the invention and applied to the image data, and determining and outputting depth values associated with the image data using the machine learning algorithm.
  • the invention also creates a system for monocular depth estimation with a camera sensor that is set up to provide image data of a recorded individual image of a scene, and a computing device that is set up to execute the method for monocular depth estimation according to the invention.
  • the invention also creates a computer program with program code in order to carry out at least one of the methods according to the invention when the computer program is run on a computer.
  • the invention also creates a computer-readable data carrier with program code of a computer program in order to carry out at least one of the methods according to the invention when the computer program is run on a computer.
  • An idea of the present invention is that the first machine learning algorithm reads the second image data in a non-rectified state can process, to use the method according to the invention for providing a trained machine learning algorithm for monocular depth estimation and the method for monocular depth estimation for any camera models.
  • virtual camera views can thus be synthesized for any camera models, so that the machine learning algorithm for depth estimation can be trained directly on any input image data. This is particularly advantageous in applications that use camera sensors with a large opening angle, since, as mentioned above, the rectification is sometimes associated with severe distortions and/or loss of information due to clipping.
  • the method according to the invention thus offers improved depth estimation from individual image data, for example for use in the automotive, surveillance, robotics and/or consumer sector. Furthermore, use in the context of vehicle occupant monitoring is conceivable, since camera sensors with a large opening angle, in particular fish-eye camera sensors, are used in all of the above-mentioned application scenarios. For these applications, the method thus creates an improved depth estimation based on individual images from a camera sensor.
  • the first machine learning algorithm is formed by a neural convolution network
  • the optimization algorithm uses a gradient method in which the extreme value, in particular a minimum or a maximum, is based on a defined range of the pixel values of the second image data of the second individual image and a value range of the pixel values of the third image data of the virtual second individual image is determined.
  • the neural convolution network can thus advantageously be successively trained to generate depth values of the second image data which the calculation virtual second individual images that correspond as exactly as possible to the original second individual images recorded by the second camera sensor.
  • the pixel values of the second image data of the second individual image and the pixel values of the third image data of the virtual second individual image represent an image brightness.
  • the image brightness can be given, for example, using gray scale values or RGB color values.
  • the provided first image data of the first individual image of the scene recorded by the first camera sensor is rectified using a rectification algorithm, in particular an interpolation method, a parametric method or a transformation equation.
  • the rectification is thus performed on the first image data that is not used to determine the depth values.
  • the depth values determined by the first machine learning algorithm and the provided second image data of the second individual image of the scene recorded by the second camera sensor are rectified using the rectification algorithm.
  • the rectification is thus advantageously carried out after the second image data has been processed by the first machine learning algorithm.
  • a rectification inversion algorithm is applied to the rectified third image data calculated by the second algorithm of the virtual second individual image corresponding to the second individual image in order to obtain a virtual second individual image in the image coordinates of the second individual image originally provided.
  • a normalized 3D line of sight is determined for each pixel of the second individual image, which is multiplied by the depth value of the pixel determined by the first machine learning algorithm to calculate the 3D world coordinates of the pixel.
  • the two-dimensional frame of the second camera sensor can be transferred into 3D world coordinates.
  • the 3D world coordinates of the pixels of the second individual image are converted from a 3D coordinate system of the second individual image into a 3D coordinate system of the first individual image using information on a rotation and translation between the first camera sensor and the second camera sensor be transmitted.
  • the image data of the second individual image can thus be transferred into the coordinate system of the first individual image on the basis of the transformation carried out.
  • the 3D world coordinates of the pixels of the second individual image transferred into the 3D coordinate system of the first individual image are projected into a 2D coordinate system of the first individual image, and by reading out color or gray scale values of the pixels in the 2D -Coordinate system of the first frame the virtual second frame is generated.
  • the step of determining the normalized 3D visual beam for each pixel of the second frame and/or projecting the 3D world coordinates of the pixels of the second frame transferred into the 3D coordinate system of the first frame into the 2D coordinate system of the first frame using a look-up table can thus be carried out in an efficient manner by using a corresponding table of values.
  • the provided first image data of the first individual image of the scene recorded by the first camera sensor and/or the provided second image data of the second individual image of the scene recorded by the second camera sensor are transformed geometrically by a transformation algorithm into a predefined camera coordinate system .
  • the image data of the respective individual images into any desired camera coordinate system.
  • the first camera sensor has an opening angle of 60° and the second camera sensor has an opening angle of 90°
  • the data from one of the camera sensors can thus be transferred to the camera coordinate system of the other camera sensor.
  • FIG. 1 shows a flowchart of a computer-implemented method for providing a trained machine learning algorithm for monocular depth estimation and a method for monocular depth estimation according to a first embodiment of the invention
  • FIG. 2 shows a flowchart of the computer-implemented method for providing the trained machine learning algorithm for monocular depth estimation and the method for monocular depth estimation according to a second embodiment of the invention
  • FIG. 3 shows a flowchart of the computer-implemented method for providing the trained machine learning algorithm for monocular depth estimation and the method for monocular depth estimation according to a third embodiment of the invention
  • FIG. 4 shows a flow chart of a generalized view synthesis without rectification of the image data according to the second and third embodiment of the invention.
  • FIG. 5 is a schematic representation of a monocular depth estimation system according to the first to third embodiments of the invention.
  • the same reference symbols designate the same or functionally identical elements, parts or components, unless otherwise stated.
  • FIG. 1 shows a flowchart of a computer-implemented method for providing a trained machine learning algorithm for monocular depth estimation and a method for monocular depth estimation according to a first embodiment of the invention.
  • the method includes providing S1 first image data D1 of a first individual image 14 of a scene 18 recorded by a first camera sensor 10 and second image data D2 of a second individual image 16 of the scene 18 recorded by a second camera sensor 12.
  • the first camera sensor 10 can be, for example, a left camera sensor and the second camera sensor 12 can be a right camera sensor, which are arranged at a predetermined distance from one another and record the same scene 18 from different perspectives or viewing angles.
  • the provided first image data D1 of the first individual image 14 of the scene 18 recorded by the first camera sensor 10 is rectified 14R using a rectification algorithm A4, in particular an interpolation method, a parametric method or a transformation equation.
  • the method also includes receiving S2 the second image data D2 by a first algorithm A1 of machine learning, which determines depth values TW assigned to the second image data D2 S3.
  • the depth values TW determined by the first algorithm A1 of machine learning and the provided second image data D2 of the second individual image 16 of the scene 18 recorded by the second camera sensor 12 are rectified 16R using the rectification algorithm A4.
  • the method includes receiving S4 the first image data Dl and the depth values TW assigned to the second image data D2 by a second algorithm A2, which, by geometrically transforming the first image data Dl, generates third image data D3 of a virtual second individual image 16'R corresponding to the second individual image 16 calculated.
  • a rectification inversion algorithm A5 is applied to the rectified third image data D3 of the virtual second individual image 16' corresponding to the second individual image 16, calculated by the second algorithm A2, in order to obtain a virtual second individual image 16' in the image coordinates of the originally provided second individual image 16.
  • the method also includes determining S5 a pixel-by-pixel photometric loss L by calculating a pixel value difference AP of pixel values PW2 of the second image data D2 of the second individual image 16 and pixel values PW3 of the third image data D3 of the virtual second individual image 16', and training T, S6 of the first Al machine learning algorithm by an optimization algorithm A3, which calculates an extreme value E of a photometric loss function CF of the determined pixel value difference AP.
  • the first machine learning algorithm A1 is formed by a neural convolution network.
  • the optimization algorithm A3 uses a gradient method in which the extreme value E, in particular a minimum or a maximum, is based on a range defined by a definition range DB of the pixel values PW2 of the second image data D2 of the second individual image 16 and a value range WB of the pixel values PW3 of the third image data D3 of the virtual second frame 16 'formed hypersurface is determined.
  • the pixel values PW2 of the second image data D2 of the second individual image 16 and the pixel values PW3 of the third image data D3 of the virtual second individual image 16' represent an image brightness.
  • the computer-implemented method for monocular depth estimation includes providing S1' image data D2' of an individual image 116 of a scene 18 recorded by a camera sensor 112.
  • the method also includes receiving S2' the image data D2' by the machine learning algorithm A1 trained according to the invention, which is applied to the image data D2'.
  • the method includes determining S3' and outputting S4' of depth values TW associated with the image data D2' using the machine learning algorithm A1.
  • FIG. 2 shows a flowchart of the computer-implemented method for providing the trained machine learning algorithm for monocular depth estimation and the method for monocular depth estimation according to a second embodiment of the invention.
  • the method includes providing S1 first image data D1 of a first individual image 14 of a scene 18 recorded by a first camera sensor 10 and second image data D2 of a second individual image 16 of the scene 18 recorded by a second camera sensor 12.
  • the method includes providing S1 first image data D1 of a first individual image 14 of a scene 18 recorded by a first camera sensor 10 and second image data D2 of a second individual image 16 of the scene 18 recorded by a second camera sensor 12.
  • the method also includes receiving S2 the second image data D2 by a first algorithm A1 of machine learning, which determines depth values TW assigned to the second image data D2 S3.
  • the method includes receiving S4 the first image data Dl and the depth values TW assigned to the second image data D2 by a second algorithm A2, which calculates third image data D3 of a virtual second individual image 16' corresponding to the second individual image 16 by geometrically transforming the first image data D1 .
  • the method also includes determining S5 a pixel-by-pixel photometric loss L.
  • the calculation and training of the first machine learning algorithm A1 is carried out as described with reference to FIG. 1 .
  • the computer-implemented method for monocular depth estimation which uses the machine learning algorithm A1 trained according to the steps described above, comprises the same method steps as described with reference to FIG. 1 .
  • FIG. 3 shows a flowchart of the computer-implemented method for providing the trained machine learning algorithm for monocular depth estimation and the method for monocular depth estimation according to a third embodiment of the invention.
  • the method includes providing S1 first image data D1 of a first individual image 14 of a scene 18 recorded by a first camera sensor 10 and second image data D2 of a second individual image 16 of the scene 18 recorded by a second camera sensor 12.
  • the provided first image data Dl of the first individual image 14 of the scene 18 recorded by the first camera sensor 10 and/or the provided second image data D2 of the second individual image 16 of the scene 18 recorded by the second camera sensor 12 are transformed geometrically into a predefined camera coordinate system by a transformation algorithm A6 14T, 16T.
  • the method also includes receiving S2 the second image data D2 by a first algorithm A1 of machine learning, which determines depth values TW assigned to the second image data D2 S3.
  • the method includes receiving S4 the first image data Dl and the depth values TW assigned to the second image data D2 by a second algorithm A2, which calculates third image data D3 of a virtual second individual image 16' corresponding to the second individual image 16 by geometrically transforming the first image data D1 .
  • the method also includes determining S5 a pixel-by-pixel photometric loss L.
  • the calculation and training of the first machine learning algorithm A1 is carried out as described with reference to FIG. 1 .
  • the computer-implemented method for monocular depth estimation which uses the machine learning algorithm A1 trained according to the steps described above, includes providing S1' image data D2' of an individual image 116 of a scene 18 recorded by a camera sensor 112.
  • the provided image data D2' are then geometrically transformed 16T into a predetermined camera coordinate system by a transformation algorithm A6.
  • the method also includes receiving S2' the image data D2' by the machine learning algorithm A1 trained according to the invention, which is applied to the geometrically transformed image data D2'.
  • the method also includes determining S3′ and outputting S4′ of depth values TW assigned to the geometrically transformed image data D2′ by the machine learning algorithm A1.
  • FIG. 4 shows a flow chart of a generalized view synthesis without rectification of the image data according to the second and third embodiment of the invention.
  • a normalized 3D line of sight 20 is determined for each pixel of the second individual image 16 and is multiplied by the depth value TW of the pixel determined by the first algorithm A1 of machine learning to calculate 3D world coordinates 22 of the pixel.
  • the 3D world coordinates 22 of the pixels of the second individual image 16 are converted from a 3D coordinate system 3DKS2 of the second individual image 16 into a 3D coordinate system 3DKS1 of the first individual image 14 using information on a rotation and translation between the first camera sensor 10 and the second camera sensor 12 transfer.
  • the 3D world coordinates 22 of the pixels of the second individual image 16 transferred into the 3D coordinate system 3DKS1 of the first individual image 14 are projected into a 2D coordinate system 2DKS1 of the first individual image 14 .
  • the virtual second individual image 16' is generated by reading out 26 color or gray scale values of the pixels in the 2D coordinate system 2DKS1 of the first individual image 14.
  • the step of determining the normalized 3D line of sight 20 for each pixel of the second frame 16 and/or projecting the 3D world coordinates of the pixels of the second frame 16 transferred into the 3D coordinate system 3DKS1 of the first frame 14 into the 2D coordinate system 2DKS1 of the first frame 14 is performed using a lookup table WT.
  • the system includes a camera sensor 112 which is set up to provide image data D2 ′ of a recorded individual image 116 of a scene 18 .
  • the system also includes a computing device 24 which is set up to execute the method according to the invention described with reference to FIGS.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

Die Erfindung betrifft ein computerimplementiertes Verfahren zum Bereitstellen eines trainierten Algorithmus (A1) maschinellen Lernens zur monokularen Tiefenschätzung. Die Erfindung betrifft des Weiteren ein computerimplementiertes Verfahren und System zur monokularen Tiefenschätzung. Das System umfasst einen Kamerasensor (112), welcher dazu eingerichtet ist, Bilddaten (D2') eines aufgenommenen Einzelbildes (116) einer Szene (18) bereitzustellen. Das System umfasst ferner eine Recheneinrichtung (24), welche dazu eingerichtet ist, das Verfahren zur monokularen Tiefenschätzung auszuführen.

Description

Beschreibung
Titel
Verfahren und System zur monokularen Tiefenschätzung
Die Erfindung betrifft ein computerimplementiertes Verfahren zum Bereitstellen eines trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung. Die Erfindung betrifft des Weiteren ein computerimplementiertes Verfahren zur monokularen Tiefenschätzung. Die Erfindung betrifft ferner ein System zur monokularen Tiefenschätzung.
Eine Aufgabenstellung für moderne Computer- Vision-Systeme ist eine Bildtiefenschätzung anhand eines einzelnen Kamerabildes. Dabei soll eine Tiefenkarte bzw. sollen Tiefenwerte erstellt werden, die zu jedem Bildpixel bzw. Bildpunkt den jeweiligen Abstand des sichtbaren Objekts von der Kamera enthält. Anders als bei Verfahren, die auf mehreren Kameraperspektiven beruhen, z.B. Stereo-Tiefenschätzung oder Structure-from-Motion, muss bei der Einzelkamera-Tiefenschätzung die nötige Information aus den Bildinhalten, z.B. Größe, Lage und relative Beziehung der sichtbaren Objekte hergeleitet werden. Hierzu kommen tiefe neuronale Netze zum Einsatz.
Ein wichtiger bestehender Ansatz, um solche neuronalen Netze für die Tiefenschätzung zu trainieren, ist die Nutzung einer photometrischen Kostenfunktion, die die Ähnlichkeit einer mit Hilfe der Tiefenkarte synthetisierten Kameraansicht mit einer Referenzansicht vergleicht. Hierfür werden in der Regel Aufnahmen mit Stereo- Kameras für das Training verwendet. Eine Veröffentlichung, die diese grundlegende Methode vorstellt, ist C. Godard, O. Mac Aodha, G. J. Brostow, 2016: Unsupervised Monocular Depth Estimation with Left- Right Consistency. Neuere Veröffentlichungen entwickeln diese Idee weiter, basieren dabei aber weiter auf dem gleichen Ansatz einer photometrischen Kostenfunktion auf Stereo-Bilddaten, z.B. F. Tosi, F. Aleotti, M. Poggi, S. Mattoccia, 2019: Learning monocular depth estimation infusing traditional stereo knowledge.
Diese Trainingsmethode wird selbstüberwacht genannt, da außer den Stereobilddaten keine weiteren Label-Informationen verfügbar sein müssen. Dies ist ein großer Vorteil gegenüber den alternativen klassischen überwachten Methoden für die die Tiefeninformation als ground truth vorliegen muss, z.B. basierend auf LIDAR oder über voll synthetische Daten.
Bisherige Methoden des selbstüberwachten Trainings mit photometrischer Kostenfunktion setzen voraus, dass die Stereokameradaten zuvor in ein vereinheitlichtes Kamerakoordinatensystem überführt bzw. rektifiziert werden. Dies ermöglicht die Synthese der zweiten Kameraansicht durch Verschiebung der Bildinhalte ausschließlich entlang horizontaler Linien.
Nachteil der Rektifizierung ist, dass es insbesondere für Kameramodelle, die stark von einem einfachen Lochkameramodell abweichen, z.B.
Fischaugenkameras, zu ungewollten Verzerrungen und Verlusten durch die Rektifizierung kommen kann. Dazu zählen ein effektiver Auflösungsverlust in Teilbereichen des Bildes durch die nötige Reprojektion und Interpolation sowie ein Abschneiden von Randbereichen, die nach der Rektifizierung nicht mehr in das rechteckige Ausgabeformat fallen.
Weitere Nachteile sind eine teilweise starke Verzerrung der Proportionen von Bildobjekten am Rand des Blickfeldes und eine generelle Unmöglichkeit der Abbildung von Blickfeldern mit Öffn ungswin kein von 180 Grad oder mehr.
Der Erfindung liegt somit die Aufgabe zugrunde, ein verbessertes Verfahren zum Bereitstellen eines trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung sowie ein Verfahren und System zur monokularen Tiefenschätzung bereitzustellen. Die Aufgabe wird mit einem computerimplementierten Verfahren zum Bereitstellen eines trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung mit den Merkmalen des Patentanspruchs 1 gelöst.
Des Weiteren wird die Aufgabe mit einem computerimplementierten Verfahren zur monokularen Tiefenschätzung mit den Merkmalen des Patentanspruchs 12 gelöst.
Ferner wird die Aufgabe mit einem System zur monokularen Tiefenschätzung mit den Merkmalen des Patentanspruchs 13, einem Computerprogramm mit den Merkmalen des Patentanspruchs 14 und einem computerlesbaren Datenträger mit den Merkmalen des Patentanspruchs 15 gelöst.
Offenbarung der Erfindung
Die vorliegende Erfindung schafft ein computerimplementiertes Verfahren zum Bereitstellen eines trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung. Das Verfahren umfasst ein Bereitstellen von ersten Bilddaten eines durch einen ersten Kamerasensor aufgenommenen ersten Einzelbildes einer Szene und von zweiten Bilddaten eines durch einen zweiten Kamerasensor aufgenommenen zweiten Einzelbildes der Szene.
Bei dem Algorithmus maschinellen Lernens handelt es sich um ein mathematisches bzw. statistisches Modell, welches auf Trainingsdaten beruht, d.h. unter Verwendung von Trainingsdaten angelernt wurde.
Das Verfahren umfasst des Weiteren ein Empfangen der zweiten Bilddaten durch einen ersten Algorithmus maschinellen Lernens, welcher den zweiten Bilddaten zugeordnete Tiefenwerte ermittelt. Ferner umfasst das Verfahren ein Empfangen der ersten Bilddaten und der den zweiten Bilddaten zugeordneten Tiefenwerte durch einen zweiten Algorithmus, welcher durch geometrisches Transformieren der ersten Bilddaten dritte Bilddaten eines dem zweiten Einzelbild entsprechenden virtuellen zweiten Einzelbildes berechnet. Darüber hinaus umfasst das Verfahren ein Ermitteln eines pixelweisen photometrischen Verlustes durch Berechnen einer Pixelwertdifferenz von Pixelwerten der zweiten Bilddaten des zweiten Einzelbildes und Pixelwerten der dritten Bilddaten des virtuellen zweiten Einzelbildes. Ferner umfasst das Verfahren ein Trainieren des ersten Algorithmus maschinellen Lernens durch einen Optimierungsalgorithmus, welcher einen Extremwert einer photometrischen Verlustfunktion der ermittelten Pixelwertdifferenz berechnet.
Die vorliegende Erfindung schafft des Weiteren ein computerimplementiertes Verfahren zur monokularen Tiefenschätzung. Das Verfahren umfasst ein Bereitstellen von Bilddaten eines durch einen Kamerasensor aufgenommenen Einzelbildes einer Szene, ein Empfangen der Bilddaten durch einen erfindungsgemäßen trainierten Algorithmus maschinellen Lernens, welcher auf die Bilddaten angewendet wird und ein Ermitteln sowie Ausgeben von den Bilddaten zugeordneten Tiefenwerten durch den Algorithmus maschinellen Lernens.
Die Erfindung schafft darüber hinaus ein System zur monokularen Tiefenschätzung mit einem Kamerasensor, welcher dazu eingerichtet ist, Bilddaten eines aufgenommenen Einzelbildes einer Szene bereitzustellen, und eine Recheneinrichtung, welche dazu eingerichtet ist, das erfindungsgemäße Verfahren zur monokularen Tiefenschätzung auszuführen.
Die Erfindung schafft darüber hinaus ein Computerprogramm mit Programmcode, um zumindest eines der erfindungsgemäßen Verfahren durchzuführen, wenn das Computerprogramm auf einem Computer ausgeführt wird.
Die Erfindung schafft ferner einen computerlesbaren Datenträger mit Programmcode eines Computerprogramms, um zumindest eines der erfindungsgemäßen Verfahren durchzuführen, wenn das Computerprogramm auf einem Computer ausgeführt wird.
Eine Idee der vorliegenden Erfindung ist es, dadurch, dass der erste Algorithmus maschinellen Lernens die zweiten Bilddaten in einem nicht-rektifizierten Zustand verarbeiten kann, das erfindungsgemäße Verfahren zum Bereitstellen eines trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung sowie das Verfahren zur monokularen Tiefenschätzung für beliebige Kameramodelle einzusetzen.
Mithilfe des erfindungsgemäßen Verfahrens können somit für beliebige Kameramodelle virtuelle Kameraansichten synthetisiert werden, sodass das Training des Algorithmus maschinellen Lernens zur Tiefenschätzung direkt auf beliebigen Eingangsbilddaten ermöglicht wird. Gerade bei Anwendungen, welche Kamerasensoren mit großem Öffnungswinkel verwenden, ist dies von Vorteil, da wie vorstehend erwähnt die Rektifizierung mit mitunter starken Verzerrungen und/oder Informationsverlust durch Beschneidung einhergeht.
Das erfindungsgemäße Verfahren bietet somit eine verbesserte Tiefenschätzung aus Einzelbilddaten beispielsweise für einen Einsatz im Automobil-, Überwachungs-, Robotik- und/oder Consumerbereich. Ferner ist die Verwendung im Rahmen einer Fahrzeuginsassenbeobachtung denkbar, da bei sämtlichen der vorstehend genannten Einsatzszenarien Kamerasensoren mit großem Öffnungswinkel, insbesondere Fischaugen- Kamerasensoren, zum Einsatz kommen. Für diese Anwendungsfälle schafft das Verfahren somit eine verbesserte Tiefenschätzung basierend auf Einzelbildern eines Kamerasensors.
Vorteilhafte Ausführungsformen und Weiterbildungen ergeben sich aus den Unteransprüchen sowie aus der Beschreibung unter Bezugnahme auf die Figuren.
Gemäß einer bevorzugten Weiterbildung ist vorgesehen, dass der erste Algorithmus maschinellen Lernens durch ein neuronales Faltungsnetz gebildet ist, und wobei der Optimierungsalgorithmus ein Gradientenverfahren verwendet, bei welchem der Extremwert, insbesondere ein Minimum oder ein Maximum, auf einer durch einen Definitionsbereich der Pixelwerte der zweiten Bilddaten des zweiten Einzelbildes und einen Wertebereich der Pixelwerte der dritten Bilddaten des virtuellen zweiten Einzelbildes gebildeten Hyperfläche bestimmt wird. Somit kann das neuronale Faltungsnetz in vorteilhafter Weise sukzessive trainiert werden, Tiefenwerte der zweiten Bilddaten zu erzeugen, welche die Berechnung virtueller zweiter Einzelbilder ermöglicht, die den ursprünglichen durch den zweiten Kamerasensor aufgenommenen zweiten Einzelbilder möglichst exakt entsprechen.
Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass die Pixelwerte der zweiten Bilddaten des zweiten Einzelbildes und die Pixelwerte der dritten Bilddaten des virtuellen zweiten Einzelbildes eine Bildhelligkeit repräsentieren. Die Bildhelligkeit kann beispielsweise anhand von Graustufenwerten oder RGB- Farbwerten gegeben sein. Somit kann in vorteilhafter Weise eine exakte Bestimmung der Pixelwertdifferenz zwischen den Pixelwerten der zweiten Bilddaten des zweiten Einzelbildes und den Pixelwerten der dritten Bilddaten des virtuellen zweiten Einzelbildes ermittelt werden.
Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass die bereitgestellten ersten Bilddaten des durch den ersten Kamerasensor aufgenommenen ersten Einzelbildes der Szene unter Verwendung eines Rektifizierungsalgorithmus, insbesondere eines Interpolationsverfahrens, eines parametrischen Verfahrens oder einer Transformationsgleichung, rektifiziert werden. Die Rektifizierung wird somit an den ersten Bilddaten vorgenommen, welche nicht zur Bestimmung der Tiefenwerte verwendet werden.
Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass die durch den ersten Algorithmus maschinellen Lernens ermittelten Tiefenwerte und die bereitgestellten zweiten Bilddaten des durch den zweiten Kamerasensor aufgenommenen zweiten Einzelbildes der Szene unter Verwendung des Rektifizierungsalgorithmus rektifiziert werden. Die Rektifizierung erfolgt somit in vorteilhafter Weise nach Verarbeitung der zweiten Bilddaten durch den ersten Algorithmus maschinellen Lernens.
Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass auf die durch den zweiten Algorithmus berechneten, rektifizierten dritten Bilddaten des dem zweiten Einzelbild entsprechenden virtuellen zweiten Einzelbildes ein Rektifizierungsumkehralgorithmus angewendet wird, um ein virtuelles zweites Einzelbild in den Bildkoordinaten des ursprünglich bereitgestellten zweiten Einzelbildes zu erhalten. Somit kann das Ermitteln des pixelweisen photometrischen Verlustes durch Berechnen der Pixelwertdifferenz von Pixelwerten der zweiten Bilddaten des zweiten Einzelbildes und Pixelwerten der dritten Bilddaten des virtuellen zweiten Einzelbildes auf Basis nicht-rektifizierter Bilddaten erfolgen.
Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass zu jedem Pixel des zweiten Einzelbildes ein normierter 3 D-Sichtstrahl bestimmt wird, welcher mit dem durch den ersten Algorithmus maschinellen Lernens ermittelten Tiefenwert des Pixels zum Berechnen von 3D- Weltkoordinaten des Pixels multipliziert wird. Somit kann das zweidimensionale Einzelbild des zweiten Kamerasensors in 3D-Weltkoordinaten übertragen werden.
Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass die 3D- Weltkoordinaten der Pixel des zweiten Einzelbildes unter Verwendung einer Information einer Rotation und Translation zwischen dem ersten Kamerasensor und dem zweiten Kamerasensor von einem 3D-Koordinatensystem des zweiten Einzelbildes in ein 3D- Koordinatensystem des ersten Einzelbildes übertragen werden. Somit können die Bilddaten des zweiten Einzelbildes aufgrund der durchgeführten Transformation in das Koordinatensystem des ersten Einzelbildes übertragen werden.
Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass die in das 3D- Koordinatensystem des ersten Einzelbildes übertragenen 3D- Weltkoordinaten der Pixel des zweiten Einzelbildes in ein 2D-Koordinatensystem des ersten Einzelbildes projiziert werden, und wobei durch Auslesen von Farboder Graustufenwerten der Pixel in dem 2D-Koordinatensystem des ersten Einzelbildes das virtuelle zweite Einzelbild erzeugt wird.
Durch vorstehend genannte Verfahrensschritte ist es somit in vorteilhafter Weise möglich, durch Anwendung im Wesentlichen umgekehrter Berechnungen aus den 3D- Weltkoordinaten des ersten Einzelbildes 2D- Koordinaten des virtuellen zweiten Einzelbildes zu berechnen.
Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass der Schritt des Bestimmens des normierten 3D-Sichtstrahls zu jedem Pixel des zweiten Einzelbildes und/oder des Projizierens der in das 3D- Koordinatensystem des ersten Einzelbildes übertragenen 3D-Weltkoordinaten der Pixel des zweiten Einzelbildes in das 2D- Koordinatensystem des ersten Einzelbildes unter Verwendung einer Wertetabelle durchgeführt wird. Wiederkehrende Berechnungsschritte können somit in effizienter Art und Weise durch Verwendung einer entsprechenden Wertetabelle durchgeführt werden.
Gemäß einer weiteren bevorzugten Weiterbildung ist vorgesehen, dass die bereitgestellten ersten Bilddaten des durch den ersten Kamerasensor aufgenommenen ersten Einzelbildes der Szene und/oder die bereitgestellten zweiten Bilddaten des durch den zweiten Kamerasensor aufgenommenen zweiten Einzelbildes der Szene durch einen Transformationsalgorithmus in ein vorgegebenes Kamerakoordinatensystem geometrisch transformiert werden.
Somit ist es in vorteilhafter Weise möglich, die Bilddaten der jeweiligen Einzelbilder in ein beliebiges gewünschtes Kamerakoordinatensystem zu transformieren. Wenn beispielsweise der erste Kamerasensor einen Öffnungswinkel von 60° und der zweite Kamerasensor einen Öffnungswinkel von 90° aufweist, können die Daten eines der Kamerasensoren somit in das Kamerakoordinatensystem des anderen Kamerasensors übertragen werden.
Die beschriebenen Ausgestaltungen und Weiterbildungen lassen sich beliebig miteinander kombinieren.
Weitere mögliche Ausgestaltungen, Weiterbildungen und Implementierungen der Erfindung umfassen auch nicht explizit genannte Kombinationen von zuvor oder im Folgenden bezüglich der Ausführungsbeispiele beschriebenen Merkmale der Erfindung.
Kurze Beschreibung der Zeichnungen
Die beiliegenden Zeichnungen sollen ein weiteres Verständnis der Ausführungsformen der Erfindung vermitteln. Sie veranschaulichen Ausführungsformen und dienen im Zusammenhang mit der Beschreibung der Erklärung von Prinzipien und Konzepten der Erfindung. Andere Ausführungsformen und viele der genannten Vorteile ergeben sich im Hinblick auf die Zeichnungen. Die dargestellten Elemente der Zeichnungen sind nicht notwendigerweise maßstabsgetreu zueinander gezeigt.
Es zeigen:
Fig. 1 ein Ablaufdiagramm eines computerimplementierten Verfahrens zum Bereitstellen eines trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung sowie eines Verfahrens zur monokularen Tiefenschätzung gemäß einer ersten Ausführungsform der Erfindung;
Fig. 2 ein Ablaufdiagramm des computerimplementierten Verfahrens zum Bereitstellen des trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung sowie des Verfahrens zur monokularen Tiefenschätzung gemäß einer zweiten Ausführungsform der Erfindung;
Fig. 3 ein Ablaufdiagramm des computerimplementierten Verfahrens zum Bereitstellen des trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung sowie des Verfahrens zur monokularen Tiefenschätzung gemäß einer dritten Ausführungsform der Erfindung;
Fig. 4 ein Ablaufdiagramm einer verallgemeinerten Ansichtssynthese ohne Rektifizierung der Bilddaten gemäß der zweiten und dritten Ausführungsform der Erfindung; und
Fig. 5 eine schematische Darstellung eines Systems zur monokularen Tiefenschätzung gemäß der ersten bis dritten Ausführungsform der Erfindung. In den Figuren der Zeichnungen bezeichnen gleiche Bezugszeichen gleiche oder funktionsgleiche Elemente, Bauteile oder Komponenten, soweit nichts Gegenteiliges angegeben ist.
Fig. 1 zeigt ein Ablaufdiagramm eines computerimplementierten Verfahrens zum Bereitstellen eines trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung sowie eines Verfahrens zur monokularen Tiefenschätzung gemäß einer ersten Ausführungsform der Erfindung.
Das Verfahren umfasst ein Bereitstellen S1 von ersten Bilddaten Dl eines durch einen ersten Kamerasensor 10 aufgenommenen ersten Einzelbildes 14 einer Szene 18 und von zweiten Bilddaten D2 eines durch einen zweiten Kamerasensor 12 aufgenommenen zweiten Einzelbildes 16 der Szene 18.
Der erste Kamerasensor 10 kann beispielsweise ein linker Kamerasensor und der zweite Kamerasensor 12 ein rechter Kamerasensor sein, welche in einem vorbestimmen Abstand zueinander angeordnet sind und dieselbe Szene 18 aus verschiedenen Perspektiven bzw. Sichtwinkeln aufnehmen.
Die bereitgestellten ersten Bilddaten Dl des durch den ersten Kamerasensor 10 aufgenommenen ersten Einzelbildes 14 der Szene 18 werden unter Verwendung eines Rektifizierungsalgorithmus A4, insbesondere eines Interpolationsverfahrens, eines parametrischen Verfahrens oder einer Transformationsgleichung, rektifiziert 14R.
Das Verfahren umfasst des Weitern ein Empfangen S2 der zweiten Bilddaten D2 durch einen ersten Algorithmus Al maschinellen Lernens, welcher den zweiten Bilddaten D2 zugeordnete Tiefenwerte TW ermittelt S3.
Die durch den ersten Algorithmus Al maschinellen Lernens ermittelten Tiefenwerte TW und die bereitgestellten zweiten Bilddaten D2 des durch den zweiten Kamerasensor 12 aufgenommenen zweiten Einzelbildes 16 der Szene 18 werden unter Verwendung des Rektifizierungsalgorithmus A4 rektifiziert 16R. Darüber hinaus umfasst das Verfahren ein Empfangen S4 der ersten Bilddaten Dl und der den zweiten Bilddaten D2 zugeordneten Tiefenwerte TW durch einen zweiten Algorithmus A2, welcher durch geometrisches Transformieren der ersten Bilddaten Dl dritte Bilddaten D3 eines dem zweiten Einzelbild 16 entsprechenden virtuellen zweiten Einzelbildes 16‘R berechnet.
Auf die durch den zweiten Algorithmus A2 berechneten, rektifizierten dritten Bilddaten D3 des dem zweiten Einzelbild 16 entsprechenden virtuellen zweiten Einzelbildes 16‘ wird ein Rektifizierungsumkehralgorithmus A5 angewendet, um ein virtuelles zweites Einzelbild 16‘ in den Bildkoordinaten des ursprünglich bereitgestellten zweiten Einzelbildes 16 zu erhalten.
Ferner umfasst das Verfahren ein Ermitteln S5 eines pixelweisen photometrischen Verlustes L durch Berechnen einer Pixelwertdifferenz AP von Pixelwerten PW2 der zweiten Bilddaten D2 des zweiten Einzelbildes 16 und Pixelwerten PW3 der dritten Bilddaten D3 des virtuellen zweiten Einzelbildes 16‘, und ein Trainieren T, S6 des ersten Algorithmus Al maschinellen Lernens durch einen Optimierungsalgorithmus A3, welcher einen Extremwert E einer photometrischen Verlustfunktion CF der ermittelten Pixelwertdifferenz AP berechnet.
Der erste Algorithmus Al maschinellen Lernens ist durch ein neuronales Faltungsnetz gebildet. Der Optimierungsalgorithmus A3 verwendet ein Gradientenverfahren, bei welchem der Extremwert E, insbesondere ein Minimum oder ein Maximum, auf einer durch einen Definitionsbereich DB der Pixelwerte PW2 der zweiten Bilddaten D2 des zweiten Einzelbildes 16 und einen Wertebereich WB der Pixelwerte PW3 der dritten Bilddaten D3 des virtuellen zweiten Einzelbildes 16‘ gebildeten Hyperfläche bestimmt wird.
Die Pixelwerte PW2 der zweiten Bilddaten D2 des zweiten Einzelbildes 16 und die Pixelwerte PW3 der dritten Bilddaten D3 des virtuellen zweiten Einzelbildes 16‘ repräsentieren eine Bildhelligkeit.
Fig. 1 zeigt ferner die Inferenz (I) des trainierten Algorithmus Al maschinellen Lernens zur monokularen Tiefenschätzung. Das computerimplementierte Verfahren zur monokularen Tiefenschätzung, welches den nach den vorhergehend beschriebenen Schritten trainierten Algorithmus Al maschinellen Lernens einsetzt, umfasst ein Bereitstellen S1‘ von Bilddaten D2‘ eines durch einen Kamerasensor 112 aufgenommenen Einzelbildes 116 einer Szene 18.
Ferner umfasst das Verfahren ein Empfangen S2‘ der Bilddaten D2‘ durch den erfindungsgemäß trainierten Algorithmus Al maschinellen Lernens, welcher auf die Bilddaten D2‘ angewendet wird.
Überdies umfasst das Verfahren ein Ermitteln S3‘ und Ausgeben S4‘ von den Bilddaten D2‘ zugeordneten Tiefenwerten TW durch den Algorithmus Al maschinellen Lernens.
Fig. 2 zeigt ein Ablaufdiagramm des computerimplementierten Verfahrens zum Bereitstellen des trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung sowie des Verfahrens zur monokularen Tiefenschätzung gemäß einer zweiten Ausführungsform der Erfindung.
Das Verfahren umfasst ein Bereitstellen S1 von ersten Bilddaten Dl eines durch einen ersten Kamerasensor 10 aufgenommenen ersten Einzelbildes 14 einer Szene 18 und von zweiten Bilddaten D2 eines durch einen zweiten Kamerasensor 12 aufgenommenen zweiten Einzelbildes 16 der Szene 18.
Das Verfahren umfasst ein Bereitstellen S1 von ersten Bilddaten Dl eines durch einen ersten Kamerasensor 10 aufgenommenen ersten Einzelbildes 14 einer Szene 18 und von zweiten Bilddaten D2 eines durch einen zweiten Kamerasensor 12 aufgenommenen zweiten Einzelbildes 16 der Szene 18.
Das Verfahren umfasst des Weitern ein Empfangen S2 der zweiten Bilddaten D2 durch einen ersten Algorithmus Al maschinellen Lernens, welcher den zweiten Bilddaten D2 zugeordnete Tiefenwerte TW ermittelt S3. Darüber hinaus umfasst das Verfahren ein Empfangen S4 der ersten Bilddaten Dl und der den zweiten Bilddaten D2 zugeordneten Tiefenwerte TW durch einen zweiten Algorithmus A2, welcher durch geometrisches Transformieren der ersten Bilddaten Dl dritte Bilddaten D3 eines dem zweiten Einzelbild 16 entsprechenden virtuellen zweiten Einzelbildes 16‘ berechnet.
Ferner umfasst das Verfahren ein Ermitteln S5 eines pixelweisen photometrischen Verlustes L. Die Berechnung und das Training des ersten Algorithmus Al maschinellen Lernens wird dabei wie mit Bezug auf Fig. 1 beschrieben durchgeführt.
Fig. 2 zeigt ferner die Inferenz (I) des trainierten Algorithmus Al maschinellen Lernens zur monokularen Tiefenschätzung.
Das computerimplementierte Verfahren zur monokularen Tiefenschätzung, welches den nach den vorhergehend beschriebenen Schritten trainierten Algorithmus Al maschinellen Lernens einsetzt, umfasst dieselben Verfahrensschritte wie mit Bezug auf Fig. 1 beschrieben.
Fig. 3 zeigt ein Ablaufdiagramm des computerimplementierten Verfahrens zum Bereitstellen des trainierten Algorithmus maschinellen Lernens zur monokularen Tiefenschätzung sowie des Verfahrens zur monokularen Tiefenschätzung gemäß einer dritten Ausführungsform der Erfindung.
Das Verfahren umfasst ein Bereitstellen S1 von ersten Bilddaten Dl eines durch einen ersten Kamerasensor 10 aufgenommenen ersten Einzelbildes 14 einer Szene 18 und von zweiten Bilddaten D2 eines durch einen zweiten Kamerasensor 12 aufgenommenen zweiten Einzelbildes 16 der Szene 18.
Die bereitgestellten ersten Bilddaten Dl des durch den ersten Kamerasensor 10 aufgenommenen ersten Einzelbildes 14 der Szene 18 und/oder die bereitgestellten zweiten Bilddaten D2 des durch den zweiten Kamerasensor 12 aufgenommenen zweiten Einzelbildes 16 der Szene 18 werden durch einen Transformationsalgorithmus A6 in ein vorgegebenes Kamerakoordinatensystem geometrisch transformiert 14T, 16T. Das Verfahren umfasst des Weitern ein Empfangen S2 der zweiten Bilddaten D2 durch einen ersten Algorithmus Al maschinellen Lernens, welcher den zweiten Bilddaten D2 zugeordnete Tiefenwerte TW ermittelt S3.
Darüber hinaus umfasst das Verfahren ein Empfangen S4 der ersten Bilddaten Dl und der den zweiten Bilddaten D2 zugeordneten Tiefenwerte TW durch einen zweiten Algorithmus A2, welcher durch geometrisches Transformieren der ersten Bilddaten Dl dritte Bilddaten D3 eines dem zweiten Einzelbild 16 entsprechenden virtuellen zweiten Einzelbildes 16‘ berechnet.
Ferner umfasst das Verfahren ein Ermitteln S5 eines pixelweisen photometrischen Verlustes L. Die Berechnung und das Training des ersten Algorithmus Al maschinellen Lernens wird dabei wie mit Bezug auf Fig. 1 beschrieben durchgeführt.
Fig. 3 zeigt ferner die Inferenz (I) des trainierten Algorithmus Al maschinellen Lernens zur monokularen Tiefenschätzung.
Das computerimplementierte Verfahren zur monokularen Tiefenschätzung, welches den nach den vorhergehend beschriebenen Schritten trainierten Algorithmus Al maschinellen Lernens einsetzt, umfasst ein Bereitstellen S1‘ von Bilddaten D2‘ eines durch einen Kamerasensor 112 aufgenommenen Einzelbildes 116 einer Szene 18.
Die bereitgestellten Bilddaten D2‘ werden anschließend durch einen Transformationsalgorithmus A6 in ein vorgegebenes Kamerakoordinatensystem geometrisch transformiert 16T.
Ferner umfasst das Verfahren ein Empfangen S2‘ der Bilddaten D2‘ durch den erfindungsgemäß trainierten Algorithmus Al maschinellen Lernens, welcher auf die geometrisch transformierten Bilddaten D2‘ angewendet wird. Überdies umfasst das Verfahren ein Ermitteln S3‘ und Ausgeben S4‘ von den geometrisch transformierten Bilddaten D2‘ zugeordneten Tiefenwerten TW durch den Algorithmus Al maschinellen Lernens.
Fig. 4 zeigt ein Ablaufdiagramm einer verallgemeinerten Ansichtssynthese ohne Rektifizierung der Bilddaten gemäß der zweiten und dritten Ausführungsform der Erfindung.
Zu jedem Pixel des zweiten Einzelbildes 16 wird ein normierter 3D-Sichtstrahl 20 bestimmt, welcher mit dem durch den ersten Algorithmus Al maschinellen Lernens ermittelten Tiefenwert TW des Pixels zum Berechnen von 3D- Weltkoordinaten 22 des Pixels multipliziert wird.
Die 3D-Weltkoordinaten 22 der Pixel des zweiten Einzelbildes 16 werden unter Verwendung einer Information einer Rotation und Translation zwischen dem ersten Kamerasensor 10 und dem zweiten Kamerasensor 12 von einem 3D- Koordinatensystem 3DKS2 des zweiten Einzelbildes 16 in ein 3D- Koordinatensystem 3DKS1 des ersten Einzelbildes 14 übertragen.
Die in das 3D- Koordinatensystem 3DKS1 des ersten Einzelbildes 14 übertragenen 3D- Weltkoordinaten 22 der Pixel des zweiten Einzelbildes 16 werden in ein 2D- Koordinatensystem 2DKS1 des ersten Einzelbildes 14 projiziert. Durch Auslesen 26 von Färb- oder Graustufenwerten der Pixel in dem 2D- Koordinatensystem 2DKS1 des ersten Einzelbildes 14 wird das virtuelle zweite Einzelbild 16‘ erzeugt.
Der Schritt des Bestimmens des normierten 3D-Sichtstrahls 20 zu jedem Pixel des zweiten Einzelbildes 16 und/oder des Projizierens der in das 3D- Koordinatensystem 3DKS1 des ersten Einzelbildes 14 übertragenen 3D- Weltkoordinaten der Pixel des zweiten Einzelbildes 16 in das 2D- Koordinatensystem 2DKS1 des ersten Einzelbildes 14 wird unter Verwendung einer Wertetabelle WT durchgeführt.
Fig. 5 zeigt eine schematische Darstellung eines Systems zur monokularen Tiefenschätzung gemäß der ersten bis dritten Ausführungsform der Erfindung. Das System umfasst einen Kamerasensor 112, welcher dazu eingerichtet ist, Bilddaten D2‘ eines aufgenommenen Einzelbildes 116 einer Szene 18 bereitzustellen. Ferner umfasst das System eine Recheneinrichtung 24, welche dazu eingerichtet ist, das mit Bezug auf Fig.l bis Fig.4 beschriebene, erfindungsgemäße Verfahren auszuführen.

Claims

Ansprüche
1. Computerimplementiertes Verfahren zum Bereitstellen eines trainierten Algorithmus (Al) maschinellen Lernens zur monokularen Tiefenschätzung, mit den Schritten:
Bereitstellen (Sl) von ersten Bilddaten (Dl) eines durch einen ersten Kamerasensor (10) aufgenommenen ersten Einzelbildes (14) einer Szene (18) und von zweiten Bilddaten (D2) eines durch einen zweiten Kamerasensor (12) aufgenommenen zweiten Einzelbildes (16) der Szene (18);
Empfangen (S2) der zweiten Bilddaten (D2) durch einen ersten Algorithmus (Al) maschinellen Lernens, welcher den zweiten Bilddaten (D2) zugeordnete Tiefenwerte (TW) ermittelt (S3);
Empfangen (S4) der ersten Bilddaten (Dl) und der den zweiten Bilddaten (D2) zugeordneten Tiefenwerte (TW) durch einen zweiten Algorithmus (A2), welcher durch geometrisches Transformieren der ersten Bilddaten (Dl) dritte Bilddaten (D3) eines dem zweiten Einzelbild (16) entsprechenden virtuellen zweiten Einzelbildes (16‘) berechnet;
Ermitteln (S5) eines pixelweisen photometrischen Verlustes (L) durch Berechnen einer Pixelwertdifferenz (AP) von Pixelwerten (PW2) der zweiten Bilddaten (D2) des zweiten Einzelbildes (16) und Pixelwerten (PW3) der dritten Bilddaten (D3) des virtuellen zweiten Einzelbildes (16‘); und
Trainieren (S6) des ersten Algorithmus (Al) maschinellen Lernens durch einen Optimierungsalgorithmus (A3), welcher einen Extremwert (E) einer photometrischen Verlustfunktion (CF) der ermittelten Pixelwertdifferenz (AP) berechnet.
2. Computerimplementiertes Verfahren nach Anspruch 1, wobei der erste Algorithmus (Al) maschinellen Lernens durch ein neuronales Faltungsnetz gebildet ist, und wobei der Optimierungsalgorithmus (A3) ein Gradientenverfahren verwendet, bei welchem der Extremwert (E), insbesondere ein Minimum oder ein Maximum, auf einer durch einen Definitionsbereich (DB) der Pixelwerte (PW2) der zweiten Bilddaten (D2) des zweiten Einzelbildes (16) und einen Wertebereich (WB) der Pixelwerte (PW3) der dritten Bilddaten (D3) des virtuellen zweiten Einzelbildes (16‘) gebildeten Hyperfläche bestimmt wird. Computerimplementiertes Verfahren nach Anspruch 1 oder 2, wobei die Pixelwerte (PW2) der zweiten Bilddaten (D2) des zweiten Einzelbildes (16) und die Pixelwerte (PW3) der dritten Bilddaten (D3) des virtuellen zweiten Einzelbildes (16‘) eine Bildhelligkeit repräsentieren. Computerimplementiertes Verfahren nach einem der vorhergehenden Ansprüche, wobei die bereitgestellten ersten Bilddaten (Dl) des durch den ersten Kamerasensor (10) aufgenommenen ersten Einzelbildes (14) der Szene (18) unter Verwendung eines Rektifizierungsalgorithmus (A4), insbesondere eines Interpolationsverfahrens, eines parametrischen Verfahrens oder einer Transformationsgleichung, rektifiziert werden. Computerimplementiertes Verfahren nach Anspruch 4, wobei die durch den ersten Algorithmus (Al) maschinellen Lernens ermittelten Tiefenwerte (TW) und die bereitgestellten zweiten Bilddaten (D2) des durch den zweiten Kamerasensor (12) aufgenommenen zweiten Einzelbildes (16) der Szene (18) unter Verwendung des Rektifizierungsalgorithmus (A4) rektifiziert werden. Computerimplementiertes Verfahren nach Anspruch 4 oder 5, wobei auf die durch den zweiten Algorithmus (A2) berechneten, rektifizierten dritten Bilddaten (D3) des dem zweiten Einzelbild (16) entsprechenden virtuellen zweiten Einzelbildes (16‘) ein Rektifizierungsumkehralgorithmus (A5) angewendet wird, um ein virtuelles zweites Einzelbild (16‘) in den Bildkoordinaten des ursprünglich bereitgestellten zweiten Einzelbildes (16) zu erhalten. Computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 3, wobei zu jedem Pixel des zweiten Einzelbildes (16) ein normierter 3D- Sichtstrahl (20) bestimmt wird, welcher mit dem durch den ersten - 19 -
Algorithmus (Al) maschinellen Lernens ermittelten Tiefenwert (TW) des Pixels zum Berechnen von 3D- Weltkoordinaten (22) des Pixels multipliziert wird. Computerimplementiertes Verfahren nach Anspruch 7, wobei die 3D- Weltkoordinaten (22) der Pixel des zweiten Einzelbildes (16) unter Verwendung einer Information einer Rotation und Translation zwischen dem ersten Kamerasensor (10) und dem zweiten Kamerasensor (12) von einem 3D-Koordinatensystem (3DKS2) des zweiten Einzelbildes (16) in ein 3D- Koordinatensystem (3DKS1) des ersten Einzelbildes (14) übertragen werden. Computerimplementiertes Verfahren nach Anspruch 8, wobei die in das 3D- Koordinatensystem (3DKS1) des ersten Einzelbildes (14) übertragenen 3D- Weltkoordinaten (22) der Pixel des zweiten Einzelbildes (16) in ein 2D-Koordinatensystem (2DKS1) des ersten Einzelbildes (14) projiziert werden, und wobei durch Auslesen (26) von Färb- oder Graustufenwerten der Pixel in dem 2D-Koordinatensystem (2DKS1) des ersten Einzelbildes (14) das virtuelle zweite Einzelbild (16‘) erzeugt wird. Computerimplementiertes Verfahren nach Anspruch 7 oder 8, wobei der Schritt des Bestimmens des normierten 3D-Sichtstrahls (20) zu jedem Pixel des zweiten Einzelbildes (16) und/oder des Projizierens der in das 3D- Koordinatensystem (3DKS1) des ersten Einzelbildes (14) übertragenen 3D- Weltkoordinaten der Pixel des zweiten Einzelbildes (16) in das 2D- Koordinatensystem (2DKS1) des ersten Einzelbildes (14) unter Verwendung einer Wertetabelle (WT) durchgeführt wird. Computerimplementiertes Verfahren nach einem der Ansprüche 1 bis 3, wobei die bereitgestellten ersten Bilddaten (Dl) des durch den ersten Kamerasensor (10) aufgenommenen ersten Einzelbildes (14) der Szene (18) und/oder die bereitgestellten zweiten Bilddaten (D2) des durch den zweiten Kamerasensor (12) aufgenommenen zweiten Einzelbildes (16) der Szene (18) durch einen Transformationsalgorithmus (A6) in ein vorgegebenes Kamerakoordinatensystem geometrisch transformiert werden. - 20 - Computerimplementiertes Verfahren zur monokularen Tiefenschätzung, mit den Schritten:
Bereitstellen (S1‘) von Bilddaten (D2‘) eines durch einen Kamerasensor (112) aufgenommenen Einzelbildes (116) einer Szene (18);
Empfangen (S2‘) der Bilddaten (D2‘) durch einen nach einem der Ansprüche 1 bis 11 trainierten Algorithmus (Al) maschinellen Lernens, welcher auf die Bilddaten (D2‘) angewendet wird; und Ermitteln (S3‘) und Ausgeben (S4‘) von den Bilddaten (D2‘) zugeordneten Tiefenwerten (TW) durch den Algorithmus (Al) maschinellen Lernens. System (100) zur monokularen Tiefenschätzung, aufweisend: einen Kamerasensor (112), welcher dazu eingerichtet ist, Bilddaten (D2‘) eines aufgenommenen Einzelbildes (116) einer Szene (18) bereitzustellen; und einer Recheneinrichtung (24), welche dazu eingerichtet ist, das Verfahren nach Anspruch 12 auszuführen. Computerprogramm mit Programmcode, um zumindest eines der Verfahren nach einem der Ansprüche 1 bis 12 durchzuführen, wenn das Computerprogramm auf einem Computer ausgeführt wird. Computerlesbarer Datenträger mit Programmcode eines Computerprogramms, um zumindest eines der Verfahren nach einem der Ansprüche 1 bis 12 durchzuführen, wenn das Computerprogramm auf einem Computer ausgeführt wird.
PCT/EP2021/074935 2020-09-17 2021-09-10 Verfahren und system zur monokularen tiefenschätzung WO2022058243A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020211670.9 2020-09-17
DE102020211670.9A DE102020211670A1 (de) 2020-09-17 2020-09-17 Verfahren und System zur monokularen Tiefenschätzung

Publications (1)

Publication Number Publication Date
WO2022058243A1 true WO2022058243A1 (de) 2022-03-24

Family

ID=77910788

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2021/074935 WO2022058243A1 (de) 2020-09-17 2021-09-10 Verfahren und system zur monokularen tiefenschätzung

Country Status (2)

Country Link
DE (1) DE102020211670A1 (de)
WO (1) WO2022058243A1 (de)

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ALWYN MATHEW ET AL: "Self-Attention Dense Depth Estimation Network for Unrectified Video Sequences", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 28 May 2020 (2020-05-28), XP081685370 *

Also Published As

Publication number Publication date
DE102020211670A1 (de) 2022-03-17

Similar Documents

Publication Publication Date Title
DE102006036933B4 (de) Verfahren zur Erzeugung eines Gesamtbilds aus überlappenden Einzelbildern
WO2010130657A1 (de) Bildverarbeitungsverfahren zur bestimmung von tiefeninformation aus wenigstens zwei mittels eines stereokamerasystems aufgenommenen eingangsbildern
DE102018130821A1 (de) Verfahren zum Beurteilen einer Umgebung eines Kraftfahrzeugs durch ein künstliches neuronales Netz mit einer Aggregationseinheit; Steuereinheit, Fahrerassistenzsystem sowie Computerprogrammprodukt
EP3117399B1 (de) Verfahren zum zusammenfügen von einzelbildern, die von einem kamerasystem aus unterschiedlichen positionen aufgenommen wurden, zu einem gemeinsamen bild
DE102015201953A1 (de) System und Verfahren zum Erzeugen einer Tiefenkarte durch iterative Interpolation und Krümmung
DE102015206477A1 (de) Verfahren zur Darstellung einer Fahrzeugumgebung eines Fahrzeuges
DE102018214198A1 (de) System zum Bewerten eines Bildes, Betriebsassistenzverfahren und Steuereinheit für eine Arbeitsvorrichtung sowie Arbeitsvorrichtung
DE102021129544A1 (de) Systeme und verfahren zur tiefenabschätzung in einem fahrzeug
WO2021121491A2 (de) Umwandlung von eingangs-bilddaten einer mehrzahl von fahrzeugkameras eines rundumsichtsystems in optimierte ausgangs-bilddaten
DE10056978B4 (de) Verfahren zur Erzeugung eines stereographischen Bildes
DE102011082881A1 (de) Darstellung der Umgebung eines Kraftfahrzeugs in einer bestimmten Ansicht unter Verwendung räumlicher Information
WO2022058243A1 (de) Verfahren und system zur monokularen tiefenschätzung
EP2816802A1 (de) Verfahren und Vorrichtung zum Anpassen eines Bildparameters
EP3465608B1 (de) Verfahren und vorrichtung zum bestimmen eines übergangs zwischen zwei anzeigebildern, und fahrzeug
DE102014219418B4 (de) Verfahren zur Stereorektifizierung von Stereokamerabildern und Fahrerassistenzsystem
DE102020116774A1 (de) Automatische visuelle Wahrnehmung mittels eines künstlichen neuronalen Netzes
DE112020003788T5 (de) Peripheres-Video-Erzeugungsvorrichtung, Verfahren zur Erzeugung peripherer Videos, und Programm
DE102020207695A1 (de) Tiefenschätzung aus Monokamerabildern mittels künstlicher Intelligenz
DE102005002636A1 (de) Verfahren und System zur Verarbeitung von Videodaten eines Kamerasystems
WO2018108215A1 (de) Vorrichtung zur bereitstellung einer verbesserten hinderniserkennung
DE102017218072A1 (de) Verfahren zum Aufnehmen eines Bildes
WO2023094681A1 (de) Schnittstellenkomponente für verteilte komponenten eines systems des maschinellen lernens
WO2016079295A1 (de) Bildbasierte objekterkennungstechnik
DE102020211896A1 (de) Verfahren zur Erzeugung eines Bildes einer Fahrzeugumgebung und Surroundview-System zur Erzeugung eines Bildes einer Fahrzeugumgebung
DE102016220079B4 (de) Verfahren zur Ermittlung von Entfernungsdaten

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21777266

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21777266

Country of ref document: EP

Kind code of ref document: A1