DE102020213267A1

DE102020213267A1 - Brightness conversion of stereo images

Info

Publication number: DE102020213267A1
Application number: DE102020213267.4A
Authority: DE
Inventors: Christian Scharfenberger; Michelle Karg
Original assignee: Conti Temic Microelectronic GmbH
Current assignee: Continental Autonomous Mobility Germany GmbH
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2022-04-21

Abstract

Die Erfindung bezieht sich auf ein maschinelles Lernverfahren, ein Verfahren und eine Vorrichtung zur Helligkeits-Umwandlung von Stereobildpaaren eines Kamerasystems (K), beispielsweise eines fahrzeuggebundenen Umfelderfassungskamerasystems.Das Verfahren zur Helligkeits-Umwandlung von Eingangs-Stereobildpaardaten des Kamerasystems (K) in Ausgabe-Stereobildpaardaten umfasst die Schritte:a) Von dem Kamerasystem (K) erfasste Eingangs-Stereobildpaardaten (Ini) einer aktuellen Helligkeit werden einem trainierten künstlichen neuronalen Netzwerk (CNN1, CNN10, CNN11, CNN12) bereitgestellt,b) das trainierte künstliche neuronale Netzwerk (CNN1, CNN10, CNN11, CNN12) ist dazu konfiguriert, die Eingangs-Stereobildpaardaten (Ini) mit der aktuellen Helligkeit in Ausgabe-Stereobildpaardaten (Opti) mit abweichender Ausgabehelligkeit umzuwandeln, undc) das trainierte künstliche neuronale Netzwerk (CNN1, CNN10, CNN11, CNN12) ist dazu konfiguriert, die Ausgabe-Stereobildpaardaten (Opti) auszugeben.The invention relates to a machine learning method, a method and a device for brightness conversion of stereo image pairs of a camera system (K), for example a vehicle-mounted environment detection camera system. The method for brightness conversion of input stereo image pair data of the camera system (K) into output stereo image pair data includes the steps: a) input stereo image pair data (Ini) of a current brightness captured by the camera system (K) is provided to a trained artificial neural network (CNN1, CNN10, CNN11, CNN12),b) the trained artificial neural network (CNN1, CNN10 , CNN11, CNN12) is configured to convert the input stereo image pair data (Ini) with the current brightness into output stereo image pair data (Opti) with a different output brightness, and c) the trained artificial neural network (CNN1, CNN10, CNN11, CNN12) is to do this configured to output the output stereo image pair data (opti).

Description

Die Erfindung bezieht sich auf ein maschinelles Lernverfahren, ein Verfahren und eine Vorrichtung zur Helligkeits-Umwandlung von Stereobildern eines Kamerasystems, beispielsweise einer fahrzeuggebundenen Umfelderfassungskamera.The invention relates to a machine learning method, a method and a device for brightness conversion of stereo images of a camera system, for example a vehicle-mounted environment detection camera.

Heutige Fahrzeuge sind mit kamerabasierten Fahrerassistenzsystemen ausgestattet, welche der Erkennung von Objekten zur Vermeidung von Kollisionen und der Erkennung von Straßenbegrenzungen zum Halten des Fahrzeuges in der Spur dienen. Gerade vor dem Hintergrund des automatisierten Fahrens kommen multifokale Kamerasysteme zum Einsatz. Ausprägungen umfassen nach vorne schauende Systeme mit Telephoto- oder Weitwinkeloptiken beispielsweise zur Erkennung von verlorener Ladung im Fernbereich und kreuzenden Verkehr im Nahbereich.Today's vehicles are equipped with camera-based driver assistance systems, which are used to recognize objects to avoid collisions and to recognize road boundaries to keep the vehicle in lane. Especially against the background of automated driving, multifocal camera systems are used. Specifications include forward-looking systems with telephoto or wide-angle optics, for example to detect lost cargo at long range and crossing traffic at close range.

Eine Mono- oder Stereokamera-basierte Tiefenschätzung mit unterschiedlichen Kamerasystemen gewinnt an Bedeutung. Durch die Tiefenschätzung profitiert die Erkennung von Objekten, und insbesondere die Erkennung von sehr kleinen Objekten wie verlorene Ladung oder Debris. Diese zeichnen sich durch ihre Erhabenheit gegenüber der Straßenoberfläche aus.A mono or stereo camera-based depth estimation with different camera systems is gaining in importance. Depth estimation benefits the detection of objects, and particularly the detection of very small objects such as lost cargo or debris. These are characterized by their elevation compared to the road surface.

Diese Tiefenschätzung erfolgt klassisch auf feature-basierten (merkmalsbasierten) Ansätzen zur Korrespondenzsuche in rektifizierten Bildern oder mit neuronalen Netzen, welche mit trainierten Features die Tiefe aus Bildpaaren berechnen. Anhand eines Versatzes von Bildmerkmalen (Features) bei zwei Bildern, die aus unterschiedlichen Kamerapositionen erfasst wurden, kann der räumliche Abstand zu dem realen Objekt, das diesem Bildmerkmal entspricht, berechnet oder zumindest geschätzt werden.This depth estimation is done classically on feature-based (feature-based) approaches for correspondence search in rectified images or with neural networks, which calculate the depth from image pairs with trained features. Based on an offset of image features (features) in two images that were captured from different camera positions, the spatial distance to the real object that corresponds to this image feature can be calculated or at least estimated.

In heutigen und zukünftigen Systemen wird aufgrund von sicherheitskritischen Anwendungen gerade im Bereich der Tiefenschätzung davon ausgegangen, dass eine Kombination aus klassischer und CNN-basierter Tiefenschätzung, oder mindestens eine klassische oder CNN-basierte Tiefenschätzung realisiert wird. CNN ist die Abkürzung für Convolutional Neural Network („faltendes neuronales Netzwerk“). Diese Tiefenschätzung wird durch spezielle Hardware von Chipherstellern unterstützt, die rechenzeitintensive feature-basierte Verfahren wie beispielsweise Semi-Global-Matching oder andere Verfahren in Hardware realisiert haben.In current and future systems, due to safety-critical applications, especially in the area of depth estimation, it is assumed that a combination of classic and CNN-based depth estimation, or at least one classic or CNN-based depth estimation, is implemented. CNN is short for Convolutional Neural Network. This depth estimation is supported by special hardware from chip manufacturers who have implemented feature-based methods that require a great deal of computing time, such as semi-global matching or other methods in hardware.

Die genannten Systeme und Ansätze zeigen eine sehr gute Performance bei Szenarien, die hinreichend ausgeleuchtet sind. Die feature-basierte Tiefenschätzung verliert bei Dämmerung oder Nacht sehr drastisch an Performance oder steht überhaupt nicht zur Verfügung, weil die für eine Korrespondenzsuche nötigen Features entweder überhaupt nicht oder nur mit unzureichendem Kontrast zur Verfügung stehen. Zwar ist der untere Bereich des Fahrzeuges wie Straße durch die Fahrzeugscheinwerfer hinreichend ausgeleuchtet, seitliche oder höhere Bereiche hingegen meistens nicht.The systems and approaches mentioned show very good performance in scenarios that are sufficiently illuminated. The feature-based depth estimation drastically loses performance at dusk or at night or is not available at all because the features required for a correspondence search are either not available at all or only with insufficient contrast. Although the lower area of the vehicle, such as the road, is sufficiently illuminated by the vehicle headlights, lateral or higher areas are usually not.

Ein weiteres Problem für eine robuste Korrespondenzsuche ist die Aufhellung der Kamerabilder durch bekannte algorithmische Verfahren wie eine Gammakorrektur, ein automatischer Weißabgleich oder ein Histogrammausgleich (Histogram Equalization). Dadurch kann das Rauschen in den Bildern so stark verstärkt werden, dass es die für eine Korrespondenzsuche nötigen Features negativ überdeckt. Eine Berechnung von Tiefeninformationen ist somit nicht möglich. Weiterhin zeigen die oben genannten Verfahren gerade bei Dunkelheit signifikante Performanceeinbußen durch fehlende Farbinformationen im Bild.Another problem for a robust correspondence search is the brightening of the camera images by known algorithmic methods such as gamma correction, automatic white balance or histogram equalization (histogram equalization). This can amplify the noise in the images to such an extent that it negatively covers the features required for a correspondence search. A calculation of depth information is therefore not possible. Furthermore, the methods mentioned above show significant losses in performance, especially in the dark, due to the lack of color information in the image.

Eine weitere Herausforderung sind ungleichmäßig ausgeleuchtete Bildbereiche. Eine globale oder lokale Aufhellung des Bildes würde die bereits ausreichend beleuchtete Bereich zu sehr, oder dunklere Bereiche nur unzureichend aufhellen. Dies führt zu Artefakten, die eine robuste Tiefenschätzung unmöglich macht.Another challenge are unevenly illuminated image areas. A global or local brightening of the image would brighten the already sufficiently illuminated area too much, or darker areas only insufficiently. This leads to artifacts that make robust depth estimation impossible.

Abhilfe schaffen Lampen, welche die kritischen Bereiche ausleuchten. Dazu ist eine hohe Anzahl an Lampen notwendig, die neben kritischen Designeinschränkungen zu erheblichen Mehrkosten führen können.This can be remedied by lamps that illuminate the critical areas. This requires a large number of lamps, which, in addition to critical design restrictions, can lead to significant additional costs.

Ein Kamerasystem wäre wünschenswert, welches ohne Beleuchtung algorithmisch eine Aufwertung der Bilder bei Nacht realisiert und eine zuverlässige korrespondenzbasierte Tiefenschätzung bei Dämmerung oder Nacht ermöglicht.A camera system would be desirable that algorithmically enhances the images at night without lighting and enables reliable, correspondence-based depth estimation at dusk or at night.

Es ist Aufgabe der vorliegenden Erfindung, Lösungen hierfür bereitzustellen.It is the object of the present invention to provide solutions for this.

Die Aufgabe wird gelöst durch die Gegenstände der unabhängigen Patentansprüche. Vorteilhafte Ausführungsformen sind Gegenstand der abhängigen Ansprüche, der folgenden Beschreibung sowie der Figuren.The object is solved by the subject matter of the independent patent claims. Advantageous embodiments are the subject matter of the dependent claims, the following description and the figures.

Ein Verfahren zum maschinellen Lernen einer Helligkeits-Umwandlung von Eingangs-Stereobildpaardaten eines Kamerasystems in Ausgabe-Stereobildpaardaten mittels eines künstlichen neuronalen Netzwerks sieht vor, dass das Lernen mit einer Vielzahl von Paaren an Trainings-Stereobildpaaren derart erfolgt, dass am Eingang des künstlichen neuronalen Netzwerks jeweils ein Stereobildpaar einer ersten Helligkeit und als Soll-Ausgabe-Bildpaar ein Stereobildpaar derselben Szene mit einer abweichenden zweiten Helligkeit bereitgestellt wird. Der Begriff „Helligkeits-Umwandlung“ kann auch eine Farb-Umwandlung und Kontrastverbesserung umfassen, so dass eine möglichst umfassende „Sichtverbesserung“ erzielt wird. Eine Farb-Umwandlung kann beispielsweise durch eine Anpassung der Farbverteilung erfolgen. Das künstliche neuronale Netzwerk kann beispielsweise ein CNN sein. Das Kamerasystem kann aus einer bewegten Einzel- bzw. Monokamera oder aus einer Stereokamera bestehen. Das Kamerasystem kann beispielsweise eine in oder an einem Fahrzeug befestigte Mono- oder Stereokamera sein, die das Umfeld des Fahrzeugs erfasst.
Ein Beispiel einer fahrzeuggebundenen Stereokamera ist eine hinter der Windschutzscheibe im Inneren des Fahrzeugs angeordnete Stereokamera umfassend zwei Kameramodule, die den vor dem Fahrzeug liegenden Bereich der Fahrzeugumgebung durch die Windschutzscheibe erfassen und abbilden können. Die Stereokamera kann aus einem Weitwinkel- und einem Telekameramodul aufgebaut sein.
Alternativ zu einer Stereokamera mit zwei separaten Kameramodulen kann auch eine bewegte Monokamera Stereobildpaare liefern. Zeitlich aufeinanderfolgend erfasste Einzelbilder weisen aufgrund der Bewegung der Monokamera unterschiedliche Perspektiven auf. Auch dies ermöglicht eine „Bewegungsstereo“-Auswertung und somit eine Tiefenschätzung bzw. (teilweise) 3D-Rekonstruktion der von der Monokamera erfassten Umgebung. Eine Monokamera wird aktiv bewegt, z.B. durch ein kurzes Stück Fahren oder eine Kurvenfahrt eines Fahrzeugs, in oder an dem die Monokamera befestigt ist. Gerade bei Kurvenfahrten leuchten dann die Scheinwerfer ähnliche Bereiche der Umgebung in hintereinander erfassten bzw. aufgenommenen Bildern unterschiedlich aus.A method for machine learning of a brightness conversion of input stereo image pair data of a camera system into output stereo image pair data using an artificial neural network provides that the learning is carried out with a large number of pairs of training stereo image pairs in such a way that at the input of the artificial neural network each a stereo image pair of a first brightness and as a target output Image pair a stereo image pair of the same scene is provided with a different second brightness. The term "brightness conversion" can also include color conversion and contrast improvement, so that the most comprehensive possible "visibility improvement" is achieved. A color conversion can take place, for example, by adjusting the color distribution. The artificial neural network can be a CNN, for example. The camera system can consist of a moving single or mono camera or a stereo camera. The camera system can be, for example, a mono or stereo camera mounted in or on a vehicle, which captures the surroundings of the vehicle.
An example of a vehicle-mounted stereo camera is a stereo camera arranged behind the windshield inside the vehicle, comprising two camera modules that can capture and image the area of the vehicle environment in front of the vehicle through the windshield. The stereo camera can be made up of a wide-angle and a telephoto camera module.
As an alternative to a stereo camera with two separate camera modules, a moving mono camera can also provide stereo image pairs. Individual images recorded in chronological succession have different perspectives due to the movement of the mono camera. This also enables a "motion stereo" evaluation and thus a depth estimation or (partial) 3D reconstruction of the surroundings captured by the mono camera. A mono camera is actively moved, for example by driving a short distance or cornering a vehicle in or on which the mono camera is attached. Especially when cornering, the headlights then illuminate similar areas of the environment differently in images captured or recorded one after the other.

Die Helligkeits-Umwandlung kann derart erfolgen, dass die beiden Einzelbilder des Stereobildpaars aneinander angeglichen werden. Durch die Angleichung der beiden Einzelbilder wird die Tiefenschätzung verbessert, da beispielsweise korrespondierende Bildmerkmale („features“) in den beiden angeglichenen Einzelbildern robuster detektiert werden können.The brightness conversion can take place in such a way that the two individual images of the stereo image pair are matched to one another. The depth estimation is improved by the alignment of the two individual images since, for example, corresponding image features (“features”) can be detected more robustly in the two aligned individual images.

In einer Ausführungsform werden die Paare von Trainings-Stereobildpaaren erzeugt, indem jeweils ein erstes Stereobildpaar mit erster Helligkeit und ein zweites Stereobildpaar mit zweiter Helligkeit zeitgleich oder unmittelbar aufeinander folgend mit unterschiedlichen Belichtungszeiten erfasst werden. Eine erste kürzere Belichtungszeit führt zu einem dunkleren Trainingsstereobildpaar und eine zweite längere Belichtungszeit zu einem helleren Trainingsstereobildpaar. Beispielsweise ist die Stereokamera während der Erzeugung der Trainingsstereobildpaardaten stationär (unbewegt) gegenüber der zu erfassenden Umgebung. Hierzu können die Trainingsdaten beispielsweise mit einer Stereokamera eines stehenden Fahrzeugs erfasst werden. Die von der Stereokamera erfasste Szene kann beispielsweise eine statische Umgebung beinhalten, also ohne bewegte Objekte.
Im Falle einer bewegten Monokamera sind ebenfalls unterschiedliche Belichtungszeiten eine Möglichkeit zur definierten Erzeugung von Trainings-Stereobildpaaren.
Alternativ könnte die Umgebungshelligkeit zu Trainingszwecken in definierter Weise variiert werden, so dass jeweils erste Bilder mit erster Umgebungshelligkeit und zweite Bilder mit zweiter Umgebungshelligkeit erfasst werden. Beispielsweise kann bei einer gleichförmig bewegten Monokamera ein erstes Bildpaar zu Zeitpunkten t1 und t2 bei heller Beleuchtung erfasst werden und ein zweites Bildpaar zu Zeitpunkten t3 und t4 bei dunkler Beleuchtung, wobei t2 - t1 = t4 - t3 gilt.In one embodiment, the pairs of training stereo image pairs are generated in that a first stereo image pair with a first brightness and a second stereo image pair with a second brightness are recorded simultaneously or immediately one after the other with different exposure times. A first, shorter exposure time results in a darker training stereo image pair and a second, longer exposure time results in a lighter training stereo image pair. For example, the stereo camera is stationary (unmoving) with respect to the environment to be captured during the generation of the training stereo image pair data. For this purpose, the training data can be recorded with a stereo camera of a stationary vehicle, for example. The scene captured by the stereo camera can contain, for example, a static environment, ie without moving objects.
In the case of a moving mono camera, different exposure times are also a possibility for the defined generation of training stereo image pairs.
Alternatively, the ambient brightness could be varied in a defined manner for training purposes, so that first images with a first ambient brightness and second images with a second ambient brightness are recorded. For example, with a uniformly moving mono camera, a first pair of images can be captured at times t1 and t2 with bright lighting and a second pair of images at times t3 and t4 with dark lighting, where t2−t1=t4−t3 applies.

Gemäß einer Ausführungsform wird mindestens ein Faktor d als Maß für den Unterschied zwischen der zweiten und der ersten Helligkeit eines Paars von Trainings-Stereobildpaaren ermittelt und dem künstlichen neuronalen Netzwerk im Rahmen des Trainings bereitgestellt. Im Falle einer Stereokamera kann jeweils ein erster Faktor d1 für ein Bild des ersten (z.B. des linken) Stereokameramoduls und ein zweiter Faktor d2 für das zweite (rechte) Einzelbild eines Stereobildpaars ermittelt werden. Der Faktor d kann beispielsweise ermittelt werden als Verhältnis von zweiter Helligkeit zu erster Helligkeit. Die Helligkeit kann insbesondere als mittlere Helligkeit eines Einzelbilds oder Stereobildpaars oder anhand eines Illuminanzhistogramms eines Einzelbilds oder Stererobildpaars ermittelt werden. In einer allgemeinen Form kann der Faktor d Informationen zur Bildqualität umfassen.According to one embodiment, at least one factor d is determined as a measure of the difference between the second and the first brightness of a pair of training stereo image pairs and is provided to the artificial neural network as part of the training. In the case of a stereo camera, a first factor d1 can be determined for an image of the first (e.g. the left) stereo camera module and a second factor d2 for the second (right) individual image of a stereo image pair. The factor d can be determined, for example, as the ratio of the second brightness to the first brightness. The brightness can be determined in particular as the mean brightness of a single image or stereo image pair or using an illuminance histogram of a single image or stereo image pair. In a general form, the factor d may include image quality information.

In einer Ausführungsform werden beim Trainieren des künstlichen neuronalen Netzwerks feature-basierte Verfahren zur Korrespondenzsuche berücksichtigt, so dass bei der Umwandlung eine Optimierung der in den Eingangs-Stereobildpaaren enthaltenen Features erfolgt. Als Beispiel seien Verfahren genannt, die basierend auf Gradienten, Kanten oder Ecken im Bild Regionen in dem Stereobildpaar zur Tiefenberechnung vergleichen. Da die Güte dieser Feature („Bildmerkmale“) sehr stark von der Bildhelligkeit abhängen kann, kann ein neuronales Netz beispielweise durch Sollbilder mit einer starken Ausprägung der Features dahingehend trainiert werden, dass es die Sichtbarkeit dieser Features bei der Helligkeitsanpassung erhält oder sogar verstärkt.In one embodiment, feature-based methods for searching for correspondence are taken into account when training the artificial neural network, so that the features contained in the input stereo image pairs are optimized during the conversion. Methods are mentioned as an example which compare regions in the stereo image pair for depth calculation based on gradients, edges or corners in the image. Since the quality of these features ("image features") can depend very much on the image brightness, a neural network can be trained, for example, by target images with a strong characteristic of the features, such that it maintains or even increases the visibility of these features when the brightness is adjusted.

In einer Ausführungsform weist das künstliche neuronale Netz eine gemeinsame Eingangsschnittstelle für zwei separate Ausgangsschnittstellen auf. Die gemeinsame Eingangsschnittstelle weist geteilte Merkmalsrepräsentationsschichten auf. An der ersten Ausgangsschnittstelle werden helligkeitsumgewandelte Stereobildpaardaten ausgegeben. An der zweiten Ausgangsschnittstelle werden ADAS-relevante Detektionen mindestens einer ADAS-Detektionsfunktion ausgegeben. ADAS steht für fortschrittliche Systeme zum assistierten oder automatisierten Fahren (Englisch: Advanced Driver Assistance Systems). ADAS-relevante Detektionen sind somit z.B. Entfernungen, Objekte, Gegenstände, Verkehrsteilnehmer, die für ADAS/AD Systeme wichtige Eingangsgrößen darstellen. Das künstliche neuronalen Netzwerk umfasst ADAS-Detektionsfunktionen, z.B. eine Tiefenerkennung (3D-Schätzung der Bildbestandteile), eine Spurerkennung, eine Objekterkennung, semantische Erkennung, oder dergleichen mehr. Im Rahmen des Trainings werden die Ausgaben beider Ausgangsschnittstellen optimiert.In one embodiment, the artificial neural network has a common input interface for two separate output interfaces. The common input interface has shared feature representation layers. Brightness-converted stereo image pair data is output at the first output interface. ADAS-relevant detections of at least one ADAS detection function are output at the second output interface. ADAS stands for advanced systems for assisted or automated driving (English: Advanced Driver Assistance Systems). ADAS-relevant detections are, for example, distances, objects, items, road users, which represent important input variables for ADAS/AD systems. The artificial neural network includes ADAS detection functions, for example depth detection (3D estimation of the image components), lane detection, object detection, semantic detection, or the like. The outputs of both output interfaces are optimized as part of the training.

Ein Verfahren zur Helligkeits-Umwandlung von Eingangs-Stereobildpaardaten eines Kamerasystems in Ausgabe-Stereobildpaardaten umfasst die Schritte:

a) von dem Kamerasystem erfasste bzw. aufgenommene Eingangs-Stereobildpaardaten einer aktuellen Helligkeit werden einem trainierten künstlichen neuronalen Netzwerk bereitgestellt,
b) das trainierte künstliche neuronale Netzwerk ist dazu konfiguriert, die Eingangs-Stereobildpaardaten mit der aktuellen Helligkeit in Ausgabe-Stereobildpaardaten mit abweichender Ausgabehelligkeit umzuwandeln, und
c) das trainierte künstliche neuronale Netzwerk ist dazu konfiguriert, die Ausgabe-Stereobildpaardaten auszugeben.

A method for brightness conversion of input stereo image pair data of a camera system into output stereo image pair data comprises the steps:

a) input stereo image pair data of a current brightness captured or recorded by the camera system are provided to a trained artificial neural network,
b) the trained artificial neural network is configured to convert the input stereo image pair data with the current brightness into output stereo image pair data with a different output brightness, and
c) the trained artificial neural network is configured to output the output stereo image pair data.

Die in ihrer Helligkeit optimierten Ausgabe-Stereobildpaardaten ermöglichen vorteilhafterweise eine bessere Tiefenberechnung bzw. Tiefenschätzung und/oder maschinelle Objekterkennung auf den Ausgabe-Stereobildpaardaten.The output stereo image pair data, optimized in terms of their brightness, advantageously enable better depth calculation or depth estimation and/or automatic object recognition on the output stereo image pair data.

In einer Ausführungsform kann dem trainierten künstlichen neuronalen Netzwerk in Schritt a) zusätzlich ein Faktor d bereitgestellt werden und in Schritt b) die (Stärke bzw. der Grad der) Umwandlung in Abhängigkeit von dem Faktor d gesteuert. Basierend auf dem Faktor d kann das Maß der Verstärkung bzw. Angleichung reguliert werden. Im Falle von Stereobildpaaren eines linken und eines rechten Stereokameramoduls mit erstem und zweitem Faktor d1 bzw. d2, kann die Umwandlung mittels einer Kreuzbestimmung erfolgen. Z.B. kann eine Umwandlung in Form einer Angleichung erfolgen, so dass d2 bei einer Umwandlung mit vorgegebenem d1 dadurch festgelegt ist, dass beide Ausgangsbilder eine identische Helligkeit aufweisen werden.In one embodiment, a factor d can additionally be provided to the trained artificial neural network in step a) and the (strength or the degree of) conversion can be controlled in step b) as a function of the factor d. Based on the factor d, the degree of amplification or equalization can be adjusted. In the case of stereo image pairs of a left and a right stereo camera module with a first and second factor d1 or d2, the conversion can take place by means of a cross determination. For example, a conversion can be in the form of an equalization such that, for a conversion with a given d1, d2 is determined by the fact that both output images will have identical brightness.

Gemäß einer Ausführungsform erfolgt die Umwandlung in Schritt b) derart, dass eine Sichtverbesserung hinsichtlich Überbelichtung erzielt wird. Beispielsweise wurde im Rahmen des Trainings gelernt, überbelichtete Stereobildpaare in der Helligkeit zu reduzieren.According to one embodiment, the conversion in step b) is carried out in such a way that a visual improvement with regard to overexposure is achieved. For example, the training taught how to reduce the brightness of overexposed stereo image pairs.

In einer Ausführungsform werden in Schritt b) die Eingangs-Stereobildpaardaten mit aktueller Helligkeit in Ausgangs-Stereobildpaardaten mit einer längeren (virtuellen) Belichtungszeit umgewandelt. Das bietet den Vorteil einer Vermeidung von Bewegungsunschärfe („motion blur“).In one embodiment, in step b) the input stereo image pair data with current brightness is converted into output stereo image pair data with a longer (virtual) exposure time. This offers the advantage of avoiding motion blur.

Gemäß einer Ausführungsform wird der Faktor d geschätzt und bei der Schätzung wird die Helligkeit der aktuellen erfassten Stereobildpaardaten (z.B. Illuminanzhistogramm oder mittlere Helligkeit) oder der vorhergehend erfassten Stereobildpaardaten berücksichtigt.
Eine zu hohe Helligkeit spricht beispielsweise für eine Überbelichtung, eine zu niedrige Helligkeit für eine Unterbelichtung. Beides kann mittels entsprechender Schwellwerte festgestellt und durch eine entsprechende Umwandlung behoben werdenAccording to one embodiment, the factor d is estimated and the brightness of the currently captured stereo image pair data (eg illuminance histogram or average brightness) or the previously captured stereo image pair data is taken into account in the estimation.
For example, too high a brightness indicates overexposure, and too low a brightness indicates underexposure. Both can be determined using appropriate threshold values and remedied by appropriate conversion

In einer Ausführungsform wird nach einer Erkennung, dass mindestens zwei Bildregionen eines aktuell erfassten Stereobildpaars, eine (deutlich) unterschiedliche Bildhelligkeit aufweisen, für jede der Bildregionen ein unterschiedlicher Faktor d geschätzt oder bestimmt werden. Beim Vorliegen von Bildregionen mit unterschiedlichen Beleuchtungsintensitäten kann somit der Faktor d innerhalb eines Stereobildpaars variieren und Bildregionen mit unterschiedlichen Faktoren d werden über Helligkeitsschätzungen bestimmt. Die Helligkeitsverbesserung kann somit an einzelne Bildregionen angepasst werden.In one embodiment, after a detection that at least two image regions of a currently captured stereo image pair have a (clearly) different image brightness, a different factor d is estimated or determined for each of the image regions. If there are image regions with different illumination intensities, the factor d can vary within a pair of stereo images, and image regions with different factors d are determined via brightness estimates. The brightness improvement can thus be adapted to individual image regions.

Gemäß einer Ausführungsform kann bei der Bestimmung bzw. Schätzung des Faktors d eine zeitliche Entwicklung des Faktors d berücksichtigt werden. Hierzu gehen in die Schätzung die zeitliche Entwicklung des Faktors d und eine Sequenz von Eingangsstereobildpaaren ein. Information über die zeitliche Entwicklung der Helligkeit kann auch für Bildregionen mit unterschiedlichen Faktoren d herangezogen werden.According to one embodiment, a temporal development of the factor d can be taken into account when determining or estimating the factor d. For this purpose, the temporal development of the factor d and a sequence of input stereo image pairs are included in the estimation. Information about the development of brightness over time can also be used for image regions with different factors d.

In einer Ausführungsform wird bei der Umwandlung darauf geachtet, dass im Eingangs-Stereobildpaar enthaltene Features erhalten bleiben.In one embodiment, care is taken during the conversion that features contained in the input stereo image pair are preserved.

Gemäß einer Ausführungsform erfolgt eine Ausgabe der umgewandelten Stereobildpaardaten an mindestens eine 3D-Rekonstruktionsfunktion, welche auf der Grundlage der umgewandelten Stereobildpaardaten eine CNN-basierte oder feature-basierte Tiefenberechnung ermittelt und ausgibt.According to one embodiment, the converted stereo image pair data is output to at least one 3D reconstruction function, which determines and outputs a CNN-based or feature-based depth calculation based on the converted stereo image pair data.

In einer Ausführungsform ist das Kamerasystem ein fahrzeuggebundenes Umfelderfassungskamerasystem.In one embodiment, the camera system is a vehicle-bound surroundings detection camera system.

Gemäß einer Ausführungsform mit einem fahrzeuggebundenen Umfelderfassungskamerasystem werden bei der Bestimmung des Faktors d Informationen über die aktuelle Umgebung des Fahrzeugs berücksichtigt. Die Schätzung des Faktors d kann weitere Szeneninformationen berücksichtigen, wie Umgebungsinformationen (Landstraße, Stadt, Autobahn, Tunnel, Unterführung), die über Bildverarbeitung aus den Sensordaten oder Daten eines Navigationssystems (bspw. GPS-Empfänger mit digitaler Karte) gewonnen werden.According to an embodiment with a vehicle-bound environment detection camera system, information about the current environment of the vehicle is taken into account when determining the factor d. The estimation of the factor d can take into account further scene information, such as environmental information (road, city, freeway, tunnel, underpass), which is obtained via image processing from the sensor data or data from a navigation system (e.g. GPS receiver with a digital map).

Beispielsweise kann der Faktor d basierend auf Umgebungsinformationen und aus der zeitlichen Reihenfolge von Stereobildpaaren als auch aus der Historie des Faktors d geschätzt werden.For example, the factor d can be estimated based on environmental information and from the chronological order of stereo image pairs as well as from the history of the factor d.

Die Schätzung des Faktors d kann somit beim Einsatz eines trainierten künstlichen neuronalen Netzwerks dynamisch erfolgen.The factor d can thus be estimated dynamically when using a trained artificial neural network.

In einer Ausführungsform erfolgt eine Ausgabe der umgewandelten Stereobildpaardaten des fahrzeuggebundenen Umfelderfassungskamerasystems an mindestens eine ADAS-Detektionsfunktion, welche ADAS-relevante Detektionen ermittelt und ausgibt. ADAS-Detektionsfunktionen können bekannte Kanten- bzw. Mustererkennungsverfahren umfassen sowie Erkennungsverfahren, die mittels eines künstlichen neuronalen Netzwerks relevante Bildobjekte erkennen und optional klassifizieren können.In one embodiment, the converted stereo image pair data from the vehicle-mounted surroundings detection camera system is output to at least one ADAS detection function, which determines and outputs ADAS-relevant detections. ADAS detection functions can include known edge or pattern recognition methods as well as recognition methods that can use an artificial neural network to identify and optionally classify relevant image objects.

In einer alternativen Ausführungsform kann der Ansatz erweitert werden und das künstliche neuronale Netzwerk zur Helligkeits-Umwandlung der Stereobildpaardaten kann mit einem neuronalen Netzwerk für ADAS-Detektionsfunktionen, z.B. Tiefenerkennung, Objekterkennung, Spurerkennung, semantische Erkennung, kombiniert werden. Somit wird kaum zusätzlicher Aufwand in der Rechenzeit verursacht. Nach dem Training kann die (erste) Ausgangsschnittstelle für die Ausgabe der umgewandelten Stereobildpaardaten eliminiert werden, so dass bei Einsatz im Fahrzeug nur die (zweite) Ausgangsschnittstelle für die ADAS-Detektionen vorhanden ist.In an alternative embodiment, the approach can be extended and the artificial neural network for brightness conversion of the stereo image pair data can be combined with a neural network for ADAS detection functions, e.g. depth detection, object detection, lane detection, semantic detection. This means that there is hardly any additional effort in terms of computing time. After training, the (first) output interface for the output of the converted stereo image pair data can be eliminated, so that only the (second) output interface for the ADAS detections is available when used in the vehicle.

Die Erfindung betrifft weiterhin eine Vorrichtung mit mindestens einer Datenverarbeitungseinheit konfiguriert zur Helligkeits-Umwandlung von Eingangs-Stereobildpaardaten eines Kamerasystems in Ausgabe-Stereobildpaardaten. Die Vorrichtung umfasst: eine Eingangsschnittstelle, ein trainiertes künstliches neuronales Netzwerk und eine (erste) Ausgangsschnittstelle. Die Eingangsschnittstelle ist konfiguriert zum Empfangen von Eingangs-Stereobildpaardaten einer aktuellen Helligkeit, die von dem Kamerasystem erfasst worden sind. Das trainierte künstliche neuronale Netzwerk ist dazu konfiguriert, die Eingangs-Stereobildpaardaten, die eine erste Helligkeit aufweisen, in Ausgabe-Stereobildpaardaten mit abweichender Ausgabehelligkeit umzuwandeln.The invention further relates to a device with at least one data processing unit configured for brightness conversion of input stereo image pair data of a camera system into output stereo image pair data. The device comprises: an input interface, a trained artificial neural network and a (first) output interface. The input interface is configured to receive input stereo image pair data of a current brightness captured by the camera system. The trained artificial neural network is configured to convert the input stereo image pair data having a first brightness to output stereo image pair data having a different output brightness.

Die (erste) Ausgangsschnittstelle ist dazu konfiguriert, die umgewandelten Stereobildpaardaten auszugeben.The (first) output interface is configured to output the converted stereo image pair data.

Die Vorrichtung bzw. die Datenverarbeitungseinheit kann insbesondere einen Mikrocontroller oder -prozessor, eine Zentrale Verarbeitungseinheit (CPU), ein Grafische Verarbeitungseinheit (GPU), einen Digital Signal Processor (DSP), einen ASIC (Application Specific Integrated Circuit), einen FPGA (Field Programmable Gate Array) und dergleichen mehr sowie Software zur Durchführung der entsprechenden Verfahrensschritte umfassen.The device or the data processing unit can in particular be a microcontroller or processor, a central processing unit (CPU), a graphics processing unit (GPU), a digital signal processor (DSP), an ASIC (Application Specific Integrated Circuit), an FPGA (Field Programmable Gate Array) and the like include more and software for performing the appropriate method steps.

Gemäß einer Ausführungsform ist die Datenverarbeitungseinheit in eine hardwarebasierter Bildvorverarbeitungsstufe (Image Signal Processor, ISP) implementiert. Dieser ISP kann hardwareseitig um ein neuronales Netz ergänzt werden, welches die Umwandlung vornimmt und die aufbereiteten Informationen mit den Originaldaten möglichen Detektions- oder Anzeigeverfahren zur Verfügung stellt.According to one embodiment, the data processing unit is implemented in a hardware-based image pre-processing stage (Image Signal Processor, ISP). This ISP can be supplemented with a neural network on the hardware side, which performs the conversion and makes the processed information available with the original data for possible detection or display processes.

In einer Ausführungsform ist das trainierte künstliche neuronale Netzwerk zur Helligkeits-Umwandlung ein Bestandteil eines fahrzeugseitigen ADAS-Detektions-Neuronalen-Netzwerks, z.B. zur Tiefenschätzung, Objektdetektion, semantischen Segmentierung bzw. Fahrspurdetektion, mit einer geteilten Eingangsschnittstelle (Eingangs- bzw. Merkmalsrepräsentationsschichten), und zwei separaten Ausgangsschnittstellen (Ausgangsschichten) ist, wobei die erste Ausgangsschnittstelle zur Ausgabe der umgewandelten Ausgabestereobildpaardaten und die zweite Ausgangsschnittstelle zur Ausgabe der ADAS-Detektionen (Bilderkennungsdaten) konfiguriert sind.In one embodiment, the trained artificial neural network for brightness conversion is part of an in-vehicle ADAS detection neural network, e.g. for depth estimation, object detection, semantic segmentation or lane detection, with a shared input interface (input or feature representation layers), and is two separate output interfaces (output layers), wherein the first output interface is configured to output the converted output stereo image pair data and the second output interface is configured to output the ADAS detections (image recognition data).

Gemäß einer Ausführungsform umfasst die Vorrichtung das Kamerasystem, beispielsweise ein fahrzeuggebundenes Umfelderfassungskamerasystem.According to one embodiment, the device includes the camera system, for example a vehicle-bound surroundings detection camera system.

In einer Ausführungsform ist das Kamerasystem ein multifokales Stereokamerasystem. Hier bietet die Umwandlung den Vorteil, dass Unterschiede in der Helligkeit zwischen den beiden Einzelbildern (z.B. linkes Tele- und rechtes Weitwinkelbild) ausgeglichen werden können. Helligkeitsunterschiede können hierbei vor der Umwandlung systembedingt dadurch auftreten, dass die beiden Einzelbilder im Überlappungsbereich eine unterschiedliche Auflösung und/oder Belichtungszeit aufweisen.In one embodiment, the camera system is a multifocal stereo camera system. Here, the conversion offers the advantage that there are differences in brightness between the two individual images (eg left telephoto and right wide angle image) can be compensated. Differences in brightness can occur before the conversion due to the fact that the two individual images in the overlapping area have a different resolution and/or exposure time.

Die Erfindung betrifft weiterhin ein Computer Programmelement, welches, wenn damit eine Datenverarbeitungseinheit programmiert wird, die Datenverarbeitungseinheit dazu anweist, ein Verfahren zur Helligkeits-Umwandlung von Eingangs-Stereobildpaardaten eines Kamerasystems in Ausgabe-Stereobildpaardaten durchzuführen.The invention further relates to a computer program element which, when a data processing unit is programmed with it, instructs the data processing unit to carry out a method for brightness conversion of input stereo image pair data of a camera system into output stereo image pair data.

Die Erfindung betrifft weiterhin ein Computerlesbares Speichermedium, auf dem ein solches Programmelement gespeichert ist.The invention further relates to a computer-readable storage medium on which such a program element is stored.

Die Erfindung betrifft weiterhin die Verwendung eines Verfahrens zum maschinellen Lernen einer Helligkeits-Umwandlung von Eingangs-Stereobildpaardaten eines Kamerasystem in Ausgabe-Stereobildpaardaten zum Trainieren eines künstlichen neuronalen Netzwerks einer Vorrichtung mit mindestens einer Datenverarbeitungseinheit.The invention further relates to the use of a method for machine learning of a brightness conversion of input stereo image pair data of a camera system into output stereo image pair data for training an artificial neural network of a device with at least one data processing unit.

Die vorliegende Erfindung kann somit in digitalen elektronischen Schaltkreisen, Computer-Hardware, Firmware oder Software implementiert sein.The present invention can thus be implemented in digital electronic circuitry, computer hardware, firmware or software.

Im Folgenden werden Ausführungsbeispiele und Figuren näher beschrieben. Dabei zeigen

1: schematisch ein Fahrzeug mit einem Kamerasystem zur Umfelderfassung und Frontscheinwerfern;
2: ein System zur Sichtverbesserung von Kamerabildern;
3: ein System mit einem ersten neuronalen Netz zur Sichtverbesserung und einem nachgelagerten zweiten neuronalen Netz für Detektionsfunktionen;
4: ein System mit kombinierter Sichtverbesserung und Detektionsfunktionen; und
5 ein abgewandeltes System, bei dem die Sichtverbesserung nur im Rahmen des Trainings berechnet und ausgegeben wird.

Exemplary embodiments and figures are described in more detail below. show it

1 : Schematic of a vehicle with a camera system for detecting the surroundings and headlights;
2 : a system for improving the visibility of camera images;
3 : a system with a first neural network for vision improvement and a downstream second neural network for detection functions;
4 : a system with combined vision enhancement and detection capabilities; and
5 a modified system in which the vision improvement is only calculated and output as part of the training.

1 zeigt schematisch ein Fahrzeug F mit einem Kamerasystem K, das im Innenraum des Fahrzeugs hinter der Windschutzscheibe angeordnet ist und das Umfeld bzw. die Umgebung des Fahrzeugs F durch die Windschutzscheibe erfasst. Das Kamerasystem K kann als Mono- oder als Stereokamera ausgebildet sein. Die Monokamera erfasst bei Bewegung zu aufeinanderfolgenden Zeitpunkten das Umfeld aus unterschiedlichen Perspektiven. 1 shows a vehicle F with a camera system K, which is arranged in the interior of the vehicle behind the windshield and captures the environment or the surroundings of the vehicle F through the windshield. The camera system K can be designed as a mono or stereo camera. When there is movement, the mono camera captures the surroundings from different perspectives at successive times.

Eine Stereokamera kann innerhalb eines Gehäuses angeordnet sein, so dass beide Kameramodule bzw. Optroniken mechanisch starr miteinander verbunden sind. Alternativ können die Kameramodule wie in DE 102016217450 A1 beschrieben als Einzelkameras an unterschiedlichen Bereichen im oder am Fahrzeug befestigt sein. Die beiden Kameramodule können identische Komponenten (Optik und Bildaufnahmesensor) aufweisen. Vorstellbar sind jedoch auch unterschiedliche Komponenten, wie beispielsweise WO 2017/028848 A1 zeigt. Eine Stereoauswertung ist grundsätzlich im „Überlappungsbereich“ der Bildbereiche zweier Kameramodule möglich.A stereo camera can be arranged within a housing, so that both camera modules or optronics are mechanically rigidly connected to one another. Alternatively, the camera modules can be used as in DE 102016217450 A1 described as individual cameras attached to different areas in or on the vehicle. The two camera modules can have identical components (optics and image recording sensor). However, different components are also conceivable, such as, for example WO 2017/028848 A1 indicates. A stereo evaluation is basically possible in the "overlap area" of the image areas of two camera modules.

Bei Dunkelheit beleuchten die Frontscheinwerfer S des Fahrzeugs F das Umfeld vor dem Fahrzeug, welches von dem Kamerasystem K erfasst wird. Die Intensität der Beleuchtung des Fahrzeugumfelds hängt von der Charakteristik der Frontscheinwerfer S ab. Da die Intensität mit wachsendem Abstand vom Frontscheinwerfer abnimmt (etwa proportional zum Quadrat des Abstands), erscheinen weiter entfernte Umgebungsbereiche im Kamerabild dunkler. Auch die Seitenbereiche der Fahrzeugumgebung werden durch die Frontscheinwerfer S nicht so stark beleuchtet wie der Bereich gerade vor dem Fahrzeug F. Diese unterschiedliche Beleuchtung kann dazu führen, dass die von dem Kamerasystem erfassen Bildpaare nicht alle für den Fahrer, für Fahrerassistenzsysteme oder für Systeme zum automatisierten Fahren relevanten Informationen enthalten. Bei Kurvenfahrten leuchten die Frontscheinwerfer S ähnliche Bereiche der Umgebung in hintereinander erfassten Bildern einer Monokamera unterschiedlich aus.In the dark, the headlights S of the vehicle F illuminate the area in front of the vehicle, which is captured by the camera system K. The intensity of the lighting around the vehicle depends on the characteristics of the headlights S. Since the intensity decreases with increasing distance from the headlight (roughly proportional to the square of the distance), more distant areas of the environment appear darker in the camera image. The side areas of the vehicle surroundings are also not as strongly illuminated by the headlights S as the area directly in front of the vehicle F. This different lighting can mean that the image pairs recorded by the camera system are not all for the driver, for driver assistance systems or for automated systems Driving relevant information included. When cornering, the S headlights illuminate similar areas of the environment differently in images captured one after the other by a mono camera.

Wünschenswert wäre ein sichtverbessertes Bildpaar, bei dem (zu) dunkle Bildbereiche eine automatische Lichtverstärkung erfahren. Bei zu hellen (z.B. übersättigten oder überbelichteten) Bildbereichen kann dagegen eine Reduktion der Intensität hilfreich für den Betrachter oder eine Bildverarbeitung sein.A vision-enhanced pair of images would be desirable, in which (too) dark image areas experience automatic light amplification. In the case of image areas that are too bright (e.g. oversaturated or overexposed), reducing the intensity can be helpful for the viewer or for image processing.

2 zeigt schematisch eine allgemeine Übersicht eines Systems zur Sichtverbesserung von Kamerabildpaaren. Wesentlicher Bestandteil ist ein künstliches neuronales Netzwerk CNN1, welches in einer Trainingsphase lernt, einem Satz von Trainingsbildpaaren In (In1, In2, In3, ...) einen Satz von korrespondieren sichtverbesserten Bildpaaren Out (Out1, Out2, Out3, ...) zuzuordnen. Zuordnen heißt hierbei, dass das neuronale Netz CNN1 lernt, ein sichtverbessertes Bildpaar zu generieren. Ein Trainingsbildpaar (In1, In2, In3, ...) kann z.B. eine Straßenszene bei Dämmerung enthalten, auf dem mit dem menschlichen Auge nur ein unmittelbar vor dem Fahrzeug befindliches weiteres Fahrzeug und der Himmel erkennbar sind. Auf dem korrespondierenden sichtverbesserten Bildpaar (Out1, Out2, Out3, ...) sind zusätzlich die Konturen des weiteren Fahrzeugs, ein Bürgersteig als Fahrbahnbegrenzung und angrenzende Gebäude erkennbar. Vorzugsweise dient ein Faktor d als zusätzliche Eingangsgröße für das neuronale Netz CNN1. Der Faktor d ist ein Maß für den Grad der Sichtverbesserung. Beim Training kann der Faktor d für ein Paar von Stereobildpaaren aus Trainingsbildpaar und sichtverbessertem Bildpaar (In1, Out1; In2, Out2; In3, Out3; ...) vorab ermittelt und dem neuronalen Netz CNN1 bereitgestellt werden. Beim Einsatz des trainierten neuronalen Netzes CNN1 kann über die Vorgabe eines Faktors d gesteuert werden, wie stark das neuronale Netz CNN1 ein Bildpaar „erhellt“ bzw. „abdunkelt“ - man kann sich den Faktor d auch als einen externen Regressionsparameter vorstellen (nicht nur hell - dunkel, sondern mit einer beliebigen Abstufung). Da der Faktor d möglichen Schwankungen im Bereich von +/- 10% unterliegen kann, wird dies während des Trainings berücksichtigt. Der Faktor d kann während des Trainings um circa +/- 10% verrauscht werden (z.B., während der verschiedenen Epochen des Trainings des neuronalen Netzwerkes), um während der Inferenz im Fahrzeug robust gegenüber Fehlschätzungen des Faktors d im Bereich von ca. +/- 10% zu sein. Mit anderen Worten liegt die nötige Genauigkeit von Faktor d im Bereich von +/- 10% - somit ist das neuronale Netz CNN1 robust gegenüber Abweichungen bei Schätzungen von diesem Parameter. 2 FIG. 12 schematically shows a general overview of a system for improving the vision of pairs of camera images. An essential component is an artificial neural network CNN1, which learns in a training phase to assign a set of corresponding improved-visibility image pairs Out (Out1, Out2, Out3, ...) to a set of training image pairs In (In1, In2, In3, ...). . Assignment means here that the neural network CNN1 learns to generate a pair of images with improved visibility. A pair of training images (In1, In2, In3, ...) can contain, for example, a street scene at dusk on which the human eye can only see another vehicle located directly in front of the vehicle and the sky. On the correspondent At the end of the improved-visibility pair of images (Out1, Out2, Out3, ...), the contours of the other vehicle, a sidewalk as the lane boundary and adjacent buildings can also be seen. A factor d preferably serves as an additional input variable for the neural network CNN1. The factor d is a measure of the degree of vision improvement. During training, the factor d can be determined in advance for a pair of stereo image pairs consisting of a training image pair and a vision-enhanced image pair (In1, Out1; In2, Out2; In3, Out3; ...) and made available to the neural network CNN1. When using the trained neural network CNN1, the specification of a factor d can be used to control how much the neural network CNN1 "brightens" or "darkens" an image pair - one can also imagine the factor d as an external regression parameter (not just bright - dark, but with any gradation). Since the factor d can be subject to possible fluctuations in the range of +/- 10%, this is taken into account during the training. The factor d can be noisy by about +/- 10% during the training (e.g., during the different epochs of the training of the neural network) in order to be robust against misestimates of the factor d in the range of about +/- during the inference in the vehicle. to be 10%. In other words, the required accuracy of factor d is in the range of +/- 10% - thus the neural network CNN1 is robust to deviations in estimates of this parameter.

Eine Möglichkeit zur Erzeugung der Trainingsdaten (Trainingsbildpaaren (In1, In2, In3, ...) und zugeordneten sichtverbesserten Bildpaaren (Out1, Out2, Out3, ...)) besteht in der Aufnahme von Bilddaten einer Szene mit jeweils einer kurzen und zeitgleich bzw. unmittelbar aufeinander folgend mit einer langen Belichtungszeit. Darüberhinausgehend können für eine Szene Paare von Stereobildpaaren (In1, Out1; In2, Out2; In3, Out3; ...) mit verschiedenen Faktoren d aufgenommen bzw. erfasst werden, um so ein kontinuierliches Spektrum für die Sichtverbesserung abhängig von dem Parameter bzw. Faktor d zu lernen. Vorzugsweise ist die Stereokamera K während der Erzeugung der Trainingsdaten stationär (unbewegt) gegenüber der zu erfassenden Umgebung. Beispielsweise können die Trainingsdaten mittels einer Stereokamera K eines stehenden Fahrzeugs F erfasst werden. Die von der Stereokamera K erfasste Szene kann insbesondere eine statische Umgebung beinhalten, also ohne bewegte Objekte.One way to generate the training data (training image pairs (In1, In2, In3, ...) and associated image pairs with improved visibility (Out1, Out2, Out3, ...)) is to record image data of a scene with a short and simultaneous or .immediately consecutive with a long exposure time. In addition, pairs of stereo image pairs (In1, Out1; In2, Out2; In3, Out3; ...) with different factors d can be recorded or recorded for a scene in order to obtain a continuous spectrum for the improvement of vision depending on the parameter or factor to learn. During the generation of the training data, the stereo camera K is preferably stationary (not moving) in relation to the surroundings to be recorded. For example, the training data can be recorded using a stereo camera K of a stationary vehicle F. The scene captured by the stereo camera K can in particular contain a static environment, ie without moving objects.

Wenn das neuronale Netz CNN1 trainiert ist, erfolgt eine Sichtverbesserung nach folgendem Schema:

Eingangsbildpaar → CNN1
Faktor d → CNN1
CNN1 → sichtverbessertes Ausgangs-/Ausgabebildpaar.

When the neural network CNN1 is trained, vision is improved according to the following scheme:

Input image pair → CNN1
Factor d → CNN1
CNN1 → visual enhanced output/output image pair.

Zusammenfassend kann somit beispielsweise ein sehr dunkles Stereobildpaar als Eingangsdaten mit wenig Kontrast und Farbinformationen oder ein Eingangsbild mit unausgewogener Beleuchtung in eine taghelle Repräsentation umwandelt. Für diese Aufgabe wurde das neuronale Netz mit einem Datensatz bestehend aus „dunklen und beleuchtungstechnisch unausgewogenen Eingangsbildern“ und den dazugehörigen „taghellen Bildern“ trainiert.In summary, for example, a very dark stereo image pair as input data with little contrast and color information or an input image with unbalanced lighting can be converted into a representation that is bright as day. For this task, the neural network was trained with a data set consisting of "dark and lighting-technically unbalanced input images" and the associated "bright images".

Insbesondere wird durch die Verwendung von taghellen Stereobildpaaren das neuronale Netz dahingehend trainiert, dass in den zu verbessernden Bildpaaren bei Nacht oder Dämmerung vorkommende Features für eine spätere Korrespondenzsuche erhalten und bestenfalls sogar verstärkt werden. Dafür kann ein neuronales Netz beispielweise durch Sollbilder mit einer starken Ausprägung der Features mit unterschiedlichen Helligkeiten für eine spätere Korrespondenzsuche dahingehend trainiert werden, dass es die Sichtbarkeit dieser Features bei der Helligkeitsanpassung erhält oder sogar verstärkt.In particular, the use of stereo image pairs that are bright as day trains the neural network in such a way that features occurring in the image pairs to be improved at night or twilight are preserved for a later correspondence search and, at best, are even reinforced. For this purpose, a neural network can be trained, for example, by target images with a strong expression of the features with different brightnesses for a later correspondence search in such a way that the visibility of these features is maintained or even increased when the brightness is adjusted.

Beim Trainieren des Netzes zur Bildverbesserung können featurebasierte Verfahren zur Korrespondenzsuche berücksichtigt werden, so dass das Verfahren für die zu erkennenden Feature spezialisiert wird und diese Feature explizit für eine nachfolgende Korrespondenzsuche hervorhebt.When training the network for image enhancement, feature-based correspondence search methods can be taken into account, so that the method is specialized for the features to be recognized and explicitly highlights these features for a subsequent correspondence search.

Eine Möglichkeit besteht darin, dass die sichtverbesserten Ausgabebildpaare als Eingang für ein zweites neuronalen Netzwerks dienen, welches eine Tiefenberechnung durchführt, so dass die 3D-Geometrie der Umgebung des Kamerasystems K rekonstruiert werden kann.One possibility is that the vision-enhanced output image pairs serve as input for a second neural network, which performs a depth calculation so that the 3D geometry of the surroundings of the camera system K can be reconstructed.

Die 3 bis 5 zeigen Ausführungsbeispiele für mögliche Kombinationen eines ersten Netzwerks für die Sichtverbesserung mit einem oder mehreren Netzwerken der Funktionen für Fahrerassistenzfunktionen und Automatisiertes Fahren geordnet nach dem Verbrauch an Rechenressourcen.the 3 until 5 show exemplary embodiments of possible combinations of a first network for improving visibility with one or more networks of the functions for driver assistance functions and automated driving, ordered according to the consumption of computing resources.

3 zeigt ein System mit einem ersten neuronalen Netz CNN1 zur Sichtverbesserung mit einem nachgelagerten zweiten neuronalen Netz CNN2 für Detektionsfunktionen (fn1, fn2, fn3, fn4). Die Detektionsfunktionen (fn1, fn2, fn3, fn4) sind hierbei Bildverarbeitungsfunktionen, die für ADAS oder AD-Funktionen relevante Entfernungen, Strukturen, Eigenschaften bzw. Objekte in den Bilddaten detektieren. Unter „Bilddaten“ werden hier insbesondere auch die 2D-Bilddaten eines einzelnen Stereokameramoduls verstanden. Viele der Detektionsfunktionen (bzw. Detektionsalgorithmen) arbeiten auf einem einem Monokamerabild bzw. einer Sequenz von Monokamerabildern. Viele solcher Detektionsfunktionen (fn1, fn2, fn3, fn4), die auf maschinellem Lernen beruhen, sind bereits entwickelt oder Gegenstand aktueller Entwicklung (z.B.: Tiefenschätzung, Verkehrszeichenklassifikation, Objektklassifikation, semantische Segmentierung, Fahrspurmarkierungserkennung und -lokalisierung). Auf sichtverbesserten Bildern (Opti) liefern Detektionsfunktionen (fn1, fn2, fn3, fn4) des zweiten neuronalen Netzes CNN2 bessere Ergebnisse als auf den ursprünglichen Eingangsbilddaten (Ini) bei schlechten Sichtverhältnissen. 3 shows a system with a first neural network CNN1 for vision improvement with a downstream second neural network CNN2 for detection functions (fn1, fn2, fn3, fn4). The detection functions (fn1, fn2, fn3, fn4) are image processing functions that detect distances, structures, properties or objects in the image data that are relevant for ADAS or AD functions. “Image data” is also understood here to mean, in particular, the 2D image data of an individual stereo camera module. Many of the detection functions (or detection algorithms) work up one a mono camera image or a sequence of mono camera images. Many such detection functions (fn1, fn2, fn3, fn4) based on machine learning have already been developed or are the subject of current development (eg: depth estimation, traffic sign classification, object classification, semantic segmentation, lane marking detection and localization). Detection functions (fn1, fn2, fn3, fn4) of the second neural network CNN2 deliver better results on visibility-improved images (Opti) than on the original input image data (Ini) in poor visibility conditions.

Wenn die beiden neuronalen Netze CNN1 und CNN2 trainiert sind, kann ein Verfahren nach folgendem Schema ablaufen:

Eingangsbild (Ini), Faktor d → CNN1 → sichtverbessertes Ausgangs-/Ausgabebild (Opti) → CNN2 für Detektionsfunktionen (fn1, fn2, fn3, fn4) → Ausgabe der Detektionen: Tiefe, Objekte, Spur, Semantik, ...

If the two neural networks CNN1 and CNN2 are trained, a method can run according to the following scheme:

Input image (Ini), factor d → CNN1 → optically improved output/output image (Opti) → CNN2 for detection functions (fn1, fn2, fn3, fn4) → output of detections: depth, objects, track, semantics, ...

4 zeigt ein neuronales Netzwerk CNN10 für die Sichtverbesserung eines Eingangsbildes (Ini) ggfs. gesteuert durch einen Faktor d, welches Merkmalsrepräsentationsschichten (als Eingangs- bzw. untere Schichten) mit dem Netzwerk für die Detektionsfunktionen (fn1, fn2, fn3, fn4) teilt. In den Merkmalsrepräsentationsschichten des neuronalen Netzwerks CNN10 werden gemeinsame Merkmale für die Sichtverbesserung und für die Detektionsfunktionen gelernt. 4 shows a neural network CNN10 for the visual improvement of an input image (Ini), optionally controlled by a factor d, which shares feature representation layers (as input or lower layers) with the network for the detection functions (fn1, fn2, fn3, fn4). Common features for the vision improvement and for the detection functions are learned in the feature representation layers of the neural network CNN10.

Das neuronale Netz CNN10 mit geteilten Eingangsschichten und zwei separaten Ausgängen weist einen erster Ausgang CNN 11 zur Ausgabe des sichtverbesserten Ausgangs-/Ausgabebildes (Opti) sowie einen zweiten Ausgang CNN 12 zur Ausgabe der Detektionen: Tiefe, Objekte, Spur, Semantik, etc. auf.The neural network CNN10 with divided input layers and two separate outputs has a first output CNN 11 for outputting the visually enhanced output/output image (Opti) and a second output CNN 12 for outputting the detections: depth, objects, track, semantics, etc .

Dadurch, dass beim Training die Merkmalsrepräsentationsschichten sowohl hinsichtlich der Sichtverbesserung als auch der Detektionsfunktionen (fn1, fn2, fn3, fn4) optimiert werden, bewirkt eine Optimierung der Sichtverbesserung zugleich eine Verbesserung der Detektionsfunktionen (fn1, fn2, fn3, fn4). Falls nun eine Ausgabe der sichtverbesserten Bilddaten (Opti) nicht gewünscht bzw. nicht erforderlich ist, kann der Ansatz weiter variiert werden, wie anhand von 5 erläutert wird.Due to the fact that the feature representation layers are optimized in terms of both the vision improvement and the detection functions (fn1, fn2, fn3, fn4) during training, optimizing the vision improvement also results in an improvement in the detection functions (fn1, fn2, fn3, fn4). If now an output of the visually improved image data (Opti) is not desired or not necessary, the approach can be further varied, as shown in FIG 5 is explained.

5 zeigt einen auf dem System der 4 basierenden Ansatz zur neuronalen-Netz-basierten Sichtverbesserung durch Optimierung der Merkmale. Um Rechenzeit zu sparen, werden die Merkmale für die Detektionsfunktionen (fn1, fn2, fn3, fn4) während des Trainings hinsichtlich Sichtverbesserung und hinsichtlich der Detektionsfunktionen (fn1, fn2, fn3, fn4) optimiert. 5 shows one on the system of 4 based approach to neural network based vision improvement by feature optimization. In order to save computing time, the features for the detection functions (fn1, fn2, fn3, fn4) are optimized during the training with regard to improving visibility and with regard to the detection functions (fn1, fn2, fn3, fn4).

Zur Laufzeit, d.h. beim Einsatz des trainierten neuronalen Netzes (CNN10, CNN11, CNN12), werden keine sichtverbesserten Bilddaten (Opti) berechnet. Dennoch sind die Detektionsfunktionen (fn1, fn2, fn3, fn4) - wie bereits erläutert - durch das gemeinsame Training von Sichtverbesserung und Detektionsfunktionen verbessert verglichen mit einem System mit nur einem neuronalen Netz (CNN2) für Detektionsfunktionen (fn1, fn2, fn3, fn4), bei dem im Training auch nur die Detektionsfunktionen (fn1, fn2, fn3, fn4) optimiert worden sind. In der Trainingsphase wird durch eine zusätzliche Ausgangsschnittstelle (CNN11) das helligkeitsverbesserte Stereobildpaar (Opti) ausgegeben und mit der Ground Truth (dem korrespondierenden sichtverbesserten Trainingsbild) verglichen. In der Testphase bzw. zur Laufzeit kann dieser Ausgang (CNN11) weiterverwendet werden oder, um Rechenzeit zu sparen, abgeschnitten werden. Die Gewichte für die Detektionsfunktionen (fn1, fn2, fn3, fn4) werden bei diesem Training mit dem zusätzlichen Ausgang (CNN11) dahingehend modifiziert, dass sie die Helligkeitsverbesserungen für die Detektionsfunktionen (fn1, fn2, fn3, fn4) berücksichtigen. Die Gewichte der Detektionsfunktionen (fn1, fn2, fn3, fn4) lernen somit implizit die Information über die Helligkeitsverbesserung.At runtime, i.e. when using the trained neural network (CNN10, CNN11, CNN12), no visual-enhanced image data (Opti) are calculated. Nevertheless, the detection functions (fn1, fn2, fn3, fn4) - as already explained - are improved by the joint training of vision enhancement and detection functions compared to a system with only one neural network (CNN2) for detection functions (fn1, fn2, fn3, fn4) , in which only the detection functions (fn1, fn2, fn3, fn4) have been optimized in the training. In the training phase, the brightness-improved stereo image pair (Opti) is output through an additional output interface (CNN11) and compared with the ground truth (the corresponding training image with improved visibility). In the test phase or at runtime, this output (CNN11) can continue to be used or, in order to save computing time, cut off. In this training with the additional output (CNN11), the weights for the detection functions (fn1, fn2, fn3, fn4) are modified in such a way that they take into account the brightness improvements for the detection functions (fn1, fn2, fn3, fn4). The weights of the detection functions (fn1, fn2, fn3, fn4) thus implicitly learn the information about the brightness improvement.

In einer weiteren Ausführung kann das System mit dem neuronalen Netz dahingehend trainiert werden, dass es neben den Stereobildern zusätzliche Informationen aus besser beleuchteten Bereichen nutzt, um die Umrechnung für die unbeleuchteten Bereiche weiter zu verbessern. Die zusätzlichen Informationen können beispielsweise weitere Bilddaten eines Rundumsichtkamerasystems umfassen. Denkbar ist, dass das Netz die Sichtbarkeit gewisser Feature in den hellen Bereichen sieht und auswertet, z.B. über den Kontrast oder andere Helligkeitsmeasures. Der Wert dieser Measures kann dann als Optimierungsziel für die dunklen Bereiche genutzt werden. Hier wird das Netz dann weniger mit Einzelbildern für jede Kamera individuell trainiert, sondern als Gesamtsystem bestehend aus mehreren Kamerasystemen (also Kamerasystem K plus Rundumsichtkamerasystem).In a further embodiment, the system can be trained with the neural network in such a way that, in addition to the stereo images, it uses additional information from better illuminated areas in order to further improve the conversion for the unilluminated areas. The additional information can include, for example, further image data from an all-round view camera system. It is conceivable that the network sees and evaluates the visibility of certain features in the bright areas, e.g. using the contrast or other brightness measures. The value of these measures can then be used as an optimization target for the dark areas. Here the network is then trained less with individual images for each camera individually, but as an overall system consisting of several camera systems (i.e. camera system K plus all-round view camera system).

In einer weiteren Anwendung können dem Netz zum Trainieren neben Beleuchtungsinformationen und Bilddaten Informationen zur Bildqualität zur Verfügung gestellt werden. Dahingehend kann das System und das Verfahren dahingehend optimiert werden, dass es für eine Korrespondenzsuche und Human Vision optimierte Bilddaten berechnet.In a further application, information on the image quality can be made available to the network for training in addition to lighting information and image data. To this end, the system and the method can be optimized in such a way that it calculates image data optimized for a correspondence search and human vision.

Wesentliche Vorteile sind:

- Ermöglichung der korrespondenzbasierten Tiefenschätzung bei Dunkelheit.
- Deutliche Verbesserung der Bildqualität bei der Anzeige von Nachtbildern.
- Es wird keine zusätzliche Beleuchtung benötigt, welche Fahrzeugbereiche mit fehlender Ausleuchtung aufhellt. Dies kann ein Alleinstellungsmerkmal darstellen.
- Generierung eines Bilddatenstromes für Human und Computer Vision aus einem Netzwerk für eine optimierte Korrespondenzsuche.

Main advantages are:

- Enabling correspondence-based depth estimation in the dark.
- Significant improvement in image quality when viewing night images.
- No additional lighting is required, which brightens vehicle areas with a lack of illumination. This can represent a unique selling point.
- Generation of an image data stream for human and computer vision from a network for an optimized correspondence search.

Potentielle Anwendungsgebiete sind:

- Alle Arten von Assistenzsystemen in Bussen, Bahn, Flugzeugen, Robotik.
- Alle Anwendungen von featurebasierter Tiefenschätzung mit monofokalen Kamerasystemen. Diese basieren auf optischem Fluss (Structure-from-Motion) und erfahren bei Nacht eine dramatische Degradation durch fehlende Features. Eine Monokamera wird aktiv bewegt, z.B. durch ein kurzes Stück Fahren des Autos oder eine Kurvenfahrt (structure from motion). Gerade bei Kurvenfahrten leuchten dann die Scheinwerfer ähnliche Bereiche in hintereinander erfassten Bildern unterschiedlich bis gar nicht mehr aus.
- Assistenzsysteme, welche auf optischem Fluss zur Featuresuche basieren.
- Assistenzsysteme, welche durch CNNs eine monofokale Tiefenschätzung durchführen, und welche featurebasierte Verfahren zur Fixierung der Skalierung verwenden.
- Online Kalibrierung von Kamerasystemen, welche bei Dunkelheit aufgrund fehlender Features oder geringem Kontrast ebenfalls dramatisch an Performance verlieren.

Potential areas of application are:

- All kinds of assistance systems in buses, trains, planes, robotics.
- All applications of feature-based depth estimation with monofocal camera systems. These are based on optical flow (structure-from-motion) and experience dramatic degradation at night due to missing features. A mono camera is actively moved, eg by driving the car for a short distance or cornering (structure from motion). Especially when cornering, the headlights then illuminate similar areas differently or not at all in images captured one after the other.
- Assistance systems based on optical flow for feature searches.
- Assistance systems that perform a monofocal depth estimation through CNNs and that use feature-based methods to fix the scaling.
- Online calibration of camera systems, which also lose performance dramatically in the dark due to missing features or low contrast.

ZITATE ENTHALTEN IN DER BESCHREIBUNGQUOTES INCLUDED IN DESCRIPTION

Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.This list of documents cited by the applicant was generated automatically and is included solely for the better information of the reader. The list is not part of the German patent or utility model application. The DPMA assumes no liability for any errors or omissions.

Zitierte PatentliteraturPatent Literature Cited

DE 102016217450 A1 [0048]DE 102016217450 A1 [0048]
WO 2017/028848 A1 [0048]WO 2017/028848 A1 [0048]

Claims

Verfahren zum maschinellen Lernen einer Helligkeits-Umwandlung von Eingangs-Stereobildpaardaten eines Kamerasystems (K) in Ausgabe-Stereobildpaardaten mittels eines künstlichen neuronalen Netzwerks (CNN1, CNN10, CNN11, CNN12), wobei das Lernen mit einer Vielzahl von Paaren an Trainings-Stereobildpaaren (In1, Out1; In2, Out2; In3, Out3; ...) derart erfolgt, dass am Eingang des künstlichen neuronalen Netzwerks (CNN1, CNN10) jeweils ein erstes Stereobildpaar (In1, In2, In3, ...) einer ersten Helligkeit und als Soll-Ausgabe-Bildpaar ein zweites Stereobildpaar (Out1, Out2, Out3, ...) derselben Szene mit einer abweichenden zweiten Helligkeit bereitgestellt wird.Method for machine learning of a brightness conversion of input stereo image pair data of a camera system (K) into output stereo image pair data using an artificial neural network (CNN1, CNN10, CNN11, CNN12), the learning being carried out with a large number of pairs of training stereo image pairs (In1 , Out1; In2, Out2; In3, Out3; ...) takes place in such a way that at the input of the artificial neural network (CNN1, CNN10) a first pair of stereo images (In1, In2, In3, ...) of a first brightness and as Target output image pair a second stereo image pair (Out1, Out2, Out3, ...) of the same scene with a different second brightness is provided.

Verfahren nach Anspruch 1, wobei die Trainings-Stereobildpaare (In1, Out1; In2, Out2; In3, Out3; ...) erzeugt werden, indem jeweils ein erstes Stereobildpaar (In1, In2, In3, ...) mit erster und ein zweites Stereobildpaar (Out1, Out2, Out3, ...) mit zweiter Helligkeit zeitgleich oder unmittelbar aufeinander folgend mit unterschiedlichen Belichtungszeiten aufgenommen werden.procedure after claim 1 , wherein the training stereo image pairs (In1, Out1; In2, Out2; In3, Out3; ...) are generated by combining a first stereo image pair (In1, In2, In3, ...) with a first and a second stereo image pair (Out1 , Out2, Out3, ...) with second brightness can be recorded at the same time or in immediate succession with different exposure times.

Verfahren nach Anspruch 1 oder 2, wobei mindestens ein Faktor d als Maß für den Unterschied zwischen der zweiten und der ersten Helligkeit eines Paars von Trainings-Stereobildpaaren (In1, Out1; In2, Out2; In3, Out3; ...) ermittelt wird und dem künstlichen neuronalen Netzwerk (CNN1, CNN10, CNN11, CNN12) bereitgestellt wird.procedure after claim 1 or 2 , where at least one factor d is determined as a measure of the difference between the second and the first brightness of a pair of training stereo image pairs (In1, Out1; In2, Out2; In3, Out3; ...) and the artificial neural network (CNN1 , CNN10, CNN11, CNN12).

Verfahren nach einem der vorhergehenden Ansprüche, wobei beim Trainieren des künstlichen neuronalen Netzwerks (CNN1, CNN10, CNN11, CNN12) feature-basierte Verfahren zur Korrespondenzsuche berücksichtigt werden, so dass bei der Umwandlung eine Optimierung der in den Eingangs-Stereobildpaaren enthaltenen Features erfolgt.Method according to one of the preceding claims, wherein feature-based methods for searching for correspondence are taken into account when training the artificial neural network (CNN1, CNN10, CNN11, CNN12), so that the features contained in the input stereo image pairs are optimized during the conversion.

Verfahren zur Helligkeits-Umwandlung von Eingangs-Stereobildpaardaten eines Kamerasystems (K) in Ausgabe-Bildpaardaten mit den Schritten: a) Von dem Kamerasystem (K) erfasste Eingangs-Stereobildpaardaten (Ini) einer aktuellen Helligkeit werden einem trainierten künstlichen neuronalen Netzwerk (CNN1, CNN10, CNN11, CNN12) bereitgestellt, b) das trainierte künstliche neuronale Netzwerk (CNN1, CNN10, CNN11, CNN12) ist dazu konfiguriert, die Eingangs-Stereobildpaardaten (Ini) mit der aktuellen Helligkeit in Ausgabe-Stereobildpaardaten (Opti) mit abweichender Ausgabehelligkeit umzuwandeln, und c) das trainierte künstliche neuronale Netzwerk (CNN1, CNN10, CNN11, CNN12) ist dazu konfiguriert, die Ausgabe-Stereobildpaardaten (Opti) auszugeben.Method for brightness conversion of input stereo image pair data of a camera system (K) into output image pair data with the steps: a) Input stereo image pair data (Ini) of a current brightness captured by the camera system (K) are made available to a trained artificial neural network (CNN1, CNN10, CNN11, CNN12), b) the trained artificial neural network (CNN1, CNN10, CNN11, CNN12) is configured to convert the input stereo image pair data (Ini) with the current brightness into output stereo image pair data (Opti) with a different output brightness, and c) the trained artificial neural network (CNN1, CNN10, CNN11, CNN12) is configured to output the output stereo image pair data (Opti).

Verfahren nach Anspruch 5, wobei in Schritt a) zusätzlich ein Faktor d dem trainierten künstlichen neuronalen Netzwerk (CNN1, CNN10, CNN11, CNN12) bereitgestellt wird und in Schritt b) die Umwandlung in Abhängigkeit von dem Faktor d gesteuert wird.procedure after claim 5 , wherein in step a) a factor d is additionally provided to the trained artificial neural network (CNN1, CNN10, CNN11, CNN12) and in step b) the conversion is controlled as a function of the factor d.

Verfahren nach Anspruch 5 oder 6, wobei bei der Umwandlung darauf geachtet wird, dass im Eingangs-Stereobildpaar enthaltene Features erhalten bleiben.procedure after claim 5 or 6 , with the conversion being careful to preserve features contained in the input stereo image pair.

Verfahren nach einem der Ansprüche 5 bis 7, wobei eine Ausgabe der umgewandelten Stereobildpaardaten (Opti) an mindestens eine 3D-Rekonstruktionsfunktion erfolgt, welche auf der Grundlage der umgewandelten Stereobildpaardaten eine CNN-basierte oder feature-basierte Tiefenberechnung ermittelt und ausgibt.Procedure according to one of Claims 5 until 7 , wherein the converted stereo image pair data (Opti) is output to at least one 3D reconstruction function, which determines and outputs a CNN-based or feature-based depth calculation on the basis of the converted stereo image pair data.

Verfahren nach einem der Ansprüche 5 bis 8, wobei das Kamerasystem (K) ein fahrzeuggebundenes Umfelderfassungskamerasystem ist.Procedure according to one of Claims 5 until 8th , wherein the camera system (K) is a vehicle-bound environment detection camera system.

Verfahren nach Anspruch 9, wobei bei der Bestimmung des Faktors d Informationen über die aktuelle Umgebung des Fahrzeugs berücksichtigt werden.procedure after claim 9 , where information about the current environment of the vehicle is taken into account when determining the factor d.

Vorrichtung mit mindestens einer Datenverarbeitungseinheit konfiguriert zur Helligkeits-Umwandlung von Eingangs-Stereobildpaardaten (Ini) eines Kamerasystems (K) in Ausgabe-Stereobildpaardaten (Opti) umfassend: - eine Eingangsschnittstelle, die konfiguriert ist zum Empfangen der Eingangs-Stereobildpaardaten (Ini) einer aktuellen Helligkeit von dem Kamerasystem (K), - eintrainiertes künstliches neuronales Netzwerk (CNN1, CNN10, CNN11, CNN12), das dazu konfiguriert ist, die Eingangs-Stereobildpaardaten (Ini) mit der aktuellen Helligkeit in Ausgabe-Stereobildpaardaten (Opti) mit abweichender Ausgabehelligkeit umzuwandeln und - eine erste Ausgangsschnittstelle (CNN11), die dazu konfiguriert ist, die umgewandelten Ausgabe-Stereobildpaardaten (Opti) auszugeben.Device with at least one data processing unit configured for the brightness conversion of input stereo image pair data (Ini) of a camera system (K) into output stereo image pair data (Opti), comprising: - an input interface configured to receive the input stereo image pair data (Ini) of a current brightness from the camera system (K), - a trained artificial neural network (CNN1, CNN10, CNN11, CNN12) configured to convert the input stereo image pair data (Ini) with the current brightness into output stereo image pair data (Opti) with a different output brightness and - a first output interface (CNN11) configured to output the converted output stereo image pair data (Opti).

Vorrichtung nach Anspruch 11, wobei die Datenverarbeitungseinheit in eine hardwarebasierter Bildvorverarbeitungsstufe implementiert ist.device after claim 11 , wherein the data processing unit is implemented in a hardware-based image pre-processing stage.

Vorrichtung nach Anspruch 11 oder 12 umfassend eine fahrzeuggebundenes Umfelderfassungskamerasystem als Kamerasystem (K).device after claim 11 or 12 comprising a vehicle-bound environment detection camera system as a camera system (K).

Vorrichtung nach einem der Ansprüche 11 bis 13, wobei das Kamerasystem (K) als multifokale Stereokamera ausgebildet ist.Device according to one of Claims 11 until 13 , wherein the camera system (K) is designed as a multifocal stereo camera.

Computer Programmelement, welches, wenn damit eine Datenverarbeitungseinheit programmiert wird, die Datenverarbeitungseinheit dazu anweist, ein Verfahren nach einem der Ansprüche 5 bis 10 durchzuführen.Computer program element which, when a data processing unit is programmed with it, instructs the data processing unit to carry out a method according to one of Claims 5 until 10 to perform.