DE112020002319T5

DE112020002319T5 - Bilderkennungsvorrichtung und bilderkennungsverfahren

Info

Publication number: DE112020002319T5
Application number: DE112020002319.2T
Authority: DE
Inventors: Kazuyuki OKUIKE
Original assignee: Sony Semiconductor Solutions Corp
Current assignee: Sony Semiconductor Solutions Corp
Priority date: 2019-05-10
Filing date: 2020-04-28
Publication date: 2022-01-27
Also published as: US20220207850A1; TWI800722B; KR20220006520A; JP2020188310A; TW202101959A; WO2020230636A1; US11710291B2; CN113826105A

Abstract

Eine Bilderkennungsvorrichtung (Bilderkennungssystem 100) gemäß der vorliegenden Offenbarung enthält eine Bildgebungseinheit (10) und eine Erkennungseinheit (14). Die Bildgebungseinheit (10) nimmt eine Vielzahl von Bildern zum gleichen Belichtungsstartzeitpunkt in einer Frame-Periode auf, indem Bildgebungspixel mit unterschiedlichen Empfindlichkeiten verwendet werden, um Bilddaten zu erzeugen. Die Erkennungseinheit (14) erkennt ein Objekt aus den jeweiligen Bilddaten. Die Bildgebungseinheit (10) enthält ein Pixel-Array, in dem eine Vielzahl von Bildgebungspixeln mit unterschiedlichen Belichtungszeiten, unterschiedlichen Lichtdurchlässigkeiten von Farbfiltern oder unterschiedlichen Lichtempfangsflächen zweidimensional angeordnet ist.

Description

Gebiet
Die vorliegende Offenbarung bezieht sich auf eine Bilderkennungsvorrichtung und ein Bilderkennungsverfahren.
Hintergrund
Es gibt eine Bildgebungsvorrichtung, die einen Bildgebungsmodus mit hohem Dynamikbereich (HDR; engl.: High Dynamic Range) zum Erzeugen eines HDR-Bildes aufweist, indem eine Vielzahl von Bildern mit unterschiedlichen Empfindlichkeiten in einer Frame-Periode erfasst bzw. aufgenommen und kombiniert wird, und ein Objekt aus dem HDR-Bild erkennt (siehe zum Beispiel Patentliteratur 1).
Zitatliste
Patentliteratur
Patentliteratur 1: JP 2014-103643 A
Zusammenfassung
Technisches Problem
Jedoch kann sich in der oben beschriebenen Technologie gemäß der verwandten Technik die Genauigkeit beim Erkennen des Objekts verschlechtern. Daher schlägt die vorliegende Offenbarung eine Bilderkennungsvorrichtung und ein Bilderkennungsverfahren vor, die imstande sind, die Genauigkeit beim Erkennen eines Objekts zu verbessern.
Lösung für das Problem
Eine Bilderkennungsvorrichtung gemäß der vorliegenden Offenbarung enthält eine Bildgebungseinheit und eine Erkennungseinheit. Die Bildgebungseinheit erfasst bzw. nimmt eine Vielzahl von Bildern zum gleichen Belichtungsstartzeitpunkt in einer Frame-Periode auf, indem Bildgebungspixel mit unterschiedlichen Empfindlichkeiten genutzt werden, um Bilddaten zu erzeugen. Die Erkennungseinheit erkennt aus den jeweiligen Bilddaten ein Objekt.
Figurenliste

1A ist ein erläuterndes Diagramm, das ein Pixel-Array gemäß einer ersten Ausführungsform der vorliegenden Offenbarung veranschaulicht.
1B ist ein erläuterndes Diagramm, das ein anderes Pixel-Array gemäß der ersten Ausführungsform der vorliegenden Offenbarung veranschaulicht.
2A ist ein erläuterndes Diagramm, das ein Nutzungsbeispiel eines allgemeinen DNN veranschaulicht.
2B ist ein erläuterndes Diagramm, das ein Nutzungsbeispiel eines DNN gemäß der ersten Ausführungsform der vorliegenden Offenbarung veranschaulicht.
3 ist ein Diagramm, das ein Beispiel einer Konfiguration eines Bilderkennungssystems gemäß der ersten Ausführungsform der vorliegenden Offenbarung veranschaulicht.
4 ist ein erläuterndes Diagramm einer Verarbeitung, die von einer Signalverarbeitungseinheit gemäß der ersten Ausführungsform der vorliegenden Offenbarung ausgeführt wird.
5A ist ein erläuterndes Diagramm einer Verarbeitung, die von einer Erkennungseinheit gemäß der ersten Ausführungsform der vorliegenden Offenbarung ausgeführt wird.
5B ist ein erläuterndes Diagramm der Verarbeitung, die von der Erkennungseinheit gemäß der ersten Ausführungsform der vorliegenden Offenbarung ausgeführt wird.
6 ist ein erläuterndes Diagramm, das eine erste Modifikation der Verarbeitung veranschaulicht, die von der Signalverarbeitungseinheit gemäß der ersten Ausführungsform der vorliegenden Offenbarung ausgeführt wird.
7 ist ein erläuterndes Diagramm, das eine Modifikation des Nutzungsbeispiels des DNN gemäß der ersten Ausführungsform der vorliegenden Offenbarung veranschaulicht.
8 ist ein erläuterndes Diagramm, das eine Modifikation des Bilderkennungssystems gemäß der ersten Ausführungsform der vorliegenden Offenbarung veranschaulicht.
9 ist ein erläuterndes Diagramm, das ein erstes Beispiel der Arbeitsweise eines Bildsensors gemäß der ersten Ausführungsform der vorliegenden Offenbarung veranschaulicht.
10 ist ein Flussdiagramm, das ein erstes spezifisches Beispiel einer Verarbeitung veranschaulicht, die von dem Bildsensor gemäß der ersten Ausführungsform der vorliegenden Offenbarung ausgeführt wird.
11 ist ein erläuterndes Diagramm, das ein zweites Beispiel der Arbeitsweise des Bildsensors gemäß der ersten Ausführungsform der vorliegenden Offenbarung veranschaulicht.
12 ist ein Flussdiagramm, das ein zweites spezifisches Beispiel der Verarbeitung veranschaulicht, die von dem Bildsensor gemäß der ersten Ausführungsform der vorliegenden Offenbarung ausgeführt wird.
13 ist ein erläuterndes Diagramm von Funktionen und Effekten gemäß dem zweiten Beispiel der Arbeitsweise des Bildsensors gemäß der ersten Ausführungsform der vorliegenden Offenbarung.
14 ist ein erläuterndes Diagramm, das ein Pixel-Array gemäß einer zweiten Ausführungsform der vorliegenden Offenbarung veranschaulicht.
15 ist ein erläuterndes Diagramm, das ein Nutzungsbeispiel eines DNN gemäß der zweiten Ausführungsform der vorliegenden Offenbarung veranschaulicht.
16 ist ein erläuterndes Diagramm, das ein weiteres Nutzungsbeispiel des DNN gemäß der zweiten Ausführungsform der vorliegenden Offenbarung veranschaulicht.
17 ist ein Flussdiagramm, das ein spezifisches Beispiel einer Verarbeitung veranschaulicht, die von einem Bildsensor gemäß der zweiten Ausführungsform der vorliegenden Offenbarung ausgeführt wird.
18 ist ein erläuterndes Diagramm, das ein Beispiel der Arbeitsweise eines ein anderes Pixel-Array übernehmenden bzw. enthaltenden Bildsensors gemäß der zweiten Ausführungsform der vorliegenden Offenbarung veranschaulicht.
19 ist ein erläuterndes Diagramm eines anderen Beispiels der Arbeitsweise des Bildsensors gemäß der zweiten Ausführungsform.
20 ist ein Blockdiagramm, das ein Beispiel einer schematischen Konfiguration eines Fahrzeugsteuerungssystems veranschaulicht.
21 ist ein erläuterndes Diagramm, das ein Beispiel von Installationspositionen einer Einheit zur Detektion von Information von außerhalb des Fahrzeugs und einer Bildgebungseinheit veranschaulicht.

Beschreibung von Ausführungsformen
Im Folgenden werden hierin Ausführungsformen der vorliegenden Offenbarung mit Verweis auf die Zeichnungen im Detail beschrieben. Man beachte, dass in jeder der folgenden Ausführungsformen die gleichen Bezugszeichen die gleichen Teile bezeichnen und eine überlappende Beschreibung weggelassen wird.
(1. Erste Ausführungsform)
[1-1. Überblick über ein Bilderkennungsverfahren gemäß der ersten Ausführungsform]
Zunächst wird ein Überblick über ein Bilderkennungsverfahren gemäß der vorliegenden Offenbarung beschrieben. In dem Bilderkennungsverfahren gemäß der vorliegenden Offenbarung wird eine Vielzahl von Bildern zum gleichen Belichtungsstartzeitpunkt in einer Frame-Periode unter Verwendung von Bildgebungspixeln mit unterschiedlichen Empfindlichkeiten aufgenommen, um Bilddaten zu erzeugen, und wird aus den jeweiligen Bilddaten ein Objekt erkannt.
Ein Pixel-Array, das zum Aufnehmen eines Bildes mit hohem Dynamikbereich (HDR) verwendet wird, wird zum Aufnehmen der Vielzahl von Bildern genutzt. 1A ist ein erläuterndes Diagramm, das ein Pixel-Array gemäß einer ersten Ausführungsform der vorliegenden Offenbarung veranschaulicht. Wie in 1A veranschaulicht ist, sind beispielsweise in einem Pixel-Array A1, das zum Aufnehmen eines HDR-Bildes genutzt wird, zwei Reihen von Bildgebungspixeln mit hoher Empfindlichkeit und zwei Reihen von Bildgebungspixeln mit niedriger Empfindlichkeit abwechselnd zweidimensional angeordnet.
In einem Bereich, wo die Bildgebungspixel mit hoher Empfindlichkeit und die Bildgebungspixel mit niedriger Empfindlichkeit angeordnet sind, sind Bildgebungspixel R, die rotes Licht empfangen, Bildgebungspixel Gr und Gb, die grünes Licht empfangen, und Bildgebungspixel B, die blaues Licht empfangen, in einem Bayer-Array angeordnet. Man beachte, dass in der folgenden Beschreibung auf Signale entsprechend den Mengen an empfangenem Licht, die von den Bildgebungspixeln R, Gr, Gb und B abgegeben werden, als Signale R, Gr, Gb und B oder Pixelsignale R, Gr, Gb und B verwiesen werden kann.
Man beachte, dass das Bildgebungspixel Gr ein Bildgebungspixel ist, das in einer Reihe vorgesehen ist, in der das Bildgebungspixel R angeordnet ist, und grünes Licht empfängt. Das Bildgebungspixel Gb ist ein Bildgebungspixel, das in einer Reihe angeordnet ist, in der das Bildgebungspixel B angeordnet ist, und grünes Licht empfängt. Das Bildgebungspixel mit hoher Empfindlichkeit und das Bildgebungspixel mit niedriger Empfindlichkeit weisen die gleiche Lichtempfangsfläche auf, und eine Belichtung des Bildgebungspixels mit hoher Empfindlichkeit und eine Belichtung des Bildgebungspixels mit niedriger Empfindlichkeit beginnen zur gleichen Zeit; deren Belichtungszeiten sind aber unterschiedlich.
Das Bildgebungspixel mit hoher Empfindlichkeit ist hier ein Bildgebungspixel mit einer längeren Belichtungszeit als üblich und kann eine ausreichende Menge an empfangenem Licht erhalten, selbst wenn die Umgebungen dunkel sind. Infolgedessen kann das Bildgebungspixel mit hoher Empfindlichkeit ein Bild mit hoher Empfindlichkeit aufnehmen, in dem ein Bild eines Objekts selbst in einem Fall, in dem eine Luminanz übermäßig niedrig ist und das Objekt in einer normalen Belichtungszeit unterbelichtet ist, deutlich erfasst wird.
Darüber hinaus ist hier das Bildgebungspixel mit niedriger Empfindlichkeit ein Bildgebungspixel mit einer kürzeren Belichtungszeit als üblich und wird nicht gesättigt, selbst wenn die Umgebungen hell sind. Infolgedessen kann das Bildgebungspixel mit niedriger Empfindlichkeit ein Bild mit niedriger Empfindlichkeit aufnehmen, in dem ein Bild eines Objekts selbst in einem Fall, in dem die Luminanz übermäßig hoch ist und das Objekt in einer normalen Belichtungszeit überbelichtet ist, deutlich erfasst wird.
Das HDR-Bild wird durch HDR-Kombinieren des Bildes mit hoher Empfindlichkeit und des Bildes mit niedriger Empfindlichkeit erzeugt. Daher ist das HDR-Bild ein Bild, in dem Bilder aller Objekte, einschließlich sowohl eines dunklen Objekts als auch eines hellen Objekts, deutlich erfasst werden.
Man beachte, dass man in dem in 1A veranschaulichten Pixel-Array A1 Bildgebungspixel mit der gleichen Lichtempfangsfläche als die Bildgebungspixel mit hoher Empfindlichkeit oder Bildgebungspixel mit niedriger Empfindlichkeit arbeiten lässt, indem man die Belichtungszeit variiert; aber dies ist ein Beispiel. Das Pixel-Array A1 kann beispielsweise jedes Bildgebungspixel als das Bildgebungspixel mit hoher Empfindlichkeit oder das Bildgebungspixel mit niedriger Empfindlichkeit arbeiten lassen, selbst wenn die Belichtungszeit die gleiche ist, indem die Lichtdurchlässigkeit eines auf jedem Bildgebungspixel gestapelten Farbfilters variiert wird.
In diesem Fall ist im Pixel-Array A1 ein Bildgebungspixel, auf dem der Farbfilter mit einer hohen Lichtdurchlässigkeit gestapelt ist, das Bildgebungspixel mit hoher Empfindlichkeit und ist ein Bildgebungspixel, auf dem der Farbfilter mit einer niedrigen Lichtdurchlässigkeit gestapelt ist, das Bildgebungspixel mit niedriger Empfindlichkeit. Da das Pixel-Array A1 ebenfalls das Bild mit hoher Empfindlichkeit und das Bild mit niedriger Empfindlichkeit zur gleichen Zeit aufnehmen kann, ist es möglich, das HDR-Bild durch HDR-Kombinieren beider Bilder aufzunehmen. Man beachte, dass es im Pixel-Array A1 auch möglich ist, ein Bildgebungspixel mit moderater Empfindlichkeit vorzusehen, indem die Transparenz des auf dem Bildgebungspixel gestapelten Farbfilters eingestellt wird.
Durch Variieren der Lichtempfangsfläche des Bildgebungspixels ist es darüber hinaus auch möglich, die Bildgebungspixel mit der gleichen Transparenz des Farbfilters und der gleichen Belichtungszeit als die Bildgebungspixel mit hoher Empfindlichkeit oder Bildgebungspixel mit niedriger Empfindlichkeit arbeiten zu lassen. 1B ist ein erläuterndes Diagramm, das ein weiteres Pixel-Array gemäß der ersten Ausführungsform der vorliegenden Offenbarung veranschaulicht.
Wie in 1B veranschaulicht ist, enthält ein Pixel-Array A2 Bildgebungspixel R, Gr, Gb und B, die in einem Bayer-Array angeordnet sind und eine große Lichtempfangsfläche aufweisen, und Bildgebungspixel R, Gr, Gb und B, die an vier Ecken von jedem der Bildgebungspixel R, Gr, Gb und B mit einer großen Lichtempfangsfläche angeordnet sind und eine kleine Lichtempfangsfläche aufweisen. Die Anordnung von jedem der Bildgebungspixel R, Gr, Gb und B mit einer kleinen Lichtempfangsfläche ist die gleiche wie das Bayer-Array.
Im Pixel-Array A2 sind in einem Fall, in dem die Transparenz des Farbfilters und die Belichtungszeit gleich sind, die Mengen an empfangenem Licht der Bildgebungspixel R, Gr, Gb und B mit einer großen Lichtempfangsfläche größer als die Mengen an empfangenem Licht der Bildgebungspixel R, Gr, Gb und B mit einer kleinen Lichtempfangsfläche.
Daher sind die Bildgebungspixel R, Gr, Gb und B mit einer großen Lichtempfangsfläche die Bildgebungspixel mit hoher Empfindlichkeit und sind die Bildgebungspixel R, Gr, Gb und B mit einer kleinen Lichtempfangsfläche die Bildgebungspixel mit niedriger Empfindlichkeit. Da das Pixel-Array A2 ebenfalls das Bild mit hoher Empfindlichkeit und das Bild mit niedriger Empfindlichkeit aufnehmen kann, ist es möglich, das HDR-Bild durch HDR-Kombinieren beider Bilder aufzunehmen.
Beispiele eines Verfahrens zum Erkennen eines Objekts aus Bilddaten schließen hier ein ein tiefes neuronales Netz (DNN; engl.: Deep Neural Network) nutzendes Bilderkennungsverfahren ein. Das DNN ist ein Algorithmus mit einer Mehrschichtstruktur, worin als Modell eine Schaltung menschlicher Hirnnerven (neuronales Netz), das durch maschinelles Lernen so entworfen wird, dass er ein Merkmal (Muster) eines Objekts aus Bilddaten erkennt, verwendet wird.
2A ist ein erläuterndes Diagramm, das ein Nutzungsbeispiel eines allgemeinen DNN veranschaulicht. Im Fall einer Erkennung eines Objekts aus dem HDR-Bild wird beispielsweise, wie in 2A veranschaulicht ist, wenn Signale R, G und B (Bilddaten des HDR-Bildes) der jeweiligen Pixel im HDR-Bild nach einer HDR-Kombination in das DNN eingespeist werden, vom DNN ein Objekterkennungsergebnis ausgegeben wird.
Aufgrund der HDR-Kombination kann jedoch ein Artefakt, das tatsächlich nicht existiert, im HDR-Bild enthalten sein. Wenn die Signale R, G und B der jeweiligen Pixel im HDR-Bild in das DNN eingespeist werden, kann daher aufgrund des nachteiligen Effekts des Artefakts die Genauigkeit beim Erkennen des Objekts mittels des DNN verschlechtert werden.
Deshalb wird in der vorliegenden Offenbarung, indem das Objekt aus sowohl dem Bild mit hoher Empfindlichkeit als auch dem Bild mit niedriger Empfindlichkeit vor der HDR-Kombination erkannt wird, der Einfluss des Artefakts eliminiert und wird die Genauigkeit beim Erkennen des Objekts verbessert. 2B ist ein erläuterndes Diagramm, das ein Nutzungsbeispiel eines DNN gemäß der ersten Ausführungsform der vorliegenden Offenbarung veranschaulicht.
Wie in 2B veranschaulicht ist, werden in der vorliegenden Offenbarung beispielsweise Signale R, Gr, Gb und B mit hoher Empfindlichkeit (Bilddaten des Bildes mit hoher Empfindlichkeit), die von den Bildgebungspixeln mit hoher Empfindlichkeit abgegeben werden, und Signale R, Gr, Gb und B mit niedriger Empfindlichkeit (Bilddaten des Bildes mit niedriger Empfindlichkeit), die von den Bildgebungspixeln mit niedriger Empfindlichkeit abgegeben werden, in das DNN eingespeist.
Infolgedessen gibt das DNN das Ergebnis einer Erkennung des Objekts aus dem Bild mit hoher Empfindlichkeit und das Ergebnis einer Erkennung des Objekts aus dem Bild mit niedriger Empfindlichkeit aus. Da das DNN das Objekt aus dem Bild mit hoher Empfindlichkeit und dem Bild mit niedriger Empfindlichkeit, die das Artefakt nicht enthalten, erkennt, ist es zu dieser Zeit möglich, ein sehr genaues Objekterkennungsergebnis auszugeben, ohne durch das Artefakt beeinflusst zu werden.
Wie oben beschrieben wurde, wird im Bilderkennungsverfahren gemäß der vorliegenden Offenbarung eine Vielzahl von Bildern zum gleichen Belichtungsstartzeitpunkt in einer Frame-Periode unter Verwendung der Bildgebungspixel mit unterschiedlichen Empfindlichkeiten aufgenommen, um Bilddaten zu erzeugen, und wird aus den jeweiligen Bilddaten ein Objekt erkannt, wodurch ermöglicht wird, die Genauigkeit beim Erkennen des Objekts zu verbessern.
[1-2. Konfiguration eines Bilderkennungssystems gemäß einer ersten Ausführungsform]
Als Nächstes wird mit Verweis auf 3 eine Konfiguration des Bilderkennungssystems gemäß der ersten Ausführungsform beschrieben. 3 ist ein Diagramm, das ein Beispiel der Konfiguration des Bilderkennungssystems gemäß der ersten Ausführungsform der vorliegenden Offenbarung veranschaulicht. Wie in 3 veranschaulicht ist, enthält ein Bilderkennungssystem 100 gemäß der ersten Ausführungsform einen Bildsensor 1, der ein Beispiel einer Bilderkennungsvorrichtung ist, und einen Anwendungsprozessor (worauf hierin als AP 2 verwiesen wird).
Der Bildsensor 1 enthält eine Bildgebungseinheit 10, eine Signalverarbeitungseinheit 13, eine Erkennungseinheit 14, eine Datenübertragungs-Bestimmungseinheit 15, einen Selektor (worauf hier im Folgenden als SEL 16 verwiesen wird) und eine Übertragungseinheit 17. Die Bildgebungseinheit 10 enthält ein Bildgebungselement 11 und eine Analog/Digital-(A/D-)Umwandlungseinheit 12.
Das Bildgebungselement 11 enthält beispielsweise das in 1B veranschaulichte Pixel-Array A2. Man beachte, dass das Bildgebungselement 11 das Pixel-Array A1 sein kann, das die Bildgebungspixel mit der gleichen Lichtempfangsfläche und unterschiedlichen Belichtungszeiten enthält, wie in 1A veranschaulicht ist, oder ein Pixel-Array sein kann, das die Bildgebungspixel mit der gleichen Lichtempfangsfläche, der gleichen Belichtungszeit und unterschiedlichen Lichtdurchlässigkeiten der gestapelten Farbfilter enthält.
Im Folgenden kann auf das Bildgebungspixel, das eine gro-ße Lichtempfangsfläche aufweist und im Pixel-Array A2 enthalten ist, als großes Pixel verwiesen werden und kann auf das Bildgebungspixel, das eine kleine Lichtempfangsfläche aufweist, als kleines Pixel verwiesen werden. Das Bildgebungselement 11 belichtet das große Pixel und das kleine Pixel zum gleichen Belichtungsstartzeitpunkt über die gleiche Belichtungszeit und erfasst bzw. nimmt gleichzeitig das Bild mit hoher Empfindlichkeit und das Bild mit niedriger Empfindlichkeit auf.
Danach gibt das Bildgebungselement 11 ein analoges Pixelsignal, das der Menge an empfangenem Licht entspricht, von jedem großen Pixel und jedem kleinen Pixel an die A/D-Umwandlungseinheit 12 ab. Die A/D-Umwandlungseinheit 12 führt eine A/D-Umwandlung des vom Bildgebungselement 11 eingespeisten analogen Pixelsignals in ein digitales Pixelsignal durch, um die Bilddaten des Bildes mit hoher Empfindlichkeit und die Bilddaten des Bildes mit niedriger Empfindlichkeit zu erzeugen, und gibt die Bilddaten an die Signalverarbeitungseinheit 13 aus.
Die Signalverarbeitungseinheit 13 enthält einen Mikrocomputer, der eine zentrale Verarbeitungseinheit (CPU), einen Nurlesespeicher (ROM), einen Direktzugriffsspeicher (RAM) und dergleichen enthält, und verschiedene Schaltungen.
Die Signalverarbeitungseinheit 13 führt eine vorbestimmte Signalverarbeitung an sowohl den Bilddaten des Bildes mit hoher Empfindlichkeit als auch den Bilddaten des Bildes mit niedriger Empfindlichkeit durch, die von der A/D-Umwandlungseinheit 12 eingegeben wurden, und gibt die Bilddaten des Bildes mit hoher Empfindlichkeit und die Bilddaten des Bildes mit niedriger Empfindlichkeit nach der Signalverarbeitung an die Erkennungseinheit 14 und den SEL 16 aus.
Mit Verweis auf 4 wird hier ein Ablauf der Verarbeitung beschrieben, die von der Signalverarbeitungseinheit 13 ausgeführt wird. 4 ist ein erläuterndes Diagramm der Verarbeitung, die von der Signalverarbeitungseinheit gemäß der ersten Ausführungsform der vorliegenden Offenbarung ausgeführt wird. Wie in 4 veranschaulicht ist, führt die Signalverarbeitungseinheit 13 zunächst eine Schattierungskorrektur an den eingegebenen Bilddaten durch und führt dann eine Farbmischungskorrektur durch.
Danach führt die Signalverarbeitungseinheit 13 eine digitale Verstärkungseinstellung an den Bilddaten durch und führt dann eine Weißabgleich-Verstärkungseinstellung durch. Danach führt die Signalverarbeitungseinheit 13 eine Demosaicing-Verarbeitung an den Bilddaten durch und führt dann schließlich eine Gammakorrektur durch und gibt die Bilddaten nach der Gammakorrektur aus.
Man beachte, dass in der Demosaicing-Verarbeitung eine Verarbeitung zum Ergänzen der Farbe jedes Pixels des Bildes mit hoher Empfindlichkeit und des Bildes mit niedriger Empfindlichkeit mit der Farbe umliegender Pixel ausgeführt wird. Daher enthalten die Bilddaten des Bildes mit hoher Empfindlichkeit und des Bildes mit niedriger Empfindlichkeit vor der Demosaicing-Verarbeitung vier Arten von Pixelsignalen R, Gr, Gb und B, enthalten die Bilddaten nach der Demosaicing-Verarbeitung aber drei Arten von Bildsignalen R, G und B.
Auf 3 zurück verweisend enthält die Erkennungseinheit 14 einen Mikrocomputer, der eine CPU, einen ROM, einen RAM und dergleichen enthält, und verschiedene Schaltungen. Die Erkennungseinheit 14 enthält eine Objekterkennungseinheit 31, die in einer Weise funktioniert, in der die CPU ein im ROM gespeichertes Objekterkennungsprogramm unter Verwendung des RAM als Arbeitsbereich ausführt, und eine Objekterkennungsdaten-Speichereinheit 32, die in dem RAM oder dem ROM vorgesehen ist.
Die Objekterkennungsdaten-Speichereinheit 32 speichert eine Vielzahl von DNNs. Beispielsweise speichert die Objekterkennungsdaten-Speichereinheit 32 das DNN, das ein Objekt aus den Bilddaten des Bildes mit hoher Empfindlichkeit erkennt, und das DNN, das ein Objekt aus den Bilddaten des Bildes mit niedriger Empfindlichkeit erkennt. Man beachte, dass in der Objekterkennungsdaten-Speichereinheit 32 das DNN für jede Art von Objekt als Erkennungsziel gespeichert wird.
Die Objekterkennungseinheit 31 liest das DNN gemäß der eingestellten Art des Erkennungsziels aus der Objekterkennungsdaten-Speichereinheit 32, gibt die Bilddaten in das DNN ein, gibt das vom DNN ausgegebene Objekterkennungsergebnis an die Datenübertragungs-Bestimmungseinheit 15 aus und gibt Metadaten des Erkennungsergebnisses an den SEL 16 aus.
Mit Verweis auf 5A und 5B wird hier ein Ablauf der von der Erkennungseinheit 14 ausgeführten Verarbeitung beschrieben. 5A und 5B sind erläuternde Diagramme der Verarbeitung, die von der Erkennungseinheit gemäß der ersten Ausführungsform der vorliegenden Offenbarung ausgeführt wird. Wie in 5A veranschaulicht ist, normiert zunächst die Erkennungseinheit 14 die Größe und den Eingabewert der eingegebenen Bilddaten gemäß der Größe und dem Eingabewert für das DNN und gibt die normierten Bilddaten in das DNN ein, um eine Objekterkennung durchzuführen. Danach gibt die Erkennungseinheit 14 das vom DNN ausgegebene Objektserkennungsergebnis an die Datenübertragungs-Bestimmungseinheit 15 aus und gibt die Metadaten des Erkennungsergebnisses an den SEL 16 aus.
Zu dieser Zeit gibt, wie in 5B veranschaulicht ist, die Erkennungseinheit 14 die Pixelsignale R, G und B der großen Pixel und die Pixelsignale R, G und B der kleinen Pixel in das DNN ein. Infolgedessen kann die Erkennungseinheit 14 das Objekt aus sowohl dem Bild mit hoher Empfindlichkeit als auch dem Bild mit niedriger Empfindlichkeit, die das Artefakt nicht enthalten, erkennen, wodurch die Genauigkeit beim Erkennen des Objekts verbessert wird.
Auf 3 zurück verweisend gibt die Datenübertragungs-Bestimmungseinheit 15 gemäß dem von der Erkennungseinheit 14 eingegebenen Erkennungsergebnis ein Steuerungssignal zum Umschalten bzw. Wechseln von vom Selektor 16 auszugebenden Daten an den SEL 16 ab. Falls das Objekt von der Erkennungseinheit 14 erkannt wurde, gibt die Datenübertragungs-Bestimmungseinheit 15 an den SEL 16 ein Steuerungssignal zum Ausgeben der Bilddaten und der Metadaten, die das Erkennungsergebnis angeben, an die Übertragungseinheit 17 ab.
Falls das Objekt von der Erkennungseinheit 14 nicht erkannt wurde, gibt darüber hinaus die Datenübertragungs-Bestimmungseinheit 15 an den SEL 16 ein Steuerungssignal zum Ausgeben einer Information, die angibt, dass das Objekt nicht erkannt wurde (keine Daten), an die Übertragungseinheit 17 ab. Der SEL 16 gibt entweder einen Satz der Bilddaten und der Metadaten oder die Information, die angibt, dass es keine Daten gibt, gemäß dem von der Datenübertragungs-Bestimmungseinheit 15 eingespeisten Steuerungssignal an die Übertragungseinheit 17 aus.
Die Übertragungseinheit 17 ist eine Kommunikationsschnittstelle (I/F), die eine Datenkommunikation mit dem AP 2 durchführt, und überträgt entweder einen Satz der Bilddaten und der Metadaten, die vom SEL 16 eingegeben werden, oder die Information, die angibt, dass es keine Daten gibt, zum AP 2.
Der AP 2 enthält einen Mikrocomputer, der verschiedene Anwendungsprogramme entsprechend der Anwendung des Bilderkennungssystems 100 ausführt und eine CPU, einen ROM, einen RAM und dergleichen enthält, und verschiedene Schaltungen. Der AP 2 enthält eine Empfangseinheit 21, eine Authentifizierungseinheit 22 und eine Authentifizierungsdaten-Speichereinheit 23.
Die Authentifizierungsdaten-Speichereinheit 23 speichert ein Authentifizierungsprogramm zum Authentifizieren des vom Bildsensor 1 erkannten Objekts, Authentifizierungsbilddaten und dergleichen. Die Empfangseinheit 21 ist eine Kommunikations-I/F, die eine Datenkommunikation mit dem Bildsensor 1 durchführt. Die Empfangseinheit 21 empfängt entweder einen Satz der Bilddaten und der Metadaten oder die Information, die angibt, dass es keine Daten gibt, vom Bildsensor 1 und gibt dieselben an die Authentifizierungseinheit 22 aus.
Die Authentifizierungseinheit 22 wird nicht aktiviert, wenn die Information, die angibt, dass es keine Daten gibt, von der Empfangseinheit 21 eingegeben wird, wird aber aktiviert, wenn ein Satz der Bilddaten und der Metadaten eingegeben wird. Einmal aktiviert liest die Authentifizierungseinheit 22 das Authentifizierungsprogramm aus der Authentifizierungsdaten-Speichereinheit 23 und führt das Authentifizierungsprogramm aus und authentifiziert das vom Bildsensor 1 erkannte Objekt.
Falls ein Satz der Metadaten und der Bilddaten, die angeben, dass das Objekt eine Person ist, eingegeben wird, führt beispielsweise die Authentifizierungseinheit 22 eine Verarbeitung zum Zuordnen bzw. Abgleichen der Bilddaten mit Bilddaten für eine Authentifizierung einer Person und Identifizieren der erkannten Person aus.
Zu dieser Zeit identifiziert die Authentifizierungseinheit 22 die Person basierend auf den Bilddaten des Bildes mit hoher Empfindlichkeit und des Bildes mit niedriger Empfindlichkeit, die von dem Artefakt nicht beeinflusst sind und aus denen das Objekt vom Bildsensor 1 als Person mit hoher Genauigkeit erkannt wird, sodass es möglich ist, die erkannte Person genau zu identifizieren. Man beachte, dass die oben beschriebene erste Ausführungsform ein Beispiel ist und verschiedene Modifikationen möglich sind. Als Nächstes wird eine Modifikation gemäß der ersten Ausführungsform beschrieben.
[1-3. Modifikation eines Bildsensors gemäß der ersten Ausführungsform]
6 ist ein erläuterndes Diagramm, das eine Modifikation der Verarbeitung veranschaulicht, die von der Signalverarbeitungseinheit gemäß der ersten Ausführungsform der vorliegenden Offenbarung ausgeführt wird. 7 ist ein erläuterndes Diagramm, das eine Modifikation des Nutzungsbeispiels des DNN gemäß der ersten Ausführungsform der vorliegenden Offenbarung veranschaulicht.
Wie in 6 veranschaulicht ist, führt die Signalverarbeitungseinheit gemäß der Modifikation eine Schattierungskorrektur, eine Farbmischungskorrektur, eine digitale Verstärkungseinstellung, eine Weißabgleich-Verstärkungseinstellung und eine Gammakorrektur an den eingebenden Bilddaten durch und gibt die Bilddaten nach der Signalverarbeitung an die Erkennungseinheit 14 und den SEL 16 aus.
Auf diese Weise kann die Signalverarbeitungseinheit die Demosaicing-Verarbeitung in der Signalverarbeitung, die in 4 veranschaulicht ist, weglassen. In diesem Fall erkennt die Erkennungseinheit 14 das Objekt aus den Bilddaten, die der Demosaicing-Verarbeitung nicht unterzogen werden. Wie oben beschrieben wurde, enthalten die Bilddaten des Bildes mit hoher Empfindlichkeit und des Bildes mit niedriger Empfindlichkeit, die der Demosaicing-Verarbeitung nicht unterzogen werden, vier Arten von Pixelsignalen, R, Gr, Gb und B.
Wie in 7 veranschaulicht ist, speist daher die Erkennungseinheit 14 die Pixelsignale R, Gr, Gb und B der großen Pixel und die Pixelsignale R, Gr, Gb und B der kleinen Pixel in das DNN ein. In solch einem Fall erhöht sich der Durchsatz der Erkennungseinheit 14, da die Anzahl an Eingangskanälen des DNN zunimmt, aber, da die Bilddaten des Bildes mit hoher Empfindlichkeit und des Bildes mit niedriger Empfindlichkeit einzeln in das DNN eingegeben werden, kann das Objekt mit hoher Genauigkeit erkannt werden, ohne vom Artefakt beeinflusst zu werden.
Man beachte, dass in einer anderen Modifikation die Signalverarbeitungseinheit selbst weggelassen werden kann. In solch einem Fall nimmt ähnlich dem in 7 veranschaulichten Beispiel, da die Erkennungseinheit 14 die Pixelsignale R, Gr, Gb und B der großen Pixel und die Pixelsignale R, Gr, Gb und B der kleinen Pixel in das DNN einspeist, der Durchsatz zu, wird aber der Durchsatz des gesamten Bildsensors 1 stark reduziert, indem die Signalverarbeitung nicht durchgeführt wird.
Man beachte, dass in der ersten Ausführungsform die Datenübertragungs-Bestimmungseinheit 15 den SEL 16 veranlasst, die Metadaten des Erkennungsergebnisses und die Bilddaten jedes Mal auszugeben, wenn das Objekt erkannt wird, aber vom SEL 16 auszugebende Daten gemäß einen Ladungszustand einer Batterie auswählen kann.
Falls beispielsweise das Objekt von der Erkennungseinheit 14 erkannt wurde, veranlasst die Datenübertragungs-Bestimmungseinheit 15 den SEL 16, die Metadaten und die Bilddaten in einem normalen Modus auszugeben, in dem der Ladungszustand der Batterie ausreichend ist. Ferner veranlasst die Datenübertragungs-Bestimmungseinheit 15 den SEL 16, nur die Metadaten in einem Modus mit geringem Leistungsverbrauch auszugeben, in dem der Ladungszustand der Batterie unzureichend ist. Infolgedessen kann die Datenübertragungs-Bestimmungseinheit 15 den Leistungsverbrauch des Bildsensors 1 so unterdrücken, dass er niedrig ist, wenn der Ladungszustand der Batterie unzureichend ist.
[1-4. Modifikation eines Bilderkennungssystems gemäß der ersten Ausführungsform]
Als Nächstes wird mit Verweis auf 8 eine Modifikation des Bilderkennungssystems gemäß der ersten Ausführungsform beschrieben. 8 ist ein erläuterndes Diagramm, das die Modifikation des Bilderkennungssystems gemäß der ersten Ausführungsform der vorliegenden Offenbarung veranschaulicht.
In dem oben beschriebenen Bilderkennungssystem 100 erkennt der Bildsensor 1 das Objekt aus dem Bild mit hoher Empfindlichkeit und dem Bild mit niedriger Empfindlichkeit; aber in einem Bilderkennungssystem 100a gemäß der Modifikation werden das Bild mit hoher Empfindlichkeit und das Bild mit niedriger Empfindlichkeit von einem Bildsensor 1a zu einem AP 2a übertragen und wird vom AP 2 eine Objekterkennung durchgeführt.
Konkret erfasst bzw. nimmt, wie in 8 veranschaulicht ist, der Bildsensor 1a des Bilderkennungssystems 100a gemäß der Modifikation das Bild mit hoher Empfindlichkeit und das Bild mit niedriger Empfindlichkeit auf und überträgt die Pixelsignale R, Gr, Gb und B der großen Pixel und die Pixelsignale R, Gr, Gb und B der kleinen Pixel zum AP 2a.
Der AP 2a des Bilderkennungssystems 100a enthält ein DNN und speist die Pixelsignale R, Gr, Gb und B der großen Pixel und die Pixelsignale R, Gr, Gb und B der kleinen Pixel, die vom Bildsensor 1a empfangen werden, in das DNN ein. Infolgedessen kann der AP 2a das Objekt mit hoher Genauigkeit aus dem Bild mit hoher Empfindlichkeit und dem Bild mit niedriger Empfindlichkeit erkennen, ohne vom Artefakt beeinflusst zu werden.
[1-5. Erstes spezifisches Beispiel einer Verarbeitung, die von einem Bildsensor gemäß der ersten Ausführungsform ausgeführt wird]
Als Nächstes wird mit Verweis auf 9 und 10 ein erstes spezifisches Beispiel einer Verarbeitung beschrieben, die vom Bildsensor gemäß der ersten Ausführungsform ausgeführt wird.
Man beachte, dass hier angenommen wird, dass der Bildsensor 1 das Pixel-Array A1 enthält, in dem die in 1A veranschaulichten Bildgebungspixel die gleiche Lichtempfangsfläche und unterschiedliche Belichtungszeiten aufweisen, und auf ein Bildgebungspixel mit einer langen Belichtungszeit als Pixel mit langer Belichtung verwiesen wird und auf ein Bildgebungspixel mit kurzer Belichtungszeit als Pixel mit Belichtung verwiesen wird.
Darüber hinaus wird hier mit Verweis auf 9 ein Überblick über einen Betrieb in einem Fall beschrieben, in dem der Bildsensor 1 aus einem Bild eine Person erkennt, und wird dann mit Verweis auf 10 das erste spezifische Beispiel der vom Bildsensor 1 ausgeführten Verarbeitung beschrieben.
9 ist ein erläuterndes Diagramm, das ein erstes Beispiel der Arbeitsweise des Bildsensors gemäß der ersten Ausführungsform der vorliegenden Offenbarung veranschaulicht. 10 ist ein Flussdiagramm, das das erste spezifische Beispiel der vom Bildsensor gemäß der ersten Ausführungsform der vorliegenden Offenbarung ausgeführten Verarbeitung veranschaulicht.
Wie in 9 veranschaulicht ist, nimmt der Bildsensor 1 zunächst ein Bild D1 in voller Größe auf, in dem eine Person P aufgenommen wird, und fasst (engl.: bins) das Bild D1 in voller Größe zusammen, um ein erstes DNN-Eingabebild D2 mit einer auf z. B. 1/4 reduzierten Auflösung zu erzeugen.
Falls der Bildsensor 1 die Person P aus dem ersten DNN-Eingabebild D2 erkannt hat, schneidet dann der Bildsensor 1 einen Teil der Person P aus dem Bild D1 in voller Größe, das der Zusammenfassung bzw. dem Binning nicht unterzogen wird, aus, um ein zweites DNN-Eingabebild D3 zu erzeugen.
Wie in 10 veranschaulicht ist, erzeugt zunächst der Bildsensor 1 Bilddaten des ersten DNN-Eingabebildes D2 mit einer Sensoreinstellung 1 (Schritt S101). Hier wird angenommen, dass die Sensoreinstellung 1 ein niedriges AD-Bit (z. B. 4 Bits), ein Binning (z. B. H4V4) unter Verwendung allein von Pixeln mit langer Belichtung, einen Ausschnitt (z. B. keiner) und niedrige FPS (z. B. 1 fps) umfasst.
In diesem Fall nutzt der Bildsensor 1 nur die Pixel mit langer Belichtung, nimmt das Bild D1 in voller Größe mit einer Frame-Rate von 1 fps auf und führt eine Analog-Digital-Umwandlung eines Pixelsignals des Bildes D1 in voller Größe mit 4 Bits durch. Danach reduziert der Bildsensor 1 die Auflösung des Bildes D1 in voller Größe um 1/4 mittels Binning und erzeugt ohne Ausschneiden des Bildes das erste DNN-Eingabebild D2.
Anschließend gibt der Bildsensor 1 die Bilddaten des ersten DNN-Eingabebilds D2 in das DNN ein und führt ein erstes DNN aus (Schritt S102). Zu dieser Zeit detektiert der Bildsensor 1 eine Person oder ein Objekt mit niedriger Genauigkeit. Danach bestimmt der Bildsensor 1, ob eine Person oder ein Objekt detektiert wurde (Schritt S103).
Falls der Bildsensor 1 bestimmt, dass weder eine Person noch ein Objekt detektiert wurde (Schritt S103, Nein), geht die Verarbeitung zu Schritt S102 weiter. Falls der Bildsensor 1 bestimmt, dass eine Person oder ein Objekt detektiert wurde (Schritt S103, Ja), geht darüber hinaus die Verarbeitung zu Schritt S104 weiter.
In Schritt S104 erzeugt der Bildsensor 1 Bilddaten des zweiten DNN-Eingabebildes D3 mit einer Sensoreinstellung 2. Hier wird angenommen, dass die Sensoreinstellung 2 ein hohes AD-Bit (z. B. 10 Bits), ein Binning (z. B. keines) unter Verwendung von Pixeln mit langer/kurzer Belichtung, einen Ausschnitt (z. B. der Peripherie des Objekts) und eine hohe FPS (z. B. 30 fps) umfasst.
In diesem Fall nutzt der Bildsensor 1 die Pixel mit langer Belichtung und die Pixel mit kurzer Belichtung, nimmt das Bild D1 in voller Größe mit einer Frame-Frate von 30 fps auf und führt eine Analog-Digital-Umwandlung des Pixelsignals des Bildes D1 in voller Größe mit 10 Bits durch. Danach schneidet der Bildsensor 1 einen Teil in der Peripherie des Objekts aus dem Bild D1 in voller Größe aus, ohne die Auflösung des Bildes D1 in voller Größe zu reduzieren, um das zweite DNN-Eingabebild D3 zu erzeugen.
Anschließend gibt der Bildsensor 1 die Bilddaten des zweiten DNN-Eingabebildes D3 in das DNN ein und führt ein zweites DNN aus (Schritt S105). Zu dieser Zeit führt der Bildsensor 1 eine Personenauthentifizierung oder Objektunterscheidung mit hoher Genauigkeit durch. Danach bestimmt der Bildsensor 1, ob eine Person oder ein Objekt, die oder das ein Erkennungsziel ist, detektiert wurde oder nicht (Schritt S106).
Falls der Bildsensor 1 bestimmt, dass weder eine Person noch ein Objekt detektiert wurde (Schritt S106, Nein), geht dann die Verarbeitung zu Schritt S101 weiter. Falls der Bildsensor 1 bestimmt, dass eine Person oder ein Objekt detektiert wurde (Schritt S106, Ja), macht der Bildsensor 1 eine AP-Aktivierungsmeldung an den AP 2 (Schritt S107) und beendet die Verarbeitung. Zu dieser Zeit gibt der Bildsensor 1 die Bilddaten und das Objektdetektions-(Erkennungs-)Ergebnis mittels eines Kommunikationsverfahrens, das zum Beispiel dem MI-PI-Standard (mobile industry processor interface) entspricht, an den AP 2 aus.
[1-6. Zweites spezifisches Beispiel einer Verarbeitung, die von einem Bildsensor gemäß der ersten Ausführungsform ausgeführt wird]
Als Nächstes wird mit Verweis auf 11 bis 13 ein zweites spezifisches Beispiel der vom Bildsensor gemäß der ersten Ausführungsform ausgeführten Verarbeitung beschrieben.
Man beachte, dass hier ebenfalls angenommen wird, dass der Bildsensor 1 das Pixel-Array A1 enthält, in dem die in 1A veranschaulichten Bildgebungspixel die gleiche Lichtempfangsfläche und unterschiedliche Belichtungszeiten aufweisen, und auf ein Bildgebungspixel mit langer Belichtungszeit als Pixel mit langer Belichtung verwiesen wird und auf ein Bildgebungspixel mit kurzer Belichtungszeit als Pixel mit kurzer Belichtung verwiesen wird.
Darüber hinaus wird mit Verweis auf 11 ein Überblick über die Arbeitsweise in einem Fall beschrieben, in dem der Bildsensor 1 aus einem Bild ein vorausfahrendes Fahrzeug und eine Ampel erkennt, wird mit Verweis auf 12 das zweite spezifische Beispiel der vom Bildsensor 1 ausgeführten Verarbeitung beschrieben und werden dann mit Verweis auf 13 Funktionen und Effekte des zweiten spezifischen Beispiels beschrieben.
11 ist ein erläuterndes Diagramm, das ein zweites Beispiel der Arbeitsweise des Bildsensors gemäß der ersten Ausführungsform der vorliegenden Offenbarung veranschaulicht. 12 ist ein Flussdiagramm, das das zweite spezifische Beispiel der vom Bildsensor 1 gemäß der ersten Ausführungsform der vorliegenden Offenbarung ausgeführten Verarbeitung veranschaulicht. 13 ist ein erläuterndes Diagramm von Funktionen und Effekten gemäß dem zweiten Beispiel der Arbeitsweise des Bildsensors gemäß der ersten Ausführungsform der vorliegenden Offenbarung.
Wie in 11 veranschaulicht ist, nimmt zunächst der Bildsensor 1 ein Bild D4 in voller Größe auf, in dem ein vorausfahrendes Fahrzeug C und eine Ampel S erfasst bzw. aufgenommen werden, und erzeugt ein erstes DNN-Eingabebild D5 ohne Reduzieren der Auflösung des Bildes D4 in voller Größe mittels Binning.
Falls der Bildsensor 1 aus dem ersten DNN-Eingabebild D5 die Ampel S erkannt hat, schneidet dann der Bildsensor 1 einen Teil der Ampel S aus dem Bild D4 in voller Größe aus, um ein zweites DNN-Eingabebild D6 zu erzeugen. Falls der Bildsensor 1 aus dem ersten DNN-Eingabebild D5 das vorausfahrende Fahrzeug C erkannt hat, schneidet ferner der Bildsensor 1 einen Teil des vorausfahrenden Fahrzeugs aus dem Bild D4 in voller Größe aus, um ein drittes DNN-Eingabebild D7 zu erzeugen.
Wie in 12 veranschaulicht ist, erzeugt konkret der Bildsensor 1 zunächst die Bilddaten des ersten DNN-Eingabebildes D5 mit einer Sensoreinstellung 1 (Schritt S201). Hier wird angenommen, dass die Sensoreinstellung 1 AD-Bit (z. B. 10 Bits), ein Binning (z. B. keines), unter Verwendung von Pixeln mit langer/kurzer Belichtung, einen Ausschnitt (z. B. keiner) und eine hohe FPS (z. B. 30 fps) umfasst.
In diesem Fall nutzt der Bildsensor 1 die Pixel mit langer Belichtung und die Pixel mit kurzer Belichtung, nimmt das Bild D4 in voller Größe mit einer Frame-Rate von 30 fps auf und führt eine AD-Umwandlung am Pixelsignal des Bildes D4 in voller Größe mit 10 Bits durch. Dann erzeugt der Bildsensor 1 ohne Reduzieren der Auflösung des Bildes D4 in voller Größe und ohne Ausschneiden des Bildes das erste DNN-Eingabebild D5.
Anschließend gibt der Bildsensor 1 die Bilddaten des ersten DNN-Eingabebildes D5 in das DNN ein und führt das erste DNN aus (Schritt S202). Zu dieser Zeit detektiert der Bildsensor 1 ein Objekt mit hoher Genauigkeit. Danach bestimmt der Bildsensor 1, ob ein Objekt detektiert wurde oder nicht (Schritt S203) .
Falls der Bildsensor 1 bestimmt, dass kein Objekt detektiert wurde (Schritt S203, Nein), geht dann die Verarbeitung zu Schritt S202 weiter. Falls der Bildsensor 1 bestimmt, dass ein Objekt detektiert wurde (Schritt S203, Ja), wählt darüber hinaus der Bildsensor 1 basierend auf dem Detektionsergebnis eine geeignete Einstellung aus.
Falls der Bildsensor 1 die Ampel S detektiert (erkannt) hat, erzeugt beispielsweise der Bildsensor 1 Bilddaten des zweiten DNN-Eingabebildes D6 mit einer Sensoreinstellung 2 (Schritt S204). Hier wird angenommen, dass die Sensoreinstellung 2 ein niedriges AD-Bit (z. B. 8 Bits), ein Binning (z. B. keines), unter Verwendung von Pixeln mit langer Belichtung, einen Ausschnitt (z. B. der Peripherie des Objekts) und eine hohe FPS (z. B. 60 fps) umfasst.
In diesem Fall verwendet der Bildsensor 1 die Pixel mit langer Belichtung, nimmt das Bild D4 in voller Größe mit einer Frame-Rate von 60 fps auf und führt eine Analog-Digital-Umwandlung an einem Pixelsignal des Bildes D4 in voller Größe mit 8 Bits durch. Danach schneidet der Bildsensor 1 einen Teil in der Peripherie des Objekts (Ampel S) aus dem Bild D4 in voller Größe ohne Reduzieren der Auflösung des Bildes D4 in voller Größe aus, um die Bilddaten des zweiten DNN-Eingabebildes D6 zu erzeugen.
Anschließend gibt der Bildsensor 1 die Bilddaten des zweiten DNN-Eingabebildes D6 in das DNN ein und führt das zweite DNN aus (Schritt S205). Zu dieser Zeit führt der Bildsensor 1 eine Erkennung und Verfolgung der Ampel mit hoher Genauigkeit durch. Danach wechselt der Bildsensor 1 die Verarbeitung zu Schritt S208.
Falls der Bildsensor 1 das vorausfahrende Fahrzeug C detektiert (erkannt) hat, erzeugt der Bildsensor 1 Bilddaten des dritten DNN-Eingabebildes D7 mit einer Sensoreinstellung 3 (Schritt S206). Hier wird angenommen, dass die Sensoreinstellung 3 ein niedriges AD-Bit (z. B. 8 Bits), ein Binning (z. B. keines), unter Verwendung von Pixeln mit kurzer Belichtung, einen Ausschnitt (z. B. der Peripherie des Objekts) und eine hohe FPS (z. B. 60 fps) umfasst.
In diesem Fall verwendet der Bildsensor 1 die Pixel mit kurzer Belichtung, nimmt das Bild D4 in voller Größe mit einer Frame-Rate von 60 fps auf und führt eine Analog-Digital-Umwandlung an einem Pixelsignal des Bildes D4 in voller Größe mit 8 Bits durch. Danach schneidet der Bildsensor 1 einen Teil in der Peripherie des Objekts (vorausfahrendes Fahrzeug C) aus dem Bild D4 in voller Größe ohne Reduzieren der Auflösung des Bildes D4 in voller Größe aus, um die Bilddaten des dritten DNN-Eingabebildes D7 zu erzeugen.
Anschließend gibt der Bildsensor 1 die Bilddaten des dritten DNN-Eingabebildes D7 in das DNN ein und führt ein drittes DNN aus (Schritt S207). Zu dieser Zeit führt der Bildsensor 1 eine Erkennung und Verfolgung des vorausfahrenden Fahrzeugs mit hoher Genauigkeit durch. Zu dieser Zeit führt der Bildsensor 1 eine Erkennung und Verfolgung des vorausfahrenden Fahrzeugs mit hoher Genauigkeit durch. Danach wechselt der Bildsensor 1 die Verarbeitung zu Schritt S208.
In Schritt S208 bestimmt der Bildsensor 1, ob die Ampel S oder das vorausfahrende Fahrzeug C, die oder das ein Erkennungsziel ist, detektiert wurde oder nicht. Falls der Bildsensor 1 bestimmt, dass weder die Ampel S noch das vorausfahrende Fahrzeug C detektiert wurde (Schritt S208, Nein), geht dann die Verarbeitung zu Schritt S201 weiter.
Falls der Bildsensor 1 bestimmt, dass die Ampel S oder das vorausfahrende Fahrzeug C detektiert wurde (Schritt S208, Ja), macht der Bildsensor 1 eine Meldung eines fortgeschrittenen Fahrzeugassistenzsystems (ADAS) an den AP 2 (Schritt S209) und beendet die Verarbeitung. Zu dieser Zeit gibt der Bildsensor 1 die Bilddaten und das Objektdetektions-(Erkennungs-)Ergebnis mittels beispielsweise eines dem MIPI-Standard entsprechenden Kommunikationsverfahrens an den AP 2 aus.
Man beachte, dass der Bildsensor 1 die Bilddaten und das Objektdetektions-(Erkennungs-)Ergebnis nicht jedes Mal an den AP 2 ausgeben muss, wenn das Objekt erkannt wird. Beispielsweise kann der Bildsensor 1 die Bilddaten und das Detektions-(Erkennungs-)Ergebnis des Objekts an den AP 2 nur ausgeben, wenn sie vom AP 2 angefordert werden.
Durch Ausführen der obigen Verarbeitung kann der Bildsensor 1 den Zustand der Ampel S und die Position des vorausfahrenden Fahrzeugs C mit hoher Genauigkeit erkennen. Konkret flackert die Ampel S, die eine lichtemittierende Diode (LED) enthält, in einer Weise, in der die Ampel S in einer sehr kurzen Zeitspanne wiederholt ein- und ausgeschaltet wird.
Falls der Bildsensor 1 ein Bild der Ampel S mit dem Pixel mit kurzer Belichtung aufnimmt, kann daher die Ampel S im aufgenommenen Bild in einem ausgeschalteten Zustand sein. Daher muss der Bildsensor 1 eine Belichtung für zumindest 10 ms oder mehr durchführen, um eine falsche Erkennung des Objekts aufgrund von Flackern zu verhindern. Auf der anderen Seite muss beispielsweise im Fall eines Objekts, das nicht flackert, wie etwa eines vorausfahrenden Fahrzeugs der Bildsensor 1 die Belichtungszeit verkürzen, um eine Unschärfe des Objekts zu unterdrücken.
Wie in 13 veranschaulicht ist, führt daher der Bildsensor 1 das zweite DNN zur Erkennung einer Ampel für das mittels der Pixel mit langer Belichtung genommene Bild aus und führt das dritte DNN zur Erkennung eines vorausfahrenden Fahrzeugs für das mittels der Pixel mit kurzer Belichtung aufgenommene Bild aus.
Der Bildsensor 1 kann als Ergebnis den Zustand der Ampel S mit hoher Genauigkeit erkennen, ohne durch Flackern beeinflusst zu werden, und kann die Position des vorausfahrenden Fahrzeugs 10 mit hoher Genauigkeit erkennen, indem die Unschärfe des Objekts unterdrückt wird.
(2. Zweite Ausführungsform)
Als Nächstes wird ein Bilderkennungssystem gemäß einer zweiten Ausführungsform beschrieben. In dem Bilderkennungssystem gemäß der zweiten Ausführungsform sind eine Konfiguration eines in einem Bildsensor enthaltenen Pixel-Arrays und eine vom Bildsensor ausgeführte Verarbeitung von jenen in der ersten Ausführungsform verschieden und sind sonstige Konfigurationen jenen in der ersten Ausführungsform ähnlich. Daher werden im Folgenden von der ersten Ausführungsform verschiedene Punkte beschrieben.
[2-1. Pixel-Array gemäß einer zweiten Ausführungsform]
14 ist ein erläuterndes Diagramm, das das Pixel-Array gemäß der zweiten Ausführungsform der vorliegenden Offenbarung veranschaulicht. In einem in 14 veranschaulichten Pixel-Array A3 sind ein Bildgebungspixel R, das vier Pixel L, M, M und S umfasst, die rotes Licht empfangen, Bildgebungspixel Gr und Gb, die jeweils vier Pixel L, M, M und S umfassen, die grünes Licht empfangen, und ein Bildgebungspixel B, das vier Pixel L, M, M und S umfasst, die blaues Licht empfangen, in einem Bayer-Array angeordnet.
Die Pixel L, M, M und S weisen alle die gleiche Lichtempfangsfläche und unterschiedliche Belichtungszeiten auf. Das Pixel L ist ein Pixel mit langer Belichtung. Das Pixel M ist ein Pixel mit moderater Belichtung. Das Pixel S ist ein Pixel mit kurzer Belichtung. Das Pixel-Array A3 arbeitet normalerweise als Pixel-Array mit sehr hoher Auflösung, indem ein Pixelsignal von jedem Pixel abgegeben wird. Darüber hinaus arbeitet das Pixel-Array A3 als Pixel-Array, das imstande ist, ein Objekt selbst an einer dunklen Stelle aufzunehmen, indem zwei Pixel zu einem Pixel zusammengefasst werden, falls die Umgebungen dunkel werden.
Im Bildsensor gemäß der zweiten Ausführungsform nimmt das Pixel-Array A3 ein Bild mit langer Belichtung, ein Bild mit moderater Belichtung und ein Bild mit kurzer Belichtung auf. Der Bildsensor erkennt dann das Objekt aus jedem des Bildes mit langer Belichtung, des Bildes mit moderater Belichtung und des Bildes mit kurzer Belichtung.
15 ist ein erläuterndes Diagramm, das ein Nutzungsbeispiel eines DNN gemäß der zweiten Ausführungsform der vorliegenden Offenbarung veranschaulicht. 16 ist ein erläuterndes Diagramm, das ein anderes Nutzungsbeispiel des DNN gemäß der zweiten Ausführungsform der vorliegenden Offenbarung veranschaulicht. Der Bildsensor gemäß der zweiten Ausführungsform hat die gleiche Konfiguration wie der in 3 veranschaulichte Bildsensor 1.
Daher speist, wie in 15 veranschaulicht ist, der Bildsensor Signale R, G und B von Pixeln mit langer Belichtung nach einer Demosaicing-Verarbeitung, Signale R, G und B von Pixeln mit moderater Belichtung und Signale R, G und B von Pixeln mit kurzer Belichtung in das DNN ein.
Ein Ergebnis einer Erkennung des Objekts aus jedem des Bildes mit langer Belichtung, des Bildes mit moderater Belichtung und des Bildes mit kurzer Belichtung wird vom DNN ausgegeben. Infolgedessen kann der Bildsensor ein Objekt mit hoher Helligkeit, ein Objekt mit moderater Helligkeit und ein Objekt mit geringer Helligkeit aus dem Bild mit langer Belichtung, dem Bild mit moderater Belichtung bzw. dem Bild mit kurzer Belichtung, die das Artefakt nicht enthalten, mit hoher Genauigkeit erkennen.
Darüber hinaus kann im Bildsensor gemäß der zweiten Ausführungsform ähnlich der ersten Ausführungsform eine Demosaicing-Verarbeitung weggelassen werden und kann eine von der Signalverarbeitungseinheit 13 durchgeführte Signalverarbeitung weggelassen werden. In solch einem Fall speist, wie in 16 veranschaulicht ist, der Bildsensor die Signale R, Gr, Gb und B von Pixeln mit langer Belichtung, die Signale R, Gr, Gb und B von Pixeln mit moderater Belichtung und die Signale R, Gr, Gb und B, welche keiner Demosaicing-Verarbeitung unterzogen werden, in das DNN ein.
Infolgedessen nimmt der Durchsatz zu, da die Anzahl an Eingangskanälen des DNN zunimmt, kann aber, da Bilddaten des Bildes mit langer Belichtung, des Bildes mit moderater Belichtung des Bildes mit kurzer Belichtung einzeln in das DNN eingegeben werden, das Objekt mit hoher Genauigkeit erkannt werden, ohne vom Artefakt beeinflusst zu werden.
[2-2. Spezifisches Beispiel einer vom Bildsensor gemäß der zweiten Ausführungsform ausgeführten Verarbeitung]
Als Nächstes wird mit Verweis auf 17 ein spezifisches Beispiel der vom Bildsensor gemäß der ersten Ausführungsform ausgeführten Verarbeitung beschrieben. Hier wird eine Verarbeitung beschrieben, die in einem Fall ausgeführt wird, in dem der Bildsensor ein vorausfahrendes Fahrzeug und eine Ampel aus einem Bild erkennt.
17 ist ein Flussdiagramm, das das spezifische Beispiel der vom Bildsensor gemäß der zweiten Ausführungsform der vorliegenden Offenbarung ausgeführten Verarbeitung veranschaulicht. Der Bildsensor gemäß der zweiten Ausführungsform erzeugt Bilddaten eines Bildes D4 in voller Größe, ein erstes DNN-Eingabebild D5, ein zweites DNN-Eingabebild D6 und ein drittes DNN-Eingabebild D7 ähnlich den jeweiligen Bildern, die in 11 veranschaulicht sind; aber die Inhalte von Sensoreinstellungen 1, 2 und 3 sind von jenen der ersten Ausführungsform verschieden.
Konkret erzeugt, wie in 17 veranschaulicht ist, der Bildsensor zunächst Bilddaten des ersten DNN-Eingabebildes D5 mit der Sensoreinstellung 1 (Schritt S301). Hier wird angenommen, dass die Sensoreinstellung 1 ein AD-Bit (z. B. 10 Bits), ein Binning (z. B. keines), unter Verwendung von Pixeln mit langer/moderater/kurzer Belichtung, einen Ausschnitt (z. B. keiner) und eine hohe FPS (z. B. 30 fps) umfasst.
In diesem Fall verwendet der Bildsensor die Pixel mit langer Belichtung, die Pixel mit moderater Belichtung und die Pixel mit kurzer Belichtung, nimmt das Bild D4 in voller Größe mit einer Frame-Rate von 30 fps auf und führt eine Analog-Digital-Umwandlung am Pixelsignal des Bildes D4 in voller Grö-ße mit 10 Bits durch. Dann erzeugt der Bildsensor das erste DNN-Eingabebild D5 ohne Reduzieren der Auflösung des Bildes D4 in voller Größe und ohne Ausschneiden des Bildes.
Anschließend gibt der Bildsensor die Bilddaten des ersten DNN-Eingabebildes D5 in das DNN ein und führt ein erstes DNN aus (Schritt S302). Zu dieser Zeit detektiert der Bildsensor ein Objekt mit hoher Genauigkeit. Danach bestimmt der Bildsensor, ob ein Objekt detektiert worden ist oder nicht (Schritt S303).
Falls der Bildsensor bestimmt, dass kein Objekt detektiert wurde (Schritt S303, Nein), geht dann die Verarbeitung zu Schritt S302 weiter. Falls der Bildsensor bestimmt, dass ein Objekt detektiert wurde (Schritt S303, Ja), wählt darüber hinaus der Bildsensor eine geeignete Einstellung basierend auf dem Detektionsergebnis aus.
Falls der Sensor beispielsweise die Ampel S detektiert (erkannt) hat, erzeugt der Bildsensor Bilddaten des zweiten DNN-Eingabebildes D6 mit der Sensoreinstellung 2 (Schritt S304). Hier wird angenommen, dass die Sensoreinstellung S ein niedriges AD-Bit (z. B. 8 Bits), ein Binning (z. B. keines), unter Verwendung von Pixeln mit moderater Belichtung, einen Ausschnitt (z. B. der Peripherie des Objekts) und eine hohe FPS (z. B. 60 fps) umfasst.
In diesem Fall verwendet der Bildsensor die Pixel mit moderater Belichtung, nimmt das Bild D4 in voller Größe mit einer Frame-Fate von 60 fps auf und führt eine Analog-Digital-Umwandlung an einem Pixelsignal des Bildes D4 in voller Größe mit 8 Bits durch. Danach schneidet der Bildsensor einen Teil in der Peripherie des Objekts (Ampel S) aus dem Bild D4 in voller Größe ohne Reduzieren der Auflösung des Bildes D4 in voller Größe aus, um die Bilddaten des zweiten DNN-Eingabebildes D6 zu erzeugen.
Anschließend gibt der Bildsensor die Bilddaten des zweiten DNN-Eingabebildes D6 in das DNN ein und führt ein zweites DNN aus (Schritt S305). Zu dieser Zeit führt der Bildsensor eine Erkennung und Verfolgung der Ampel mit hoher Genauigkeit durch. Danach wechselt der Bildsensor die Verarbeitung zu Schritt S308.
Falls der Bildsensor das vorausfahrende Fahrzeug C detektiert (erkannt) hat, erzeugt der Bildsensor Bilddaten des dritten DNN-Eingabebildes D7 mit einer Sensoreinstellung 3 (Schritt S306). Hier wird angenommen, dass die Sensoreinstellung 3 ein niedriges AD-Bit (z. B. 8 Bits), ein Binning (z. B. keines), unter Verwendung von Pixeln mit kurzer Belichtung, einen Ausschnitt (z. B. der Peripherie des Objekts) und eine hohe FPS (z. B. 60 fps) umfasst.
In diesem Fall verwendet der Bildsensor die Pixel mit kurzer Belichtung, nimmt das Bild D4 in voller Größe mit einer Frame-Rate von 60 fps auf und führt eine Analog-Digital-Umwandlung eines Pixelsignals des Bildes D4 in voller Größe mit 8 Bits durch. Danach schneidet der Bildsensor einen Teil in der Peripherie des Objekts (vorausfahrendes Fahrzeug C) aus dem Bild D4 in voller Größe ohne Reduzieren der Auflösung des Bildes D4 in voller Größe aus, um die Bilddaten des dritten DNN-Eingabebildes D7 zu erzeugen.
Anschließend gibt der Bildsensor die Bilddaten des dritten DNN-Eingabebildes D7 in das DNN ein und führt ein drittes DNN aus (Schritt S307). Zu dieser Zeit führt der Bildsensor eine Erkennung und Verfolgung des vorausfahrenden Fahrzeugs mit hoher Genauigkeit durch. Danach wechselt der Bildsensor die Verarbeitung zu Schritt S308.
In Schritt S308 bestimmt der Bildsensor, ob die Ampel S oder das vorausfahrende Fahrzeug C, die oder das ein Erkennungsziel ist, detektiert wurde oder nicht. Falls der Bildsensor bestimmt, dass weder die Ampel S noch das Fahrzeug C detektiert wurde (Schritt S308, Nein), geht dann die Verarbeitung zu Schritt S301 weiter.
Falls der Bildsensor bestimmt, dass die Ampel S oder das vorausfahrende Fahrzeug C detektiert wurde (Schritt S308, Ja), macht der Bildsensor eine ADAS-Meldung an den AP 2 (Schritt S309) und beendet die Verarbeitung.
Man beachte, dass der Bildsensor 1 die Bilddaten und das Objektdetektions-(Erkennungs-)Ergebnis nicht jedes Mal an den AP 2 ausgeben muss, wenn das Objekt erkannt wird. Beispielsweise kann der Bildsensor 1 die Bilddaten und das Detektions-(Erkennungs-)Ergebnis des Objekts an den AP 2 nur ausgeben, wenn sie vom AP 2 angefordert werden.
Wie oben beschrieben wurde, führt der Bildsensor gemäß der zweiten Ausführungsform das zweite DNN zur Erkennung einer Ampel für das mittels mit moderater Belichtung aufgenommene Bild aus und führt das dritte DNN zur Erkennung eines vorausfahrenden Fahrzeugs für das mittels der Pixel mit kurzer Belichtung aufgenommene Bild aus.
Der Bildsensor kann infolgedessen den Zustand der Ampel S mit hoher Genauigkeit erkennen, ohne von Flackern beeinflusst zu sein, und kann die Position des vorausfahrenden Fahrzeugs C mit hoher Genauigkeit erkennen, indem die Unschärfe des Objekts unterdrückt wird.
[2-3. Ein weiteres Pixel-Array gemäß einer zweiten Ausführungsform]
Das Pixel-Array gemäß der zweiten Ausführungsform ist nicht auf das in 14 veranschaulichte Pixel-Array 3 beschränkt. Als Nächstes wird mit Verweis auf 18 ein Beispiel der Arbeitsweise des Bildsensors in einem Fall beschrieben, in dem ein anderes Pixel-Array übernommen wird. 18 ist ein erläuterndes Diagramm, das ein Beispiel der Arbeitsweise eines Bildsensors, der ein anderes Pixel-Array gemäß der zweiten Ausführungsform der vorliegenden Offenbarung enthält, veranschaulicht.
Der Bildsensor kann ein Pixel-Array A4 übernehmen bzw. enthalten, das auf der oberen rechten Seite von 18 veranschaulicht ist. Im Pixel-Array A4 sind ein Bildgebungspixel R, das vier Pixel M, M, M und S umfasst, die rotes Licht empfangen, Bildgebungspixel Gr und Gb, die jeweils vier Pixel M, M, M und S umfassen, die grünes Licht empfangen, und ein Bildgebungspixel B, das vier Pixel M, M, M und S umfasst, die blaues Licht empfangen, in einem Bayer-Array angeordnet. Die Pixel M, M, M und S weisen alle die gleiche Lichtempfangsfläche und unterschiedliche Belichtungszeiten auf. Das Pixel M ist ein Pixel mit moderater Belichtung. Das Pixel S ist ein Pixel mit kurzer Belichtung.
Falls das Pixel-Array A4 übernommen wird, führt der Bildsensor unabhängig eine Shutter- bzw. Blendensteuerung und eine Pixelsignal-Lesesteuerung für jedes der Pixel M, M, M und S des Pixel-Arrays A4 durch. Wie oben beschrieben wurde, muss hier der Bildsensor eine lange Belichtung über 10 ms oder länger durchführen, um den Zustand der Ampel, die flackert, genau zu erkennen. Wenn jedoch der Bildsensor eine lange Belichtung eines normalen Pixels über 10 ms oder länger bei Tag durchführt, kann das Pixel gesättigt werden.
Daher belichtet in einem Fall, in dem das Pixel-Array A4 übernommen wird, wie in 18 beispielsweise veranschaulicht ist, der Bildsensor sequentiell drei Pixel M, M und M mit moderater Belichtung in Zeitreihen über jeweils 3,3 ms. Infolgedessen wird keines der Pixel M, M und M mit moderater Belichtung gesättigt. Zu dieser Zeit belichtet darüber hinaus der Bildsensor gleichzeitig das Pixel S mit kurzer Belichtung für eine kurze Zeit.
Der Bildsensor führt dann das zweite DNN zur Erkennung einer Ampel für jeweilige Bilddaten des Bildes mit moderater Belichtung aus und führt das dritte DNN zur Erkennung eines vorausfahrenden Fahrzeugs für die Bilddaten des Bildes mit kurzer Belichtung aus. Infolgedessen kann der Bildsensor den Zustand der Ampel mit hoher Genauigkeit erkennen, ohne durch Flackern beeinflusst zu werden, und kann die Position des vorausfahrenden Fahrzeugs mit hoher Genauigkeit erkennen, indem die Unschärfe des Objekts unterdrückt wird.
[2-4. Ein weiteres Beispiel der Arbeitsweise eines Bildsensors gemäß der zweiten Ausführungsform]
Als Nächstes wird mit Verweis auf 19 ein weiteres Beispiel der Arbeitsweise des Bildsensors gemäß der zweiten Ausführungsform beschrieben. 19 ist ein erläuterndes Diagramm eines weiteren Beispiels der Arbeitsweise des Bildsensors gemäß der zweiten Ausführungsform. Man beachte, dass hier angenommen wird, dass der Bildsensor das in 14 veranschaulichte Pixel-Array A3 enthält.
Jedoch ist auf dem Pixel L mit langer Belichtung des in 19 veranschaulichten Pixel-Arrays A3 ein Farbfilter mit einer niedrigen Lichtdurchlässigkeit vorgesehen, ist ein Farbfilter mit einer moderaten Lichtdurchlässigkeit auf dem Pixel M mit moderater Belichtung vorgesehen und ist ein Farbfilter mit einer hohen Lichtdurchlässigkeit auf dem Pixel S mit kurzer Belichtung angeordnet.
In solch einer Konfiguration, wie in 19 veranschaulicht, erzeugt der Bildsensor Bilddaten eines Bildes mit niedriger Empfindlichkeit durch Belichten des Pixels L mit langer Belichtung über eine lange Zeit und führt das zweite DNN zur Erkennung einer Ampel für die Bilddaten des Bildes mit niedriger Empfindlichkeit aus. Da der Farbfilter mit einer niedrigen Lichtdurchlässigkeit auf dem Pixel L mit langer Belichtung gestapelt ist, tritt zu dieser Zeit keine Sättigung auf, selbst wenn die Belichtung über eine lange Zeit durchgeführt wird. Infolgedessen kann der Bildsensor den Zustand der Ampel mit hoher Genauigkeit erkennen, ohne von Flackern beeinflusst zu werden.
Außerdem belichtet der Bildsensor das Bild M mit moderater Belichtung über eine moderate Zeitdauer, um ein Bild mit moderater Empfindlichkeit zu erzeugen, belichtet das Pixel L mit kurzer Belichtung über eine kurze Zeit, um ein Bild mit hoher Empfindlichkeit zu erzeugen, und führt das dritte DNN zur Erkennung eines vorausfahrenden Fahrzeugs für jeweilige Bilddaten des Bildes mit moderater Empfindlichkeit und des Bildes mit hoher Empfindlichkeit aus. Infolgedessen kann der Bildsensor die Position des vorausfahrenden Fahrzeugs mit hoher Genauigkeit erkennen, indem die Unschärfe des Objekts unterdrückt wird.
[3. Beispiel einer Anwendung auf einen beweglichen Körper]
Die Technologie (vorliegende Technologie) gemäß der vorliegenden Offenbarung kann für verschiedene Produkte verwendet werden. Beispielsweise kann die Technologie gemäß der vorliegenden Offenbarung als eine Vorrichtung realisiert werden, die in einem beliebigen beweglichen Körper wie etwa beispielswiese einem Fahrzeug, einem Elektrofahrzeug, einem Hybrid-Elektrofahrzeug, einem Motorrad, einem Fahrrad, einer Vorrichtung für persönliche Mobilität, einem Flugzeug, einer Drohne, einem Schiff und einem Roboter, montiert wird.
20 ist ein Blockdiagramm, das ein Beispiel einer schematischen Konfiguration eines Fahrzeugsteuerungssystems veranschaulicht, das ein Beispiel eines Systems zur Steuerung beweglicher Körper ist, für das die Technologie gemäß der vorliegenden Offenbarung verwendet werden kann.
Ein Fahrzeugsteuerungssystem 12000 umfasst eine Vielzahl elektronischer Steuerungseinheiten, die über ein Kommunikationsnetzwerk 12001 miteinander verbunden sind. In dem in 20 dargestellten Beispiel umfasst das Fahrzeugsteuerungssystem 12000 eine Antriebssystem-Steuerungseinheit 12010, eine Karosseriesystem-Steuerungseinheit 12020, eine Einheit 12030 zur Detektion von Information von außerhalb des Fahrzeugs, eine Einheit 12040 zur Detektion von Information aus dem Innern des Fahrzeugs und eine integrierte Steuerungseinheit 12050. Außerdem sind als eine funktionale Konfiguration der integrierten Steuerungseinheit 12050 ein Mikrocomputer 12051, eine Sprach- und Bild-Ausgabeeinheit 12052 und eine Schnittstelle (I/F) 12053 des im Fahrzeug montierten Netzwerks veranschaulicht.
Die Antriebssystem-Steuerungseinheit 12010 steuert gemäß verschiedenen Programmen eine Operation bzw. einen Betrieb einer Vorrichtung in Bezug auf das Antriebssystem eines Fahrzeugs. Beispielsweise dient die Antriebssystem-Steuerungseinheit 12010 als Steuerungsvorrichtung wie etwa eine Antriebskraft-Erzeugungsvorrichtung zum Erzeugen einer Antriebskraft des Fahrzeugs wie etwa ein Verbrennungsmotor, ein Antriebsmotor oder dergleichen, ein Antriebskraft-Übertragungsmechanismus, um eine Antriebskraft auf Fahrzeugräder zu übertragen, ein Lenkmechanismus, um einen Lenkwinkel des Fahrzeugs einzustellen, eine Bremsvorrichtung, um eine Bremskraft des Fahrzeugs zu erzeugen, oder dergleichen.
Die Karosseriesystem-Steuerungseinheit 12020 steuert einen Betrieb verschiedener Vorrichtungen, die in einer Fahrzeugkarosserie vorgesehen sind, gemäß verschiedenen Arten von Programmen. Beispielsweise dient die Karosseriesystem-Steuerungseinheit 12020 als Steuerungsvorrichtung für ein schlüsselloses Zugangssystem, ein System für intelligente Schlüssel, eine automatische Fenstervorrichtung oder Steuerungsvorrichtung für verschiedene Leuchten wie etwa einen Frontscheinwerfer, einen Heckscheinwerfer, eine Bremsleuchte, einen Fahrtrichtungsanzeiger, eine Nebelleuchte und dergleichen. In diesem Fall können elektrische Wellen, die von einem portablen Gerät als Ersatz für einen Schlüssel gesendet werden, und ein Signal verschiedener Schalter in die Karosseriesystem-Steuerungseinheit 12020 eingespeist werden. Die Karosseriesystem-Steuerungseinheit 12020 empfängt die elektrischen Wellen oder das Signal, um eine Türverriegelungsvorrichtung eines Fahrzeugs, eine automatische Fenstervorrichtung, eine Leuchte oder dergleichen zu steuern.
Die Einheit 12030 zur Detektion von Information von außerhalb des Fahrzeugs detektiert Information in Bezug auf die äußere Umgebung eines Fahrzeugs, in dem das Fahrzeugsteuerungssystem 12000 montiert ist. Beispielsweise ist mit der Einheit 12030 zur Detektion von Information von außerhalb des Fahrzeugs eine Bildgebungseinheit 12031 verbunden. Die Einheit 12030 zur Detektion von Information von außerhalb des Fahrzeugs veranlasst die Bildgebungseinheit 12031, ein Bild eines Bereichs außerhalb des Fahrzeugs aufzunehmen, und empfängt das aufgenommene Bild. Die Einheit 12030 zur Detektion von Information von außerhalb des Fahrzeugs kann auf der Basis des empfangenen Bildes eine Verarbeitung zum Detektieren eines Objekts wie etwa einer Person, eines Wagens, eines Hindernisses, eines Verkehrsschilds, eines Zeichens auf einer Straßenoberfläche oder dergleichen oder eine Verarbeitung zur Abstandsdetektion durchführen.
Die Bildgebungseinheit 12031 ist ein optischer Sensor, der Licht empfängt und entsprechend einer empfangenen Lichtmenge des Lichts ein elektrisches Signal abgibt. Die Bildgebungseinheit 12031 kann das elektrische Signal als Bild ausgeben oder kann das elektrische Signal als Information einer Abstandsmessung abgeben. Außerdem kann das von der Bildgebungseinheit 12031 empfangene Licht sichtbares Licht sein oder unsichtbares Licht wie etwa Infrarotstrahlen oder dergleichen sein.
Die Einheit 12040 zur Detektion von Information aus dem Innern des Fahrzeugs detektiert Information bezüglich des Innenbereichs des Fahrzeugs. Mit der Einheit 12040 zur Detektion von Information aus dem Innern des Fahrzeugs ist zum Beispiel eine Einheit 12041 zur Detektion eines Fahrerzustands verbunden, die den Zustand eines Fahrers detektiert. Die Einheit 12041 zur Detektion eines Fahrerzustands umfasst zum Beispiel eine Kamera, die ein Bild des Fahrers aufnimmt, und die Einheit 12040 zur Detektion von Information aus dem Innern des Fahrzeugs kann auf der Basis einer von der Einheit 12041 zur Detektion eines Fahrerzustands eingegebenen Detektionsinformation einen Ermüdungsgrad oder einen Konzentrationsgrad des Fahrers berechnen oder kann unterscheiden, ob der Fahrer eindöst.
Der Mikrocomputer 12051 kann einen Ziel-Steuerungswert einer Antriebskraft-Erzeugungsvorrichtung, eines Lenkmechanismus oder einer Bremsvorrichtung auf der Basis der Information bezüglich des Innenbereichs und der äußeren Umgebung des Fahrzeugs berechnen, wobei die Information durch die Einheit 12030 zur Detektion von Information von außerhalb des Fahrzeugs oder die Einheit 12040 zur Detektion von Information aus dem Innern des Fahrzeugs erfasst wird, und kann eine Steuerungsanweisung an die Antriebssystem-Steuerungseinheit 12010 ausgeben. Beispielsweise kann der Mikrocomputer 12051 eine kooperative Steuerung zu dem Zweck durchführen, Funktionen eines fortgeschrittenen Fahrerassistenzsystems (ADAS) zu realisieren, das eine Vermeidung einer Kollision, eine Aufprallabschwächung, eine Nachfolgefahrt basierend auf einem Abstand zwischen Fahrzeugen, eine Fahrt, während der eine Fahrzeuggeschwindigkeit beibehalten wird, eine Warnung vor einer Fahrzeugkollision, eine Warnung vor einem Verlassen der Spur des Fahrzeugs oder dergleichen einschließen.
Außerdem kann der Mikrocomputer 12051 eine kooperative Steuerung zu dem Zweck eines automatischen Fahrens durchführen, bei dem ein Fahrzeug ohne einen Eingriff durch einen Fahrer autonom fährt, indem eine Antriebskraft-Erzeugungsvorrichtung, ein Lenkmechanismus, eine Bremsvorrichtung oder dergleichen auf der Basis der Information bezüglich des Umfelds des Fahrzeugs, die durch die Einheit 12030 zur Detektion von Information von außerhalb des Fahrzeugs oder die Einheit 12040 zur Detektion von Information aus dem Innern des Fahrzeugs erhalten wird, oder dergleichen gesteuert wird.
Der Mikrocomputer 12051 kann außerdem eine Steuerungsanweisung an die Karosseriesystem-Steuerungseinheit 12020 auf der Basis der Information von außerhalb des Fahrzeugs ausgeben, die durch die Einheit 12030 zur Detektion von Information von außerhalb des Fahrzeugs erhalten wird. Beispielsweise kann der Mikrocomputer 12051 eine kooperative Steuerung u dem Zweck durchführen, eine Blendung zu verhindern, indem eine Frontleuchte gemäß einer Position eines vorausfahrenden Fahrzeugs oder eines entgegenkommenden Fahrzeugs, das durch die Einheit 12030 zur Detektion von Information von außerhalb des Fahrzeugs detektiert wird, gesteuert wird, um Fernlicht auf Abblendlicht umzuschalten.
Die Sprach- und Bild-Ausgabeeinheit 12052 sendet ein Ausgangssignal einer Stimme und/oder eines Bildes an eine Ausgabevorrichtung, die eine Information einem Insassen eines Fahrzeugs oder einer äußeren Umgebung des Fahrzeugs optisch oder akustisch übermitteln kann. Im Beispiel von 20 sind als die Ausgabevorrichtungen ein Lautsprecher 12061, eine Anzeigeeinheit 12062 und ein Armaturenbrett 12063 veranschaulicht. Die Anzeigeeinheit 12062 kann beispielsweise eine bordeigene Anzeige und/oder ein Head-Up-Display umfassen.
21 ist ein Diagramm, das ein Beispiel einer Installationsposition der Bildgebungseinheit 12031 veranschaulicht.
In 21 enthält ein Fahrzeug 12100 als die Bildgebungseinheit 12031 Bildgebungseinheiten 12101, 12102, 12103, 12104 und 12105.
Die Bildgebungseinheiten 12101, 12102, 12103, 12104 und 12105 sind beispielsweise an einer Frontpartie, Seitenspiegeln, einer hinteren Stoßstange, einer Hecktür, einem oberen Teil einer Windschutzscheibe in einer Kabine und dergleichen des Fahrzeugs angeordnet. Die an der Frontpartie vorgesehene Bildgebungseinheit 12101 und die am oberen Teil der Windschutzscheibe in der Kabine vorgesehene Bildgebungseinheit 12105 erfassen vorwiegend ein Bild eines Bereichs vor dem Fahrzeug 12100. Die an den Seitenspiegeln vorgesehenen Bildgebungseinheiten 12102 und 12103 erfassen vorwiegend Bilder von Bereichen an den Seiten des Fahrzeugs 12100. Die an der hinteren Stoßstange oder der Hecktür vorgesehene Bildgebungseinheit 12104 erfasst ein Bild eines Bereichs hinter dem Fahrzeug 12100. Das von den Bildgebungseinheiten 12101 und 12103 erfasste Bild des Bereichs vor dem Fahrzeug 12100 wird vorwiegend genutzt, um ein vorausfahrendes Fahrzeug, einen Fußgänger, ein Hindernis, eine Verkehrsampel, ein Verkehrszeichen, eine Fahrspur oder dergleichen zu detektieren.
Man beachte, dass 21 ein Beispiel von Abbildungsbereichen der Bildgebungseinheiten 12101 bis 12104 darstellt. Ein Bildaufnahmebereich 12111 bezeichnet einen Bildaufnahmebereich der an der Frontpartie vorgesehenen Bildgebungseinheit 12101, Bildaufnahmebereiche 12112 und 12113 bezeichnen Bildaufnahmebereiche der an den Seitenspiegeln vorgesehenen Bildgebungseinheiten 12102 bzw. 12103 und ein Bildaufnahmebereich 12114 bezeichnet einen Bildaufnahmebereich der an der hinteren Stoßstange oder der Hecktür vorgesehenen Bildgebungseinheit 12104. Beispielsweise werden Bilddaten, die von den Bildgebungseinheiten 12101 bis 12104 erfasst werden, überlagert, wodurch ein Bild aus der Vogelperspektive von oberhalb des Fahrzeugs 12100 erhalten wird.
Zumindest eine der Bildgebungseinheiten 12101 bis 12104 kann eine Funktion zum Ermitteln einer Abstandsinformation aufweisen. Beispielsweise kann zumindest eine der Bildgebungseinheiten 12101 bis 12104 eine Stereokamera sein, die eine Vielzahl von Bildaufnahmeelementen enthält, oder kann ein Bildaufnahmeelement mit Pixeln für eine Detektion von Phasendifferenzen sein.
Der Mikrocomputer 12051 kann beispielsweise ein dreidimensionales Objekt, das mit einer vorbestimmten Geschwindigkeit (zum Beispiel 0 km/h oder höher) in im Wesentlichen der gleichen Richtung wie jene des Fahrzeugs 12100 fährt, insbesondere das am nächsten fahrende Fahrzeug auf einem Fahrweg des Fahrzeugs 12100 als vorausfahrendes Fahrzeug extrahieren, indem ein Abstand zu jedem dreidimensionalen Objekt in den Bildaufnahmebereichen 12111 bis 12114 und eine zeitliche Änderung (Relativgeschwindigkeit in Bezug auf das Fahrzeug 12100) des Abstands auf der Basis der von den Bildgebungseinheiten 12101 bis 12104 erhaltenen Abstandsinformation berechnet wird. Außerdem kann der Mikrocomputer 12051 einen sicherzustellenden Abstand zwischen Fahrzeugen für ein vorausfahrendes Fahrzeug vorher festlegen und kann eine automatische Bremssteuerung (einschließlich einer Nachfolge-Stopp-Steuerung), eine automatische Beschleunigungssteuerung (einschließlich einer Nachfolge-Start-Steuerung) und dergleichen durchführen. Wie oben beschrieben wurde, kann eine kooperative Steuerung zum Zwecke eines automatischen Fahrens durchgeführt werden, bei dem ein Fahrzeug ohne Eingriff durch einen Fahrer oder dergleichen autonom fährt.
Der Mikrocomputer 12051 kann zum Beispiel dreidimensionale Objektdaten bezüglich eines dreidimensionalen Objekts als ein zweirädriges Fahrzeug, ein gewöhnliches Fahrzeug, ein großes Fahrzeug, einen Fußgänger und ein anderes dreidimensionales Objekt wie etwa einen Strommasten auf der Basis der Abstandsinformation klassifizieren und extrahieren, die von den Bildgebungseinheiten 12101 bis 12104 erhalten werden, und ein Ergebnis der der Klassifizierung und Extraktion zum automatischen Ausweichen eines Hindernisses nutzen. Beispielsweise identifiziert der Mikrocomputer 12051 Hindernisse um das Fahrzeug 12100 als ein Hindernis, das für den Fahrer des Fahrzeugs 12100 sichtbar ist, oder ein Hindernis, das für den Fahrer des Fahrzeugs 12100 kaum sichtbar ist. Der Mikrocomputer 12051 bestimmt dann ein Kollisionsrisiko, das ein Risiko einer Kollision mit jedem Hindernis angibt, und, falls das Kollisionsrisiko gleich einem eingestellten Wert oder höher ist und eine Möglichkeit einer Kollision besteht, gibt der Mikrocomputer 12051 über den Lautsprecher 12061 oder die Anzeigeeinheit 12062 eine Warnung an den Fahrer aus oder führt über die Antriebssystem-Steuerungseinheit 12010 eine erzwungene Abbremsung oder Ausweichlenkbewegung durch, um eine Fahrassistenz zur Kollisionsvermeidung durchzuführen.
Zumindest eine der Bildgebungseinheiten 12101 bis 12104 kann eine Infrarotkamera sein, die Infrarotstrahlen detektiert. Beispielsweise kann der Mikrocomputer 12051 einen Fußgänger erkennen, indem bestimmt wird, ob in aufgenommenen Bildern der Bildgebungseinheiten 12101 bis 12104 ein Fußgänger vorhanden ist oder nicht. Eine solche Erkennung eines Fußgängers wird über eine Prozedur zum Extrahieren von Merkmalspunkten in den aufgenommenen Bildern der Bildgebungseinheiten 12101 bis 12104, die zum Beispiel Infrarotkameras sind, und eine Prozedur zum Unterscheiden, ob ein Objekt ein Fußgänger ist oder nicht, durchgeführt, indem eine Verarbeitung zum Musterabgleich an einer Reihe von Merkmalspunkten durchgeführt wird, die eine Kontur des Objekts angeben. Falls Mikrocomputer 12051 bestimmt, dass in den aufgenommenen Bildern der Bildgebungseinheiten 12101 bis 12104 ein Fußgänger vorhanden ist, und den Fußgänger erkennt, steuert die Sprach- und Bild-Ausgabeeinheit 12052 die Anzeigeeinheit 12062, so dass eine viereckige Konturlinie zur Hervorhebung dem erkannten Fußgänger überlagert wird. Die Sprach- und Bild-Ausgabeeinheit 12052 kann überdies die Anzeigeeinheit 12062 so steuern, dass ein Symbol oder dergleichen, das den Fußgänger repräsentiert, an einer gewünschten Position angezeigt wird.
Hier wurde oben ein Beispiel des Fahrzeugsteuerungssystems beschrieben, für das die Technologie gemäß der vorliegenden Offenbarung verwendet werden kann. Die Technologie gemäß der vorliegenden Offenbarung kann in der oben beschriebenen Konfiguration für beispielsweise die Einheit 12030 zur Detektion von Information von außerhalb des Fahrzeugs, die Bildgebungseinheit 12031, die Einheit 12040 zur Detektion von Information aus dem Inneren des Fahrzeugs, die Einheit 12041 zur Detektion eines Fahrerzustands und dergleichen verwendet werden. Beispielsweise kann der Bildsensor 1 in 3 für die Bildgebungseinheit 12031 verwendet werden. Durch Anwenden der Technologie gemäß der vorliegenden Offenbarung auf die Bildgebungseinheit 12031 kann beispielsweise ein leichter zu betrachtendes aufgenommenes Bild erhalten werden, so dass eine Ermüdung des Fahrers reduziert werden kann.
[4. Effekte]
Der Bildsensor 1, der ein Beispiel der Bilderkennungsvorrichtung ist, enthält die Bildgebungseinheit 10 und die Erkennungseinheit 14. Die Bildgebungseinheit 10 nimmt eine Vielzahl von Bildern zum gleichen Belichtungsstartzeitpunkt in einer Frame-Periode auf, indem die Bildgebungspixel mit unterschiedlichen Empfindlichkeiten verwendet werden, um die Bilddaten zu erzeugen. Die Erkennungseinheit 14 erkennt ein Objekt aus den jeweiligen Bilddaten. Infolgedessen kann der Bildsensor 1 den Einfluss des Artefakts eliminieren, wodurch die Genauigkeit beim Erkennen des Objekts verbessert wird.
Darüber hinaus enthält die Bildgebungseinheit 10 das Pixel-Array, in dem eine Vielzahl von Bildgebungspixeln mit der gleichen Lichtempfangsfläche und unterschiedlichen Belichtungszeiten zweidimensional angeordnet ist. Somit kann der Bildsensor 1 kann das Objekt mit hoher Genauigkeit aus sowohl dem Bild mit langer Belichtung als auch dem Bild mit kurzer Belichtung erkennen.
Darüber hinaus enthält die Bildgebungseinheit 10 das Pixel-Array, in dem eine Vielzahl von Bildgebungspixeln mit der gleichen Lichtempfangsfläche und mit unterschiedlichen Lichtdurchlässigkeiten der darauf gestapelten Farbfilter zweidimensional angeordnet ist. Infolgedessen kann der Bildsensor 1 das Objekt mit hoher Genauigkeit aus sowohl dem Bild mit hoher Empfindlichkeit als auch dem Bild mit niedriger Empfindlichkeit detektieren.
Überdies enthält die Bildgebungseinheit 10 das Pixel-Array, in dem eine Vielzahl von Bildgebungspixeln mit unterschiedlichen Lichtempfangsflächen zweidimensional angeordnet ist. Infolgedessen kann der Bildsensor 1 das Objekt mit hoher Genauigkeit basierend auf dem Pixelsignal des großen Pixels und dem Pixelsignal des kleinen Pixels erkennen.
Die Bildgebungseinheit 10 enthält überdies das Pixel-Array, in dem das Bildgebungspixel mit langer Belichtung, das Bildgebungspixel mit moderater Belichtung und das Bildgebungspixel mit kurzer Belichtung zweidimensional angeordnet sind. Somit kann der Bildsensor 1 das Objekt mit hoher Genauigkeit aus jedem des Bildes mit langer Belichtung, des Bildes mit moderater Belichtung und des Bildes mit kurzer Belichtung erkennen.
Außerdem enthält die Bildgebungseinheit 10 das Pixel-Array, in dem das Bildgebungspixel mit niedriger Empfindlichkeit, das Bildgebungspixel mit moderater Empfindlichkeit und das Bildgebungspixel mit hoher Empfindlichkeit zweidimensional angeordnet sind. Somit kann der Bildsensor 1 das Objekt mit hoher Genauigkeit aus jedem des Bildes mit hoher Empfindlichkeit, des Bildes mit moderater Empfindlichkeit und des Bildes mit niedriger Empfindlichkeit detektieren.
Falls das Objekt erkannt wird, gibt darüber hinaus die Erkennungseinheit 14 das Objekterkennungsergebnis und die Bilddaten an eine Vorrichtung in einer nachfolgenden Stufe aus, und, falls das Objekt nicht erkannt wird, gibt die Erkennungseinheit 14 eine Information, die angibt, dass das Objekt nicht erkannt wird, an die Vorrichtung in der nachfolgenden Stufe aus. Infolgedessen kann der Bildsensor 1 den Leistungsverbrauch reduzieren, falls das Objekt nicht erkannt wird.
Darüber hinaus erkennt die Erkennungseinheit 14 das Objekt aus den Bilddaten, die der Demosaicing-Verarbeitung unterzogen werden. Somit kann beispielsweise der Bildsensor 1 das Objekt mit hoher Genauigkeit erkennen, während die Verarbeitungslast durch Reduzieren der Anzahl an Eingangskanälen des DNN reduziert wird.
Die Erkennungseinheit 14 erkennt ferner das Objekt aus den Bilddaten, die der Demosaicing-Verarbeitung nicht unterzogen werden. Infolgedessen kann beispielsweise, obgleich die Anzahl an Eingangskanälen des DNN zunimmt, der Bildsensor 1 das Objekt mit hoher Genauigkeit erkennen.
Die Erkennungseinheit erkennt das Objekt aus den von der Bildgebungseinheit eingegebenen Bilddaten. Infolgedessen kann, da die Signalverarbeitung weggelassen werden kann, der Bildsensor 1 das Objekt mit hoher Genauigkeit erkennen, während die Verarbeitungslast signifikant reduziert wird.
Bevor das Objekt von der Erkennungseinheit 14 detektiert wird, verwendet darüber hinaus die Bildgebungseinheit 10 das Bildgebungspixel mit einer niedrigen Empfindlichkeit, um Bilddaten eines mit einer niedrigen Auflösung und einer niedrigen Frame-Rate aufgenommenen Gesamtbildes zu erzeugen. Nachdem das Objekt von der Erkennungseinheit detektiert ist, verwendet die Bildgebungseinheit 10 das Bildgebungspixel mit einer hohen Empfindlichkeit, um Bilddaten zu erzeugen, die erhalten werden, indem das Objekt aus einem mit einer hohen Auflösung und einer hohen Frame-Rate aufgenommenen Bild ausgeschnitten wird. Die Erkennungseinheit 14 erkennt, ob ein Objekt in den Bilddaten vorhanden ist, vor einem Detektieren des Objekts und identifiziert das Objekt nach einem Detektieren des Objekts. Infolgedessen kann der Bildsensor die Verarbeitungslast und den Leistungsverbrauch reduzieren, die erforderlich sind, um das Objekt zu detektieren.
Bevor das Objekt von der Erkennungseinheit 14 detektiert wird, verwendet darüber hinaus die Bildgebungseinheit 10 das Bildgebungspixel mit einer niedrigen Empfindlichkeit und das Bildgebungspixel mit einer hohen Empfindlichkeit, um Bilddaten eines mit einer hohen Auflösung und einer hohen Frame-Rate aufgenommenen Gesamtbildes zu erzeugen. Falls das von der Erkennungseinheit 14 detektierte Objekt eine Ampel ist, verwendet die Bildgebungseinheit 10 das Bildgebungspixel mit einer niedrigen Empfindlichkeit, und, falls das Objekt ein Fahrzeug ist, verwendet die Bildgebungseinheit 10 das Bildgebungspixel mit einer hohen Empfindlichkeit, um Bilddaten zu erzeugen, die erhalten werden, indem das Objekt aus einem mit einer hohen Auflösung und einer hohen Frame-Rate aufgenommenen Bild ausgeschnitten wird. Die Erkennungseinheit 14 führt eine Verarbeitung zum Erkennen des Objekts aus den Bilddaten vor einem Detektieren des Objekts aus und führt eine Erkennungsverarbeitung gemäß dem Objekt basierend auf den Bilddaten nach einem Erkennen des Objekts aus. Der Bildsensor kann infolgedessen den Zustand der Ampel, die flackert, genau detektieren und kann die Position des vorausfahrenden Fahrzeugs mit hoher Genauigkeit erkennen.
Bevor das Objekt von der Erkennungseinheit 14 detektiert wird, nutzt darüber hinaus die Bildgebungseinheit 10 das Bildgebungspixel mit langer Belichtung, das Bildgebungspixel mit moderater Belichtung und das Bildgebungspixel mit kurzer Belichtung, um Bilddaten eines mit einer hohen Auflösung und einer hohen Frame-Rate aufgenommenen Gesamtbildes zu erzeugen. Falls das von der Erkennungseinheit 14 detektierte Objekt eine Ampel ist, nutzt die Bildgebungseinheit 10 das Bildgebungspixel mit moderater Belichtung, und, falls das Objekt ein Fahrzeug ist, nutzt die Bildgebungseinheit 10 das Bildgebungspixel mit kurzer Belichtung, um Bilddaten zu erzeugen, die erhalten werden, indem das Objekt aus einem mit einer hohen Auflösung und einer hohen Frame-Rate aufgenommenen Bild ausgeschnitten wird. Die Erkennungseinheit 14 führt eine Verarbeitung zum Erkennen des Objekts aus den Bilddaten vor einem Detektieren des Objekts aus und führt eine Erkennungsverarbeitung gemäß dem Objekt basierend auf den Bilddaten nach einem Erkennen des Objekts aus. Der Bildsensor kann infolgedessen den Zustand der Ampel, die flackert, genau detektieren und kann die Position des vorausfahrenden Fahrzeugs mit hoher Genauigkeit detektieren.
Außerdem wird in dem Bilderkennungsverfahren eine Vielzahl von Bildern zum gleichen Belichtungsstartzeitpunkt in einer Frame-Periode aufgenommen, indem Bildgebungspixel mit unterschiedlichen Empfindlichkeiten verwendet werden, um Bilddaten zu erzeugen, und wird ein Objekt aus den jeweiligen Bilddaten erkannt. Infolgedessen ist es möglich, den Einfluss des Artefakts zu eliminieren, wodurch die Genauigkeit beim Erkennen des Objekts verbessert wird.
Man beachte, dass die Effekte in jeder, in der vorliegenden Beschreibung beschriebenen Ausführungsform nur Beispiele sind. Die Effekte der vorliegenden Offenbarung sind nicht darauf beschränkt, und andere Effekte können erhalten werden.
Man beachte, dass die vorliegende Technologie auch die folgenden Konfigurationen aufweisen kann.

(1) Eine Bilderkennungsvorrichtung, aufweisend:
- eine Bildgebungseinheit, die eine Vielzahl von Bildern zum gleichen Belichtungsstartzeit in einer Frame-Periode aufnimmt, indem Bildgebungspixel mit unterschiedlichen Empfindlichkeiten verwendet werden, um Bilddaten zu erzeugen; und
- eine Erkennungseinheit, die ein Objekt aus den jeweiligen Bilddaten erkennt.
(2) Die Bilderkennungsvorrichtung gemäß (1), wobei die Bildgebungseinheit ein Pixel-Array enthält, in dem eine Vielzahl der Bildgebungspixel mit der gleichen Lichtempfangsfläche und unterschiedlichen Belichtungszeiten zweidimensional angeordnet ist.
(3) Die Bilderkennungsvorrichtung gemäß (1), wobei die Bildgebungseinheit ein Pixel-Array enthält, in dem eine Vielzahl der Bildgebungspixel mit der gleichen Lichtempfangsfläche und mit unterschiedlichen Lichtdurchlässigkeiten von darauf gestapelten Farbfiltern zweidimensional angeordnet ist.
(4) Die Bilderkennungsvorrichtung gemäß (1), wobei die Bildgebungseinheit ein Pixel-Array enthält, in dem eine Vielzahl der Bildgebungspixel mit unterschiedlichen Lichtempfangsflächen zweidimensional angeordnet ist.
(5) Die Bilderkennungsvorrichtung gemäß (1), wobei die Bildgebungseinheit ein Pixel-Array enthält, in dem ein Bildgebungspixel mit langer Belichtung, ein Bildgebungspixel mit moderater Belichtung und ein Bildgebungspixel mit kurzer Belichtung zweidimensional angeordnet sind.
(6) Die Bilderkennungsvorrichtung gemäß (1), wobei die Bildgebungseinheit ein Pixel-Array enthält, in dem ein Bildgebungspixel mit niedriger Empfindlichkeit, ein Bildgebungspixel mit moderater Empfindlichkeit und ein Bildgebungspixel mit hoher Empfindlichkeit zweidimensional angeordnet sind.
(7) Die Bilderkennungsvorrichtung gemäß einem von (1) bis (6), wobei in einem Fall, in dem das Objekt erkannt wird, die Erkennungseinheit ein Ergebnis einer Erkennung des Objekts und die Bilddaten an eine Vorrichtung in einer nachfolgenden Stufe ausgibt, und in einem Fall, in dem das Objekt nicht erkannt wird, die Erkennungseinheit eine Information, die angibt, dass das Objekt nicht erkannt wird, an die Vorrichtung in der nachfolgenden Stufe ausgibt.
(8) Die Bilderkennungsvorrichtung gemäß einem von (1) bis (6), wobei die Erkennungseinheit das Objekt aus den Bilddaten erkennt, die einer Demosaicing-Verarbeitung unterzogen werden.
(9) Die Bilderkennungsvorrichtung gemäß einem von (1) bis (6), wobei die Erkennungseinheit das Objekt aus den Bilddaten erkennt, die einer Demosaicing-Verarbeitung nicht unterzogen werden.
(10) Die Bilderkennungsvorrichtung gemäß einem von (1) bis (6), wobei die Erkennungseinheit das Objekt aus den von der Bildge-bungseinheit eingegebenen Bilddaten erkennt.
(11) Die Bilderkennungsvorrichtung gemäß einem von (1) bis (10), wobei, bevor das Objekt von der Erkennungseinheit detektiert wird, die Bildgebungseinheit das Bildgebungspixel mit einer niedrigen Empfindlichkeit verwendet, um Bilddaten eines mit einer niedrigen Auflösung und einer niedrigen Frame-Rate aufgenommenen Gesamtbildes zu erzeugen, nachdem das Objekt von der Erkennungseinheit detektiert ist, die Bildgebungseinheit das Bildgebungspixel mit einer hohen Empfindlichkeit verwendet, um Bilddaten zu erzeugen, die erhalten werden, indem das Objekt aus einem mit einer hohen Auflösung und einer hohen Frame-Rate aufgenommenen Bild ausgeschnitten wird, und die Erkennungseinheit vor einem Detektieren des Objekts erkennt, ob das Objekt in den Bilddaten vorhanden ist oder nicht, und das Objekt nach einem Detektieren des Objekts identifiziert.
(12) Die Bilderkennungsvorrichtung gemäß einem von (1) bis (10), wobei, bevor das Objekt von der Erkennungseinheit detektiert wird, die Bildgebungseinheit das Bildgebungspixel mit einer niedrigen Empfindlichkeit und das Bildgebungspixel mit einer hohen Empfindlichkeit verwendet, um Bilddaten eines mit einer hohen Auflösung und einer hohen Frame-Rate aufgenommenen Gesamtbildes zu erzeugen, falls das von der Erkennungseinheit detektierte Objekt eine Ampel ist, die Bildgebungseinheit das Bildgebungspixel mit einer niedrigen Empfindlichkeit verwendet und, falls das Objekt ein Fahrzeug ist, die Bildgebungseinheit das Bildgebungspixel mit einer hohen Empfindlichkeit verwendet, um Bilddaten zu erzeugen, die erhalten werden, indem das Objekt aus einem mit einer hohen Auflösung und einer hohen Frame-Rate aufgenommenen Bild ausgeschnitten wird, und die Erkennungseinheit eine Verarbeitung zum Erkennen des Objekts aus den Bilddaten vor einem Detektieren des Objekts ausführt und eine Erkennungsverarbeitung gemäß dem Objekt basierend auf den Bilddaten nach einem Erkennen des Objekts ausführt.
(13) Die Bilderkennungsvorrichtung gemäß (5), wobei, bevor das Objekt von der Erkennungseinheit detektiert wird, die Bildgebungseinheit das Bildgebungspixel mit langer Belichtung, das Bildgebungspixel mit moderater Belichtung und das Bildgebungspixel mit kurzer Belichtung verwendet, um Bilddaten eines mit einer hohen Auflösung und einer hohen Frame-Rate aufgenommenen Gesamtbildes zu erzeugen, falls das von der Erkennungseinheit detektierte Bild eine Ampel ist, die Bildgebungseinheit das Bildgebungspixel mit moderater Belichtung verwendet und, falls das Objekt ein Fahrzeug ist, die Bildgebungseinheit das Bildgebungspixel mit kurzer Belichtung verwendet, um Bilddaten zu erzeugen, die erhalten werden, indem das Objekt aus einem mit einer hohen Auflösung und einer hohen Frame-Rate aufgenommenen Bild ausgeschnitten wird, und die Erkennungseinheit eine Verarbeitung zum Erkennen des Objekts aus den Bilddaten vor einem Detektieren des Objekts ausführt und eine Erkennungsverarbeitung gemäß dem Objekt basierend auf den Bilddaten nach einem Erkennen des Objekts ausführt.
(14) Ein Bilderkennungsverfahren, aufweisend:
- Aufnehmen einer Vielzahl von Bildern zum gleichen Belichtungsstartzeitpunkt in einer Frame-Periode, indem Bildgebungspixel mit unterschiedlichen Empfindlichkeiten verwendet werden, um Bilddaten zu erzeugen; und
- Erkennen eines Objekts aus den jeweiligen Bilddaten.

Bezugszeichenliste

100: BILDERKENNUNGSSYSTEM
1: BILDSENSOR
10: BILDGEBUNGSEINHEIT
11: BILDGEBUNGSELEMENT
12: A/D-UMWANDLUNGSEINHEIT
13: SIGNALVERARBEITUNGSEINHEIT
14: ERKENNUNGSEINHEIT
15: DATENÜBERTRAGUNGS-BESTIMMUNGSEINHEIT
16: SEL
17: ÜBERTRAGUNGSEINHEIT
2: AP
21: EMPFANGSEINHEIT
22: AUTHENTIFIZIERUNGSEINHEIT
23: AUTHENTIFIZIERUNGSDATEN-SPEICHEREINHEIT
31: OBJEKTERKENNUNGSEINHEIT
32: OBJEKTERKENNUNGSDATEN-SPEICHEREINHEIT

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2014103643 A [0003]

Claims

Bilderkennungsvorrichtung, aufweisend: eine Bildgebungseinheit, die eine Vielzahl von Bildern zum gleichen Belichtungsstartzeit in einer Frame-Periode aufnimmt, indem Bildgebungspixel mit unterschiedlichen Empfindlichkeiten verwendet werden, um Bilddaten zu erzeugen; und eine Erkennungseinheit, die ein Objekt aus den jeweiligen Bilddaten erkennt.
Bilderkennungsvorrichtung nach Anspruch 1, wobei die Bildgebungseinheit ein Pixel-Array enthält, in dem eine Vielzahl der Bildgebungspixel mit der gleichen Lichtempfangsfläche und unterschiedlichen Belichtungszeiten zweidimensional angeordnet ist.
Bilderkennungsvorrichtung nach Anspruch 1, wobei die Bildgebungseinheit ein Pixel-Array enthält, in dem eine Vielzahl der Bildgebungspixel mit der gleichen Lichtempfangsfläche und mit unterschiedlichen Lichtdurchlässigkeiten von darauf gestapelten Farbfiltern zweidimensional angeordnet ist.
Bilderkennungsvorrichtung nach Anspruch 1, wobei die Bildgebungseinheit ein Pixel-Array enthält, in dem eine Vielzahl der Bildgebungspixel mit unterschiedlichen Lichtempfangsflächen zweidimensional angeordnet ist.
Bilderkennungsvorrichtung nach Anspruch 1, wobei die Bildgebungseinheit ein Pixel-Array enthält, in dem ein Bildgebungspixel mit langer Belichtung, ein Bildgebungspixel mit moderater Belichtung und ein Bildgebungspixel mit kurzer Belichtung zweidimensional angeordnet sind.
Bilderkennungsvorrichtung nach Anspruch 1, wobei die Bildgebungseinheit ein Pixel-Array enthält, in dem ein Bildgebungspixel mit niedriger Empfindlichkeit, ein Bildgebungspixel mit moderater Empfindlichkeit und ein Bildgebungspixel mit hoher Empfindlichkeit zweidimensional angeordnet sind.
Bilderkennungsvorrichtung nach Anspruch 1, wobei in einem Fall, in dem das Objekt erkannt wird, die Erkennungseinheit ein Ergebnis einer Erkennung des Objekts und die Bilddaten an eine Vorrichtung in einer nachfolgenden Stufe ausgibt, und in einem Fall, in dem das Objekt nicht erkannt wird, die Erkennungseinheit eine Information, die angibt, dass das Objekt nicht erkannt wird, an die Vorrichtung in der nachfolgenden Stufe ausgibt.
Bilderkennungsvorrichtung nach Anspruch 1, wobei die Erkennungseinheit das Objekt aus den Bilddaten erkennt, die einer Demosaicing-Verarbeitung unterzogen werden.
Bilderkennungsvorrichtung nach Anspruch 1, wobei die Erkennungseinheit das Objekt aus den Bilddaten erkennt, die einer Demosaicing-Verarbeitung nicht unterzogen werden.
Bilderkennungsvorrichtung nach Anspruch 1, wobei die Erkennungseinheit das Objekt aus den von der Bildgebungseinheit eingegebenen Bilddaten erkennt.
Bilderkennungsvorrichtung nach Anspruch 1, wobei, bevor das Objekt von der Erkennungseinheit detektiert wird, die Bildgebungseinheit das Bildgebungspixel mit einer niedrigen Empfindlichkeit verwendet, um Bilddaten eines mit einer niedrigen Auflösung und einer niedrigen Frame-Rate aufgenommenen Gesamtbildes zu erzeugen, nachdem das Objekt von der Erkennungseinheit detektiert ist, die Bildgebungseinheit das Bildgebungspixel mit einer hohen Empfindlichkeit verwendet, um Bilddaten zu erzeugen, die erhalten werden, indem das Objekt aus einem mit einer hohen Auflösung und einer hohen Frame-Rate aufgenommenen Bild ausgeschnitten wird, und die Erkennungseinheit vor einem Detektieren des Objekts erkennt, ob das Objekt in den Bilddaten vorhanden ist oder nicht, und das Objekt nach einem Detektieren des Objekts identifiziert.
Bilderkennungsvorrichtung nach Anspruch 1, wobei, bevor das Objekt von der Erkennungseinheit detektiert wird, die Bildgebungseinheit das Bildgebungspixel mit einer niedrigen Empfindlichkeit und das Bildgebungspixel mit einer hohen Empfindlichkeit verwendet, um Bilddaten eines mit einer hohen Auflösung und einer hohen Frame-Rate aufgenommenen Gesamtbildes zu erzeugen, falls das von der Erkennungseinheit detektierte Objekt eine Ampel ist, die Bildgebungseinheit das Bildgebungspixel mit einer niedrigen Empfindlichkeit verwendet und, falls das Objekt ein Fahrzeug ist, die Bildgebungseinheit das Bildgebungspixel mit einer hohen Empfindlichkeit verwendet, um Bilddaten zu erzeugen, die erhalten werden, indem das Objekt aus einem mit einer hohen Auflösung und einer hohen Frame-Rate aufgenommenen Bild ausgeschnitten wird, und die Erkennungseinheit eine Verarbeitung zum Erkennen des Objekts aus den Bilddaten vor einem Detektieren des Objekts ausführt und eine Erkennungsverarbeitung gemäß dem Objekt basierend auf den Bilddaten nach einem Erkennen des Objekts ausführt.
Bilderkennungsvorrichtung nach Anspruch 5, wobei, bevor das Objekt von der Erkennungseinheit detektiert wird, die Bildgebungseinheit das Bildgebungspixel mit langer Belichtung, das Bildgebungspixel mit moderater Belichtung und das Bildgebungspixel mit kurzer Belichtung verwendet, um Bilddaten eines mit einer hohen Auflösung und einer hohen Frame-Rate aufgenommenen Gesamtbildes zu erzeugen, falls das von der Erkennungseinheit detektierte Bild eine Ampel ist, die Bildgebungseinheit das Bildgebungspixel mit moderater Belichtung verwendet und, falls das Objekt ein Fahrzeug ist, die Bildgebungseinheit das Bildgebungspixel mit kurzer Belichtung verwendet, um Bilddaten zu erzeugen, die erhalten werden, indem das Objekt aus einem mit einer hohen Auflösung und einer hohen Frame-Rate aufgenommenen Bild ausgeschnitten wird, und die Erkennungseinheit eine Verarbeitung zum Erkennen des Objekts aus den Bilddaten vor einem Detektieren des Objekts ausführt und eine Erkennungsverarbeitung gemäß dem Objekt basierend auf den Bilddaten nach einem Erkennen des Objekts ausführt.
Bilderkennungsverfahren, aufweisend: Aufnehmen einer Vielzahl von Bildern zum gleichen Belichtungsstartzeitpunkt in einer Frame-Periode, indem Bildgebungspixel mit unterschiedlichen Empfindlichkeiten verwendet werden, um Bilddaten zu erzeugen; und Erkennen eines Objekts aus den jeweiligen Bilddaten.