DE112021003845T5

DE112021003845T5 - Datenverarbeitungsvorrichtung, Datenverarbeitungssystem, Datenverarbeitungsverfahren und Datenverarbeitungsprogramm technisches Gebiet

Info

Publication number: DE112021003845T5
Application number: DE112021003845.1T
Authority: DE
Inventors: Suguru Aoki; Ryuta SATOH; Keitaro Yamamoto
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2020-07-20
Filing date: 2021-06-25
Publication date: 2023-05-04
Also published as: JPWO2022019049A1; WO2022019049A1; US20230308779A1

Abstract

[Problem] Es sollen eine Bilderzeugungsvorrichtung, ein Bilderzeugungssystem, ein Bilderzeugungsverfahren und ein Bilderzeugnisprogramm bereitgestellt werden, die selbst in dem Fall, in dem der Erkennungsprozess unter Verwendung eines Teilgebiets der Bilddaten ausgeführt wird, in der Lage sind zu verhindern, dass die Genauigkeit einer Zuverlässigkeit abnimmt.[Lösung] Es wird eine Datenverarbeitungsvorrichtung bereitgestellt, die Folgendes umfasst: einen Leseabschnitt, der einen Teil eines Pixelgebiets, in dem mehrere Pixel in einem zweidimensionalen Anordnungsmuster angeordnet sind, als eine Leseeinheit einstellt und das Auslesen von Pixelsignalen aus in dem Pixelgebiet enthaltenen Pixeln steuert; und eine Zuverlässigkeitsberechnungseinheit, die auf der Grundlage des Flächeninhalts und/oder der Anzahl von Auslesungen und/oder des Dynamikumfangs und/oder von Belichtungsinformationen eines Gebiets eines aufgenommenen Bilds, das als die Leseeinheit eingestellt und ausgelesen wird, die Zuverlässigkeit eines vorgegebenen Gebiets in dem Pixelgebiet berechnet.

Description

Die vorliegende Offenbarung betrifft eine Datenverarbeitungsvorrichtung, ein Datenverarbeitungssystem, ein Datenverarbeitungsverfahren und ein Datenverarbeitungsprogramm.
STAND DER TECHNIK
Mit der jüngsten Zunahme der Funktionalität von Bilderzeugungsvorrichtungen wie etwa digitalen Standbildkameras, digitalen Videokameras und kleinen Kameras, die in Multifunktionsmobiltelefone (Smartphones) eingebaut sind, werden Bilderzeugungsvorrichtungen mit einer Bilderkennungsfunktion zum Erkennen eines vorgegebenen Objekts, das in einem aufgenommenen Objekt enthalten ist, entwickelt. Darüber hinaus wird unter Verwendung eines Teilgebiets von Bilddaten in einem Rahmen eine Erhöhung der Geschwindigkeit der Erkennungsverarbeitung vorgenommen. Darüber hinaus ist ein Zuverlässigkeitsgrad in der Erkennungsverarbeitung allgemein als ein Bewertungswert der Erkennungsgenauigkeit gegeben.
Dagegen kann in einem neuen Erkennungsverfahren, das ein Teilgebiet wie etwa Zeilenbilddaten verwendet, die Anzahl der Zeilen oder die Zeilenbreite in Übereinstimmung mit einem Erkennungsziel geändert werden. Aus diesem Grund besteht die Möglichkeit, dass der herkömmliche Erkennungsgrad die Genauigkeit verringert.
LISTE DER ENTGEGENHALTUNGEN
PATENTDOKUMENT
Patent Dokument 1: Japanische offengelegte Patentanmeldung Nr. 2017-112409
ZUSAMMENFASSUNG DER ERFINDUNG
DURCH DIE ERFINDUNG ZU LÖSENDE PROBLEME
Ein Aspekt der vorliegenden Offenbarung stellt eine Datenverarbeitungsvorrichtung, ein Datenverarbeitungssystem, ein Datenverarbeitungsverfahren und ein Datenverarbeitungsprogramm bereit, die in der Lage sind zu verhindern, dass die Genauigkeit eines Zuverlässigkeitsgrads selbst in dem Fall verringert ist, in dem die Erkennungsverarbeitung unter Verwendung eines Teilgebiets von Bilddaten ausgeführt wird.
LÖSUNGEN DER PROBLEME
Zur Lösung der oben beschriebenen Probleme stellt die vorliegende Offenbarung eine Datenverarbeitungsvorrichtung bereit, die Folgendes aufweist:

eine Leseeinheit, die dazu ausgebildet ist, einen Teil eines Pixelgebiets, in dem mehrere Pixel in einer zweidimensionalen Anordnung angeordnet sind, als eine gelesene Einheit einzustellen und das Lesen eines Pixelsignals von einem in dem Pixelgebiet enthaltenen Pixel zu steuern; und
eine Zuverlässigkeitsgrad-Berechnungseinheit, die dazu ausgebildet ist, auf der Grundlage eines Bereichs und/oder einer gelesenen Anzahl und/oder eines Dynamikumfangs und/oder von Belichtungsinformationen eines Gebiets eines aufgenommenen Bilds einen Zuverlässigkeitsgrad eines vorgegebenen Gebiets in dem Pixelgebiet zu berechnen, wobei das Gebiet als die gelesene Einheit eingestellt und gelesen wird.

Die Zuverlässigkeitsgrad-Berechnungseinheit kann eine Zuverlässigkeitsgradkarten-Erzeugungseinheit enthalten, die dazu ausgebildet ist, auf der Grundlage des Bereichs und/oder der gelesenen Anzahl und/oder des Dynamikumfangs und/oder der Belichtungsinformationen des Gebiets des aufgenommenen Bilds für jedes der mehreren Pixel einen Korrekturwert des Zuverlässigkeitsgrads zu berechnen und eine Zuverlässigkeitsgradkarte zu erzeugen, in der die Korrekturwerte in einer zweidimensionalen Anordnung angeordnet sind.
Ferner kann die Zuverlässigkeitsgrad-Berechnungseinheit eine Korrektureinheit enthalten, die dazu ausgebildet ist, den Zuverlässigkeitsgrad auf der Grundlage des Korrekturwerts des Zuverlässigkeitsgrads zu korrigieren.
Die Korrektureinheit kann den Zuverlässigkeitsgrad auf der Grundlage des vorgegebenen Gebiets in Übereinstimmung mit einem Maß für die zentrale Tendenz der Korrekturwerte korrigieren.
Die Leseeinheit kann die in dem Pixelgebiet enthaltenen Pixel als Zeilenbilddaten lesen.
Die Leseeinheit kann die in dem Pixelgebiet enthaltenen Pixel als gitterartige oder schachbrettartige Abtastbilddaten lesen.
Ferner kann eine Erkennungsverarbeitungs-Ausführungseinheit enthalten sein, die dazu ausgebildet ist, ein Zielobjekt in dem vorgegebenen Gebiet zu erkennen.
Die Korrektureinheit kann das Maß für die zentrale Tendenz der Korrekturwerte auf der Grundlage eines aufnahmefähigen Felds berechnen, in dem ein Merkmal in dem vorgegebenen Gebiet berechnet wird.
Die Zuverlässigkeitsgradkarten-Erzeugungseinheit kann auf der Grundlage jeder von wenigstens zwei Einheiten der Informationen, die einen Bereich betreffen, der Informationen, die eine gelesene Anzahl betreffen, der Informationen, die einen Dynamikumfang betreffen, oder der Informationen, die die Belichtung betreffen, wenigstens zwei Typen von Zuverlässigkeitsgradkarten erzeugen und die Datenverarbeitungsvorrichtung kann ferner eine Kombinationseinheit aufweisen, die dazu ausgebildet ist, die wenigstens zwei Typen von Zuverlässigkeitsgradkarten zu kombinieren.
Das vorgegebene Gebiet in dem Pixelgebiet kann ein Gebiet sein, das auf einer Kennung und/oder auf einer Kategorie beruht, die jedem Pixel durch semantische Segmentierung zugeordnet sind.
Zur Lösung der oben beschriebenen Probleme wird gemäß einem Aspekt der vorliegenden Offenbarung ein Datenverarbeitungssystem bereitgestellt, das Folgendes aufweist:

eine Sensoreinheit, die mehrere Pixel aufweist, die in einer zweidimensionalen Anordnung angeordnet sind; und
eine Erkennungsverarbeitungseinheit, wobei die Erkennungsverarbeitungseinheit Folgendes enthält:
- eine Leseeinheit, die dazu ausgebildet ist, einen Teil eines Pixelgebiets der Sensoreinheit als eine gelesene Einheit einzustellen und das Lesen eines Pixelsignals von einem in der gelesenen Einheit enthaltenen Pixel zu steuern; und
- eine Zuverlässigkeitsgrad-Berechnungseinheit, die dazu ausgebildet ist, auf der Grundlage eines Bereichs und/oder einer gelesenen Anzahl und/oder eines Dynamikumfangs und/oder von Belichtungsinformationen eines Gebiets eines aufgenommenen Bilds einen Zuverlässigkeitsgrad eines vorgegebenen Gebiets in dem Pixelgebiet zu berechnen, wobei das Gebiet als die gelesene Einheit eingestellt und gelesen wird.

Zur Lösung der oben beschriebenen Probleme wird gemäß einem Aspekt der vorliegenden Offenbarung ein Datenverarbeitungsverfahren bereitgestellt, das Folgendes aufweist:

Einstellen eines Teils eines Pixelgebiets, in dem mehrere Pixel in einer zweidimensionalen Anordnung angeordnet sind, als eine gelesene Einheit und Steuern des Lesens eines Pixelsignals von einem in dem Pixelgebiet enthaltenen Pixel; und
Berechnen eines Zuverlässigkeitsgrads eines vorgegebenen Gebiets in dem Pixelgebiet auf der Grundlage eines Bereichs und/oder einer gelesenen Anzahl und/oder eines Dynamikumfangs und/oder von Belichtungsinformationen eines Gebiets eines aufgenommenen Bilds, wobei das Gebiet als die gelesene Einheit eingestellt und gelesen wird.

Zur Lösung der oben beschriebenen Probleme wird gemäß einem Aspekt der vorliegenden Offenbarung ein Programm bereitgestellt, um zu veranlassen, dass ein Computer als eine Erkennungsverarbeitungseinheit Folgendes ausführt:

Einstellen eines Teils eines Pixelgebiets, in dem mehrere Pixel in einer zweidimensionalen Anordnung angeordnet sind, als eine gelesene Einheit und Steuern des Lesens eines Pixelsignals von einem in dem Pixelgebiet enthaltenen Pixel; und

Berechnen eines Zuverlässigkeitsgrads eines vorgegebenen Gebiets in dem Pixelgebiet auf der Grundlage eines Bereichs und/oder einer gelesenen Anzahl und/oder eines Dynamikumfangs und/oder von Belichtungsinformationen eines Gebiets eines aufgenommenen Bilds, wobei das Gebiet als die gelesene Einheit eingestellt und gelesen wird.
Figurenliste

1 ist ein Blockschaltplan, der eine Konfiguration eines Beispiels einer Bilderzeugungsvorrichtung darstellt, die auf jede Ausführungsform der vorliegenden Offenbarung anwendbar ist.
2A ist eine schematische Darstellung, die ein Beispiel einer Hardwarekonfiguration der Bilderzeugungsvorrichtung gemäß jeder Ausführungsform darstellt.
2B ist eine schematische Darstellung, die ein Beispiel der Hardwarekonfiguration der Bilderzeugungsvorrichtung gemäß jeder Ausführungsform darstellt.
3A ist eine Darstellung, die ein Beispiel darstellt, in dem die Bilderzeugungsvorrichtung gemäß jeder Ausführungsform durch einen gestapelten CIS mit einer Zweischichtstruktur gebildet ist.
3B ist eine Darstellung, die ein Beispiel darstellt, in dem die Bilderzeugungsvorrichtung gemäß jeder Ausführungsform durch einen gestapelten CIS mit einer Dreischichtstruktur gebildet ist.
4 ist ein Blockschaltplan, der eine Konfiguration eines Beispiels einer Sensoreinheit darstellt, die auf jede Ausführungsform anwendbar ist.
5A ist eine schematische Darstellung zur Beschreibung eines Rolling-Shutter-Verfahrens.
5B ist eine schematische Darstellung zur Beschreibung des Rolling-Shutter-Verfahrens.
5C ist eine schematische Darstellung zur Beschreibung des Rolling-Shutter-Verfahrens.
6A ist eine schematische Darstellung zur Beschreibung des Zeilenüberspringens gemäß dem Rolling-Shutter-Verfahren.
6B ist eine schematische Darstellung zur Beschreibung des Zeilenüberspringens gemäß dem Rolling-Shutter-Verfahren.
6C ist eine schematische Darstellung zur Beschreibung des Zeilenüberspringens gemäß dem Rolling-Shutter-Verfahren.
7A ist eine Darstellung, die schematisch ein Beispiel eines anderen Bilderzeugungsverfahrens gemäß dem Rolling-Shutter-Verfahren darstellt.
7B ist eine Darstellung, die schematisch ein Beispiel eines anderen Bilderzeugungsverfahrens gemäß dem Rolling-Shutter-Verfahren darstellt.
8A ist eine schematische Darstellung zur Beschreibung eines Global-Shutter-Verfahrens.
8B ist eine schematische Darstellung zur Beschreibung des Global-Shutter-Verfahrens.
8C ist eine schematische Darstellung zur Beschreibung des Global-Shutter-Verfahrens.
9A ist eine Darstellung, die schematisch ein Beispiel eines Vereinfachungsmusters darstellt, das gemäß dem Global-Shutter-Verfahren gebildet werden kann.
9B ist eine Darstellung, die schematisch ein Beispiel eines Vereinfachungsmusters darstellt, das gemäß dem Global-Shutter-Verfahren gebildet werden kann.
10 ist eine Darstellung, die schematisch eine Bilderkennungsverarbeitung unter Verwendung eines CNN darstellt.
11 ist eine Darstellung, die schematisch eine Bilderkennungsverarbeitung zum Erhalten eines Erkennungsergebnisses aus einem Teil eines Erkennungszielbilds darstellt.
12A ist eine Darstellung, die schematisch ein Beispiel einer Identifizierungsverarbeitung unter Verwendung eines DNN, falls Zeitreiheninformationen nicht verwendet werden, darstellt.
12B ist eine Darstellung, die schematisch ein Beispiel einer Identifizierungsverarbeitung unter Verwendung eines DNN, falls Zeitreiheninformationen nicht verwendet werden, darstellt.
13A ist eine Darstellung, die schematisch ein erstes Beispiel der Identifizierungsverarbeitung unter Verwendung eines DNN, falls Zeitreiheninformationen verwendet werden, darstellt.
13B ist eine Darstellung, die schematisch ein erstes Beispiel der Identifizierungsverarbeitung unter Verwendung eines DNN, falls Zeitreiheninformationen verwendet werden, darstellt.
14A ist eine Darstellung, die schematisch ein zweites Beispiel der Identifizierungsverarbeitung unter Verwendung eines DNN, falls Zeitreiheninformationen verwendet werden, darstellt.
14B ist eine Darstellung, die schematisch ein zweites Beispiel der Identifizierungsverarbeitung unter Verwendung eines DNN, falls Zeitreiheninformationen verwendet werden, darstellt.
15A ist eine Darstellung zur Beschreibung einer Beziehung zwischen einer Ansteuergeschwindigkeit eines Rahmens und einem Lesebetrag eines Pixelsignals.
15B ist eine Darstellung zur Beschreibung einer Beziehung zwischen einer Ansteuergeschwindigkeit eines Rahmens und einem Lesebetrag eines Pixelsignals.
16 ist eine schematische Darstellung zur schematischen Beschreibung einer Erkennungsverarbeitung gemäß jeder Ausführungsform der vorliegenden Offenbarung.
17 ist ein Funktionsblockschaltplan eines Beispiels zur Beschreibung einer Funktion einer Steuereinheit und einer Funktion einer Erkennungsverarbeitungseinheit.
18A ist ein Blockschaltplan, der eine Konfiguration einer Zuverlässigkeitsgradkarten-Erzeugungseinheit darstellt.
18B ist eine Darstellung, die schematisch darstellt, dass die gelesene Anzahl der Zeilendaten in einer Weise variiert, die von einem Integrationsabschnitt (einer Integrationszeit) abhängt.
18C ist eine Darstellung, die ein Beispiel darstellt, in dem eine Leseposition der Zeilendaten in Übereinstimmung mit einem Erkennungsergebnis von einer Erkennungsverarbeitungs-Ausführungseinheit adaptiv geändert wird.
19 ist eine schematische Darstellung, die ein Beispiel der Verarbeitung, die durch die Erkennungsverarbeitungseinheit ausgeführt wird, genauer darstellt.
20 ist ein schematische Darstellung zur Beschreibung der Leseverarbeitung in einer Leseeinheit.
21 ist eine Darstellung, die ein Gebiet, das auf einer zeilenweisen Grundlage gelesen worden ist, und ein Gebiet, das nicht gelesen worden ist, darstellt.
22 ist eine Darstellung, die ein Gebiet, das auf einer zeilenweisen Grundlage von einem linken Ende zu einem rechten Ende gelesen worden ist, und ein Gebiet das nicht gelesen worden ist, darstellt.
23 ist eine Darstellung, die schematisch ein Beispiel des Lesens auf einer zeilenweisen Grundlage von dem linken Ende zu dem rechten Ende darstellt.
24 ist eine Darstellung, die schematisch einen Wert einer Zuverlässigkeitsgradkarte darstellt, falls sich ein Lesebereich in einem Erkennungsgebiet ändert.
25 ist eine Darstellung, die schematisch ein Beispiel darstellt, in dem ein Lesebereich von Zeilendaten beschränkt ist.
26 ist eine Darstellung, die schematisch ein Beispiel einer Identifizierungsverarbeitung (Erkennungsverarbeitung) unter Verwendung eines DNN, falls Zeitreiheninformationen nicht verwendet werden, darstellt.
27A ist eine Darstellung, die ein Beispiel darstellt, in dem ein Bild in einem Gittermuster unterabgetastet wird.
27B ist eine Darstellung, die ein Beispiel darstellt, in dem ein Bild in einem Schachbrettmuster unterabgetastet wird.
28 ist eine Darstellung, die schematisch einen Fall darstellt, dass eine Zuverlässigkeitsgradkarte auf ein Verkehrssystem angewendet ist.
29 ist ein Ablaufplan, der einen Ablauf einer Verarbeitung darstellt, die durch eine Zuverlässigkeitsgrad-Berechnungseinheit ausgeführt wird.
30 ist eine schematische Darstellung, die eine Beziehung zwischen einem Merkmal und einem aufnahmefähigen Feld darstellt.
31 ist eine Darstellung, die schematisch ein Erkennungsgebiet und ein aufnahmefähiges Feld darstellt.
32 ist eine Darstellung, die schematisch einen Beitragsgrad zu einem Merkmal in einem Erkennungsgebiet darstellt.
33 ist eine schematische Darstellung, die ein Bild darstellt, in dem eine Erkennungsverarbeitung auf der Grundlage einer allgemeinen semantischen Segmentierung ausgeführt wird.
34 ist ein Blockschaltplan einer Zuverlässigkeitsgradkarten-Erzeugungseinheit gemäß einer zweiten Ausführungsform.
35 ist eine Darstellung, die schematisch eine Beziehung zwischen einem Erkennungsgebiet und Zeilendaten darstellt.
36 ist ein Blockschaltplan einer Zuverlässigkeitsgradkarten-Erzeugungseinheit gemäß einer dritten Ausführungsform.
37 ist eine Darstellung, die schematisch eine Beziehung mit einer Belichtungshäufigkeit von Zeilendaten darstellt.
38 ist ein Blockschaltplan einer Zuverlässigkeitsgradkarten-Erzeugungseinheit gemäß einer vierten Ausführungsform.
39 ist eine Darstellung, die schematisch eine Beziehung mit einem Dynamikumfang von Zeilendaten darstellt.
40 ist ein Blockschaltplan einer Zuverlässigkeitsgradkarten-Erzeugungseinheit gemäß einer fünften Ausführungsform.
41 ist eine Darstellung, die Nutzungsbeispiele von Datenverarbeitungsvorrichtungen gemäß der ersten Ausführungsform, jeder Änderung der ersten Ausführungsform und einer fünften Ausführungsform darstellt.
42 ist ein Blockschaltplan, der ein Beispiel einer schematischen Konfiguration eines Fahrzeugsteuersystems darstellt.
43 ist eine erläuternde Darstellung, die ein Beispiel von Einbaupositionen einer Fahrzeugaußeninformations-Detektionseinheit und einer Bilderzeugungseinheit darstellt.

AUSFÜHRUNGSART DER ERFINDUNG
Im Folgenden werden anhand der Zeichnungen Ausführungsformen einer Datenverarbeitungsvorrichtung, eines Datenverarbeitungssystems, eines Datenverarbeitungsverfahrens und eines Datenverarbeitungsprogramms beschrieben. Im Folgenden werden hauptsächlich Hauptkomponenten der Datenverarbeitungsvorrichtung, des Datenverarbeitungssystems, des Datenverarbeitungsverfahrens und des Datenverarbeitungsprogramms beschrieben, wobei die Datenverarbeitungsvorrichtung, das Datenverarbeitungssystem, das Datenverarbeitungsverfahren und das Datenverarbeitungsprogramm aber Komponenten oder Funktionen enthalten können, die nicht dargestellt oder beschrieben sind. Die folgende Beschreibung soll derartige Komponenten oder Funktionen, die nicht dargestellt oder beschrieben sind, nicht ausschließen.
[1. Konfigurationsbeispiel gemäß jeder Ausführungsform der vorliegenden Offenbarung]
Es wird schematisch ein Gesamtkonfigurationsbeispiel eines Datenverarbeitungssystems gemäß jeder Ausführungsform beschrieben. 1 ist ein Blockschaltplan, der eine Konfiguration eines Beispiels eines Datenverarbeitungssystems 1 darstellt. Das Datenverarbeitungssystem 1 in 1 enthält eine Sensoreinheit 10, eine Sensorsteuereinheit 11, eine Erkennungsverarbeitungseinheit 12, einen Speicher 13, eine Einheit 14 für die Verarbeitung der visuellen Erkennung und eine Ausgabesteuereinheit 15. Jede der oben beschriebenen Einheiten ist z. B. ein Komplementär-Metalloxidhalbleiter-Bildsensor (CMOS-CIS), der einteilig unter Verwendung eines CMOS gebildet ist. Es wird angemerkt, dass das Datenverarbeitungssystem 1 nicht auf dieses Beispiel beschränkt ist und ein optischer Sensor eines anderen Typs wie etwa ein optischer Infrarotsensor, der ein Bild mit Infrarotlicht aufnimmt, sein kann. Darüber hinaus bilden die Sensorsteuereinheit 11, die Erkennungsverarbeitungseinheit 12, der Speicher 13, die Einheit 14 für die Verarbeitung der visuellen Erkennung und die Ausgabesteuereinheit 15 eine Datenverarbeitungsvorrichtung 2.
Die Sensoreinheit 10 gibt in Übereinstimmung mit Licht, das durch eine optische Einheit 30 auf eine Lichtempfangsfläche auffällt, ein Pixelsignal aus. Genauer enthält die Sensoreinheit 10 eine Pixelanordnung, in der Pixel, die jeweils wenigstens ein fotoelektrisches Umwandlungselement enthalten, in einer Matrix angeordnet sind. Die Lichtempfangsfläche ist durch jedes Pixel gebildet, das in der Pixelanordnung in einer Matrix angeordnet ist. Ferner enthält die Sensoreinheit 10 eine Ansteuerschaltung, die jedes in der Pixelanordnung enthaltene Pixel ansteuert, und eine Signalverarbeitungsschaltung, die an einem von jedem Pixel gelesenen Signal eine vorgegebene Signalverarbeitung ausführt und das Signal als ein Pixelsignal jedes Pixels ausgibt. Die Sensoreinheit 10 gibt das Pixelsignal jedes in einem Pixelgebiet enthaltenen Pixels als digitale Bilddaten aus.
Im Folgenden ist in der in der Sensoreinheit 10 enthaltenen Pixelanordnung ein Gebiet, in dem aktive Pixel, die jeweils das Pixelsignal erzeugen, angeordnet sind, als ein Rahmen bezeichnet. Durch Pixeldaten werden auf der Grundlage des von jedem in dem Rahmen enthaltenen Pixel ausgegebenen Pixelsignals Rahmenbilddaten gebildet. Darüber hinaus wird jede Reihe der Anordnung von Pixeln der Sensoreinheit 10 als eine Zeile bezeichnet und werden durch Pixeldaten auf der Grundlage des von jedem in der Zeile enthaltenen Pixel ausgegebenen Pixelsignals Zeilenbilddaten gebildet. Darüber hinaus wird eine Operation, in der die Sensoreinheit 10 in Übereinstimmung mit dem Licht, das auf die Lichtempfangsfläche auffällt, das Pixelsignal ausgibt, als Bilderzeugung bezeichnet. Die Sensoreinheit 10 steuert zur Zeit der Bilderzeugung in Übereinstimmung mit einem Bilderzeugungs-Steuersignal, das von der später zu beschreibenden Sensorsteuereinheit 11 zugeführt wird, eine Belichtung und eine Verstärkung (analoge Verstärkung) des Pixelsignals.
Die Sensorsteuereinheit 11 enthält z. B. einen Mikroprozessor, steuert das Lesen der Pixeldaten von der Sensoreinheit 10 und gibt die Pixeldaten auf der Grundlage des von jedem in dem Rahmen enthaltenen Pixel gelesenen Pixelsignals aus. Die in der Sensorsteuereinheit 11 ausgegebenen Pixeldaten werden der Erkennungsverarbeitungseinheit 12 und der Einheit 14 für die Verarbeitung der visuellen Erkennung zugeführt.
Darüber hinaus erzeugt die Sensorsteuereinheit 11 das Bilderzeugungs-Steuersignal zum Steuern der Bilderzeugung in der Sensoreinheit 10. Die Sensorsteuereinheit 11 erzeugt das Bilderzeugungs-Steuersignal z. B. in Übereinstimmung mit Anweisungen von der Erkennungsverarbeitungseinheit 12 und von der Einheit 14 für die Verarbeitung der visuellen Erkennung, die später zu beschreiben sind. Das Bilderzeugungs-Steuersignal enthält Informationen, die die Belichtung und die analoge Verstärkung zu dem Zeitpunkt der Bilderzeugung in der oben beschriebenen Sensoreinheit 10 angeben. Ferner enthält das Bilderzeugungs-Steuersignal ein Steuersignal (ein Signal für die vertikale Synchronisation, ein Signal für die horizontale Synchronisation oder dergleichen), das durch die Sensoreinheit 10 zum Ausführen einer Bilderzeugungsoperation verwendet wird. Die Sensorsteuereinheit 11 führt das somit erzeugte Bilderzeugungs-Steuersignal der Sensoreinheit 10 zu.
Die optische Einheit 30 ist dazu ausgebildet zu veranlassen, dass Licht von einem Objekt auf die Lichtempfangsfläche der Sensoreinheit 10 auffällt, und ist z. B. an einer Position angeordnet, die der Sensoreinheit 10 entspricht. Die optische Einheit 30 enthält z. B. mehrere Linsen, einen Blendenmechanismus, der dazu ausgebildet ist, eine Größe einer Öffnung in Bezug auf das auffallende Licht einzustellen, und einen Fokusmechanismus, der dazu ausgebildet ist, einen Brennpunkt von Licht, das auf die Lichtempfangsfläche auffällt, einzustellen. Ferner kann die optische Einheit 30 einen Verschlussmechanismus (mechanischen Verschluss) enthalten, der eine Zeitdauer einstellt, während der Licht auf die Lichtempfangsfläche auffällt. Der Blendenmechanismus, der Fokusmechanismus und der Verschlussmechanismus, die in der optischen Einheit 30 enthalten sind, können z. B. durch die Sensorsteuereinheit 11 gesteuert werden. Alternativ können die Blende und der Fokus in der optischen Einheit 30 von außerhalb des Datenverarbeitungssystems 1 gesteuert werden. Darüber hinaus kann die optische Einheit 30 mit dem Datenverarbeitungssystem 1 integriert sein.
Die Erkennungsverarbeitungseinheit 12 führt auf der Grundlage der von der Sensorsteuereinheit 11 zugeführten Pixeldaten auf der Grundlage der Pixeldaten eine Verarbeitung der Erkennung eines in dem Bild enthaltenen Objekts aus. Gemäß der vorliegenden Offenbarung ist die Erkennungsverarbeitungseinheit 12, die als eine Einheit für maschinelles Lernen dient, die die Erkennungsverarbeitung unter Verwendung eines tiefen neuronalen Netzes (DNN) ausführt, z. B. unter Verwendung eines digitalen Signalprozessors (DSP) implementiert, der ein Programm, das einem Lernmodell entspricht, das unter Verwendung von Trainingsdaten im Voraus angelernt und in dem Speicher 13 gespeichert wird, lädt und ausführt. Die Erkennungsverarbeitungseinheit 12 kann die Sensorsteuereinheit 11 anweisen, von der Sensoreinheit 10 Pixeldaten zu lesen, die für die Erkennungsverarbeitung notwendig sind. Ein Erkennungsergebnis von der Erkennungsverarbeitungseinheit 12 wird der Ausgabesteuereinheit 15 zugeführt.
Die Einheit 14 für die Verarbeitung der visuellen Erkennung führt die Verarbeitung des Erhaltens eines Bilds, das leicht für die Menschen zu erkennen ist, das von der Sensoreinheit 11 zugeführt wird, aus und gibt z. B. Bilddaten, die eine Gruppe von Pixeldaten enthalten, aus. Die Einheit 14 für die Verarbeitung der visuellen Erkennung wird z. B. durch einen Bildsignalprozessor (ISP) implementiert, der ein in einem Speicher (nicht dargestellt) vorgespeichertes Programm lädt und ausführt.
Zum Beispiel kann die Einheit 14 für die Ausführung der visuellen Erkennung eine Demosaicking-Verarbeitung, eine Weißabgleichverarbeitung und dergleichen ausführen, falls für jedes in der Sensoreinheit 10 enthaltene Pixel ein Farbfilter vorgesehen ist und die Pixeldaten Farbinformationen von Rot (R), Grün (G) und Blau (B) enthalten. Darüber hinaus kann die Einheit 14 für die Verarbeitung der visuellen Erkennung die Sensorsteuereinheit 11 anweisen, Pixeldaten, die für die Verarbeitung der visuellen Erkennung notwendig sind, von der Sensoreinheit 10 zu lesen. Die Bilddaten, die durch Ausführen der Bildverarbeitung an den Pixeldaten durch die Einheit 14 für die Ausführung der visuellen Erkennung erhalten werden, werden der Ausgabesteuereinheit 15 zugeführt.
Die Ausgabesteuereinheit 15 enthält z. B. einen Mikroprozessor und gibt das von der Erkennungsverarbeitungseinheit 12 zugeführte Erkennungsergebnis und/oder die als das Ergebnis der Verarbeitung der visuellen Erkennung von der Einheit 14 für die Verarbeitung der visuellen Erkennung zugeführten Bilddaten nach außerhalb des Datenverarbeitungssystems 1 aus. Die Ausgabesteuereinheit 15 kann die Bilddaten z. B. an eine Anzeigeeinheit 31, die eine Anzeigevorrichtung enthält, ausgeben. Dies ermöglicht, dass der Benutzer die durch die Anzeigeeinheit 31 angezeigten Bilddaten visuell erkennt. Es wird angemerkt, dass die Anzeigeeinheit 31 in das Datenverarbeitungssystem 1 eingebaut oder von dem Datenverarbeitungssystem 1 getrennt sein kann.
2A und 2B sind schematische Darstellungen, die jeweils ein Beispiel einer Hardwarekonfiguration des Datenverarbeitungssystems 1 gemäß jeder Ausführungsform darstellen. 2A stellt ein Beispiel dar, in dem die Sensoreinheit 10, die Sensorsteuereinheit 11, die Erkennungsverarbeitungseinheit 12, der Speicher 13, die Einheit 14 für die Verarbeitung der visuellen Erkennung und die Ausgabesteuereinheit 15 unter den in 1 dargestellten Komponenten auf einem einzelnen Chip 2 montiert sind. Es wird angemerkt, dass in 2A der Einfachheit halber weder der Speicher 13 noch die Ausgabesteuereinheit 15 dargestellt ist.
Bei der in 2A dargestellten Konfiguration wird das Erkennungsergebnis von der Erkennungsverarbeitungseinheit 12 über die Ausgabesteuereinheit 15 (nicht dargestellt) nach außerhalb des Chips 2 ausgegeben. Darüber hinaus kann die Erkennungsverarbeitungseinheit 12 bei der in 2A dargestellten Konfiguration Pixeldaten, die für die Erkennung verwendet werden sollen, von der Sensorsteuereinheit 11 über eine Schnittstelle innerhalb des Chips 2 erfassen.
2B stellt ein Beispiel dar, in dem die Sensoreinheit 10, die Sensorsteuereinheit 11, die Einheit 14 für die Verarbeitung der visuellen Erkennung und die Ausgabesteuereinheit 15 unter den in 1 dargestellten Komponenten auf dem einzelnen Chip 2 montiert sind und in dem die Erkennungsverarbeitungseinheit 12 und der Speicher 13 (nicht dargestellt) außerhalb des Chips 2 eingebaut sind. Außerdem ist in 2B wie in der oben beschriebenen 2A der Einfachheit halber weder der Speicher 13 noch die Ausgabesteuereinheit 15 dargestellt.
Bei der in 2B dargestellten Konfiguration erfasst die Erkennungsverarbeitungseinheit 12 über eine Schnittstelle, die für die Ausführung einer Chip-zu-Chip-Kommunikation verantwortlich ist, Pixeldaten, die für die Erkennung verwendet werden sollen. Darüber hinaus wird das Erkennungsergebnis in 2B von der Erkennungsverarbeitungseinheit 12 direkt nach außerhalb ausgegeben, wobei aber in diesem Beispiel nicht beschränkt ist, wie das Erkennungsergebnis ausgegeben werden soll. Das heißt, mit der in 2B dargestellten Konfiguration kann die Erkennungsverarbeitungseinheit 12 das Erkennungsergebnis an den Chip 2 zurückgeben, um zu veranlassen, dass die auf dem Chip 2 montierte Ausgabesteuereinheit 15 (nicht dargestellt) das Erkennungsergebnis ausgibt.
Bei der in 2A dargestellten Konfiguration ist die Erkennungsverarbeitungseinheit 12 zusammen mit der Sensorsteuereinheit 11 auf dem Chip 2 montiert, um über eine Schnittstelle innerhalb des Chips 2 eine schnelle Kommunikation zwischen der Erkennungsverarbeitungseinheit 12 und der Sensorsteuereinheit 11 zu ermöglichen. Andererseits kann die Erkennungsverarbeitungseinheit 12 bei der in 2A dargestellten Konfiguration nicht ersetzt werden und ist es somit schwierig, die Erkennungsverarbeitung zu ändern. Andererseits muss die Kommunikation zwischen der Erkennungsverarbeitungseinheit 12 und der Sensorsteuereinheit 11 bei der in 2B dargestellten Konfiguration über eine Schnittstelle zwischen Chips ausgeführt werden, da die Erkennungsverarbeitungseinheit 12 außerhalb des Chips 2 vorgesehen ist. Dies macht die Kommunikation zwischen der Erkennungsverarbeitungseinheit 12 und der Sensorsteuereinheit 11 im Vergleich zu der in 2A dargestellten Konfiguration langsam, und es besteht eine Möglichkeit, dass bei der Steuerung eine Verzögerung auftritt. Andererseits kann die Erkennungsverarbeitungseinheit 12 leicht ersetzt werden, sodass verschiedene Typen der Erkennungsverarbeitung implementiert werden können.
Sofern nicht etwas anderes vorgegeben ist, ist im Folgenden angenommen, dass das Datenverarbeitungssystem 1 eine Konfiguration aufweist, in der die Sensoreinheit 10, die Sensorsteuereinheit 11, die Erkennungsverarbeitungseinheit 12, der Speicher 13, die Einheit 14 für die Verarbeitung der visuellen Erkennung und die Ausgabesteuereinheit 15, wie in 2A dargestellt ist, auf dem einzelnen Chip 2 montiert sind.
Bei der oben beschriebenen in 2A dargestellten Konfiguration kann das Datenverarbeitungssystem 1 auf einer Platine implementiert sein. Alternativ kann das Datenverarbeitungssystem 1 ein gestapelter CIS sein, in dem mehrere Halbleiterchips zu einem einzelnen Körper gestapelt sind.
Als ein Beispiel kann das Datenverarbeitungssystem 1 mit einer Zweischichtstruktur implementiert sein, in der Halbleiterchips in zwei Schichten gestapelt sind. 3A ist eine Darstellung, die ein Beispiel darstellt, in dem das Datenverarbeitungssystem 1 gemäß jeder Ausführungsform durch einen gestapelten CIS mit einer Zweischichtstruktur implementiert ist. Bei der in 3A dargestellten Struktur ist eine Pixeleinheit 20a auf einem Halbleiterchip der ersten Schicht implementiert und sind ein Speicher + eine Logikeinheit 20b auf einem Halbleiterchip der zweiten Schicht implementiert. Die Pixeleinheit 20a enthält wenigstens die Pixelanordnung in der Sensoreinheit 10. Der Speicher + die Logikeinheit 20b enthalten z. B. die Sensorsteuereinheit 11, die Erkennungsverarbeitungseinheit 12, den Speicher 13, die Einheit 14 für die Verarbeitung der visuellen Erkennung, die Ausgabesteuereinheit 15 und die Schnittstelle, die für die Ausführung der Kommunikation zwischen dem Datenverarbeitungssystem 1 und außerhalb verantwortlich ist. Ferner enthalten der Speicher + die Logikeinheit 20b einen Teil oder die gesamte Ansteuerschaltung, die die Pixelanordnung in der Sensoreinheit 10 ansteuert. Obwohl dies nicht dargestellt ist, können der Speicher + die Logikeinheit 20b darüber hinaus ferner z. B. einen Speicher enthalten, der für die Einheit 14 für die Verarbeitung der visuellen Erkennung zum Verarbeiten von Bilddaten verwendet wird.
Wie auf der rechten Seite von 3A dargestellt ist, ist das Datenverarbeitungssystem 1 als ein einzelner Festkörperbildsensor ausgebildet, der durch Bonden des Halbleiterchips der ersten Schicht und des Halbleiterchips der zweiten Schicht miteinander erhalten worden ist, wobei die beiden Halbleiterchips miteinander in elektrischem Kontakt stehen.
Alternativ kann das Datenverarbeitungssystem 1 mit einer Dreischichtstruktur implementiert sein, in der Halbleiterchips in drei Schichten gestapelt sind. 3B ist eine Darstellung, die ein Beispiel darstellt, in der das Datenverarbeitungssystem 1 gemäß jeder Ausführungsform durch einen gestapelten CIS mit einer Dreischichtstruktur implementiert ist. Bei der in 3B dargestellten Struktur ist die Pixeleinheit 20a auf dem Halbleiterchip der ersten Schicht implementiert, ist eine Speichereinheit 20c auf dem Halbleiterchip der zweiten Schicht implementiert und ist die Logikeinheit 20b auf dem Halbleiterchip der dritten Schicht implementiert. In diesem Fall enthält die Logikeinheit 20b z. B. die Sensorsteuereinheit 11, die Erkennungsverarbeitungseinheit 12, die Einheit 14 für die Verarbeitung der visuellen Erkennung, die Ausgabesteuereinheit 15 und die Schnittstelle, die für die Ausführung der Kommunikation zwischen dem Datenverarbeitungssystem 1 und außerhalb verantwortlich ist. Darüber hinaus kann die Speichereinheit 20c den Speicher 13 und z. B. einen Speicher, der für die Einheit 14 für die Verarbeitung der visuellen Erkennung zum Verarbeiten von Bilddaten verwendet wird, enthalten. Der Speicher 13 kann in der Logikeinheit 20b enthalten sein.
Wie auf der rechten Seite von 3B dargestellt ist, ist das Datenverarbeitungssystem 1 als ein einzelner Festkörperbildsensor ausgebildet, der durch Bonden des Halbleiterchips der ersten Schicht, des Halbleiterchips der zweiten Schicht und des Halbleiterchips der dritten Schicht miteinander mit allen Halbleiterchips in elektrischem Kontakt miteinander erhalten worden ist.
4 ist ein Blockschaltplan, der eine Konfiguration eines Beispiels der Sensoreinheit 10 darstellt, die auf jede Ausführungsform anwendbar ist. Die Sensoreinheit 10 in 4 enthält eine Pixelanordnungseinheit 101, eine vertikale Abtasteinheit 102, eine Analog-Digital-Umsetzungseinheit (AD-Umsetzungseinheit) 103, eine Pixelsignalleitung 106, eine vertikale Signalleitung VSL, eine Steuereinheit 1100 und eine Signalverarbeitungseinheit 1101. Es wird angemerkt, dass die Steuereinheit 1100 und die Signalverarbeitungseinheit 1101 in 4 z. B. ebenfalls in der in 1 dargestellten Sensorsteuereinheit 11 enthalten sein können.
Die Pixelanordnungseinheit 101 enthält mehrere Pixelschaltungen 100, die jeweils z. B. ein fotoelektrisches Umwandlungselement, das eine Fotodiode enthält, die an empfangenem Licht eine fotoelektrische Umwandlung ausführt, und eine Schaltung, die eine elektrische Ladung von dem fotoelektrischen Umwandlungselement liest, enthalten. In der Pixelanordnungseinheit 101 sind die mehreren Pixelschaltungen 100 in einer horizontalen Richtung (Reihenrichtung) und in einer vertikalen Richtung (Spaltenrichtung) in einer Matrix angeordnet. In der Pixelanordnungseinheit 101 ist eine Gestaltung der Pixelschaltungen 100 in der Reihenrichtung als eine Zeile bezeichnet. Zum Beispiel enthält die Pixelanordnungseinheit 101 mindestens 1080 Zeilen, die jeweils mindestens 1920 Pixelschaltungen 100 enthalten, falls ein Bild eines Rahmens mit 1920 Pixeln x 1080 Zeilen gebildet ist. Ein Bild (Bilddaten) eines Rahmens wird durch Pixelsignale gebildet, die von den in dem Rahmen enthaltenen Pixelschaltungen 100 gelesen werden.
Im Folgenden wird die Operation des Lesens des Pixelsignals von jeder in dem Rahmen in der Sensoreinheit 10 enthaltenen Pixelschaltung 100 nach Bedarf als Lesen des Pixels von dem Rahmen bezeichnet. Darüber hinaus wird die Operation des Lesens des Pixelsignals von jeder Pixelschaltung 100 in jeder in dem Rahmen enthaltenen Zeile z. B. nach Bedarf als Lesen der Zeile bezeichnet.
Darüber hinaus ist in der Pixelanordnungseinheit 101 für jede Reihe zum Verbinden mit jeder Pixelschaltung 100 die Pixelsignalleitung 106 vorgesehen und ist für jede Spalte zum Verbinden mit jeder Pixelschaltung 100 die vertikale Signalleitung VSL vorgesehen. Ein Ende der Pixelsignalleitung 106, das nicht mit der Pixelanordnungseinheit 101 verbunden ist, ist mit der vertikalen Abtasteinheit 102 verbunden. Die vertikale Abtasteinheit 102 sendet gemäß der Steuerung der später zu beschreibenden Steuereinheit 1100 ein Steuersignal wie etwa einen Ansteuerimpuls zum Lesen des Pixelsignals von jedem Pixel über die Pixelsignalleitung 106 an die Pixelanordnungseinheit 101. Ein Ende der vertikalen Signalleitung VSL, das nicht mit der Pixelanordnungseinheit 101 verbunden ist, ist mit der AD-Umsetzungseinheit 103 verbunden. Das von jedem Pixel gelesene Pixelsignal wird über die vertikale Signalleitung VSL an die AD-Umsetzungseinheit 103 gesendet.
Es wird schematisch beschrieben, wie das Lesen des Pixelsignals von jeder Pixelschaltung 100 zu steuern ist. Das Lesen des Pixelsignals von jeder Pixelschaltung 100 wird durch Übertragen der durch Belichten in dem fotoelektrischen Umwandlungselement gespeicherten elektrischen Ladung zu einer erdfreien Diffusionsschicht (FD) und Umwandeln der zu der erdfreien Diffusion übertragenen elektrischen Ladung in eine Spannung ausgeführt. Die durch Umwandeln der elektrischen Ladung in der erdfreien Diffusionsschicht erhaltene Spannung wird über einen Verstärker an die vertikale Signalleitung VSL ausgegeben.
Genauer sind in der Pixelschaltung 100 während der Belichtung das fotoelektrische Umwandlungselement und die potentialfreie Diffusionsschicht in einem ausgeschalteten (geöffneten) Zustand, sodass die in Übereinstimmung mit auffallendem Licht durch fotoelektrische Umwandlung erzeugte elektrische Ladung in dem fotoelektrischen Umwandlungselement gespeichert wird. Nach dem Ende der Belichtung werden die potentialfreie Diffusionsschicht und die vertikale Signalleitung VSL in Übereinstimmung mit einem über die Pixelsignalleitung 106 zugeführten Auswahlsignal verbunden. Ferner wird die potentialfreie Diffusionsschicht für eine kurze Zeitdauer in Übereinstimmung mit einem Rücksetzimpuls, der über die Pixelsignalleitung 106 zugeführt wird, mit einer Speiseleitung mit einer Leistungsversorgungsspannung VDD oder mit einer Schwarzpegelspannung verbunden und wird die potentialfreie Diffusionsschicht dementsprechend zurückgesetzt. An die vertikale Signalleitung VSL wird eine Spannung (als eine Spannung A bezeichnet) auf dem Rücksetzpegel der potentialfreien Diffusionsschicht ausgegeben. Danach werden das fotoelektrische Umwandlungselement und die potentialfreie Diffusionsschicht in Übereinstimmung mit einem über die Pixelsignalleitung 106 zugeführten Übertragungsimpuls in einen (geschlossenen) Zustand gebracht, um die in dem fotoelektrischen Umwandlungselement gespeicherte elektrische Ladung an die potentialfreie Diffusionsschicht zu übertragen. An die vertikale Signalleitung VSL wird eine Spannung (als eine Spannung B bezeichnet), die der Menge der elektrischen Ladung der potentialfreien Diffusionsschicht entspricht, ausgegeben.
Die AD-Umsetzungseinheit 103 enthält einen AD-Umsetzer 107, der für jede vertikale Signalleitung VSL vorgesehen ist, eine Referenzsignal-Erzeugungseinheit 104 und eine horizontale Abtasteinheit 105. Der AD-Umsetzer 107 ist ein Spalten-AD-Umsetzer, der an jeder Spalte der Pixelanordnungseinheit 101 eine AD-Umsetzungsverarbeitung ausführt. Der AD-Umsetzer 107 führt an dem Pixelsignal, das von jeder Pixelschaltung 100 über die vertikale Signalleitung VSL zugeführt wird, eine AD-Umsetzungsverarbeitung aus, um zwei digitale Werte (Werte, die der Spannung A und der Spannung B entsprechen) für eine korrelierte Doppelabtastverarbeitung (CDS-Verarbeitung) zu erzeugen, die zum Verringern von Rauschen ausgeführt wird.
Der AD-Umsetzer 107 führt die somit erzeugten zwei digitalen Werte der Signalverarbeitungseinheit 1101 zu. Die Signalverarbeitungseinheit 1101 führt auf der Grundlage der von dem AD-Umsetzer 107 zugeführten zwei digitalen Werte die CDS-Verarbeitung aus, um ein digitales Pixelsignal (Pixeldaten) zu erzeugen. Die durch die Signalverarbeitungseinheit 1101 erzeugten Pixeldaten werden nach außerhalb der Sensoreinheit 10 ausgegeben.
Die Referenzsignal-Erzeugungseinheit 104 erzeugt auf der Grundlage des von der Steuereinheit 1100 eingegebenen Steuersignals ein Rampensignal, das für jeden AD-Umsetzer 107 zum Umwandeln des Pixelsignals in zwei digitale Werte verwendet wird, wobei das Rampensignal als ein Referenzsignal dient. Das Rampensignal ist ein Signal, dessen Pegel (Spannungswert) in Bezug auf die Zeit linear abnimmt, oder ein Signal, dessen Pegel schrittweise abnimmt. Die Referenzsignal-Erzeugungseinheit 104 führt das somit erzeugte Rampensignal jedem AD-Umsetzer 107 zu. Die Referenzsignal-Erzeugungseinheit 104 enthält z. B. einen Digital-Analog-Umsetzer (DAC) oder dergleichen.
Wenn das Rampensignal, dessen Spannung mit einem vorgegebenen Gradienten schrittweise abnimmt, von der Referenzsignal-Erzeugungseinheit 104 zugeführt wird, startet ein Zähler, um in Übereinstimmung mit einem Taktsignal zu zählen. Ein Komparator vergleicht die von der vertikalen Signalleitung VSL zugeführte Spannung des Pixelsignals mit der Spannung des Rampensignals und hält das Zählen der Zeitmessung des Zählers an, wenn die Spannung des Rampensignals die Spannung des Pixelsignals übersteigt. Wenn das Zählen angehalten wird, setzt der AD-Umsetzer 107 ein analoges Pixelsignal durch Ausgeben eines Werts, der dem Anzahlwert entspricht, in einen digitalen Wert um.
Der AD-Umsetzer 107 führt die somit erzeugten zwei digitalen Werte der Signalverarbeitungseinheit 1101 zu. Die Signalverarbeitungseinheit 1101 führt auf der Grundlage der von dem AD-Umsetzer 107 zugeführten zwei digitalen Werte die CDS-Verarbeitung aus, um ein digitales Pixelsignal (Pixeldaten) zu erzeugen. Das durch die Signalverarbeitungseinheit 1101 erzeugte digitale Pixelsignal wird nach außerhalb der Sensoreinheit 10 ausgegeben.
Die horizontale Abtasteinheit 105 führt gemäß der Steuerung der Steuereinheit 1100 eine wahlweise Abtastung aus, um jeden AD-Umsetzer 107 in einer vorgegebenen Reihenfolge auszuwählen, um jeden vorübergehend durch jeden AD-Umsetzer 107 gehaltenen digitalen Wert sequentiell an die Signalverarbeitungseinheit 1101 auszugeben. Die horizontale Abtasteinheit 105 enthält z. B. ein Schieberegister, einen Adressendecodierer oder dergleichen.
Die Steuereinheit 1100 führt an der vertikalen Abtasteinheit 102, an der AD-Umsetzungseinheit 103, an der Referenzsignal-Erzeugungseinheit 104, an der horizontalen Abtasteinheit 105 und dergleichen in Übereinstimmung mit dem von der Sensorsteuereinheit 11 zugeführten Bilderzeugungs-Steuersignal die Ansteuerungssteuerung aus. Die Steuereinheit 1100 erzeugt verschiedene Ansteuersignale, auf deren Grundlage die vertikale Abtasteinheit 102, die AD-Umsetzungseinheit 103, die Referenzsignal-Erzeugungseinheit 104 und die horizontale Abtasteinheit 105 arbeiten. Die Steuereinheit 1100 erzeugt z. B. auf der Grundlage des Signals für die vertikale Synchronisation oder eines externen Auslösesignals, das in dem Bilderzeugungs-Steuersignal enthalten ist, und des Signals für die horizontale Synchronisation ein Steuersignal, das von der vertikalen Abtasteinheit 102 über die Pixelsignalleitung 106 jeder Pixelschaltung 100 zugeführt wird. Die Steuereinheit 1100 führt das somit erzeugte Steuersignal der vertikalen Abtasteinheit 102 zu.
Darüber hinaus gibt die Steuereinheit 1100 z. B. Informationen, die die analoge Verstärkung angeben, die in dem von der Sensoreinheit 11 zugeführten Bilderzeugungs-Steuersignal enthalten ist, an die AD-Umsetzungseinheit 103 aus. Die AD-Umsetzungseinheit 103 steuert in Übereinstimmung mit den Informationen, die die analoge Verstärkung angeben, über die vertikale Signalleitung VSL eine Verstärkung des Pixelsignals, die in jeden in der AD-Umsetzungseinheit 103 enthaltenen AD-Umsetzer 107 eingegeben wird.
Die vertikale Abtasteinheit 102 führt auf der Grundlage des von der Steuereinheit 1100 zugeführten Steuersignals verschiedene Signale, einschließlich des Ansteuerimpulses zu der Pixelsignalleitung 106 der ausgewählten Pixelreihe der Pixelanordnungseinheit 101, d. h. jeder Pixelschaltung 100 pro Zeile, zu, um zu veranlassen, dass die Pixelschaltung 100 das Pixelsignal an die vertikale Signalleitung VSL ausgibt. Die vertikale Abtasteinheit 102 enthält z. B. ein Schieberegister, einen Adressendecodierer oder dergleichen. Darüber hinaus steuert die vertikale Abtasteinheit 102 in Übereinstimmung mit von der Steuereinheit 1100 zugeführten Informationen, die die Belichtung angeben, die Belichtung jeder Pixeleinheit 100.
Die wie oben beschrieben ausgebildete Sensoreinheit 10 ist ein Komplementär-Metalloxidhalbleiter-Bildsensor (CMOS-Bildsensor) vom Spalten-AD-Typ, in dem für jede Spalte der AD-Umsetzer 107 angeordnet ist.
[2. Beispiel für vorhandene Technologie, die auf die vorliegende Offenbarung anwendbar ist]
Vor der Beschreibung jeder Ausführungsform gemäß der vorliegenden Offenbarung wird zum leichten Verständnis schematisch eine vorhandene Technologie beschrieben, die auf die vorliegende Offenbarung anwendbar ist.
(2-1. Übersicht über Rolling Shutter)
Als ein Bilderzeugungsverfahren, das auf die Bilderzeugung durch die Pixelanordnungseinheit 101 angewendet wird, sind ein Rolling-Shutter-Verfahren (RS-Verfahren) und ein Global-Shutter-Verfahren (GS-Verfahren) bekannt. Zunächst wird schematisch das Rolling-Shutter-Verfahren beschrieben. 5A, 5B und 5C sind schematische Darstellungen zur Beschreibung des Rolling-Shutter-Verfahrens. Gemäß dem wie in 5A dargestellten Rolling-Shutter-Verfahren wird die Bilderzeugung auf einer zeilenweisen Grundlage, z. B. von einer Zeile 201 zu einem oberen Ende eines Rahmens 200, sequentiell ausgeführt.
Es wird angemerkt, dass „Bilderzeugung“ oben zur Bezeichnung der Operation, in der die Sensoreinheit 10 das Pixelsignal in Übereinstimmung mit dem auf die Lichtempfangsfläche auffallenden Licht ausgibt, beschrieben worden ist. Genauer bezieht sich „Bilderzeugung“ auf eine Reihe von Operationen von der Belichtung des Pixels bis zu der Übertragung des Pixelsignals auf der Grundlage der elektrischen Ladung, die durch die Belichtung in dem in dem Pixel enthaltenen fotoelektrischen Umwandlungselement gespeichert ist, an die Sensorsteuereinheit 11. Darüber hinaus bezieht sich der Rahmen, wie oben beschrieben ist, auf ein Gebiet, in dem in der Pixelanordnungseinheit 101 aktive Pixelschaltungen 100 angeordnet sind, die jeweils das Pixelsignal erzeugen.
Zum Beispiel werden bei der in 4 dargestellten Konfiguration die in einer Zeile enthaltenen Pixelschaltungen 100 gleichzeitig belichtet. Nach dem Ende der Belichtung übertragen die in der Zeile enthaltenen Pixelschaltungen 100 das Pixelsignal auf der Grundlage der durch die Belichtung gespeicherten elektrischen Ladung gleichzeitig über ihre jeweiligen vertikalen Signalleitungen VSL. Das sequentielle Ausführen der oben beschriebenen Operation auf einer zeilenweisen Grundlage erzielt die Bilderzeugung durch Rolling Shutter.
5B stellt schematisch ein Beispiel einer Beziehung zwischen Bilderzeugung und Zeit gemäß dem Rolling-Shutter-Verfahren dar. In 5B repräsentiert die vertikale Achse eine Zeilenposition und repräsentiert die horizontale Achse die Zeit. Gemäß dem Rolling-Shutter-Verfahren wird die Belichtung auf einer zeilenweisen Grundlage ausgeführt, sodass der Belichtungszeitpunkt jeder Zeile, wie in 5B dargestellt ist, verschoben wird, während sich die Zeilenposition ändert. Somit wird in dem durch Aufnehmen des Rahmens 200 erhaltenen Bild, wie in 5C dargestellt ist, z. B. eine Verzerrung erzeugt, falls sich eine Positionsbeziehung zwischen dem Datenverarbeitungssystem 1 und dem Objekt in der horizontalen Richtung schnell ändert. Gemäß dem in 5C dargestellten Beispiel wird ein Bild, das dem Rahmen 200 entspricht, unter einem Winkel, der einer Geschwindigkeit und einer Änderungsrichtung der Positionsbeziehung zwischen dem Datenverarbeitungssystem 1 und dem Objekt in der horizontalen Richtung entspricht, geneigt.
Gemäß dem Rolling-Shutter-Verfahren ist es ebenfalls möglich, eine Bilderzeugung auszuführen, wobei einige Zeilen übersprungen werden. 6A, 6B und 6C sind schematische Darstellungen zur Beschreibung des Zeilenüberspringens gemäß dem Rolling-Shutter-Verfahren. Wie in 6A dargestellt ist, wird die Bilderzeugung, wie in dem oben beschriebenen in 5A dargestellten Beispiel dargestellt ist, auf einer zeilenweisen Grundlage von der Zeile 201 an dem oberen Ende des Rahmens 200 in Richtung eines unteren Endes des Rahmens 200 ausgeführt. Gleichzeitig wird die Bilderzeugung ausgeführt, während jede vorgegebene Anzahl von Zeilen übersprungen wird.
Zur Beschreibung ist hier angenommen, dass die Bilderzeugung in jeder zweiten Zeile, d. h., während jede zweite Zeile übersprungen wird, ausgeführt wird. Das heißt, nachdem die Bilderzeugung der n-te Zeile ausgeführt worden ist, wird die Bilderzeugung der (n + 2)-ten Zeile ausgeführt. Gleichzeitig ist angenommen, dass eine Zeit von der Bilderzeugung der n-ten Zeile bis zu der Bilderzeugung der (n + 2)-ten Zeile gleich einer Zeit von der Bilderzeugung der n-ten Zeile bis zu der Bilderzeugung der (n + 1)-ten Zeile, falls das Überspringen nicht ausgeführt wird, ist.
6B stellt schematisch ein Beispiel einer Beziehung zwischen Bilderzeugung und Zeit dar, falls das Ein-Zeilen-Überspringen gemäß dem Rolling-Shutter-Verfahren ausgeführt wird. In 6B repräsentiert die vertikale Achse eine Zeilenposition und repräsentiert die horizontale Achse die Zeit. In 6B entspricht die Belichtung A der Belichtung in 5B, in der kein Überspringen ausführt wird, und gibt die Belichtung B eine Belichtung an, falls das Ein-Zeilen-Überspringen ausgeführt wird. Die Belichtung B zeigt, dass das Ausführen des Zeilenüberspringens ermöglicht, einen Unterschied des Belichtungszeitpunkts bei derselben Zeilenposition im Vergleich zu einem Fall, dass kein Zeilenüberspringen ausgeführt wird, zu verringern. Wie in einem Bild 203 in 6C dargestellt ist, ist somit die Verzerrung, die entlang der Richtung erzeugt wird, in der das durch Aufnehmen des Rahmens 200 erhaltene Bild gekippt ist, kleiner als die in 5C dargestellte Verzerrung, die erzeugt wird, falls das Zeilenüberspringen nicht ausgeführt wird. Andererseits macht ein Fall, dass das Zeilenüberspringen ausgeführt wird, die Bildauflösung niedriger als in einem Fall, dass kein Zeilenüberspringen ausgeführt wird.
Oben ist eine Beschreibung eines Beispiels gegeben worden, in dem die Bilderzeugung auf einer zeilenweisen Grundlage von dem oberen Ende zu dem unteren Ende des Rahmens 200 gemäß dem Rolling-Shutter-Verfahren ausgeführt wird, wobei aber die Frage, wie die Bilderzeugung auszuführen ist, nicht auf dieses Beispiel beschränkt ist. 7A und 7B sind Darstellungen, die schematisch ein Beispiel eines anderen Bilderzeugungsverfahrens gemäß dem Rolling-Shutter-Verfahren darstellen. Wie in 7A dargestellt ist, kann die Bilderzeugung gemäß dem Rolling-Shutter-Verfahren z. B. auf einer zeilenweisen Grundlage von dem unteren Ende zu dem oberen Ende des Rahmens 200 ausgeführt werden. In diesem Fall wird die Richtung der horizontale Verzerrung des Bilds 202 entgegengesetzt zu einem Fall, dass die Bilderzeugung auf einer zeilenweisen Grundlage von dem oberen Ende zu dem unteren Ende des Rahmens 200 ausgeführt wird.
Darüber hinaus ist es z. B. ebenfalls möglich, einen Bereich der vertikalen Signalleitung VSL, über die das Pixelsignal übertragen wird, einzustellen, um zu ermöglichen, dass ein Teil der Zeile selektiv gelesen wird. Darüber hinaus ist es ebenfalls möglich, die für die Bilderzeugung verwendete Zeile und die zum Übertragen des Pixelsignals verwendete vertikale Signalleitung VSL in der Weise einzustellen, dass ermöglicht wird, dass die erste Bilderzeugungszeile und die letzte Bilderzeugungszeile anders als das obere Ende und das untere Ende des Rahmens 200 eingestellt werden. 7B stellt schematisch ein Beispiel dar, in dem ein rechteckiges Gebiet 205, dessen Breite und Höhe kleiner als die des Rahmens 200 sind, als ein Bilderzeugungsbereich eingestellt ist. In dem in 7B dargestellten Beispiel wird die Bilderzeugung auf einer zeilenweisen Grundlage von einer Zeile 204 an dem oberen Ende des Gebiets 205 in Richtung des unteren Endes des Gebiets 205 ausgeführt.
(2-2. Übersicht über Global Shutter)
Nachfolgend wird als ein Bilderzeugungsverfahren, das auf die Bilderzeugung durch die Pixelanordnungseinheit 101 angewendet wird, schematisch ein Global-Shutter-Verfahren (GS-Verfahren) beschrieben. 8A, 8B und 8C sind schematische Darstellungen zur Beschreibung des Global-Shutter-Verfahrens. Wie in 8A dargestellt ist, werden gemäß dem Global-Shutter-Verfahren alle in dem Rahmen 200 enthalten Pixelschaltungen 100 gleichzeitig belichtet.
Falls das Global-Shutter-Verfahren auf die in 4 dargestellte Konfiguration angewendet wird, ist als ein Beispiel eine Konfiguration denkbar, in der zwischen dem fotoelektrischen Umwandlungselement und der FD in jeder Pixelschaltung 100 ferner ein Kondensator vorgesehen ist. Daraufhin ist zwischen dem fotoelektrischen Umwandlungselement und dem Kondensator ein erster Schalter vorgesehen und ist zwischen dem Kondensator und der potentialfreien Diffusionsschicht ein zweiter Schalter vorgesehen, wobei das Öffnen und Schließen sowohl des ersten als auch des zweiten Schalters in Übereinstimmung mit einem über die Pixelsignalleitung 106 zugeführten Impuls gesteuert wird.
Gemäß einer derartigen Konfiguration sind die ersten und die zweiten Schalter in allen in dem Rahmen 200 enthalten Pixelschaltungen 100 während der Belichtung in dem geöffneten Zustand und bringt das Ende der Belichtung den ersten Schalter von dem geöffneten Zustand in den geschlossenen Zustand, um die elektrische Ladung von dem fotoelektrischen Umwandlungselement zu dem Kondensator zu übertragen. Danach wird der Kondensator als ein fotoelektrisches Umwandlungselement angesehen und wird die elektrische Ladung auf ähnliche Weise wie bei der Leseoperation gemäß dem oben beschriebenen Rolling-Shutter-Verfahren von dem Kondensator gelesen. Dies ermöglicht die gleichzeitige Belichtung aller in dem Rahmen 200 enthalten Pixelschaltungen 100.
8B stellt schematisch ein Beispiel einer Beziehung zwischen Bilderzeugung und Zeit gemäß dem Global-Shutter-Verfahren dar. In 8B repräsentiert die vertikale Achse eine Zeilenposition und repräsentiert die horizontale Achse die Zeit. Gemäß dem Global-Shutter-Verfahren werden alle in dem Rahmen 200 enthalten Pixelschaltungen 100 gleichzeitig belichtet, sodass der Belichtungszeitpunkt unter den Zeilen, wie in 8B dargestellt ist, derselbe sein kann. Somit wird z. B. in einem durch Erfassen des Rahmens 200 erhaltenen Bild 206, wie in 8C dargestellt ist, selbst in einem Fall, dass sich eine Positionsbeziehung zwischen dem Datenverarbeitungssystem 1 und dem Objekt in der horizontalen Richtung schnell ändert, keine Verzerrung erzeugt.
Das Global-Shutter-Verfahren kann sicherstellen, dass alle in dem Rahmen 200 enthalten Pixelschaltungen 100 gleichzeitig belichtet werden. Somit ermöglicht der Steuern des Zeitpunkts jedes über die Pixelsignalleitung 106 jeder Zeile zugeführten Impulses und des Zeitpunkts der Übertragung über jede vertikale Signalleitung VSL, eine Abtastung (Lesen von Pixelsignalen) in verschiedenen Mustern zu erzielen.
Die 9A und 9B sind Darstellungen, die schematisch ein Beispiel eines Abtastmusters darstellen, das gemäß dem Global-Shutter-Verfahren erzielt werden kann. 9A stellt ein Beispiel dar, in dem Abtastwerte 208, von denen die Pixelsignale gelesen werden, von den Pixelschaltungen 100, die in dem Rahmen 200 enthalten sind und in einer Matrix angeordnet sind, in einem Schachbrettmuster extrahiert werden. Darüber hinaus stellt 9B ein Beispiel dar, in dem die Abtastwerte 208, von denen Pixelsignale gelesen werden, von den Pixelschaltungen 100 in einem Gittermuster extrahiert werden. Darüber hinaus ist es auf ähnliche Weise wie bei dem oben beschriebenen Rolling-Shutter-Verfahren sogar gemäß dem Global-Shutter-Verfahren ebenfalls möglich, eine Bilderzeugung auf einer zeilenweisen Grundlage auszuführen.
(2-3. DNN)
Nachfolgend wird schematisch eine Erkennungsverarbeitung unter Verwendung eines tiefen neuronalen Netzes (DNN) beschrieben, die auf jede Ausführungsform anwendbar ist. Gemäß jeder Ausführungsform wird die Erkennungsverarbeitung an Bilddaten unter Verwendung eines neuronalen Faltungsnetzes (CNN) und eines rekurrenten neuronalen Netzes (RNN) als das DNN ausgeführt. Im Folgenden ist die „Erkennungsverarbeitung an Bilddaten“ nach Bedarf z. B. als „Erkennungsverarbeitung“ bezeichnet.
(2-3-1. Übersicht über ein CNN)
Zunächst wird das CNN schematisch beschrieben. Im Allgemeinen wird die Bilderkennungsverarbeitung unter Verwendung des CNN z. B. auf der Grundlage von Bildinformationen auf der Grundlage von Pixeln, die in einer Matrix angeordnet sind, ausgeführt. 10 ist eine Darstellung, die schematisch die Bilderkennungsverarbeitung unter Verwendung des CNN darstellt. Die Verarbeitung unter Verwendung eines CNN 52, das auf vorgegebene Weise angelernt worden ist, wird an Pixelinformationen 51 eines Bilds 50', das eine geschriebene Ziffer „8“ zeigt, die ein Erkennungszielobjekt ist, ausgeführt. Als ein Ergebnis wird als ein Erkennungsergebnis 53 die Ziffer „8“ erkannt.
Andererseits ist es ebenfalls möglich, ein Erkennungsergebnis aus einem Teil des Erkennungszielbilds durch Ausführen einer Verarbeitung unter Verwendung des CNN auf der Grundlage jedes Zeilenbilds zu erhalten. 11 ist eine Darstellung, die schematisch eine Bilderkennungsverarbeitung zum Erhalten eines Erkennungsergebnisses aus einem Teil des Erkennungszielbilds darstellt. In 11 wird das Bild 50' durch teilweises, d. h. auf einer zeilenweisen Grundlage, Erfassen der Ziffer „8“, die ein Erkennungszielobjekt ist, erhalten. Zum Beispiel werden Pixelinformationen 54a, 54b und 54c für jede Zeile, die Pixelinformationen 51' des Bilds 50' bilden, unter Verwendung des auf vorgegebene Weise angelernten CNN 52' sequentiell verarbeitet.
Zum Beispiel wird angenommen, dass ein Erkennungsergebnis 53a der an den Pixelinformationen 54a der ersten Zeile ausgeführten Erkennungsverarbeitung unter Verwendung des CNN 52' kein gültiges Erkennungsergebnis ist. Das gültige Erkennungsergebnis bezieht sich hier z. B. auf ein Erkennungsergebnis, das zeigt, dass eine Bewertung, die einen Zuverlässigkeitsgrad des Erkennungsergebnisses angibt, größer oder gleich einem vorgegebenen Wert ist.
Es wird angemerkt, dass der Zuverlässigkeitsgrad gemäß der vorliegenden Ausführungsform einen Bewertungswert bedeutet, der angibt, wie vertrauenswürdig die Ausgabe des Erkennungsergebnisses [T] durch das DNN ist. Zum Beispiel ist ein Bereich des Zuverlässigkeitsgrads von 0,0 bis 1,0, wobei die Anzahl ähnlicher Kandidaten mit einer näheren Bewertung an dem Erkennungsergebnis [T] umso kleiner ist, je näher der Bewertungswert an 1,0 ist. Andererseits weisen umso mehr ähnliche Kandidaten eine ähnliche Bewertung wie das Erkennungsergebnis [T] auf, je näher der Zahlenwert an 0 ist.
Das CNN 52' führt auf der Grundlage des Erkennungsergebnisses 53a eine Aktualisierung 55 eines internen Zustands aus. Nachfolgend wird unter Verwendung des CNN 52', dessen interner Zustand der Aktualisierung 55 in Übereinstimmung mit dem letzten Erkennungsergebnis 53a ausgesetzt worden ist, die Erkennungsverarbeitung an den Pixelinformationen 54b der zweiten Zeile ausgeführt. In 11 wird als ein Ergebnis ein Erkennungsergebnis 53b erhalten, das angibt, dass die Erkennungszielziffer entweder eine „8“ oder eine „9“ ist. Auf der Grundlage des Erkennungsergebnisses 53b wird weiter die Aktualisierung 55 der internen Informationen des CNN 52' ausgeführt. Nachfolgend wird unter Verwendung des CNN 52', dessen interner Zustand der Aktualisierung 55 in Übereinstimmung mit dem letzten Erkennungsergebnis 53b ausgesetzt gewesen ist, die Erkennungsverarbeitung an den Pixelinformationen 54c der dritten Zeile ausgeführt. In 11 wird die Erkennungszielziffer als ein Ergebnis von „8“ und „9“ auf „8“ eingegrenzt.
In der in 11 dargestellten Erkennungsverarbeitung wird hier der interne Zustand des CNN unter Verwendung des Ergebnisses der letzten Erkennungsverarbeitung aktualisiert und wird die Erkennungsverarbeitung unter Verwendung der Pixelinformationen der Zeile, die zu der Zeile, die der letzten Erkennungsverarbeitung unter Verwendung des CNN, dessen interner Zustand aktualisiert worden ist, ausgesetzt gewesen ist, benachbart ist, ausgeführt. Das heißt, die in 11 dargestellte Erkennungsverarbeitung wird an dem Bild auf einer zeilenweisen Grundlage ausgeführt, während der interne Zustand des CNN auf der Grundlage des letzten Erkennungsergebnisses aktualisiert wird. Somit ist die in 11 dargestellte Erkennungsverarbeitung eine Verarbeitung, die auf einer zeilenweisen Grundlage rekursiv ausgeführt wird, und kann sie als eine betrachtet werden, die eine dem RNN entsprechende Struktur aufweist.
(2-3-2. Überblick des RNN)
Nachfolgend wird das RNN schematisch beschrieben. 12A und 12B sind Darstellungen, die schematisch ein Beispiel der Identifizierungsverarbeitung (Erkennungsverarbeitung) darstellen, die unter Verwendung des DNN ausgeführt wird, falls Zeitreiheninformationen nicht verwendet werden. Wie in 12A dargestellt ist, wird in diesem Fall ein Bild in das DNN eingegeben. In dem DNN wird an dem eingegebenen Bild die Identifizierungsverarbeitung ausgeführt und wird ein Identifizierungsergebnis ausgegeben.
12B ist eine Darstellung zur ausführlicheren Beschreibung der in 12A dargestellten Verarbeitung. Wie in 12B dargestellt ist, führt das DNN die Merkmalsextraktionsverarbeitung und die Identifizierungsverarbeitung aus. Das DNN führt die Merkmalsextraktionsverarbeitung aus, um ein Merkmal aus dem Eingangsbild zu extrahieren. Darüber hinaus führt das DNN an dem extrahierten Merkmal die Identifizierungsverarbeitung aus, um ein Identifizierungsergebnis zu erhalten.
13A und 13B sind Darstellungen, die schematisch ein erstes Beispiel der Identifizierungsverarbeitung unter Verwendung des DNN darstellen, falls Zeitreiheninformationen verwendet werden. In dem in 13A und 13B dargestellten Beispiel werden eine feste Anzahl von Einheiten früherer Zeitreiheninformationen der Identifizierungsverarbeitung unter Verwendung des DNN ausgesetzt. In dem in 13A dargestellten Beispiel werden in das DNN ein Bild [T] zu einem Zeitpunkt T, ein Bild [T-1] zu einem Zeitpunkt T-1 vor dem Zeitpunkt T und ein Bild [T-2] zu einem Zeitpunkt T-2 vor dem Zeitpunkt T-1 eingegeben. In dem DNN wird an jedem der Eingangsbilder [T], [T-1] und [T-2] die Identifizierungsverarbeitung ausgeführt, um ein Identifizierungsergebnis [T] zu einem Zeitpunkt T zu erhalten. Dem Identifizierungsergebnis [T] wird ein Zuverlässigkeitsgrad gegeben.
13B ist eine Darstellung zur ausführlicheren Beschreibung der in 13A dargestellten Verarbeitung. Wie in 13B dargestellt ist, wird in dem DNN an jedem der Eingangsbilder [T], [T-1] und [T-2] auf einer eineindeutigen Grundlage die oben anhand von 12B beschriebene Merkmalsextraktionsverarbeitung ausgeführt, um den Bildern [T], [T-1] und [T-2] entsprechende Merkmale zu extrahieren. In dem DNN werden die jeweiligen auf der Grundlage der Bilder [T], [T-1] und [T-2] erhaltenen Merkmale kombiniert und wird an dem kombinierten Merkmal die Identifizierungsverarbeitung ausgeführt, um das Identifizierungsergebnis [T] zu dem Zeitpunkt T zu erhalten. Dem Identifizierungsergebnis [T] wird ein Zuverlässigkeitsgrad gegeben.
Gemäß dem in 13A und 13B dargestellten Verfahren sind zur Ausführung der Merkmalsextraktion mehrere Komponenten erforderlich und ist zur Ausführung der Merkmalsextraktion in Übereinstimmung mit der Anzahl verfügbarer früherer Bilder eine Komponente erforderlich, sodass es eine Möglichkeit gibt, dass die Konfiguration des DNN groß wird.
14A und 14B sind Darstellungen, die schematisch ein zweites Beispiel der Identifizierungsverarbeitung unter Verwendung des DNN darstellen, falls Zeitreiheninformationen verwendet werden. In dem in 14A dargestellten Beispiel wird ein Bild [T] zu einem Zeitpunkt T in das DNN eingegeben, dessen interner Zustand zu einem Zustand zu einem Zeitpunkt T-1 aktualisiert worden ist, und wird ein Identifizierungsergebnis [T] zu dem Zeitpunkt T erhalten. Dem Identifizierungsergebnis [T] wird ein Zuverlässigkeitsgrad gegeben.
14B ist eine Darstellung zur ausführlicheren Beschreibung der in 14A dargestellten Verarbeitung. Wie in 14B dargestellt ist, wird in dem DNN an dem Eingangsbild [T] zu dem Zeitpunkt T die oben anhand von 12B beschriebene Merkmalsextraktionsverarbeitung ausgeführt und wird ein dem Bild [T] entsprechendes Merkmal extrahiert. In dem DNN wird der interne Zustand unter Verwendung eines Bilds vor den Zeitpunkt T aktualisiert und wird das Merkmal in Bezug auf den aktualisierten internen Zustand gespeichert. Das gespeicherte Merkmal in Bezug auf die internen Informationen und das Merkmal des Bilds [T] werden kombiniert und an dem kombinierten Merkmal wird die Identifizierungsverarbeitung ausgeführt.
Die in 14A und 14B dargestellte Identifizierungsverarbeitung wird z. B. unter Verwendung des DNN ausgeführt, dessen interner Zustand unter Verwendung des letzten Identifizierungsergebnisses aktualisiert worden ist, und ist somit eine rekursive Verarbeitung. Ein derartiges DNN, das eine rekursive Verarbeitung ausführt, wird als ein rekurrentes neuronales Netz (RNN) bezeichnet. Die Identifizierungsverarbeitung unter Verwendung des RNN wird allgemein für die Bewegtbilderkennung oder dergleichen verwendet und der interne Zustand des DNN wird z. B. durch Rahmenbilder, die in Zeitreihen aktualisiert werden, sequentiell aktualisiert, wodurch eine Zunahme der Identifizierungsgenauigkeit ermöglicht wird.
Gemäß der vorliegenden Offenbarung wird das RNN auf eine Struktur unter Verwendung des Rolling-Shutter-Verfahrens angewendet. Das heißt, gemäß dem Rolling-Shutter-Verfahren wird das Lesen der Pixelsignale auf einer zeilenweisen Grundlage ausgeführt. Somit werden die gelesenen Pixelsignale auf einer zeilenweisen Grundlage als Zeitreiheninformationen auf das RNN angewendet. Im Ergebnis kann die Identifizierungsverarbeitung auf der Grundlage der mehreren Zeilen im Vergleich zu einer Konfiguration unter Verwendung des CNN (siehe 13B) mit einer kleinen Konfiguration ausgeführt werden. Alternativ kann das RNN auf eine Struktur unter Verwendung des Global-Shutter-Verfahrens angewendet werden. In diesem Fall ist z. B. denkbar, dass benachbarte Zeilen als Zeitreiheninformationen angesehen werden.
(2-4. Ansteuergeschwindigkeit)
Nachfolgend wird anhand von 15A und 15B eine Beziehung zwischen einer Ansteuergeschwindigkeit des Rahmens und einem Lesebetrag des Pixelsignals beschrieben. 15A ist eine Darstellung, die ein Beispiel darstellt, in dem alle Zeilen in einem Bild gelesen werden. Hier ist angenommen, dass die Auflösung eines Bilds, das der Erkennungsverarbeitung ausgesetzt werden soll, 640 Pixel in der horizontalen Richtung x 480 Pixel (480 Zeilen) in der vertikalen Richtung ist. In diesem Fall ermöglicht das Ansteuern mit einer Ansteuergeschwindigkeit von 14400 [Zeilen/Sekunde] die Ausgabe mit 30 [Rahmen pro Sekunde (fps)] .
Nachfolgend wird ein Fall betrachtet, dass die Bilderzeugung mit Zeilenüberspringen ausgeführt wird. Wie in 15B dargestellt ist, wird z. B. angenommen, dass die Bilderzeugung ausgeführt wird, während jede zweite Zeile übersprungen wird, d. h., dass die Bilderzeugung mit 1/2-Überspringen ausgeführt wird. Als ein erstes Beispiel des 1/2-Überspringens wird im Fall des Ansteuerns mit einer Ansteuergeschwindigkeit von 14400 [Zeilen/Sekunde] in derselben Weise wie oben beschrieben die Anzahl von dem Bild zu lesender Zeilen 1/2, sodass die Auflösung abnimmt, es aber möglich ist, 60 [fps], d. h. das Doppelte der Geschwindigkeit, falls kein Überspringen ausgeführt wird, auszugeben, was eine Zunahme der Bildwiederholfrequenz ermöglicht. Als ein zweites Beispiel des 1/2-Überspringens ist die Bildwiederholfrequenz im Fall des Ansteuerns mit einer Ansteuergeschwindigkeit von 7200 [fps], die eine Hälfte der Ansteuergeschwindigkeit in dem ersten Beispiel ist, wie in einem Fall, dass kein Überspringen ausgeführt wird, 30 [fps], wobei der Leistungsverbrauch aber verringert sein kann.
Wenn das Zeilenbild gelesen wird, kann z. B. in Übereinstimmung mit dem Zweck der Erkennungsverarbeitung auf der Grundlage des gelesenen Pixelsignals ausgewählt werden, ob kein Überspringen ausgeführt wird, ob ein Überspringen ausgeführt wird, um die Ansteuergeschwindigkeit zu erhöhen, oder ob die Ansteuergeschwindigkeit, falls ein Überspringen ausgeführt wird, gleich der Ansteuergeschwindigkeit, falls kein Überspringen ausgeführt wird, gesetzt wird.
(Erste Ausführungsform)
16 ist eine schematische Darstellung zur schematischen Beschreibung der Erkennungsverarbeitung gemäß der vorliegenden Ausführungsform der vorliegenden Offenbarung. In 16 beginnt das Datenverarbeitungssystem 1 (siehe 1) gemäß der vorliegenden Ausführungsform in Schritt S1, ein Erkennungszielbild aufzunehmen.
Es wird angemerkt, dass das Zielbild z. B. ein Bild ist, das eine handschriftliche „8“ zeigt. Darüber hinaus ist angenommen, dass in dem Speicher 13 ein Lernmodell, das unter Verwendung vorgegebene Trainingsdaten angelernt worden ist, in der Lage ist, eine Ziffer zu identifizieren, als ein Programm vorgespeichert ist und dass die Erkennungsverarbeitungseinheit 12 eine in dem Bild enthaltene Ziffer durch Ausführen des aus dem Speicher 13 geladenen Programms identifizieren kann. Darüber hinaus ist angenommen, dass das Datenverarbeitungssystem 1 die Bilderzeugung unter Verwendung des Rolling-Shutter-Verfahrens ausführt. Es wird angemerkt, dass die folgende Verarbeitung, selbst wenn das Datenverarbeitungssystem 1 die Bildverarbeitung unter Verwendung des Global-Shutter-Verfahrens ausführt, auf ähnliche Weise zu einem Fall, dass das Rolling-Shutter-Verfahren verwendet wird, anwendbar ist.
Wenn die Bilderzeugung begonnen wird, liest das Datenverarbeitungssystem 1 in Schritt S2 auf einer zeilenweisen Grundlage sequentiell einen Rahmen von dem oberen Ende zu dem unteren Ende des Rahmens.
Wenn das Zeilenlesen eine bestimmte Position erreicht, erkennt die Erkennungsverarbeitungseinheit 12 aus dem Bild der gelesenen Zeilen die Ziffern „8“ und „9“ (Schritt S3). Zum Beispiel kann das erkannte Objekt als eine der Ziffern „8“ oder „9” identifiziert werden, da die oberen halben Abschnitte der Ziffern „8“ und „9“ einen gemeinsamen Merkmalsabschnitt aufweisen, wenn der Merkmalsabschnitt nach dem sequentiellen Lesen von Zeilen von oben erkannt wird.
Wie in Schritt S4a dargestellt ist, erscheint hier das gesamte Objekt, das nach dem Ende des Lesens bis zu der Zeile am unteren Ende oder bis zu der Zeile in der Nähe des unteren Endes des Rahmens erkannt wird, und wird das in Schritt S2 als eine der Ziffern „8“ oder „9“ identifizierte Objekt als die Ziffer „8“ bestimmt.
Andererseits sind die Schritte S4b und S4c Prozesse in Bezug auf die vorliegende Offenbarung.
Wie in Schritt S4b dargestellt ist, schreitet das Zeilenlesen von der in Schritt S3 gelesenen Zeilenposition weiter fort und kann das erkannte Objekt als die Ziffer „8“ identifiziert werden, noch bevor die Zeilenposition das untere Ende der Ziffer „8“ erreicht. Zum Beispiel unterscheidet sich ein Merkmal der unteren Hälfte der Ziffer „8“ und der unteren Hälfte der Ziffer „9“ voneinander. Wenn das Zeilenlesen bis zu einem Abschnitt fortschreitet, in dem der Unterschied des Merkmals klar wird, ist es möglich, das in Schritt S3 erkannte Objekt entweder als die Ziffer „8“ oder „9“ zu identifizieren. In dem in 16 dargestellten Beispiel wird in Schritt S4b bestimmt, dass das Objekt die Ziffer „8“ ist.
Wie in Schritt S4c dargestellt ist, ist darüber hinaus ebenfalls denkbar, dass das Zeilenlesen zu einer Zeilenposition springen kann, an der wahrscheinlich ist, dass das in Schritt S3 erkannte Objekt als eine der Ziffern „8“ und „9“ identifiziert wird, wenn das Zeilenlesen von der Zeilenposition in Schritt S3, d. h. von dem Zustand des Schritts S3, weiter fortschreitet. Wenn das Zeilenlesen an der Zeile nach dem Springen ausgeführt wird, ist es möglich zu bestimmen, ob das in Schritt S3 erkannte Objekt entweder „8“ oder „9“ ist. Es wird angemerkt, dass die Zeilenposition nach dem Springen auf der Grundlage eines Lernmodells bestimmt werden kann, das auf der Grundlage vorgegebene Trainingsdaten im Voraus angelernt wurde.
Falls das Objekt hier in dem Schritt S4b oder in dem Schritt S4c, die oben beschrieben sind, bestimmt wird, kann das Datenverarbeitungssystem 1 die Erkennungsverarbeitung beenden. Somit ist es möglich, die Erkennungsverarbeitung zu verkürzen und den Leistungsverbrauch in dem Datenverarbeitungssystem 1 zu verringern.
Es wird angemerkt, dass die Trainingsdaten Daten sind, die für jede gelesene Einheit mehrere Kombinationen von Eingangssignalen und Ausgangssignalen enthalten. Als ein Beispiel können in der oben beschriebenen Aufgabe des Identifizierens einer Ziffer Daten (Zeilendaten, unterabgetastete Daten oder dergleichen) für jede gelesene Einheit als das Eingangssignal verwendet werden und können Daten, die eine „richtige Ziffer“ angeben, als das Ausgangssignal verwendet werden. Als ein anderes Beispiel können in einer Aufgabe des Detektierens eines Objekts z. B. Daten (Zeilendaten, unterabgetastete Daten oder dergleichen) für jede gelesene Einheit als das Eingangssignal verwendet werden und können eine Objektklasse (menschlicher Körper/Fahrzeug/kein Objekt), Objektkoordinaten (x, y, h, w) oder dergleichen als das Ausgangssignal verwendet werden. Alternativ kann das Ausgangssignal unter Verwendung von selbstüberwachtem Lernen nur aus dem Eingangssignal erzeugt werden.
17 ist ein Funktionsblockschaltplan eines Beispiels zur Beschreibung der Funktion der Sensorsteuereinheit 11 und der Funktion der Erkennungsverarbeitungseinheit 12 gemäß der vorliegenden Ausführungsform.
Die Sensorsteuereinheit 11 in 17 enthält eine Leseeinheit 110. Die Erkennungsverarbeitungseinheit 12 enthält eine Merkmalsberechnungseinheit 120, eine Merkmalsspeicherungs-Steuereinheit 121, eine Lesegebiets-Bestimmungseinheit 123, eine Erkennungsverarbeitungs-Ausführungseinheit 124 und eine Zuverlässigkeitsgrad-Berechnungseinheit 125. Darüber hinaus enthält die Zuverlässigkeitsgrad-Berechnungseinheit 125 eine Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 und eine Bewertungskorrektureinheit 127.
Die Leseeinheit 110 in der Sensorsteuereinheit 11 stellt Lesepixel als einen Teil der Pixelanordnungseinheit 101 (siehe 4), in der die mehreren Pixel in einer zweidimensionalen Anordnung angeordnet sind, ein und steuert das Lesen eines Pixelsignals von einem in dem Pixelgebiet enthaltenen Pixel. Genauer empfängt die Leseeinheit 110 von der Lesegebiets-Bestimmungseinheit 123 der Erkennungsverarbeitungseinheit 12 Lesegebietsinformationen, die ein durch die Erkennungsverarbeitungseinheit 12 zu lesendes Lesegebiet angeben. Die Lesegebietsinformationen sind z. B. eine Zeilennummer einer oder mehrerer Zeilen. Alternativ können die Lesegebietsinformationen Informationen sein, die eine Pixelposition in einer Zeile angeben. Darüber hinaus ermöglicht das Kombinieren einer oder mehrerer Zeilennummern und Informationen, die die Pixelposition eines oder mehrerer Pixel in einer Zeile als die Lesegebietsinformationen angeben, Lesegebiete mit verschiedenen Mustern zu bestimmen. Es wird angemerkt, dass das Lesegebiet äquivalent der gelesenen Einheit ist. Alternativ können das Lesegebiet und die gelesene Einheit voneinander verschieden sein.
Darüber hinaus kann die Leseeinheit 110 von der Erkennungsverarbeitungseinheit 12 oder von der Blickfeld-Verarbeitungseinheit 14 (siehe 1) Informationen empfangen, die die Belichtung oder die analoge Verstärkung angeben. Die Leseeinheit 110 gibt die Eingangsinformationen, die die Belichtung oder die analoge Verstärkung, die Lesegebietsinformationen und dergleichen angeben, an die Zuverlässigkeitsgrad-Berechnungseinheit 125 aus.
Die Leseeinheit 110 liest die Pixeldaten in Übereinstimmung mit den von der Erkennungsverarbeitungseinheit 12 eingegebenen Lesegebietsinformationen von der Sensoreinheit 10. Zum Beispiel erhält die Leseeinheit 110 auf der Grundlage der Lesegebietsinformationen eine Zeilennummer, die eine zu lesende Zeile angibt, und Pixelpositionsinformationen, die eine Position eines zu lesenden Pixels in der Zeile angeben, und gibt sie die erhaltene Zeilennummer und die Pixelpositionsinformationen an die Sensoreinheit 10 aus. Die Leseeinheit 110 gibt alle von der Sensoreinheit 10 erfassten Pixeldaten zusammen mit den Lesegebietsinformationen an die Zuverlässigkeitsgrad-Berechnungseinheit 125 aus.
Darüber hinaus stellt die Leseeinheit 110 in Übereinstimmung mit den zugeführten Informationen, die die Belichtung und die analoge Verstärkung angeben, die Belichtung und die analoge Verstärkung (AG) für die Sensoreinheit 10 ein. Darüber hinaus kann die Leseeinheit 110 ein Signal für die vertikale Synchronisation und ein Signal für die horizontale Synchronisation erzeugen und die Signale der Sensoreinheit 10 zuführen.
Die Lesegebiets-Bestimmungseinheit 123 in der Erkennungsverarbeitungseinheit 12 empfängt von der Merkmalsspeicherungs-Steuereinheit 121 Leseinformationen, die ein nachfolgend zu lesendes Lesegebiet angeben. Die Lesegebiets-Bestimmungseinheit 123 erzeugt auf der Grundlage der empfangenen Leseinformationen Lesegebietsinformationen und gibt die Lesegebietsinformationen an die Leseeinheit 110 aus.
Die Lesegebiets-Bestimmungseinheit 123 kann hier als das durch die Lesegebietsinformationen angegebene Lesegebiet z. B. Informationen verwenden, in denen zu der vorgegebenen gelesenen Einheit Lesepositionsinformationen zum Lesen von Pixeldaten einer vorgegebenen gelesenen Einheit hinzugefügt werden. Die gelesene Einheit ist eine Menge eines oder mehrerer Pixel und ist eine Einheit zur Verarbeitung durch die Erkennungsverarbeitungseinheit 12 und durch die Einheit 14 für die Verarbeitung der visuellen Erkennung. Wenn die gelesene Einheit als ein Beispiel eine Zeile ist, wird als die Lesepositionsinformationen eine Zeilennummer [L#x], die eine Zeilenposition angibt, hinzugefügt. Falls die gelesene Einheit ein rechteckiger Bereich ist, der mehrere Pixel enthält, werden darüber hinaus Informationen, die die Position des rechteckigen Gebiets in der Pixelanordnungseinheit 101 angeben, z. B. Informationen, die die Position eines Pixels in der linken oberen Ecke angeben, als die Leseinformationen hinzugefügt. In der Lesegebiets-Bestimmungseinheit 123 wird die anzuwendende gelesene Einheit im Voraus vorgegeben. Darüber hinaus kann die Lesegebiets-Bestimmungseinheit 123 Positionsinformationen des Subpixels in dem Lesegebiet enthalten, falls ein Subpixel gemäß dem Global-Shutter-Verfahren gelesen wird. Alternativ kann die Lesegebiets-Bestimmungseinheit 123 die gelesene Einheit z. B. in Übereinstimmung mit einer Anweisung von außerhalb der Lesegebiets-Bestimmungseinheit 123 bestimmen. Somit fungiert die Lesegebiets-Bestimmungseinheit 123 als eine Steuereinheit der gelesenen Einheit, die die gelesene Einheit steuert.
Es wird angemerkt, dass die Lesegebiets-Bestimmungseinheit 123 auf der Grundlage von Erkennungsinformationen, die von der später zu beschreibenden Erkennungsverarbeitungs-Ausführungseinheit 124 zugeführt werden, ebenfalls ein nachfolgend zu lesendes Lesegebiet bestimmen kann und Lesegebietsinformationen, die das bestimmte Lesegebiet angeben, erzeugen kann.
Die Merkmalsberechnungseinheit 120 in der Erkennungsverarbeitungseinheit 12 berechnet auf der Grundlage der Pixeldaten und der Lesegebietsinformationen, die von der Leseeinheit 110 zugeführt werden, das Merkmal des durch die Lesegebietsinformationen angegebenen Gebiets. Die Merkmalsberechnungseinheit 120 gibt das berechnete Merkmal an die Merkmalsspeicherungs-Steuereinheit 121 aus.
Die Merkmalsberechnungseinheit 120 kann das Merkmal auf der Grundlage der von der Leseeinheit 110 zugeführten Pixeldaten und eines von der Merkmalsspeicherungs-Steuereinheit 121 zugeführten früheren Merkmals berechnen. Alternativ kann die Merkmalsberechnungseinheit 120 Informationen zum Einstellen der Belichtung und der analogen Verstärkung z. B. von der Leseeinheit 110 erfassen und die erfassten Informationen ferner zum Berechnen des Merkmals verwenden.
Die Merkmalsspeicherungs-Steuereinheit 121 in der Erkennungsverarbeitungseinheit 12 speichert das von der Merkmalsberechnungseinheit 120 zugeführte Merkmal in einer Merkmalsspeichereinheit 122. Darüber hinaus erzeugt die Merkmalsspeicherungs-Steuereinheit 121 Leseinformationen, die ein nachfolgend zu lesendes Lesegebiet angeben, und gibt sie die Leseinformationen an die Lesegebiets-Bestimmungseinheit 123 aus, wenn das Merkmal von der Merkmalsberechnungseinheit 120 zugeführt wird.
Die Merkmalsspeicherungs-Steuereinheit 121 kann hier das bereits gespeicherte Merkmal und das neu zugeführte Merkmal kombinieren und das kombinierte Merkmal speichern. Darüber hinaus kann die Merkmalsspeicherungs-Steuereinheit 121 ein unnötiges Merkmal unter den in der Merkmalsspeichereinheit 122 gespeicherten Merkmalen löschen. Das unnötige Merkmal kann z. B. ein Merkmal in Bezug auf den vorhergehenden Rahmen, ein auf der Grundlage eines Rahmenbilds einer anderen Szene als ein Rahmenbild, für das ein neues Merkmal berechnet und bereits gespeichert worden ist, berechnetes Merkmal oder dergleichen sein. Darüber hinaus kann die Merkmalsspeicherungs-Steuereinheit 121 nach Bedarf ebenfalls alle in der Merkmalsspeichereinheit 122 gespeicherten Merkmale löschen und initialisieren.
Darüber hinaus erzeugt die Merkmalsspeicherungs-Steuereinheit 121 auf der Grundlage des von der Merkmalsberechnungseinheit 120 zugeführten Merkmals und des in der Merkmalsspeichereinheit 122 gespeicherten Merkmals ein für die Erkennungsverarbeitung durch die Erkennungsverarbeitungs-Ausführungseinheit 124 verwendetes Merkmal. Die Merkmalsspeicherungs-Steuereinheit 121 gibt das erzeugte Merkmal an die Erkennungsverarbeitungs-Ausführungseinheit 124 aus.
Die Erkennungsverarbeitungs-Ausführungseinheit 124 führt auf der Grundlage des von der Merkmalsspeicherungs-Steuereinheit 121 zugeführten Merkmals die Erkennungsverarbeitung aus. Die Erkennungsverarbeitungs-Ausführungseinheit 124 führt während der Erkennungsverarbeitung die Objektdetektion, die Gesichtsdetektion oder dergleichen aus. Die Erkennungsverarbeitungs-Ausführungseinheit 124 gibt ein Erkennungsergebnis der Erkennungsverarbeitung an die Ausgabesteuereinheit 15 und an die Zuverlässigkeitsgrad-Berechnungseinheit 125 aus. Das Erkennungsergebnis enthält Informationen, die eine Detektionsbewertung angeben. Es wird angemerkt, dass die Detektionsbewertung gemäß der vorliegenden Ausführungsform einem Zuverlässigkeitsgrad entspricht.
Die Erkennungsverarbeitungs-Ausführungseinheit 124 kann Erkennungsinformationen, die das durch die Erkennungsverarbeitung erzeugte Erkennungsergebnis enthalten, ebenfalls an die Lesegebiets-Bestimmungseinheit 123 ausgeben. Es wird angemerkt, dass die Erkennungsverarbeitungs-Ausführungseinheit 124 das Merkmal von der Merkmalsspeicherungs-Steuereinheit 121 empfangen kann und z. B. auf der Grundlage eines durch eine Auslösererzeugungseinheit (nicht dargestellt) erzeugten Auslösers eine Erkennungsverarbeitung ausführen kann.
18A ist ein Blockschaltplan, der eine Konfiguration der Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 darstellt. Die Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 erzeugt für jedes Pixel einen Zuverlässigkeitsgrad-Korrekturwert. Die Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 enthält eine Speichereinheit 126b für die gelesene Anzahl, eine Erfassungseinheit 126b für die gelesene Anzahl, eine Integrationszeit-Einstelleinheit 126c und eine Lesebereichskarten-Erzeugungseinheit 126e. Es wird angemerkt, dass gemäß der vorliegenden Ausführungsform eine zweidimensionale Karte des Zuverlässigkeitsgrad-Korrekturwerts für jedes Pixel als eine Zuverlässigkeitsgradkarte bezeichnet ist. Darüber hinaus werden z. B. ein Maß für die zentrale Tendenz der Korrekturwerte in dem Erkennungsrechteck und ein Produkt der Zuverlässigkeitsgrade in dem Erkennungsrechteck als endgültiger Zuverlässigkeitsgrad eingestellt.
Die Speichereinheit 126a für die gelesene Anzahl speichert eine gelesene Anzahl jedes Pixels zusammen mit einer gelesenen Zeit in der Speichereinheit 126b. Die Speichereinheit 126a für die gelesene Anzahl kann die bereits in der Speichereinheit 126b gespeicherte gelesene Anzahl jedes Pixels zu einer neu zugeführten gelesenen Anzahl für jedes Pixel addieren, um eine gelesene Anzahl jedes Pixels zu erhalten.
18B ist eine Darstellung, die schematisch darstellt, dass eine gelesene Anzahl der Zeilendaten in einer Weise, die von einem Integrationsabschnitt (einer Integrationszeit) abhängt, variiert. Die horizontale Achse gibt die Zeit an, wobei ein Beispiel des Zeilenlesens in einem Abschnitt (einer Zeit) von 1/4 Periode schematisch dargestellt ist. Zeilendaten in einem Abschnitt (einer Zeit) einer Periode sind ein Bereich der gesamten Bilddaten. Andererseits ist die Anzahl der Einheiten von Zeilendaten in 1/4 Periode 1/4 einer Periode, wenn periodisches Lesen berücksichtigt wird. Wie oben beschrieben wurde, ist die Anzahl der Einheiten von Zeilendaten z. B. in 18B zwei Zeilen, wenn die Integrationszeit 1/4 einer Periode ist. Andererseits ist die Anzahl der Einheiten von Zeilendaten z. B. in 18B vier Zeilen, wenn die Integrationszeit 2/4 einer Periode ist, ist die Anzahl der Einheiten von Zeilendaten in 18B z. B. sechs Zeilen, wenn die Integrationszeit 3/4 einer Periode ist, und ist die Anzahl der Einheiten von Zeilendaten in 18B z. B. acht Zeilen, d. h. alle Pixel, wenn die Integrationszeit eine Periode ist. Somit führt die Integrationszeit-Einstelleinheit 126c der Erfassungseinheit 126d für die gelesene Anzahl ein Signal zu, das Informationen hinsichtlich des Integrationsabschnitts (der Integrationszeit) enthält.
18C ist eine Darstellung, die ein Beispiel darstellt, in dem die Leseposition der Zeilendaten in Übereinstimmung mit dem Erkennungsergebnis von der in 16 dargestellten Erkennungsverarbeitungs-Ausführungseinheit 124 adaptiv geändert wird. In einem derartigen Fall werden die Zeilendaten in der linken Darstellung sequentiell gelesen, während sie übersprungen werden. Wie in der mittleren Darstellung dargestellt ist, wird nachfolgend, wenn in der Mitte „8“ oder „0“ erkannt wird, nach Rückkehr zu einem Teil, der wahrscheinlich einen Unterschied zwischen „8“ oder „0“ besagt, nur der Teil gelesen. In einem derartigen Fall gibt es kein Konzept einer Periode. Selbst in einem derartigen Fall, in dem es kein Konzept einer Periode gibt, variiert die gelesene Anzahl der Zeilendaten in einer Weise, die von dem Integrationsabschnitt (der Integrationszeit) abhängt. Somit führt die Integrationszeit-Einstelleinheit 126c der Leseanzahl-Erfassungseinheit 126d ein Signal zu, das Informationen hinsichtlich des Integrationsabschnitts (der Integrationszeit) enthält.
Die Erfassungseinheit 126d für die gelesene Anzahl erfasst von der Speichereinheit 126a für die gelesene Anzahl die gelesene Anzahl jedes Pixels für jeden Erfassungsabschnitt. Die Erfassungseinheit 126d für die gelesene Anzahl führt die von der Integrationszeit-Einstelleinheit 126c zugeführte Integrationszeit (den Integrationsabschnitt) und die gelesene Anzahl jedes Pixels für jeden Erfassungsabschnitt der Lesebereichskarten-Erzeugungseinheit 126e zu. Zum Beispiel kann die Erfassungseinheit 126d für die gelesene Anzahl die gelesene Anzahl jedes Pixels von der Speichereinheit 126a für die gelesene Anzahl in Übereinstimmung mit einem durch eine Auslösererzeugungseinheit (nicht dargestellt) erzeugten Auslöser zusammen mit der Integrationszeit lesen und die gelesene Anzahl der Lesebereichskarten-Erzeugungseinheit 126e zuführen.
Die Lesebereichskarten-Erzeugungseinheit 126e erzeugt für jedes Pixel auf der Grundlage der gelesenen Anzahl jedes Pixels für jeden Erfassungsabschnitt und der Integrationszeit einen Zuverlässigkeitsgrad-Korrekturwert. Einzelheiten der Lesebereichskarten-Erzeugungseinheit 126e werden später beschrieben.
Wieder anhand von 17 berechnet die Bewertungskorrektureinheit 127 z. B. das Maß für die zentrale Tendenz der Korrekturwerte in dem Erkennungsrechteck und ein Produkt der Zuverlässigkeitsgrade in dem Erkennungsrechteck als den endgültigen Zuverlässigkeitsgrad. Es wird angemerkt, dass in der vorliegenden Ausführungsform eine zweidimensionale Karte des Zuverlässigkeitsgrad-Korrekturwerts für jedes Pixel als eine Zuverlässigkeitsgradkarte bezeichnet ist. Die Bewertungskorrektureinheit 127 gibt den Zuverlässigkeitsgrad nach der Korrektur an die Ausgabesteuereinheit 15 (siehe 1) aus.
19 ist ein schematische Darstellung, die ein Beispiel der Verarbeitung in der Erkennungsverarbeitungseinheit 12 gemäß der vorliegenden Ausführungsform genauer darstellt. Hier ist angenommen, dass das Lesegebiet eine Zeile ist und dass die Leseeinheit 110 Pixeldaten auf einer zeilenweisen Grundlage von dem oberen Ende zu dem unteren Ende des Rahmens eines Bilds 60 liest.
20 ist eine schematische Darstellung zur Beschreibung der Leseverarbeitung in der Leseeinheit 110. Die gelesene Einheit ist z. B. eine Zeile, wobei das Pixeldatenlesen an einem Rahmen Fr(x) auf einer zeilenweisen Grundlage ausgeführt wird. Gemäß dem in 20 dargestellten Beispiel wird in einem m-ten Rahmen Fr(m) das Zeilenlesen von eine Zeile L#1 an dem oberen Ende des Rahmens Fr(m) in der Reihenfolge der Zeilen L#2, L#3, ... sequentiell ausgeführt. Wenn das Zeilenlesen an dem Rahmen Fr(m) abgeschlossen ist, wird das Zeilenlesen an dem nächsten, (m + 1)-ten Rahmen Fr(m + 1) von der Zeile L#1 an dem oberen Ende auf ähnliche Weise sequentiell ausgeführt.
Wie in der später zu beschreibenden 21(a) dargestellt ist, können darüber hinaus in der Leseverarbeitung in der Leseeinheit 110 Zeilendaten alle drei Zeilen gelesen werden, sodass die erste Zeile von oben als die Zeile L#1 angesehen wird, die vierte Zeile von oben als die Zeile L#2 angesehen wird und die achte Zeile von oben als die Zeile L#3 angesehen wird. Ähnlich können Zeilendaten alle drei Zeilen gelesen werden, sodass die erste Zeile von oben als die Zeile L#1 angesehen wird, die vierte Zeile von oben als die Zeile L#2 angesehen wird und die achte Zeile von oben als die Zeile L#3 angesehen wird.
Wie in der später zu beschreibenden 21(b) dargestellt ist, können in der Leseverarbeitung in der Leseeinheit 110 ähnlich Zeilendaten jede zweite Zeile gelesen werden, sodass die erste Zeile von oben als die Zeile L#1 angesehen wird, die dritte Zeile von oben als die Zeile L#2 angesehen wird und die fünfte Zeile von oben als die Zeile L#3 angesehen wird.
Die Zeilenbilddaten (Zeilendaten) der durch die Leseeinheit 110 auf einer zeilenweisen Grundlage gelesenen Zeile L#x werden in die Merkmalsberechnungseinheit 120 eingegeben. Darüber hinaus werden Informationen hinsichtlich der auf einer zeilenweisen Grundlage gelesenen Zeile L#x, d. h. Lesegebietsinformationen, der Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 zugeführt.
Die Merkmalsberechnungseinheit 120 führt eine Merkmalsextraktionsverarbeitung 1200 und eine Kombinationsverarbeitung 1202 aus. Die Merkmalsberechnungseinheit 120 führt an den eingegebenen Zeilendaten die Merkmalsextraktionsverarbeitung 1200 aus, um aus den Zeilendaten ein Merkmal 1201 zu extrahieren. Die Merkmalsextraktionsverarbeitung 1200 extrahiert hier das Merkmal 1201 aus den Zeilendaten auf der Grundlage von im Voraus durch Lernen erhaltenen Parametern. Das durch die Merkmalsextraktionsverarbeitung 1200 extrahierte Merkmal 1201 wird durch die Kombinationsverarbeitung 1202 mit einem durch die Merkmalsspeicherungs-Steuereinheit 121 verarbeiteten Merkmal 1212 kombiniert. Ein kombiniertes Merkmal 1210 wird an die Merkmalsspeicherungs-Steuereinheit 121 übergeben.
Die Merkmalsspeicherungs-Steuereinheit 121 führt eine Verarbeitung 1211 der Aktualisierung des internen Zustands aus. Das an die Merkmalsspeicherungs-Steuereinheit 121 übergebene Merkmal 1210 wird an die Erkennungsverarbeitungs-Ausführungseinheit 124 übergeben und es wird die Verarbeitung 1211 der Aktualisierung des internen Zustands ausgeführt. Die Verarbeitung 1211 der Aktualisierung des internen Zustands reduziert das Merkmal 1210 auf der Grundlage der im Voraus gelernten Parameter, um den internen Zustand des DNN zu aktualisieren, und erzeugt in Bezug auf den aktualisierten internen Zustand das Merkmal 1212. Das Merkmal 1212 wird durch die Kombinationsverarbeitung 1202 mit dem Merkmal 1201 kombiniert. Die Verarbeitung durch die Merkmalsspeicherungs-Steuereinheit 121 entspricht der Verarbeitung unter Verwendung des RNN.
Die Erkennungsverarbeitungs-Ausführungseinheit 124 führt an dem von der Merkmalsspeicherungs-Steuereinheit 121 übergebenen Merkmal 1210 z. B. auf der Grundlage der im Voraus unter Verwendung vorgegebener Trainingsdaten gelernten Parameter die Erkennungsverarbeitung 1240 aus und gibt das Erkennungsergebnis einschließlich Informationen hinsichtlich des Erkennungsgebiets und des Zuverlässigkeitsgrads aus.
Wie oben beschrieben wurde, wird die Verarbeitung in der Erkennungsverarbeitungseinheit 12 gemäß der vorliegenden Ausführungsform auf der Grundlage von Parametern ausgeführt, die in der Merkmalsextraktionsverarbeitung 1200, in der Kombinationsverarbeitung 1202, in der Verarbeitung 1211 der Aktualisierung des internen Zustands und in der Erkennungsverarbeitung 1240 im Voraus gelernt wurden. Das Lernen der Parameter wird z. B. unter Verwendung von Trainingsdaten auf der Grundlage eines angenommenen Erkennungsziels ausgeführt.
Die Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 der Zuverlässigkeitsgrad-Berechnungseinheit 125 berechnet den Zuverlässigkeitsgrad-Korrekturwert für jedes Pixel auf der Grundlage der Lesegebietsinformationen und der Integrationszeitinformationen z. B. unter Verwendung der Informationen hinsichtlich der auf einer zeilenweisen Grundlage gelesenen Zeile L#x.
21 ist eine Darstellung, die Gebiete L20a, L20b (aktive Gebiete), die auf einer zeilenweisen Grundlage gelesen wurden, und Gebiete L22a, L22b (inaktive Gebiete), die nicht gelesen worden sind, darstellt. Gemäß der vorliegenden Ausführungsform ist ein Gebiet, von dem Bildinformationen gelesen worden sind, als ein aktives Gebiet bezeichnet und ist ein Gebiet, von dem keine Bildinformationen gelesen worden sind, als ein inaktives Gebiet bezeichnet.
Die Lesebereichskarten-Erzeugungseinheit 126e der Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 erzeugt das Verhältnis des aktiven Gebiets zu dem gesamten Bildgebiet als einen Rasterdurchschnitt. 21(a) stellt einen Fall dar, dass der Bereich des in einer 1/4 Periode auf einer zeilenweisen Grundlage gelesenen Gebiets L20a 1/4 des Gesamtbilds ist. Andererseits stellt 21(b) einen Fall dar, dass der Bereich des in 1/4 Periode auf einer zeilenweisen Grundlage gelesenen Gebiets L20b 1/2 des Gesamtbilds ist.
In einem derartigen Fall erzeugt die Bereichskarten-Erzeugungseinheit 126e für 21(a) das Verhältnis des aktiven Gebiets zu dem gesamten Bildgebiet, d. h. 1/4, als den Rasterdurchschnitt. Ähnlich erzeugt die Lesebereichskarten-Erzeugungseinheit 126e für 21(b) das Verhältnis des aktiven Gebiets zu dem gesamten Bildgebiet, d. h. 1/2, als den Rasterdurchschnitt. Wie oben beschrieben wurde, kann die Lesebereichskarten-Erzeugungseinheit 126e den Bilddurchschnitt unter Verwendung der Informationen hinsichtlich des aktiven Gebiets und der Informationen hinsichtlich des inaktiven Gebiets berechnen.
Die Lesebereichskarten-Erzeugungseinheit 126e kann den Rasterdurchschnitt ebenfalls unter Verwendung einer Filterungsverarbeitung berechnen. Zum Beispiel wird der Wert der Pixel in dem Gebiet L20a auf 1 gesetzt, wird der Wert der Pixel in dem Gebiet L22a auf 0 gesetzt und wird an den Pixelwerten des gesamten Gebiets des Bilds eine Glättungsoperationsverarbeitung ausgeführt. Die Glättungsoperationsverarbeitung ist z. B. eine Filterungsverarbeitung zum Verringern von Hochfrequenzkomponenten. In diesem Fall ist z. B. eine vertikale Größe des Filters als eine vertikale Länge des aktiven Gebiets + eine vertikale Länge des inaktiven Bereichs definiert. In 21(a) ist z. B. angenommen, dass die vertikale Länge des inaktiven Gebiets 12 Pixeln entspricht und dass die vertikale Länge des inaktiven Gebiets drei Pixeln entspricht. In diesem Fall ist die vertikale Größe des Filters z. B. eine Länge, die 16 Pixeln entspricht. Bei der oben beschriebenen vertikalen Größe dieses Filters wird das Ergebnis der Filterungsverarbeitung unabhängig von der horizontalen Größe als 1/4, d. h. der Rasterdurchschnitt, berechnet.
Ähnlich ist z. B. in 21(b) angenommen, dass die vertikale Länge des aktiven Gebiets drei Pixeln entspricht und dass die vertikale Länge des inaktiven Gebiets drei Pixeln entspricht. In diesem Fall ist die vertikale Größe des Filters z. B. eine Länge, die sechs Pixeln entspricht. Mit der oben beschriebenen vertikalen Größe dieses Filters wird das Ergebnis der Filterungsverarbeitung unabhängig von der horizontalen Größe als 1/2 der Zeilen, d. h. der Rasterdurchschnitt, berechnet.
Die Bewertungskorrektureinheit 127 korrigiert auf der Grundlage des Maßes für die zentrale Tendenz der Korrekturwerte in dem Erkennungsgebiet A20a einen Zuverlässigkeitsgrad, der einem Erkennungsergebnis A20a entspricht. Als das Maß für die zentrale Tendenz kann z. B. ein statistischer Wert wie etwa ein Mittelwert, ein Median oder ein Modalwert der Korrekturwerte in dem Erkennungsgebiet A20a verwendet werden. Zum Beispiel wird das Maß für die zentrale Tendenz auf 1/4, d. h. auf den Mittelwert der Korrekturwerte in dem Erkennungsgebiet A20a, eingestellt. Wie oben beschrieben ist, kann die Bewertungskorrektureinheit 127 den gelesenen Rasterdurchschnitt für die Berechnung des Zuverlässigkeitsgrads verwenden.
Andererseits korrigiert die Bewertungskorrektureinheit 127 einen Zuverlässigkeitsgrad, der einem Erkennungsgebiet A20b entspricht, auf der Grundlage eines Maßes für die zentrale Tendenz der Korrekturwerte in dem Erkennungsgebiet A20b. Zum Beispiel ist angenommen, dass das Maß für die zentrale Tendenz 1/2, d. h. ein Mittelwert der Korrekturwerte in dem Erkennungsgebiet A20b, ist. Als ein Ergebnis wird der Zuverlässigkeitsgrad, der dem Erkennungsgebiet A20a entspricht, auf der Grundlage von 1/4 korrigiert und wird der Zuverlässigkeitsgrad, der dem Erkennungsgebiet A20a entspricht, auf der Grundlage von 1/2 korrigiert. Gemäß der vorliegenden Ausführungsform wird ein durch Multiplizieren des Maßes für die zentrale Tendenz der Korrekturwerte in dem Erkennungsgebiet A20b mit dem Zuverlässigkeitsgrad, der dem Erkennungsgebiet A20b entspricht, erhaltener Wert als der endgültige Zuverlässigkeitsgrad eingestellt. Es wird angemerkt, dass der Zuverlässigkeitsgrad mit einem Ausgangswert multipliziert werden kann, nachdem eine Funktionsoperation mit dem Maß für die zentrale Tendenz als eine Eingabe unter Verwendung einer Funktion mit einer nichtlinearen Eingabe/Ausgabe-Beziehung ausgeführt worden ist.
Wie oben beschrieben ist, werden durch die Sensorsteuerung die gelesenen Gebiete L20a, L20b und die nicht gelesenen Gebiete L22a, L22b erzeugt. Somit ist sie von der allgemeinen Erkennungsverarbeitung des Lesens von Pixeln in dem Gesamtgebiet verschieden. Im Ergebnis besteht eine Möglichkeit, dass sich die Genauigkeit des Zuverlässigkeitsgrads verschlechtert, wenn sie auf einen Fall angewendet wird, dass die allgemeinen Gebiete L20a, L20b, von denen der Zuverlässigkeitsgrad gelesen worden ist, und die Gebiete L22a, L22b, von denen kein Zuverlässigkeitsgrad gelesen worden ist, erzeugt werden. Andererseits wird gemäß der vorliegenden Ausführungsform der Korrekturwert jedes Pixels in Übereinstimmung mit die gelesenen Gebieten L20a, L20b/(die gelesenen Gebiete L20a, L20b + die nicht gelesenen Gebiete L22a, L22b), der durch die Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 gelesen wird, als der Rasterdurchschnitt berechnet. Somit korrigiert die Bewertungskorrektureinheit 127 den Zuverlässigkeitsgrad auf der Grundlage des Korrekturwerts, sodass es möglich ist, den Zuverlässigkeitsgrad mit höherer Genauigkeit zu berechnen.
Es wird angemerkt, dass die Funktionen der Merkmalsberechnungseinheit 120, der Merkmalsspeicherungs-Steuereinheit 121, der Lesegebiets-Bestimmungseinheit 123, der Erkennungsverarbeitungs-Ausführungseinheit 124 und der Zuverlässigkeitsgrad-Berechnungseinheit 125, die oben beschrieben sind, z. B. durch ein Programm, das in dem in dem Datenverarbeitungssystem 1 enthaltenen Speicher 13 oder dergleichen gespeichert ist, wobei das Programm geladen und ausgeführt wird, implementiert werden.
In der obigen Beschreibung wird das Zeilenlesen von der Seite am oberen Ende zu der Seite am unteren Ende des Rahmens ausgeführt, wobei das Zeilenlesen aber nicht auf dieses Beispiel beschränkt ist. Zum Beispiel kann das Zeilenlesen von der Seite am linken Ende zu der Seite am rechten Ende ausgeführt werden. Alternativ kann das Zeilenlesen von der Seite am rechte Ende zu der Seite am linken Ende ausgeführt werden.
22 eine Darstellung, die Gebiete L21a, L21b, die auf einer zeilenweisen Grundlage von der Seite am linken Ende zu der Seite am rechten Endes gelesen worden sind, und Gebiete L23a, L23b, die nicht gelesen worden sind, darstellt. 22(a) stellt einen Fall der, dass der auf einer zeilenweisen Grundlage gelesene Bereich des Gebiets L21a 1/4 des Gesamtbilds ist. Andererseits stellt 22(b) einen Fall dar, dass der auf einer zeilenweisen Grundlage gelesene Bereich des Gebiets L21b 1/2 des Gesamtbilds ist.
In diesem Fall erzeugt die Lesebereichskarten-Erzeugungseinheit 126e der Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 für 22(a) 1/4, d. h. das Verhältnis des aktiven Gebiets zu dem gesamten Bildgebiet, als den Rasterdurchschnitt. Ähnlich erzeugt die Lesebereichskarten-Erzeugungseinheit 126e für 21(b) 1/2, d. h. das Verhältnis des aktiven Gebiets zu dem gesamten Bildgebiet, als den Rasterdurchschnitt.
Die Bewertungskorrektureinheit 127 korrigiert den Zuverlässigkeitsgrad, der dem Erkennungsgebiet A21a entspricht, auf der Grundlage des Maßes für die zentrale Tendenz der Korrekturwerte in dem Erkennungsgebiet A21a. Zum Beispiel ist angenommen, dass das Maß für die zentrale Tendenz 1/4, d. h. ein Mittelwert der Korrekturwerte in dem Erkennungsgebiet A21a, ist.
Andererseits korrigiert die Bewertungskorrektureinheit 127 den Zuverlässigkeitsgrad, der dem Erkennungsgebiet A21b entspricht, auf der Grundlage des Maßes für die zentrale Tendenz der Korrekturwerte in dem Erkennungsgebiet A21b. Zum Beispiel ist angenommen, dass das Maß für die zentrale Tendenz 1/2, d. h. ein Mittelwert der Korrekturwerte in dem Erkennungsgebiet A21b, ist.
23 ist eine Darstellung, die schematisch ein Beispiel des Lesens darstellt, das auf einer zeilenweisen Grundlage von der Seite am linken Ende zu der Seite am rechten Ende ausgeführt wird. Die Darstellung auf der Oberseite stellt ein gelesenes Gebiet und ein nicht gelesenes Gebiet dar. In einem Gebiet, in dem ein Erkennungsgebiet A23a vorhanden ist, ist ein Verhältnis eines Bereichs, in dem Zeilendaten vorhanden ist, 1/4, und in einem Gebiet, in dem ein Erkennungsgebiet A23b vorhanden ist, ist ein Verhältnis eines Bereichs, in dem Zeilendaten vorhanden sind, 1/2. Das heißt, dies ist ein Beispiel, in dem ein Gebiet, in dem Zeilendaten gelesen werden, durch die Erkennungsverarbeitungs-Ausführungseinheit 124 adaptiv geändert wird.
Die Darstellung auf der Unterseite stellt eine Zuverlässigkeitsgradkarte dar, die durch die Lesebereichskarten-Erzeugungseinheit 126e erzeugt wird. Hier ist eine zweidimensionale Verteilung in der Lesebereichskarte dargestellt. Wie oben beschrieben wurde, ist die Lesebereichskarte eine Darstellung, die eine zweidimensionale Verteilung des Zuverlässigkeitsgrad-Korrekturwerts auf der Grundlage des gelesenen Datenbereichs darstellt. Der Korrekturwert ist durch einen Graustufenwert angegeben. Zum Beispiel weist die Lesebereichskarten-Erzeugungseinheit 126e, wie oben beschrieben ist, dem aktiven Gebiet 1 zu und dem inaktiven Bildgebiet 0 zu. Daraufhin führt die Lesebereichskarten-Erzeugungseinheit 126e z. B. an dem Gesamtbild, z. B. für jeden rechteckigen Bereich, der an dem Pixel zentriert ist, eine Glättungsoperationsverarbeitung aus und erzeugt eine Bereichskarte. Der rechteckige Bereich ist z. B. ein Bereich von 5 × 5 Pixeln. Bei einer derartigen Verarbeitung in 23 ist der Korrekturwert jedes Pixels in einem Gebiet, in dem das Bereichsverhältnis 1/4 ist, näherungsweise 1/4, obwohl es in Abhängigkeit von der Pixelposition eine Variation gibt. Andererseits ist der Korrekturwert jedes Pixels in einem Gebiet, in dem das Bereichsverhältnis 1/2 ist, näherungsweise 1/2, obwohl es in Abhängigkeit von der Pixelposition eine Variation gibt. Es wird angemerkt, dass der vorgegebene Bereich nicht auf ein Rechteck beschränkt ist und z. B. eine Ellipse, ein Kreis oder dergleichen sein kann. Darüber hinaus ist gemäß der vorliegenden Ausführungsform ein Bild, das durch Zuweisen vorgegebener Werte zu dem aktiven Gebiet und zu dem inaktiven Gebiet und durch Ausführen einer Glättungsoperationsverarbeitung erhalten wird, als eine Bereichskarte bezeichnet.
Die Bewertungskorrektureinheit 127 korrigiert den Zuverlässigkeitsgrad, der dem Erkennungsgebiet A21b für das Erkennungsgebiet A23a entspricht, auf der Grundlage des Maßes für die zentrale Tendenz der Korrekturwerte in dem Erkennungsgebiet A21b. Zum Beispiel ist angenommen, dass das Maß für die zentrale Tendenz 1/4, d. h. der Mittelwert der Korrekturwerte in dem Erkennungsgebiet A23ab, ist. Andererseits wird für das Erkennungsgebiet A23b der Zuverlässigkeitsgrad, der dem Erkennungsgebiet A23b entspricht, auf der Grundlage des Maßes für die zentrale Tendenz der Korrekturwerte in dem Erkennungsgebiet A23b korrigiert. Zum Beispiel ist angenommen, dass das Maß für die zentrale Tendenz 1/2, d. h. der Mittelwert der Korrekturwerte in dem Erkennungsgebiet A23b, ist. Wie oben beschrieben ist, ermöglicht das Anzeigen der Zuverlässigkeitsgradkarte, den Zuverlässigkeitsgrad des Erkennungsgebiets in dem Bildgebiet in kurzer Zeit vollständig zu begreifen.
24 ist eine Darstellung, die schematisch einen Wert der Zuverlässigkeitsgradkarte darstellt, falls sich der Lesebereich in einem Erkennungsgebiet A24 ändert. Wie in 24 dargestellt ist, ändert sich der Wert der Zuverlässigkeitsgradkarte in dem Erkennungsgebiet A24 ebenfalls, wenn sich der Lesebereich in dem Erkennungsgebiet A24 ändert. In diesem Fall kann die Bewertungskorrektureinheit 127 als das Maß für die zentrale Tendenz in dem Erkennungsgebiet A24 einen Wert des Moduswerts in dem Erkennungsgebiet A24, einen Wert des Medians in dem Erkennungsgebiet A24, einen gewichteten integrierten Wert mit einer Entfernung von dem Zentrum des Erkennungsgebiet A24 als ein Gewicht oder dergleichen verwenden.
25 ist eine Darstellung, die schematisch ein Beispiel darstellt, in dem der Lesebereich von Zeilendaten eingeschränkt ist. Wie in 25 dargestellt ist, kann der Lesebereich von Zeilendaten zu jedem Lesezeitpunkt geändert werden. Auch in diesem Fall kann die Lesebereichskarten-Erzeugungseinheit 126e die Zuverlässigkeitsgradkarte auf ähnliche Weise wie oben erzeugen.
26 ist eine Darstellung, die schematisch ein Beispiel der Identifizierungsverarbeitung (Erkennungsverarbeitung) unter Verwendung des DNN darstellt, falls Zeitreiheninformationen nicht verwendet werden. Wie in 26 dargestellt ist, wird in diesem Fall ein Bild unterabgetastet und in das DNN eingegeben. In dem DNN wird an dem eingegebenen Bild eine Identifizierungsverarbeitung ausgeführt und wird ein Identifizierungsergebnis ausgegeben.
27A ist eine Darstellung, die ein Beispiel darstellt, in dem ein Bild in einem Gittermuster unterabgetastet wird. Selbst wenn wie oben beschrieben das Gesamtbild unterabgetastet wird, kann die Lesebereichskarten-Erzeugungseinheit 126e die Zuverlässigkeitsgradkarte unter Verwendung eines Verhältnisses der Anzahl abgetasteter Pixel zu der Gesamtanzahl von Pixeln erzeugen. In diesem Fall korrigiert die Bewertungskorrektureinheit 127 für das Erkennungsgebiet A26 den Zuverlässigkeitsgrad, der dem Erkennungsgebiet A26 entspricht, auf der Grundlage des Maßes für die zentrale Tendenz der Korrekturwerte in dem Erkennungsgebiet A26.
27B ist eine Darstellung, die ein Beispiel darstellt, in dem ein Bild in einem Schachbrettmuster unterabgetastet wird. Selbst wenn wie oben beschrieben das Gesamtbild unterabgetastet wird, kann die Lesebereichskarten-Erzeugungseinheit 126e die Zuverlässigkeitsgradkarte unter Verwendung eines Verhältnisses der Anzahl abgetasteter Pixel zu der Gesamtzahl von Pixeln erzeugen. In diesem Fall korrigiert die Bewertungskorrektureinheit 127 für das Erkennungsgebiet A27 den Zuverlässigkeitsgrad, der dem Erkennungsgebiet A27 entspricht, auf der Grundlage des Maßes für die zentrale Tendenz der Korrekturwerte in dem Erkennungsgebiet A27.
28 ist eine Darstellung, die schematisch einen Fall darstellt, dass die Zuverlässigkeitsgradkarte für ein Verkehrssystem wie etwa ein bewegtes Objekt verwendet wird. (a) ist eine Graustufendarstellung, die einen Mittelwert eines Lesebereichs darstellt. Die durch „0“ angegebene Dichte gibt an, dass der Mittelwert der gelesenen Erkennung 0 ist, und die durch „1/2“ angegebene Dichte gibt an, dass der Mittelwert der gelesenen Erkennung 1/2 ist.
(b) und (c) stellen ein Beispiel dar, in dem die Lesebereichskarte als die Zuverlässigkeitsgradkarte verwendet ist. Der Korrekturwert in dem rechten Gebiet von (b) ist kleiner als der Korrekturwert in dem rechten Gebiet von (c). Im Ergebnis wird z. B. gemäß der wie in (b) dargestellten Situation der Kurs der Kamera zu der rechten Seite geändert, falls die Zuverlässigkeitsgradkarte nicht verwendet ist, obwohl es eine Möglichkeit gibt, dass auf der rechten Seite der Kamera ein Objekt vorhanden ist. Andererseits besitzt das Gebiet auf der rechten Seite der Kamera einen niedrigen Korrekturwert und einen niedrigen Zuverlässigkeitsgrad, wenn die Zuverlässigkeitsgradkarte verwendet wird, sodass es unter Berücksichtigung der Möglichkeit, dass auf der rechten Seite der Kamera ein Objekt vorhanden ist, möglich ist anzuhalten, ohne den Kurs der Kamera zu der rechten Seite zu ändern.
Wie in (c) dargestellt ist, nimmt andererseits der Zuverlässigkeitsgrad zu, wenn der Korrekturwert in den Gebiet auf der rechten Seite der Kamera zunimmt, sodass bestimmt wird, dass es auf der rechten Seite der Kamera kein Objekt gibt und der Kurs zu der rechten Seite der Kamera geändert werden kann,
Außerdem ist es notwendig, eine Möglichkeit zu betrachten, dass es kein Objekt gibt, z. B., falls der Zuverlässigkeitsgrad niedrig ist, selbst wenn die Detektionsbewertung hoch ist (falls der Korrekturwert auf der Grundlage des gelesenen Bereichs niedrig ist). Wie oben beschrieben ist, ist es als ein Aktualisierungsbeispiel des Zuverlässigkeitsgrads möglich, Zuverlässigkeitsgrad = Detektionsbewertung (ursprünglicher Zuverlässigkeitsgrad) . Korrekturwert auf der Grundlage des gelesenen Bereichs zu berechnen. Falls der Grad der Dringlichkeit niedrig ist (z. B. falls es keine Möglichkeit einer sofortigen Kollision gibt), kann bestimmt werden, dass kein Objekt da ist, falls der Zuverlässigkeitsgrad (der Wert nach Korrektur mit dem Korrekturwert auf der Grundlage des gelesenen Bereichs) niedrig ist, selbst wenn die Detektionsbewertung hoch ist. Falls der Grad der Dringlichkeit hoch ist (z. B., falls es eine Möglichkeit einer sofortigen Kollision gibt), kann bestimmt werden, dass ein Objekt da ist, selbst wenn die Detektionsbewertung hoch ist, falls der Zuverlässigkeitsgrad (der Wert nach der Korrektur mit dem Korrekturwert auf der Grundlage des gelesenen Bereichs) niedrig ist. Wie oben beschrieben wurde, ermöglicht die Verwendung der Zuverlässigkeitsgradkarte, ein bewegtes Objekt wie etwa ein Fahrzeug sicherer zu steuern.
29 ist ein Ablaufplan, der einen Ablauf der Verarbeitung in der Zuverlässigkeitsgrad-Berechnungseinheit 125 darstellt. Es wird hier ein Verarbeitungsbeispiel im Fall von Zeilendaten beschrieben.
Zunächst erfasst die Speichereinheit 126b für die gelesene Anzahl von der Leseeinheit 110 Lesegebietsinformationen einschließlich des Lesens der Zeilennummerninformationen (Schritt S100) und speichert sie die gelesenen Pixel- und Zeitinformationen als gelesene Anzahlinformationen für jedes Pixel in der Speichereinheit 126b (Schritt S102).
Nachfolgend bestimmt die Erfassungseinheit 126d für die gelesene Anzahl, ob ein Auslösesignal für die Kartenerzeugung eingegeben worden ist (Schritt S104) . Falls es keine Eingabe gibt (Nein in Schritt S104), wird die Verarbeitung von dem Schritt S100 wiederholt. Falls es andererseits eine Eingabe gibt (Ja in Schritt S104), erfasst die Erfassungseinheit 126d für die gelesene Anzahl von der Speichereinheit 126b für die gelesene Anzahl die Integrationszeit, z. B. die gelesene Anzahl jedes Pixels innerhalb einer Zeitdauer, die 1/4 Periode entspricht (Schritt S106). Hier ist angenommen, dass die gelesene Anzahl jedes Pixels innerhalb der Zeitdauer, die einer 1/4 Periode entspricht, eins ist. Zum Beispiel kann innerhalb der Zeitdauer, die 1/4 Periode entspricht, jedes Pixel mehrmals gelesen werden, wobei dieser Fall aber später beschrieben wird.
Nachfolgend erzeugt die Lesebereichskarten-Erzeugungseinheit 126e einen Korrekturwert, der ein Verhältnis des Lesebereichs für jedes Pixel angibt (Schritt S108). Nachfolgend gibt die Lesebereichskarten-Erzeugungseinheit 126e zweidimensionale Korrekturwert-Zuweisungsdaten als die Zuverlässigkeitsgradkarte an die Ausgabesteuereinheit 15 aus.
Nachfolgend erfasst die Bewertungskorrektureinheit 127 eine Detektionsbewertung für ein rechteckiges Gebiet (z. B. das Erkennungsgebiet A20a in 21), d. h. einen Zuverlässigkeitsgrad, von der Erkennungsverarbeitungs-Ausführungseinheit 124 (Schritt S110) .
Nachfolgend erfasst die Bewertungskorrektureinheit 127 ein Maß für die zentrale Tendenz der Korrekturwerte in dem rechteckigen Gebiet (z. B. dem Erkennungsgebiet A20a in 21) (Schritt S112). Als das Maß für die zentrale Tendenz kann z. B. ein statistischer Wert wie etwa ein Mittelwert, ein Median oder ein Modalwert der Korrekturwerte in dem Erkennungsgebiet A20a verwendet werden.
Daraufhin aktualisiert die Bewertungskorrektureinheit 127 die Detektionsbewertung auf der Grundlage der Detektionsbewertung und des Maßes für die zentrale Tendenz (Schritt S114), gibt sie die Detektionsbewertung als den endgültigen Zuverlässigkeitsgrad aus und bringt sie die Gesamtverarbeitung zu einem Ende.
Wie oben beschrieben wurde, wird gemäß der vorliegenden Ausführungsform der Zuverlässigkeitsgrad-Korrekturwert für jedes Pixel in Übereinstimmung mit den Gebieten L20a, L20b/(gelesene Gebiete L20a, L20b + nicht gelesene Gebiete L22a, L22b) (21), der durch die Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 gelesen wird, berechnet. Daraufhin korrigiert die Bewertungskorrektureinheit 127 den Zuverlässigkeitsgrad auf der Grundlage des Korrekturwerts, sodass es möglich ist, den Zuverlässigkeitsgrad mit höherer Genauigkeit zu berechnen. Im Ergebnis können Werte des Zuverlässigkeitsgrads nach der Korrektur einheitlich verarbeitet werden, sodass die Erkennungsgenauigkeit der Erkennungsverarbeitung weiter erhöht werden kann, selbst wenn durch die Sensorsteuerung die gelesenen Gebiete L20a, L20b und die nicht gelesenen Gebete L22a, L22b erzeugt werden.
(Erste Änderung der ersten Ausführungsform)
Ein Datenverarbeitungssystem 1 gemäß einer ersten Änderung der ersten Ausführungsform unterscheidet sich von dem Datenverarbeitungssystem 1 gemäß der ersten Ausführungsform dadurch, dass ein Bereich, in dem der Zuverlässigkeitsgrad-Korrekturwert berechnet wird, auf der Grundlage des aufnahmefähigen Felds des Merkmals berechnet werden kann. Im Folgenden werden Unterschiede von dem Datenverarbeitungssystem 1 gemäß der ersten Ausführungsform beschrieben.
30 ist eine schematische Darstellung, die eine Beziehung zwischen dem Merkmal und dem aufnahmefähigen Feld darstellt. Das aufnahmefähige Feld bezieht sich auf einen Bereich eines Eingangsbilds, auf den Bezug genommen wird, wenn ein Merkmal berechnet wird, mit anderen Worten, auf einen Bereich eines Eingangsbilds, der durch ein Merkmal bedeckt ist. Es sind ein aufnahmefähiges Feld R30 in einem Bild A312, das einem Merkmalsgebiet AF30 in einem Erkennungsgebiet A30 in dem Bild A312 entspricht, und ein aufnahmefähiges Feld R32 in dem Bild A312, das einem Merkmalsgebiet AF32 in einem Erkennungsgebiet A32 entspricht, dargestellt. Wie in 31 dargestellt ist, ist ein Merkmal des Merkmalsgebiets AF30 als ein Merkmal, das dem Erkennungsgebiet A30 entspricht, verwendet. Gemäß der vorliegenden Ausführungsform ist ein Bereich in dem Bild A312, der zum Berechnen des dem Erkennungsgebiet A30 entsprechenden Merkmals verwendet wird, als das aufnahmefähige Feld R30 bezeichnet. Ähnlich entspricht ein Bereich in dem Bild A312, der zum Berechnen des dem Erkennungsgebiet A32 entsprechenden Merkmals verwendet wird, dem aufnahmefähigen Feld R32.
31 ist eine Darstellung, die schematisch die Erkennungsgebiete A30, A32 und die aufnahmefähigen Felder R30, R32 in einer Zuverlässigkeitsgradkarte darstellt. Eine Bewertungskorrektureinheit 127 gemäß der ersten Änderung unterscheidet sich von der Bewertungskorrektureinheit 127 gemäß der ersten Ausführungsform dadurch, dass die Bewertungskorrektureinheit 127 gemäß der ersten Ausführungsform ebenfalls das Maß für die zentrale Tendenz der Korrekturwerte unter Verwendung von Informationen hinsichtlich der aufnahmefähigen Felder R30, R32 berechnen kann und dass z. B. die Position und die Größe des aufnahmefähigen Felds R30 und des Erkennungsgebiets A30 in dem Bild 312 voneinander verschieden sind, sodass der Mittelwert des Lesebereichs verschieden sein kann. Um einen Einfluss des Lesegebiets genauer zu widerspiegeln, ist es erwünscht, den zum Berechnen des Merkmals verwendeten Bereich des aufnahmefähigen Felds R30 zu verwenden.
Somit korrigiert z. B. die Bewertungskorrektureinheit 127 eine Detektionsbewertung des Erkennungsgebiets A30 unter Verwendung des Maßes der allgemeinen Tendenz der Korrekturwerte in dem aufnahmefähigen Feld R30. Zum Beispiel kann die Bewertungskorrektureinheit 127 einen statistischen Wert wie etwa einen Modalwert der Korrekturwerte in dem aufnahmefähigen Feld R30 als das Maß für die zentrale Tendenz einstellen. Daraufhin aktualisiert die Bewertungskorrektureinheit 127 die Detektionsbewertung des Erkennungsgebiets A30 z. B. durch Multiplizieren der Detektionsbewertung mit dem Maß für die zentrale Tendenz in dem aufnahmefähigen Feld R30. Die aktualisierte Detektionsbewertung wird als der endgültige Zuverlässigkeitsgrad eingestellt. Ähnlich kann die Bewertungskorrektureinheit 127 einen statistischen Wert wie etwa einen Mittelwert, einen Median oder einen Modalwert der Korrekturwerte in dem aufnahmefähigen Feld R32 als das Maß für die zentrale Tendenz verwenden. Daraufhin aktualisiert die Bewertungskorrektureinheit 127 die Detektionsbewertung des Erkennungsgebiets A30 z. B. durch Multiplizieren der Detektionsbewertung mit dem Maß für die zentrale Tendenz in dem aufnahmefähigen Feld R32.
Wie in 31 dargestellt ist, wird der Zuverlässigkeitsgrad des Erkennungsgebiets A30 in der Weise aktualisiert, dass er höher als der Zuverlässigkeitsgrad des Erkennungsgebiets A32 ist, wenn die Detektionsbewertung unter Verwendung der Erkennungsgebiete A30, A32 aktualisiert wird. Andererseits ist ein Verhältnis zwischen dem aktualisierten Zuverlässigkeitsgrad des Erkennungsgebiets A30 und dem aktualisierten Zuverlässigkeitsgrad des Erkennungsgebiets A32 äquivalent, falls die Detektionsbewertung unter Verwendung der aufnahmefähigen Felder R30, R32 aktualisiert wird, z. B., falls das Maß für die zentrale Tendenz der Modalwert der aufnahmefähigen Felder R30, R32 ist. Wie oben beschrieben wurde, kann der Zuverlässigkeitsgrad durch Betrachtung der Bereiche der aufnahmefähigen Felder R30, R32 mit höherer Genauigkeit aktualisiert werden.
32 ist eine Darstellung, die schematisch einen Beitragsgrad zu dem Merkmal in dem Erkennungsgebiet A30 darstellt. Schattierungen in dem aufnahmefähigen Feld R30 in der rechten Darstellung geben einen Gewichtungswert an, der einen Beitragsgrad zu der Erkennungsverarbeitung an dem Merkmal in dem Erkennungsgebiet A30 (siehe 31) widerspiegelt. Je höher die Stärke ist, desto höher ist der Beitragsgrad.
Die Wertungskorrektureinheit 127 kann die Korrekturwerte in dem aufnahmefähigen Feld R30 unter Verwendung eines derartigen Gewichtungswerts aufsummieren und den resultierenden Wert als das Maß für die zentrale Tendenz verwenden. Da der Beitragsgrad zu dem Merkmal widerspiegelt wird, wird die Genauigkeit des aktualisierten Zuverlässigkeitsgrads des Erkennungsgebiets A30 weiter erhöht.
(Zweite Änderung der ersten Ausführungsform)
Ein Datenverarbeitungssystem 1 gemäß einer zweiten Änderung der ersten Ausführungsform wird auf einen Fall angewendet, dass als eine Erkennungsaufgabe eine semantische Segmentierung ausgeführt wird. Die semantische Segmentierung ist ein Erkennungsverfahren, das allen Pixel in einem Bild in Übereinstimmung mit Eigenschaften jedes Pixels oder nahegelegenen Pixels Kennungen oder Kategorien zuordnet (zuweist, diese setzt, klassifiziert), und das z. B. durch tiefes Lernen unter Verwendung eines neuronalen Netzes ausgeführt wird. Mittels semantischer Segmentierung können eine Menge von Pixeln, die dieselbe Kennung oder Kategorie bilden, auf der Grundlage der jedem Pixel zugeordneten Kennung oder Kategorie erkannt werden und kann das Bild auf einer Pixelebene in mehrere Gebiete unterteilt werden, sodass ein Zielobjekt mit einer unregelmäßigen Form von Objekten um das Zielobjekt deutlich unterschieden und detektiert werden kann. Wenn die semantische Segmentierungsaufgabe z. B. an einer allgemeinen Straßenszene ausgeführt wird, können ein Fahrzeug, ein Fußgänger, ein Zeichen, eine Straße, ein Fußweg, ein Signal, der Himmel, ein Baum am Straßenrand, eine Leitplanke und andere Objekte in ihre jeweiligen Kategorien klassifiziert und in einem Bild erkannt werden. Die Kennung dieser Klassifizierung, der Typ der Kategorie und deren Anzahl können unter Verwendung eines Datensatzes, der zum Lernen verwendet wird, und individueller Einstellungen geändert werden. Zum Beispiel kann es verschiedene Änderungen geben, die von Zwecken oder von der Vorrichtungsleistungsfähigkeit abhängen, wie etwa einen Fall, dass nur zwei Kennungen oder Kategorien einer Person und eines Hintergrunds verwendet sind, oder einen Fall, dass wie oben beschrieben mehrere detaillierte Kennungen oder Kategorien verwendet sind. Im Folgenden werden Unterschiede von dem Datenverarbeitungssystem 1 gemäß der ersten Ausführungsform beschrieben.
33 ist eine schematische Darstellung, die ein Bild darstellt, in dem die Erkennungsverarbeitung auf der Grundlage allgemeiner semantischer Segmentierung ausgeführt wird. In dieser Verarbeitung wird die semantische Segmentierungsverarbeitung an dem Gesamtbild ausgeführt, sodass Kennungen oder Kategorien, die Pixeln zugeordnet sind, auf einer pixelweisen Grundlage eingestellt werden und ein Bild auf einer Pixelebene in mehrere Gebiete unterteilt wird, wobei jedes der Gebiete eine Menge von Pixeln ist, die dieselbe Kennung oder Kategorie bilden. Daraufhin wird in der semantischen Segmentierung für jedes Pixel allgemein der Zuverlässigkeitsgrad der eingestellten Kennung oder Kategorie ausgegeben. Darüber hinaus kann ein Mittelwert von Zuverlässigkeitsgraden jeder Menge von Pixeln, die dieselbe Kennung oder Kategorie bilden, berechnet werden und kann für jede Menge von Pixeln unter Verwendung des Mittelwerts als der Zuverlässigkeitsgrad der Menge von Pixeln ein Zuverlässigkeitsgrad berechnet werden. Darüber hinaus kann zusätzlich zu dem Mittelwert ein Median oder dergleichen verwendet werden.
Gemäß der zweiten Änderung der ersten Ausführungsform korrigiert die Bewertungskorrektureinheit 127 den durch die allgemeine semantische Segmentierungsverarbeitung berechneten Zuverlässigkeitsgrad. Das heißt, es werden eine Korrektur unter Verwendung des Lesegebiets (Rasterdurchschnitts) in dem Bild, eine Korrektur auf der Grundlage des Maßes für die zentrale Tendenz der Korrekturwerte des Erkennungsgebiets, eine Korrektur unter Verwendung der Zuverlässigkeitsgradkarte (Kartenkombinationseinheit 126j, Lesebereichskarten-Erzeugungseinheit 126e, Lesehäufigkeitskarten-Erzeugungseinheit 126f, Mehrfachbelichtungskarten-Erzeugungseinheit 126g und Dynamikumfangkarten-Erzeugungseinheit 126h) und eine Korrektur unter Verwendung des aufnahmefähigen Felds ausgeführt. Wie oben beschrieben wurde, kann die Zuverlässigkeitsgradberechnung in der zweiten Änderung der ersten Ausführungsform durch Berechnen des korrigierten Zuverlässigkeitsgrads durch Anwenden der vorliegenden Erfindung auf die Erkennungsverarbeitung durch die semantische Segmentierung mit höherer Genauigkeit ausgeführt werden.
(Zweite Ausführungsform)
Ein Datenverarbeitungssystem 1 gemäß einer zweiten Ausführungsform unterscheidet sich von dem Datenverarbeitungssystem 1 gemäß der ersten Ausführungsform dadurch, dass der Korrekturwert des Zuverlässigkeitsgrads auf der Grundlage der Pixellesehäufigkeit berechnet werden kann. Im Folgenden werden Unterschiede von dem Datenverarbeitungssystem 1 gemäß der ersten Ausführungsform beschrieben.
34 ist ein Blockschaltplan einer Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 gemäß der zweiten Ausführungsform. Wie in 34 dargestellt ist, enthält die Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 ferner eine Lesehäufigkeitskarten-Erzeugungseinheit 126f.
35 ist eine Darstellung, die schematisch eine Beziehung zwischen einem Erkennungsgebiet A36 und Zeilendaten L36a darstellt. Die obere Darstellung stellt die Zeilendaten L36a und ein nicht gelesenes Gebiet L36b dar und die untere Darstellung stellt eine Zuverlässigkeitsgradkarte dar. Hier ist sie eine Lesehäufigkeitskarte. (a) stellt einen Fall dar, dass die gelesene Anzahl der Zeilendaten L36a 1 ist, (b) stellt einen Fall dar, dass die gelesene Anzahl 2 ist, (c) stellt einen Fall dar, dass die gelesene Anzahl 3 ist und (d) stellt einen Fall dar, dass die gelesene Anzahl 4 ist.
Die Lesehäufigkeitskarten-Erzeugungseinheit 126f führt an der Auftretenshäufigkeit der Pixel in dem Gesamtgebiet des Bilds eine Glättungsoperationsverarbeitung aus. Die Glättungsoperationsverarbeitung ist z. B. eine Filterungsverarbeitung zum Verringern von Hochfrequenzkomponenten.
Wie in 35 dargestellt ist, wird die Glättungsoperationsverarbeitung gemäß der vorliegenden Ausführungsform z. B. an dem Gesamtbild, z. B. an jedem rechteckigen Bereich, der an dem Pixel zentriert ist, ausgeführt. Der rechteckige Bereich ist z. B. ein Bereich von 5 × 5 Pixeln. Obwohl es bei einer derartigen Verarbeitung in 35(a) eine Variation in Abhängigkeit von der Pixelposition gibt, ist der Korrekturwert jedes Pixels näherungsweise 1/2. Andererseits entspricht in 35(b) ein Gebiet, in dem die Zeilendaten L36a gelesen werden, 1, entspricht in 35(c) das Gebiet, in dem die Zeilendaten L36a gelesen werden, 3/2 und entspricht in 35(d) das Gebiet, in dem die Zeilendaten L36a gelesen werden, 2. Darüber hinaus ist die Lesehäufigkeit in einem Gebiet, in dem keine Daten gelesen werden, 0.
Die Bewertungskorrektureinheit 127 korrigiert den dem Erkennungsgebiet A36 entsprechenden Zuverlässigkeitsgrad auf der Grundlage des Maßes der allgemeinen Tendenz der Korrekturwerte in dem Erkennungsgebiet A36. Als das Maß für die zentrale Tendenz kann z. B. ein statistischer Wert wie etwa ein Mittelwert, ein Median und ein Modalwert der Korrekturwerte in dem Erkennungsgebiet A36 verwendet werden.
Wie oben beschrieben wurde, führt gemäß der vorliegenden Ausführungsform die Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 an der Auftretenshäufigkeit des Pixels innerhalb des vorgegebenen Bereichs, der an dem Pixel für das gesamte Bildgebiet zentriert ist, die Glättungsoperationsverarbeitung aus und berechnet sie den Korrekturwert des Zuverlässigkeitsgrads für jedes Pixel in dem gesamten Bildgebiet. Da die Bewertungskorrektureinheit 127 den Zuverlässigkeitsgrad auf der Grundlage des Korrekturwerts korrigiert, ist es daraufhin möglich, den Zuverlässigkeitsgrad, der die Pixellesehäufigkeit widerspiegelt, mit höherer Genauigkeit zu berechnen. Im Ergebnis kann der Wert des Zuverlässigkeitsgrads nach der Korrektur einheitlich verarbeitet werden, selbst wenn es einen Unterschied der Pixellesehäufigkeit gibt, sodass die Erkennungsgenauigkeit der Erkennungsverarbeitung weiter erhöht werden kann.
(Dritte Ausführungsform)
Ein Datenverarbeitungssystem 1 gemäß einer dritten Ausführungsform unterscheidet sich von dem Datenverarbeitungssystem 1 gemäß der ersten Ausführungsform dadurch, dass der Korrekturwert des Zuverlässigkeitsgrads auf der Grundlage der Pixelbelichtungsanzahl berechnet werden kann. Im Folgenden werden Unterschiede von dem Datenverarbeitungssystem 1 gemäß der ersten Ausführungsform beschrieben.
36 ist ein Blockschaltplan einer Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 gemäß der dritten Ausführungsform. Wie in 36 dargestellt ist, enthält die Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 ferner eine Mehrfachbelichtungskarten-Erzeugungseinheit 126g.
37 ist eine Darstellung, die schematisch eine Beziehung mit der Belichtungshäufigkeit der Zeilendaten L36a darstellt. Die obere Darstellung stellt die Zeilendaten L36a und ein nicht gelesenes Gebiet L36b dar und die untere Darstellung stellt eine Zuverlässigkeitsgradkarte dar. Hier ist sie eine Mehrfachbelichtungskarte. (a) stellt einen Fall dar, dass die Belichtungsanzahl der Zeilendaten L36a 2 ist, (b) stellt einen Fall dar, dass die Belichtungsanzahl 4 ist, und (c) stellt einen Fall dar, dass die Belichtungsanzahl 6 ist.
Die Lesehäufigkeitskarten-Erzeugungseinheit 126f führt an der Belichtungsanzahl von Pixeln innerhalb eines vorgegebenen Bereichs, der an dem Pixel für das gesamte Bildgebiet zentriert ist, eine Glättungsoperationsverarbeitung aus und berechnet für jedes Pixel in dem gesamten Bildgebiet den Korrekturwert des Zuverlässigkeitsgrads. Die Glättungsoperationsverarbeitung ist z. B. eine Filterungsverarbeitung zum Verringern von Hochfrequenzkomponenten.
Wie in 37 dargestellt ist, ist gemäß der vorliegenden Ausführungsform z. B. angenommen, dass der vorgegebene Bereich, an dem die Glättungsoperationsverarbeitung ausgeführt wird, ein rechteckiger Bereich ist, der einem 5 × 5-Pixel-Bereich entspricht. Obwohl es bei einer derartigen Verarbeitung in 37(a) eine Variation in Abhängigkeit von der Pixelposition gibt, ist der Korrekturwert jedes Pixels näherungsweise 1/2. Andererseits ist in 37(b) die Belichtungsanzahl des Gebiets, in dem die Zeilendaten L36a gelesen werden, 1, ist in 37(c) die Belichtungsanzahl des Gebiets, in dem die Zeilendaten L36a gelesen werden, 3/2 und ist in 37(d) die Belichtungsanzahl des Gebiets, in dem die Zeilendaten L36a gelesen werden, 2. Darüber hinaus ist die Lesehäufigkeit in einem Gebiet, in dem keine Daten gelesen werden, 0.
Die Bewertungskorrektureinheit 127 korrigiert den dem Erkennungsgebiet A36 entsprechenden Zuverlässigkeitsgrad auf der Grundlage des Maßes für die zentrale Tendenz der Korrekturwerte in dem Erkennungsgebiet A36. Als das Maß für die zentrale Tendenz kann z. B. ein statistischer Wert wie etwa ein Mittelwert, ein Median und ein Modalwert als der Korrekturwert in dem Erkennungsgebiet A36 verwendet werden.
Wie oben beschrieben wurde, führt die Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 gemäß der vorliegenden Ausführungsform die Verarbeitung der Glättung der Belichtungsanzahl jedes Pixels innerhalb des vorgegebenen Bereichs, der an dem Pixel in dem gesamten Bildgebiet zentriert ist, aus und berechnet sie für jedes Pixels in dem gesamten Bildgebiet den Korrekturwert des Zuverlässigkeitsgrads. Da die Bewertungskorrektureinheit 127 den Zuverlässigkeitsgrad auf der Grundlage des Korrekturwerts korrigiert, ist es daraufhin möglich, den Zuverlässigkeitsgrad, der die Pixelbelichtungsanzahl widerspiegelt, mit höherer Genauigkeit zu berechnen. Im Ergebnis kann der Wert des Zuverlässigkeitsgrads nach der Korrektur einheitlich verarbeitet werden, sodass die Erkennungsgenauigkeit der Erkennungsverarbeitung weiter erhöht werden kann, selbst wenn es einen Unterschied der Pixelbelichtungsanzahl gibt.
(Vierte Ausführungsform)
Ein Datenverarbeitungssystem 1 gemäß einer vierten Ausführungsform unterscheidet sich von dem Datenverarbeitungssystem 1 gemäß der ersten Ausführungsform dadurch, dass der Korrekturwert des Zuverlässigkeitsgrads auf der Grundlage des Pixeldynamikumfangs berechnet werden kann. Im Folgenden werden Unterschiede von dem Datenverarbeitungssystem 1 gemäß der ersten Ausführungsform beschrieben.
38 ist ein Blockschaltplan einer Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 gemäß der vierten Ausführungsform. Wie in 38 dargestellt ist, enthält die Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 ferner eine Dynamikumfangkarten-Erzeugungseinheit 126h.
39 ist eine Darstellung, die schematisch eine Beziehung mit einem Dynamikumfang von Zeilendaten L36a darstellt. Die obere Darstellung stellt die Zeilendaten L36a und ein nicht gelesenes Gebiet L36b dar und die untere Darstellung stellt eine Zuverlässigkeitsgradkarte dar. Hier ist sie eine Dynamikumfangkarte. (a) stellt einen Fall dar, dass der Dynamikumfang der Zeilendaten L36a 40 dB ist, (b) stellt einen Fall dar, dass der Dynamikumfang 80 dB ist und (c) stellt einen Fall dar, dass der Dynamikumfang 120 dB ist.
Die Dynamikumfangkarten-Erzeugungseinheit 126h führt innerhalb eines vorgegebenen Bereichs, der an dem Pixel in dem gesamten Bildgebiet zentriert ist, die Verarbeitung der Glättung der Dynamikumfänge der Pixel aus und berechnet für jedes Pixel in dem gesamten Bildgebiet einen Korrekturwert des Zuverlässigkeitsgrads. Die Glättungsoperationsverarbeitung ist z. B. eine Filterungsverarbeitung zum Verringern von Hochfrequenzkomponenten.
Wie in 39 dargestellt ist, ist gemäß der vorliegenden Ausführungsform z. B. angenommen, dass der vorgegebene Bereich, an dem die Glättungsoperationsverarbeitung ausgeführt wird, ein rechteckiger Bereich von 5 × 5 Pixeln ist. Innerhalb einer derartigen Verarbeitung in 35(a) ist der Korrekturwert jedes Pixels näherungsweise 20, obwohl es eine Variation in Abhängigkeit von der Pixelposition gibt. Andererseits ist in 35(b) die Belichtungsanzahl des Gebiets, in dem die Zeilendaten L36a gelesen werden, 40 und ist in 35 (c) die Belichtungsanzahl des Gebiets, in dem die Zeilendaten L36a gelesen werden, 80. Darüber hinaus ist die Lesehäufigkeit in einem Gebiet, in dem keine Daten gelesen werden, 0. Es wird angemerkt, dass die Dynamikumfangkarten-Erzeugungseinheit 126h die Korrekturwerte z. B. auf einen Bereich von 0,0 bis 1,0 normiert.
Die Bewertungskorrektureinheit 127 korrigiert den Zuverlässigkeitsgrad, der dem Erkennungsgebiet A36 entspricht, auf der Grundlage des Maßes für die zentrale Tendenz der Korrekturwerte in dem Erkennungsgebiet A36. Als das Maß für die zentrale Tendenz kann z. B. ein statistischer Wert wie etwa ein Mittelwert, ein Median und ein Modalwert der Korrekturwerte in dem Erkennungsgebiet A36 verwendet werden.
Wie oben beschrieben wurde, führt die Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 gemäß der vorliegenden Ausführungsform die Verarbeitung der Glättung der Dynamikumfänge der Pixel innerhalb des vorgegebenen Bereichs, der an dem Pixel in dem gesamten Bildbereich zentriert ist, aus und berechnet sie den Korrekturwert des Zuverlässigkeitsgrads für jedes Pixel in dem gesamten Bildgebiet. Da die Bewertungskorrektureinheit 127 den Zuverlässigkeitsgrad auf der Grundlage des Korrekturwerts korrigiert, ist es daraufhin möglich, den Zuverlässigkeitsgrad, der den Pixeldynamikumfang widerspiegelt, mit höherer Genauigkeit zu berechnen. Im Ergebnis kann der Wert des Zuverlässigkeitsgrads nach der Korrektur einheitlich verarbeitet werden, sodass die Erkennungsgenauigkeit der Erkennungsverarbeitung weiter erhöht werden kann, selbst wenn es einen Unterschied des Pixeldynamikumfangs gibt.
(Fünfte Ausführungsform)
Ein Datenverarbeitungssystem 1 gemäß einer fünften Ausführungsform unterscheidet sich von dem Datenverarbeitungssystem 1 gemäß der ersten Ausführungsform dadurch, dass das Datenverarbeitungssystem 1 gemäß der fünften Ausführungsform eine Kartenkombinationseinheit enthält, die Korrekturwerte verschiedener Zuverlässigkeitsgrade kombiniert. Im Folgenden werden Unterschiede von dem Datenverarbeitungssystem 1 gemäß der ersten Ausführungsform beschrieben.
40 ist ein Blockschaltplan einer Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 gemäß der fünften Ausführungsform. Wie in 40 dargestellt ist, enthält die Zuverlässigkeitsgradkarten-Erzeugungseinheit 126 ferner eine Kartenkombinationseinheit 126j.
Die Kartenkombinationseinheit 126j kann die Ausgangswerte der Lesebereichskarten-Erzeugungseinheit 126e, der Lesehäufigkeitskarten-Erzeugungseinheit 126f, der Mehrfachbelichtungskarten-Erzeugungseinheit 126g und der Dynamikumfangkarten-Erzeugungseinheit 126h kombinieren.
Die Kartenkombinationseinheit 126j multipliziert den Korrekturwert für jedes Pixel, um die Korrekturwerte, wie durch den Ausdruck (1) dargestellt ist, zu kombinieren: $rel_map=$
$rel_map 1 \cdot rel_map 2 \cdot rel_map 3 \cdot ... rel_mapn,$
wobei rel_map1 den durch die Lesebereichskarten-Erzeugungseinheit 126e ausgegebenen Korrekturwert jedes Pixels bezeichnet, rel_map2 den durch die Lesehäufigkeitskarten-Erzeugungseinheit 126f ausgegebenen Korrekturwert jedes Pixels bezeichnet, rel_map3 den durch die Mehrfachbelichtungskarten-Erzeugungseinheit 126g ausgegebenen Korrekturwert jedes Pixels bezeichnet und rel_map4 den durch die Dynamikumfangkarten-Erzeugungseinheit 126h ausgegebenen Korrekturwert jedes Pixels bezeichnet. Im Fall einer Multiplikation wird ein kombinierter Korrekturwert rel_map 0, falls irgendeiner der Korrekturwerte 0 ist, sodass es möglich ist, eine zu einer sichereren Seite verschobene Erkennungsverarbeitung auszuführen.
Die Kartenkombinationseinheit 126j hat an dem Korrekturwert jedes Pixels eine gewichtete Addition ausgeführt, um die Korrekturwerte, wie durch den Ausdruck (2) dargestellt ist, zu kombinieren: $\begin{array}{l} rel_map = rel_map 1 \cdot coef 1 + rel_map 2 \cdot coef 2 \\ + rel_map 3 \cdot coef 3 + ... rel_mapn \cdot coefn, \end{array}$
wobei coef1, coef2, coef3 und coef4 jeweils einen Gewichtungsfaktor bezeichnen. Im Fall einer gewichteten Addition des Korrekturwerts ist es möglich, den kombinierten Korrekturwert rel_map in Übereinstimmung mit dem Beitrag jedes Korrekturwerts zu erhalten. Es wird angemerkt, dass ein Korrekturwert, der auf einem Wert eines anderen Sensors wie etwa eines Tiefensensors beruht, mit dem Wert von rel_map kombiniert werden kann.
Wie oben beschrieben wurde, kombiniert die Kartenkombinationseinheit 126j gemäß der vorliegenden Ausführungsform die Ausgangswerte der Lesebereichskarten-Erzeugungseinheit 126e, der Lesehäufigkeitskarten-Erzeugungseinheit 126f, der Mehrfachbelichtungskarten-Erzeugungseinheit 126g und der Dynamikumfangkarten-Erzeugungseinheit 126h. Im Ergebnis ist es möglich, den Korrekturwert unter Berücksichtigung des Werts jedes Korrekturwerts zu erzeugen und kann der Wert des Zuverlässigkeitsgrads nach der Korrektur einheitlich verarbeitet werden, sodass die Erkennungsgenauigkeit der Erkennungsverarbeitung weiter erhöht werden kann.
(Sechste Ausführungsform)
(6-1. Anwendungsbeispiel der Technologie der vorliegenden Offenbarung)
Nachfolgend wird als eine sechste Ausführungsform ein Anwendungsbeispiel der Datenverarbeitungsvorrichtung 2 gemäß der ersten bis fünften Ausführungsform der vorliegenden Offenbarung beschrieben. 41 ist eine Darstellung, die Nutzungsbeispiele der Datenverarbeitungsvorrichtung 2 gemäß der ersten bis fünften Ausführungsform darstellt. Es wird angemerkt, dass im Folgenden, falls es nicht besonders notwendig ist, zu unterscheiden, die Datenverarbeitungsvorrichtung 2 als repräsentativ beschrieben wird.
Die oben beschriebene Datenverarbeitungsvorrichtung 2 ist z. B. auf verschiedene Fälle anwendbar, in denen Licht wie etwa sichtbares Licht, Infrarotlicht, Ultraviolettlicht oder Röntgenstrahlen erfasst werden und auf der Grundlage des Erfassungsergebnisses wie folgt eine Erkennungsverarbeitung ausgeführt wird.

• Eine Vorrichtung, die ein Bild aufnimmt, das für die Betrachtung verwendet werden soll, wie etwa eine Digitalkamera und eine tragbare Vorrichtung mit einer Kamerafunktion.
• Eine Vorrichtung, die für den Verkehr verwendet wird, wie etwa ein in ein Fahrzeug eingebauter Sensor, der Bilder eines Blicks nach vorn, eines Blicks nach hinten, einer Umgebungsansicht, einer Innenansicht und dergleichen eines Kraftfahrzeugs für sicheres Fahren wie etwa automatische Bremsung und Erkennung des Zustands eines Fahrers aufnimmt, eine Überwachungskamera, die ein fahrendes Fahrzeug oder eine Straße überwacht, und ein Entfernungsmessersensor, der eine Entfernung zwischen Fahrzeugen misst.

• Eine Vorrichtung, die für elektrische Heimgeräte wie etwa ein Fernsehgerät, einen Kühlschrank und eine Klimaanlage verwendet wird, um ein Bild einer Geste eines Benutzers aufzunehmen, um ein Gerät in Übereinstimmung mit der Geste zu steuern.
• Eine Vorrichtung, die für die medizinische Versorgung oder für die Gesundheitsvorsorge verwendet wird, wie etwa ein Endoskop und eine Vorrichtung, die durch Empfangen von Infrarotlicht eine Angiografie ausführt.
• Eine Vorrichtung, die für die Sicherheit verwendet wird, wie etwa eine Überwachungskamera zur Verbrechensverhütung und eine Kamera zur Personenauthentifizierung.
• Eine Vorrichtung, die für die Schönheitspflege verwendet wird, wie etwa ein Hautmessinstrument, das ein Bild der Haut aufnimmt, und ein Mikroskop, das ein Bild einer Kopfhaut aufnimmt.
• Eine Vorrichtung, die für den Sport verwendet wird, wie etwa eine Action-Kamera und eine am Körper tragbare Kamera, die für den Sport verwendet werden, und dergleichen.
• Eine Vorrichtung, die für die Landwirtschaft verwendet wird, wie etwa eine Kamera zur Überwachung eines Zustands eines Felds oder von Feldfrüchten.

(6-2. Anwendungsbeispiel auf ein bewegtes Objekt)
Die Technologie gemäß der vorliegenden Offenbarung (die vorliegende Technologie) ist auf verschiedene Produkte anwendbar. Zum Beispiel kann die Technologie gemäß der vorliegenden Offenbarung als eine Vorrichtung implementiert werden, die in irgendeinen Typ eines bewegten Objekts wie etwa ein Kraftfahrzeug, ein Elektrokraftfahrzeug, ein Hybridelektrokraftfahrzeug, ein Motorrad, ein Fahrrad, einen Personal Transporter, ein Flugzeug, eine Drohne, ein Schiff und einen Roboter eingebaut ist.
42 ist ein Blockschaltplan, der ein schematisches Konfigurationsbeispiel eines Fahrzeugsteuersystems darstellt, das ein Beispiel eines Steuersystems für ein bewegtes Objekt ist, auf das die Technologie gemäß der vorliegenden Offenbarung anwendbar ist.
Das Fahrzeugsteuersystem 12000 enthält mehrere elektronische Steuereinheiten, die über ein Kommunikationsnetz 12001 verbunden sind. In dem in 42 dargestellten Beispiel enthält das Fahrzeugsteuersystem 12000 eine Antriebssystem-Steuereinheit 12010, eine Karosseriesystem-Steuereinheit 12020, eine Fahrzeugaußenrauminformations-Detektionseinheit 12030, eine Fahrzeuginnenrauminformations-Detektionseinheit 12040 und eine integrierte Steuereinheit 12050. Darüber hinaus sind als Funktionskomponenten der integrierten Steuereinheit 12050 ein Mikrocomputer 12051, eine Audio-Bild-Ausgabeeinheit 12052 und eine in das Fahrzeug eingebaute Netzschnittstelle (I/F) 12053 dargestellt.
Die Antriebssystem-Steuereinheit 12010 steuert den Betrieb von Vorrichtungen in Bezug auf ein Antriebssystem eines Fahrzeugs in Übereinstimmung mit verschiedenen Programmen. Zum Beispiel fungiert die Antriebssystem-Steuereinheit 12010 als eine Steuervorrichtung einer Antriebskraft-Erzeugungsvorrichtung zum Erzeugen einer Antriebskraft des Fahrzeugs wie etwa einer Brennkraftmaschine oder eines Antriebsmotors, eines Antriebskraftübertragungsmechanismus zum Übertragen der Antriebskraft auf Räder, eines Lenkmechanismus zum Einstellen eines Lenkwinkels des Fahrzeugs, eine Bremsvorrichtung zum Erzeugen einer Bremskraft des Fahrzeugs und dergleichen.
Eine Karosseriesystem-Steuereinheit 12020 steuert dem Betrieb verschiedener in die Fahrzeugkarosserie eingebauter Vorrichtungen in Übereinstimmung mit verschiedenen Programmen. Die Karosseriesystem-Steuereinheit 12020 fungiert z. B. als eine Steuervorrichtung eines schlüssellosen Zugangssystems, eines intelligenten Schlüsselsystems, einer elektrischen Fensterhebervorrichtung oder verschiedener Lampen wie etwa eines Scheinwerfers, einer Schlussleuchte, einer Bremsleuchte, eines Fahrtrichtungsanzeigers oder eines Nebelscheinwerfers. In diesem Fall können in die Karosseriesystem-Steuereinheit 12020 Funkwellen, die von einer tragbaren Vorrichtung, die einen Schüssel ersetzt, gesendet werden, eingegeben werden oder Signale verschiedener Schalter eingegeben werden. Beim Empfang derartiger Funkwellen oder Signale steuert die Karosseriesystem-Steuereinheit 12020 eine Türschlossvorrichtung, die elektrische Fensterhebervorrichtung, die Lampen oder dergleichen des Fahrzeugs.
Die Fahrzeugaußenrauminformations-Detektionseinheit 12030 detektiert Informationen hinsichtlich des Außenraums des Fahrzeugs, in das das Fahrzeugsteuersystem 12000 eingebaut ist. Zum Beispiel ist eine Bilderzeugungseinheit 12031 mit der Fahrzeugaußenrauminformations-Detektionseinheit 12030 verbunden. Die Fahrzeugaußenrauminformations-Detektionseinheit 12030 veranlasst, dass die Bilderzeugungseinheit 12031 ein von dem Fahrzeug gesehenes Bild einer Außenansicht aufnimmt und die aufgenommenen Bilddaten empfängt. Die Fahrzeugaußenrauminformations-Detektionseinheit 12030 kann auf der Grundlage des empfangenen Bilds eine Objektdetektionsverarbeitung des Detektierens eines Objekts wie etwa einer Person, eines Fahrzeugs, eines Hindernisses, eines Zeichens oder eines Symbols auf einer Straßenoberfläche oder eine Entfernungsdetektionsverarbeitung des Detektierens einer Entfernung zu einem derartigen Objekt ausführen.
Die Bilderzeugungseinheit 12031 ist ein optischer Sensor, der Licht empfängt und ein elektrisches Signal, das der Intensität des empfangenen Lichts entspricht, ausgibt. Die Bilderzeugungseinheit 12031 kann das elektrische Signal als ein Bild ausgeben oder kann das elektrische Signal als Entfernungsinformationen ausgeben. Darüber hinaus kann das durch die Bilderzeugungseinheit 12031 empfangene Licht sichtbares Licht oder unsichtbares Licht wie etwa Infrarotstrahlen sein.
Die Fahrzeuginnenrauminformations-Detektionseinheit 12040 detektiert Fahrzeuginnenrauminformationen. Zum Beispiel ist mit der Fahrzeuginnenrauminformations-Detektionseinheit 12040 eine Fahrerzustands-Detektionseinheit 12041 verbunden, die einen Zustand eines Fahrers detektiert. Die Fahrerzustands-Detektionseinheit 12041 kann z. B. eine Kamera enthalten, die ein Bild des Fahrers aufnimmt, und die Fahrzeuginnenrauminformations-Detektionseinheit 12040 kann auf der Grundlage der von der Fahrerzustands-Detektionseinheit 12041 eingegebenen Detektionsinformationen einen Grad der Ermüdung oder einen Grad der Konzentration des Fahrers berechnen oder kann bestimmen, ob der Fahrer döst.
Der Mikrocomputer 12051 kann auf der Grundlage der Informationen hinsichtlich des Innenraums und des Außenraums des Fahrzeugs, die durch die Fahrzeugaußenrauminformations-Detektionseinheit 12030 oder durch die Fahrzeuginnenrauminformations-Detektionseinheit 12040 erfasst werden, einen Steuerzielwert der Antriebskraft-Erzeugungsvorrichtung, des Lenkmechanismus oder der Bremsvorrichtung berechnen und einen Steuerbefehl an die Antriebssystem-Steuereinheit 12010 ausgeben. Zum Beispiel kann der Mikrocomputer 12051 eine koordinierte Steuerung zum Implementieren einer Funktion eines fortgeschrittenen Fahrerassistenzsystems (ADAS), das Fahrzeugkollisionsvermeidung oder Fahrzeugaufprallminderung, Folgefahren auf der Grundlage eines Fahrzeugabstands, Fahren mit aufrechterhaltener Fahrzeuggeschwindigkeit, Fahrzeugkollisionswarnung, Fahrzeugfahrspurabweichungswarnung oder dergleichen enthält, ausführen.
Darüber hinaus kann der Mikrocomputer 12051 eine koordinierte Steuerung zum automatisierten Fahren oder dergleichen ausführen, in der das Fahrzeug durch Steuern der Antriebskraft-Erzeugungsvorrichtung, des Lenkmechanismus, der Bremsvorrichtung oder dergleichen auf der Grundlage der Informationen hinsichtlich der Umgebung des Fahrzeugs, die durch die Fahrzeugaußenrauminformations-Detektionseinheit 12030 oder durch die Fahrzeuginnenrauminformations-Detektionseinheit 12040 erfasst werden, autonom fährt, ohne von der Bedienung des Fahrers abzuhängen.
Darüber hinaus kann der Mikrocomputer 12051 auf der Grundlage der durch die Fahrzeugaußenrauminformations-Detektionseinheit 12030 erfassten Fahrzeugaußenrauminformationen einen Steuerbefehl an die Karosseriesystem-Steuereinheit 12020 ausgeben. Zum Beispiel kann der Mikrocomputer 12051 eine koordinierte Steuerung zum Verhindern von Blendung wie etwa Schalten von Fernlicht auf Abblendlicht durch Steuern des Scheinwerfers in Übereinstimmung mit der Position eines vorausfahrenden Fahrzeugs oder eines entgegenkommenden Fahrzeugs, das durch die Fahrzeugaußenrauminformations-Detektionseinheit 12030 detektiert wird, ausführen.
Die Audio-Bild-Ausgabeeinheit 12052 sendet ein Ausgangssignal eines Schalls und/oder eines Bilds an eine Ausgabevorrichtung, die in der Lage ist, den Insassen des Fahrzeugs oder den Außenraum des Fahrzeugs über Informationen sichtbar oder hörbar zu benachrichtigen. In dem in 36 dargestellten Beispiel sind ein Audiolautsprecher 12061, eine Anzeigeeinheit 12062 und ein Armaturenbrett 12063 als Ausgabevorrichtungen dargestellt. Die Anzeigeeinheit 12062 kann z. B. eine Bordanzeige oder ein Headup-Display enthalten.
43 ist eine Darstellung, die ein Beispiel einer Einbauposition der Bilderzeugungseinheit 12031 darstellt.
Ein Fahrzeug 12100 in 43 enthält als die Bilderzeugungseinheit 12031 Bilderzeugungseinheiten 12101, 12102, 12103, 12104, 12105.
Die Bilderzeugungseinheiten 12101, 12102, 12103, 12104, 12105 sind z. B. in einem Fahrzeuginnenraum des Fahrzeugs 12100 an einer Frontpartie und/oder an einem Außenspiegel und/oder an einem hinteren Stoßfänger und/oder an einer Heckklappe und/oder an einem oberen Abschnitt einer Windschutzscheibe vorgesehen. Die in dem Fahrzeuginnenraum bei der Frontpartie vorgesehene Bilderzeugungseinheit 12101 und die bei dem oberen Abschnitt der Windschutzscheibe vorgesehen Bilderzeugungseinheit 12105 erfassen hauptsächlich ein Bild eines Blicks nach vorn, von dem Fahrzeug 12100 aus gesehen. Die bei den Außenspiegeln vorgesehenen Bilderzeugungseinheiten 12102, 12103 erfassen hauptsächlich Bilder der Blicke zur Seite, von dem Fahrzeug 12100 aus gesehen. Die bei dem hinteren Stoßfänger oder bei der Heckklappe vorgesehene Bilderzeugungseinheit 12104 nimmt hauptsächlich ein Bild eines Blicks nach hinten, von dem Fahrzeug 12100 aus gesehen, auf. Die Bilder des Blicks nach vorn, die durch die Bilderzeugungseinheiten 12101, 12105 erfasst werden, werden hauptsächlich zum Detektieren eines vorausfahrenden Fahrzeugs, eines Fußgängers, eines Hindernisses, einer Verkehrsampel, eines Verkehrszeichens, einer Fahrspur oder dergleichen verwendet.
Es wird angemerkt, dass 43 ein Beispiel jeweiliger Bilderzeugungsbereiche der Bilderzeugungseinheiten 12101 bis 12104 darstellt. Ein Bilderzeugungsbereich 12111 gibt einen Bilderzeugungsbereich der Bilderzeugungseinheit 12101, der bei der Frontpartie vorgesehen ist an, die Bilderzeugungsbereiche 12112, 12113 geben Bilderzeugungsbereiche der Bilderzeugungseinheiten 12102, 12103, die jeweils bei den Außenspiegeln vorgesehen sind, an und ein Bilderzeugungsbereich 12114 gibt einen Bilderzeugungsbereich der Bilderzeugungseinheit 12104, die bei dem hinteren Stoßfänger oder bei der Heckklappe vorgesehen ist, an. Zum Beispiel ist es möglich, durch Überlagern von Bilddaten, die durch die Bilderzeugungseinheiten 12101 bis 12104 aufgenommen werden, aufeinander ein Vogelperspektivenbild des Fahrzeugs 12100 zu erhalten.
Wenigstens eine der Bilderzeugungseinheiten 12101 bis 12104 kann eine Funktion zum Erfassen von Entfernungsinformationen aufweisen. Zum Beispiel kann wenigstens eine der Bilderzeugungseinheiten 12101 bis 12104 eine Stereokamera, die mehrere Bilderzeugungselemente enthält, sein oder ein Bilderzeugungselement mit Pixeln zur Phasendifferenzdetektion sein.
Zum Beispiel erhält der Mikrocomputer 12051 auf der Grundlage der von den Bilderzeugungseinheiten 12101 bis 12104 erhaltenen Entfernungsinformationen eine Entfernung zu einem dreidimensionalen Objekt in jedem der Bilderzeugungsbereiche 12111 bis 12114 und eine zeitliche Änderung der Entfernung (Geschwindigkeit relativ zu dem Fahrzeug 12100), um ein dreidimensionales Objekt, das mit einer vorgegebenen Geschwindigkeit (z. B. 0 km/h oder mehr) im Wesentlichen in derselben Richtung wie das Fahrzeug 12100 fährt, insbesondere das nächste dreidimensionale Objekt auf einem Fahrweg des Fahrzeugs 12100, als ein vorausfahrendes Fahrzeug zu extrahieren. Darüber hinaus kann der Mikrocomputer 12051 eine Entfernung zwischen Fahrzeugen, die relativ zu dem vorausfahrenden Fahrzeug aufrechterhalten werden muss, im Voraus einstellen und eine automatisierte Verzögerungssteuerung (einschließlich Folgen-Halt-Steuerung), eine automatisierte Beschleunigungssteuerung (einschließlich Folgen-Start-Steuerung) oder dergleichen ausführen. Wie oben beschrieben ist, ist es möglich, eine koordinierte Steuerung z. B. zum automatischen Fahren, in dem ein Fahrzeug autonom fährt, auszuführen, ohne von dem Betrieb des Fahrers abzuhängen.
Zum Beispiel kann der Mikrocomputer 12051 auf der Grundlage der von den Bilderzeugungseinheiten 12101 bis 12104 erhaltenen Entfernungsinformationen dreidimensionale Objektdaten hinsichtlich dreidimensionaler Objekte in ein Zweiradfahrzeug, ein Fahrzeug mit Standardgröße, ein Fahrzeug mit großer Größe, einen Fußgänger und andere dreidimensionale Objekte wie etwa einen Leitungsmast klassifizieren und die dreidimensionalen Objektdaten zur Verwendung bei der automatisierten Vermeidung von Hindernissen extrahieren. Zum Beispiel identifiziert der Mikrocomputer 12051 Hindernisse um das Fahrzeug 12100 als ein Hindernis, das durch den Fahrer des Fahrzeugs 12100 visuell erkannt werden kann, und ein Hindernis, das visuell schwer zu erkennen ist. Daraufhin bestimmt der Mikrocomputer 12051 ein Kollisionsrisiko, das ein Risiko einer Kollision mit jedem Hindernis angibt, und kann der Mikrocomputer 12051, wenn das Kollisionsrisiko größer oder gleich einem Sollwert ist und eine Möglichkeit einer Kollision besteht, durch Ausgeben eines Alarms an den Fahrer über den Audiolautsprecher 12061 oder die Anzeigeeinheit 12062 oder Ausführen einer Zwangsverzögerung oder Ausweichlenkung über die Fahrsystem-Steuereinheit 12010 Fahrerassistenz zur Kollisionsvermeidung geben.
Mindestens eine der Bilderzeugungseinheiten 12101 bis 12104 kann eine Infrarotkamera sein, die Infrarotstrahlen detektiert. Zum Beispiel kann der Mikrocomputer 12051 einen Fußgänger durch Bestimmen, ob der Fußgänger in den durch die Bilderzeugungseinheiten 12101 bis 12104 aufgenommenen Bildern vorhanden ist, erkennen. Eine derartige Fußgängererkennung wird z. B. durch eine Prozedur des Extrahierens von Merkmalspunkten in den durch die Bilderzeugungseinheiten 12101 bis 12104 als Infrarotkameras aufgenommenen Bildern und durch eine Prozedur des Ausführens einer Mustervergleichsverarbeitung an einer Reihe von Merkmalspunkten, die einen Umriss eines zu bestimmenden Objekts angeben, um zu bestimmen, ob das Objekt ein Fußgänger ist, ausgeführt. Wenn der Mikrocomputer 12051 bestimmt, dass in den durch die Bilderzeugungseinheiten 12101 bis 12104 aufgenommenen Bildern ein Fußgänger vorhanden ist, und den Fußgänger erkennt, steuert die Audio-Bild-Ausgabeeinheit 12052 die Anzeigeeinheit 12062 zum Anzeigen der Bilder mit einer viereckigen Umrisslinie zur Hervorhebung auf dem erkannten Fußgänger, der auf den Bildern überlagert ist. Darüber hinaus kann die Audio-Bild-Ausgabeeinheit 12052 die Anzeigeeinheit 12062 zum Anzeigen eines Icons oder dergleichen, das einen Fußgänger angibt, an einer gewünschten Position steuern.
Oben ist ein Beispiel des Fahrzeugsteuersystems beschrieben worden, auf das die Technologie gemäß der vorliegenden Offenbarung anwendbar ist. Die Technologie gemäß der vorliegenden Offenbarung ist unter den oben beschriebenen Komponenten auf die Bilderzeugungseinheit 12031 und auf die Fahrzeugaußenrauminformations-Detektionseinheit 12030 anwendbar. Genauer wird z. B. die Sensoreinheit 10 der Datenverarbeitungsvorrichtung 1 auf die Bilderzeugungseinheit 12031 angewendet und wird die Erkennungsverarbeitungseinheit 12 auf die Fahrzeugaußenrauminformations-Detektionseinheit 12030 angewendet. Die Erkennungsergebnisausgabe von der Erkennungsverarbeitungseinheit 12 wird z. B. über das Kommunikationsnetz 12001 an die integrierte Steuereinheit 12050 übergeben.
Wie oben beschrieben wurde, ermöglicht die Anwendung der Technologie gemäß der vorliegenden Offenbarung auf die Bilderzeugungseinheit 12031 und auf die Fahrzeugaußenrauminformations-Detektionseinheit 12030, eine Erkennung eines Objekts in einer kurzen Entfernung und eine Erkennung eines Objekts in der langen Entfernung auszuführen und eine Erkennung von Objekten in einer kurzen Entfernung mit hoher Gleichzeitigkeit auszuführen, sodass es möglich ist, auf zuverlässigere Weise Fahrerassistenz zu geben.
Es wird angemerkt, dass die hier beschriebenen Wirkungen lediglich Beispiele sind und nicht beschränkt sind und dass andere Wirkungen bereitgestellt werden können.
Es wird angemerkt, dass die vorliegende Technologie die folgenden Konfigurationen aufweisen kann.

(1) Datenverarbeitungsvorrichtung, die Folgendes aufweist:
- eine Leseeinheit, die dazu ausgebildet ist, einen Teil eines Pixelgebiets, in dem mehrere Pixel in einer zweidimensionalen Anordnung angeordnet sind, als eine gelesene Einheit einzustellen und das Lesen eines Pixelsignals von einem in dem Pixelgebiet enthaltenen Pixel zu steuern; und
- eine Zuverlässigkeitsgrad-Berechnungseinheit, die dazu ausgebildet ist, auf der Grundlage eines Bereichs und/oder einer gelesenen Anzahl und/oder eines Dynamikumfangs und/oder von Belichtungsinformationen eines Gebiets eines aufgenommenen Bilds einen Zuverlässigkeitsgrad eines vorgegebenen Gebiets in dem Pixelgebiet zu berechnen, wobei das Gebiet als die gelesene Einheit eingestellt und gelesen wird.
(2) In der Datenverarbeitungsvorrichtung nach (1), enthält die Zuverlässigkeitsgrad-Berechnungseinheit eine Zuverlässigkeitsgradkarten-Erzeugungseinheit, die dazu ausgebildet ist, auf der Grundlage des Bereichs und/oder der gelesenen Anzahl und/oder des Dynamikumfangs und/oder der Belichtungsinformationen des Gebiets des aufgenommenen Bilds für jedes der mehreren Pixel einen Korrekturwert des Zuverlässigkeitsgrads zu berechnen und eine Zuverlässigkeitsgradkarte zu erzeugen, in der die Korrekturwerte in einer zweidimensionalen Anordnung angeordnet sind.
(3) In der Datenverarbeitungsvorrichtung nach (1) oder (2), enthält die Zuverlässigkeitsgrad-Berechnungseinheit ferner eine Korrektureinheit, die dazu ausgebildet ist, den Zuverlässigkeitsgrad auf der Grundlage des Korrekturwerts des Zuverlässigkeitsgrads zu korrigieren.
(4) In der Datenverarbeitungsvorrichtung nach (3), korrigiert die Korrektureinheit den Zuverlässigkeitsgrad auf der Grundlage des vorgegebenen Gebiets in Übereinstimmung mit einem Maß für die zentrale Tendenz der Korrekturwerte.
(5) In der Datenverarbeitungsvorrichtung nach (1), liest die Leseeinheit die in dem Pixelgebiet enthaltenen Pixel als Zeilenbilddaten.
(6) In der Datenverarbeitungsvorrichtung nach (1), liest die Leseeinheit die in dem Pixelgebiet enthaltenen Pixel als gitterartige oder schachbrettartige Abtastbilddaten.
(7) Die Datenverarbeitungsvorrichtung nach (1) weist ferner Folgendes auf:
- eine Erkennungsverarbeitungs-Ausführungseinheit, die dazu ausgebildet ist, ein Zielobjekt in dem vorgegebenen Gebiet zu erkennen.
(8) In der Datenverarbeitungsvorrichtung nach (4), berechnet die Korrektureinheit das Maß für die zentrale Tendenz der Korrekturwerte auf der Grundlage eines aufnahmefähigen Felds, in dem ein Merkmal in dem vorgegebenen Gebiet berechnet wird.
(9) In der Datenverarbeitungsvorrichtung nach (2), erzeugt die Zuverlässigkeitsgradkarten-Erzeugungseinheit auf der Grundlage jeder von wenigstens zwei Einheiten der Informationen, die einen Bereich betreffen, der Informationen, die eine gelesene Anzahl betreffen, der Informationen, die einen Dynamikumfang betreffen, oder der Informationen, die die Belichtung betreffen, wenigstens zwei Typen von Zuverlässigkeitsgradkarten, weist die Datenverarbeitungsvorrichtung ferner eine Kombinationseinheit auf, die dazu ausgebildet ist, die wenigstens zwei Typen von Zuverlässigkeitsgradkarten zu kombinieren.
(10) In der Datenverarbeitungsvorrichtung nach (1), ist das vorgegebene Gebiet in dem Pixelgebiet ein Gebiet, das auf einer Kennung und/oder auf einer Kategorie beruht, die jedem Pixel durch semantische Segmentierung zugeordnet sind.
(11) Datenverarbeitungssystem, das Folgendes aufweist:
- eine Sensoreinheit, die mehrere Pixel aufweist, die in einer zweidimensionalen Anordnung angeordnet sind; und
- eine Erkennungsverarbeitungseinheit, in der die Erkennungsverarbeitungseinheit Folgendes enthält:
  - eine Leseeinheit, die dazu ausgebildet ist, einen Teil eines Pixelgebiets der Sensoreinheit als eine gelesene Einheit einzustellen und das Lesen eines Pixelsignals von einem in der gelesenen Einheit enthaltenen Pixel zu steuern; und
  - eine Zuverlässigkeitsgrad-Berechnungseinheit, die dazu ausgebildet ist, auf der Grundlage eines Bereichs und/oder einer gelesenen Anzahl und/oder eines Dynamikumfangs und/oder von Belichtungsinformationen eines Gebiets eines aufgenommenen Bilds einen Zuverlässigkeitsgrad eines vorgegebenen Gebiets in dem Pixelgebiet zu berechnen, wobei das Gebiet als die gelesene Einheit eingestellt und gelesen wird.
(12) Datenverarbeitungsverfahren, das Folgendes aufweist:
- Einstellen eines Teils eines Pixelgebiets, in dem mehrere Pixel in einer zweidimensionalen Anordnung angeordnet sind, als eine gelesene Einheit und Steuern des Lesens eines Pixelsignals von einem in dem Pixelgebiet enthaltenen Pixel; und
- Berechnen eines Zuverlässigkeitsgrads eines vorgegebenen Gebiets in dem Pixelgebiet auf der Grundlage eines Bereichs und/oder einer gelesenen Anzahl und/oder eines Dynamikumfangs und/oder von Belichtungsinformationen eines Gebiets eines aufgenommenen Bilds, wobei das Gebiet als die gelesene Einheit eingestellt und gelesen wird.
(13) Programm, um zu veranlassen, dass ein Computer als eine Erkennungsverarbeitungseinheit Folgendes ausführt:
- Einstellen eines Teils eines Pixelgebiets, in dem mehrere Pixel in einer zweidimensionalen Anordnung angeordnet sind, als eine gelesene Einheit und Steuern des Lesens eines Pixelsignals von einem in dem Pixelgebiet enthaltenen Pixel; und
- Berechnen eines Zuverlässigkeitsgrads eines vorgegebenen Gebiets in dem Pixelgebiet auf der Grundlage eines Bereichs und/oder einer gelesenen Anzahl und/oder eines Dynamikumfangs und/oder von Belichtungsinformationen eines Gebiets eines aufgenommenen Bilds, wobei das Gebiet als die gelesene Einheit eingestellt und gelesen wird.

Bezugszeichenliste

1: Datenverarbeitungssystem
2: Datenverarbeitungsvorrichtung
10: Sensoreinheit
12: Erkennungsverarbeitungseinheit
110: Leseeinheit
124: Erkennungsverarbeitungs-Ausführungseinheit
125: Zuverlässigkeitsgrad-Berechnungseinheit
126: Zuverlässigkeitsgradkarten-Erzeugungseinheit
127: Bewertungskorrektureinheit

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2017112409 [0004]

Claims

Datenverarbeitungsvorrichtung, die Folgendes aufweist: eine Leseeinheit, die dazu ausgebildet ist, einen Teil eines Pixelgebiets, in dem mehrere Pixel in einer zweidimensionalen Anordnung angeordnet sind, als eine gelesene Einheit einzustellen und das Lesen eines Pixelsignals von einem in dem Pixelgebiet enthaltenen Pixel zu steuern; und eine Zuverlässigkeitsgrad-Berechnungseinheit, die dazu ausgebildet ist, auf einer Grundlage eines Bereichs und/oder einer gelesenen Anzahl und/oder eines Dynamikumfangs und/oder von Belichtungsinformationen eines Gebiets eines aufgenommenen Bilds einen Zuverlässigkeitsgrad eines vorgegebenen Gebiets in dem Pixelgebiet zu berechnen, wobei das Gebiet als die gelesene Einheit eingestellt und gelesen wird.
Datenverarbeitungsvorrichtung nach Anspruch 1, wobei die Zuverlässigkeitsgrad-Berechnungseinheit eine Zuverlässigkeitsgradkarten-Erzeugungseinheit enthält, die dazu ausgebildet ist, auf einer Grundlage des Bereichs und/oder der gelesenen Anzahl und/oder des Dynamikumfangs und/oder der Belichtungsinformationen des Gebiets des aufgenommenen Bilds für jedes der mehreren Pixel einen Korrekturwert des Zuverlässigkeitsgrads zu berechnen und eine Zuverlässigkeitsgradkarte zu erzeugen, in der die Korrekturwerte in einer zweidimensionalen Anordnung angeordnet sind.
Datenverarbeitungsvorrichtung nach Anspruch 1, wobei die Zuverlässigkeitsgrad-Berechnungseinheit ferner eine Korrektureinheit enthält, die dazu ausgebildet ist, den Zuverlässigkeitsgrad auf einer Grundlage des Korrekturwerts des Zuverlässigkeitsgrads zu korrigieren.
Datenverarbeitungsvorrichtung nach Anspruch 3, wobei die Korrektureinheit den Zuverlässigkeitsgrad auf der Grundlage des vorgegebenen Gebiets in Übereinstimmung mit einem Maß für die zentrale Tendenz der Korrekturwerte korrigiert.
Datenverarbeitungsvorrichtung nach Anspruch 1, wobei die Leseeinheit die in dem Pixelgebiet enthaltenen Pixel als Zeilenbilddaten liest.
Datenverarbeitungsvorrichtung nach Anspruch 1, wobei die Leseeinheit die in dem Pixelgebiet enthaltenen Pixel als gitterartige oder schachbrettartige Abtastbilddaten liest.
Datenverarbeitungsvorrichtung nach Anspruch 1, die ferner Folgendes aufweist: eine Erkennungsverarbeitungs-Ausführungseinheit, die dazu ausgebildet ist, ein Zielobjekt in dem vorgegebenen Gebiet zu erkennen.
Datenverarbeitungsvorrichtung nach Anspruch 4, wobei die Korrektureinheit das Maß für die zentrale Tendenz der Korrekturwerte auf der Grundlage eines aufnahmefähigen Felds berechnet, in dem ein Merkmal in dem vorgegebenen Gebiet berechnet wird.
Datenverarbeitungsvorrichtung nach Anspruch 2, wobei die Zuverlässigkeitsgradkarten-Erzeugungseinheit auf der Grundlage jeder von wenigstens zwei Einheiten der Informationen, die einen Bereich betreffen, der Informationen, die eine gelesene Anzahl betreffen, der Informationen, die einen Dynamikumfang betreffen, oder der Informationen, die die Belichtung betreffen, wenigstens zwei Typen von Zuverlässigkeitsgradkarten erzeugt, die Datenverarbeitungsvorrichtung ferner eine Kombinationseinheit aufweist, die dazu ausgebildet ist, die wenigstens zwei Typen von Zuverlässigkeitsgradkarten zu kombinieren.
Datenverarbeitungsvorrichtung nach Anspruch 1, wobei das vorgegebene Gebiet in dem Pixelgebiet ein Gebiet ist, das auf einer Kennung und/oder auf einer Kategorie beruht, die jedem Pixel durch semantische Segmentierung zugeordnet sind.
Datenverarbeitungssystem, das Folgendes aufweist: eine Sensoreinheit, die mehrere Pixel aufweist, die in einer zweidimensionalen Anordnung angeordnet sind; und eine Erkennungsverarbeitungseinheit, wobei die Erkennungsverarbeitungseinheit Folgendes enthält: eine Leseeinheit, die dazu ausgebildet ist, einen Teil eines Pixelgebiets der Sensoreinheit als eine gelesene Einheit einzustellen und das Lesen eines Pixelsignals von einem in der gelesenen Einheit enthaltenen Pixel zu steuern; und eine Zuverlässigkeitsgrad-Berechnungseinheit, die dazu ausgebildet ist, auf einer Grundlage eines Bereichs und/oder einer gelesenen Anzahl und/oder eines Dynamikumfangs und/oder von Belichtungsinformationen eines Gebiets eines aufgenommenen Bilds einen Zuverlässigkeitsgrad eines vorgegebenen Gebiets in dem Pixelgebiet zu berechnen, wobei das Gebiet als die gelesene Einheit eingestellt und gelesen wird.
Datenverarbeitungsverfahren, das Folgendes aufweist: Einstellen eines Teils eines Pixelgebiets, in dem mehrere Pixel in einer zweidimensionalen Anordnung angeordnet sind, als eine gelesene Einheit und Steuern des Lesens eines Pixelsignals von einem in dem Pixelgebiet enthaltenen Pixel; und Berechnen eines Zuverlässigkeitsgrads eines vorgegebenen Gebiets in dem Pixelgebiet auf einer Grundlage eines Bereichs und/oder einer gelesenen Anzahl und/oder eines Dynamikumfangs und/oder von Belichtungsinformationen eines Gebiets eines aufgenommenen Bilds, wobei das Gebiet als die gelesene Einheit eingestellt und gelesen wird.
Programm, um zu veranlassen, dass ein Computer als eine Erkennungsverarbeitungseinheit Folgendes ausführt: Einstellen eines Teils eines Pixelgebiets, in dem mehrere Pixel in einer zweidimensionalen Anordnung angeordnet sind, als eine gelesene Einheit und Steuern des Lesens eines Pixelsignals von einem in dem Pixelgebiet enthaltenen Pixel; und Berechnen eines Zuverlässigkeitsgrads eines vorgegebenen Gebiets in dem Pixelgebiet auf einer Grundlage eines Bereichs und/oder einer gelesenen Anzahl und/oder eines Dynamikumfangs und/oder von Belichtungsinformationen eines Gebiets eines aufgenommenen Bilds, wobei das Gebiet als die gelesene Einheit eingestellt und gelesen wird.