DE102018122871A1

DE102018122871A1 - Farblernen

Info

Publication number: DE102018122871A1
Application number: DE102018122871.6A
Authority: DE
Inventors: Ghassan Algerib; Min-Hung Chen; David McCreadie; Daniel Lewis Boston
Original assignee: Georgia Tech Research Institute; Georgia Tech Research Corp; Ford Global Technologies LLC
Current assignee: Georgia Tech Research Institute; Georgia Tech Research Corp; Ford Global Technologies LLC
Priority date: 2017-09-19
Filing date: 2018-09-18
Publication date: 2019-03-21
Also published as: CN109614843A; US20190087671A1; US10552692B2

Abstract

Eine Rechenvorrichtung, die zu Folgendem programmiert ist: Aufnehmen eines Farbbildes und Transformieren des Farbbildes in eine Farbkomponentenkarte. Der Computer kann ferner zum Verarbeiten der Farbkomponentenkarte programmiert sein, um ein Verkehrszeichen durch Bestimmen räumlicher Übereinstimmung und Bestimmen zeitlicher Beständigkeit von der Farbkomponentenkarte mit dem Verkehrszeichen zu erfassen.

Description

TECHNISCHES GEBIET
Die Offenbarung betrifft im Allgemeinen das Gebiet des autonomen oder halbautonomen Fahrzeugbetriebs und insbesondere ein Verfahren und System zum Farblernen, zum Beispiel zum Identifizieren von Verkehrszeichen.
ALLGEMEINER STAND DER TECHNIK
Fahrzeuge können dazu ausgestattet sein, sowohl in einem autonomen als auch in einem insassengeführten Modus betrieben zu werden. Fahrzeuge können mit Rechenvorrichtungen, Netzwerken, Sensoren und Steuerungen zum Erhalten von Informationen über die Umgebung des Fahrzeugs und zum Führen des Fahrzeugs auf Grundlage der Informationen ausgestattet sein. Das sichere und komfortable Führen des Fahrzeugs kann vom Erhalt genauer und rechtzeitiger Informationen über die Umgebung des Fahrzeugs abhängen. Rechenvorrichtungen, Netzwerke, Sensoren und Steuerungen können dazu ausgestattet sein, ihre Leistung zu analysieren, zu erfassen, wenn Informationen nicht genau und rechtzeitig erhalten werden, und Abhilfemaßnahmen, einschließlich des Informierens eines Insassen des Fahrzeugs, des Aufgebens der autonomen Steuerung oder des Parkens des Fahrzeugs, zu ergreifen.
KURZDARSTELLUNG
Fahrzeuge können dazu ausgestattet sein, sowohl in einem autonomen als auch in einem insassengeführten Modus betrieben zu werden. Mit einem halb- oder vollautonomen Modus ist ein Betriebsmodus gemeint, bei dem ein Fahrzeug durch eine Rechenvorrichtung als Teil eines Fahrzeuginformationssystems mit Sensoren und Steuerungen geführt werden kann. Das Fahrzeug kann besetzt oder unbesetzt sein, jedoch kann das Fahrzeug in beiden Fällen ohne die Unterstützung eines Insassen geführt werden. Für die Zwecke dieser Offenbarung ist ein autonomer Modus als einer definiert, bei dem jedes von Fahrzeugantrieb (z. B. über einen Antriebsstrang, der einen Verbrennungsmotor und/oder einen Elektromotor beinhaltet), Bremsung und Lenkung durch einen oder mehrere Fahrzeugcomputer gesteuert wird; in einem halbautonomen Modus steuert/steuern der/die Fahrzeugcomputer eines oder zwei von Fahrzeugantrieb, Bremsung und Lenkung.
Hierin wird ein Verfahren offenbart, das Folgendes umfasst: Aufnehmen eines Farbbildes, Transformieren des Farbbildes in Farbkomponentenkarten und Verarbeiten der Farbkomponentenkarten, um ein Verkehrszeichen durch Bestimmen räumlicher Übereinstimmung und zeitlicher Beständigkeit von den Farbkomponentenkarten mit dem Verkehrszeichen zu erfassen. Das Farbbild kann durch Umwandeln von Drei-Element-RGB-Vektoren, die Pixel des Farbbildes darstellen, in Elf-Element-Farbnamensvektoren auf Grundlage von RGB in Farbnamen-Raumtransformationen, die auf Grundlage von Trainingsdaten bestimmt wurden, in Farbkomponentenkarten transformiert werden. Jeder Elf-Element-Vektor-Farbnamensvektor kann eine einzige Farbe darstellen. Farbgrundlagen können durch k-Means-Clustering mit Trainingsdaten generiert werden, die eine Wahrscheinlichkeit des Auftretens der Elf-Element-Farbnamensvektoren bestimmen, und die Trainingsdaten können Bilder beinhalten, die Verkehrszeichen beinhalten. Die Farbkomponentenkarten können durch Segmentieren der Farbkomponentenkarten unter Verwendung von Schwellenwertbildung verarbeitet werden. Das Verarbeiten der Farbkomponentenkarten kann auf räumlicher Übereinstimmung basieren, wobei segmentierte Farbkomponenten auf Grundlage von Abgleichen einer Farbkomponente, die in dem Verkehrszeichen enthalten ist, beibehalten werden, während räumlich nahegelegene Farbkomponenten Farbkomponenten entsprechen, die in dem Verkehrszeichen enthalten sind.
Ein zweites Farbbild kann aufgenommen werden und das zweite Farbbild kann in zweite Farbkomponentenkarten transformiert werden, wobei die zweiten Farbkomponentenkarten segmentiert werden können, räumliche Übereinstimmung in den zweiten Farbkomponentenkarten bestimmt und zeitliche Beständigkeit auf Grundlage von Vergleichen der Farbkomponentenkarten aus dem zweiten Bild mit den Farbkomponentenkarten aus dem ersten Bild bestimmt werden kann. Durch das Bestimmen zeitlicher Beständigkeit können Farbkomponenten beibehalten werden, die in Verkehrszeichen in zwei oder mehr Farbbildern auftreten, die zu verschiedenen Zeitpunkten aufgenommen wurden. Die Verkehrszeichen können auf Grundlage von Bestimmen eines optischen Flusses erfasst werden, wobei durch den optischen Fluss auf Grundlage von Informationen hinsichtlich einer Sensorbewegung und einer Kameralinse prognostiziert wird, wo die Verkehrszeichen auftreten. Das Trainieren kann Durchführen von k-Clusteranalyse an Farbnamensvektoren beinhalten. Die Schwellenwertbildung der Farbkomponentenkarten kann auf der Otsu-Schwellenwertbildungstechnik basieren und die Otsu-Schwellenwertbildungstechnik kann ein binäres Ausgabebild erzeugen, wobei das binäre Ausgabebild mit dem Farbbild kombiniert wird, um ein Ausgabefarbbild zu erzeugen.
Außerdem wird ein computerlesbares Medium offenbart, auf dem Programmanweisungen zum Ausführen einiger oder aller der vorstehenden Verfahrensschritte gespeichert sind. Ferner wird ein Computer offenbart, der zum Ausführen von einigen oder allen der vorangehenden Verfahrensschritte programmiert ist und ein Computergerät beinhaltet, das zu Folgendem programmiert ist: Aufnehmen eines Farbbildes, Transformieren des Farbbildes in Farbkomponentenkarten und Verarbeiten der Farbkomponentenkarten, um ein Verkehrszeichen durch Bestimmen räumlicher Übereinstimmung und zeitlicher Beständigkeit von den Farbkomponentenkarten mit dem Verkehrszeichen zu erfassen. Der Computer kann ferner zu Folgendem programmiert sein: Transformieren des Farbbildes in Farbkomponentenkarten durch Umwandeln von Drei-Element-RGB-Vektoren, die Pixel des Farbbildes darstellen, in Elf-Element-Farbnamensvektoren auf Grundlage von RGB in Farbnamen-Raumtransformationen, die auf Grundlage von Trainingsdaten bestimmt wurden, um die wichtige Farbe für Verkehrszeichen anzugeben, wobei jeder Elf-Element-Farbnamensvektor eine einzige Farbe als Ausgabe der Farbraumumwandlung darstellen kann. Der Computer kann ferner programmiert sein, um Wahrscheinlichkeiten auf Grundlage von Trainingsdaten zu bestimmen, die eine Wahrscheinlichkeit des Auftretens der Elf-Element-Farbnamensvektoren angeben, und die Trainingsdaten können ein Bild beinhalten, welches das Verkehrszeichen beinhaltet. Die Farbkomponentenkarten können durch Segmentieren der Farbkomponentenkarten unter Verwendung von Schwellenwertbildung verarbeitet werden. Das Verarbeiten der Farbkomponentenkarten kann auf räumlicher Übereinstimmung basieren, wobei segmentierte Farbkomponenten auf Grundlage von Abgleichen einer Farbkomponente, die in dem Verkehrszeichen enthalten ist, beibehalten werden, während räumlich nahegelegene Farbkomponenten Farbkomponenten entsprechen, die in dem Verkehrszeichen enthalten sind.
Der Computer kann ferner zum Aufnehmen eines zweiten Farbbildes programmiert sein und das zweite Farbbild kann in zweite Farbkomponentenkarten transformiert werden, wobei die zweiten Farbkomponentenkarten segmentiert werden können, räumliche Übereinstimmung in den zweiten Farbkomponentenkarten bestimmt und zeitliche Beständigkeit auf Grundlage von Vergleichen der Farbkomponentenkarten aus dem zweiten Bild mit den Farbkomponentenkarten aus dem ersten Bild bestimmt werden kann. Durch das Bestimmen zeitlicher Beständigkeit können Farbkomponenten beibehalten werden, die in Verkehrszeichen in zwei oder mehr Farbbildern auftreten, die zu verschiedenen Zeitpunkten aufgenommen wurden. Der Computer kann ferner programmiert sein, um Verkehrszeichen auf Grundlage von Bestimmen eines optischen Flusses zu erfassen, wobei durch den optischen Fluss auf Grundlage von Informationen hinsichtlich einer Sensorbewegung und einer Kameralinse prognostiziert wird, wo die Verkehrszeichen auftreten. Das Trainieren kann Durchführen von k-Clusteranalyse an Farbnamensvektoren beinhalten. Die Schwellenwertbildung der Farbkomponentenkarten kann auf der Otsu-Schwellenwertbildungstechnik basieren und die Otsu-Schwellenwertbildungstechnik kann ein binäres Ausgabebild erzeugen, wobei das binäre Ausgabebild mit dem Farbbild kombiniert wird, um ein Ausgabefarbbild zu erzeugen.
Figurenliste

1 ist ein Blockdiagramm eines beispielhaften Fahrzeugs.
2 ist eine Abbildung eines beispielhaften Videobildes, das ein Verkehrszeichen beinhaltet.
3 ist eine Abbildung eines beispielhaften Farbraumbildes, das als drei RGB-Bildebenen kodiert ist.
4 ist eine Abbildung einer beispielhaften Farbraumumwandlung aus einem RGB-Farbnamensraum.
5 ist eine Abbildung von drei beispielhaften Farbkomponentenkarten.
6 ist eine Abbildung von beispielhaftem Verarbeiten räumlicher Übereinstimmung, die auf Farbkomponentenkarten angewendet wird.
7 ist eine Abbildung von beispielhaftem Verarbeiten zeitlicher Beständigkeit, die auf Farbkomponentenkarten angewendet wird.
8 ist eine Abbildung eines beispielhaften Prozesses zum Generieren von Farbkomponentenkarten.
9 ist ein Ablaufdiagramm eines beispielhaften Prozesses zum Erfassen von Verkehrszeichen mit Farbverarbeitung.
10 ist ein Ablaufdiagramm eines beispielhaften Prozesses zum Trainieren von Farbkomponentenclustern.
11 ist ein Ablaufdiagramm eines beispielhaften Prozesses zum Erfassen von Verkehrszeichen durch Bestimmen räumlicher Übereinstimmung.
12 ist ein Ablaufdiagramm eines beispielhaften Prozesses zum Erfassen von Verkehrszeichen durch Bestimmen zeitlicher Beständigkeit.

DETAILLIERTE BESCHREIBUNG
1 ist eine Abbildung eines Fahrzeuginformationssystems 100, das ein Fahrzeug 110 beinhaltet, das in einem autonomen („autonom“ bedeutet in dieser Offenbarung alleinstehend „vollautonom“) und einem insassengeführten (auch als nichtautonom bezeichneten) Modus gemäß offenbarten Umsetzungen betrieben werden kann. Das Fahrzeug 110 beinhaltet ferner eine oder mehrere Rechenvorrichtungen 115 zum Durchführen von Berechnungen zum Führen des Fahrzeugs 110 während eines autonomen Betriebs. Die Rechenvorrichtungen 115 können Informationen bezüglich des Betriebs des Fahrzeugs von Sensoren 116 empfangen.
Die Rechenvorrichtung 115 beinhaltet einen Prozessor und einen Speicher, wie sie bekannt sind. Ferner beinhaltet der Speicher eine oder mehrere Formen computerlesbarer Medien und speichert Anweisungen, die durch den Prozessor ausgeführt werden können, um verschiedene Vorgänge, einschließlich der hier offenbarten, durchzuführen. Beispielsweise kann die Rechenvorrichtung 115 eine Programmierung zum Betreiben von einem oder mehreren von den Fahrzeugbremsen, dem Antrieb (z. B. Beschleunigungsregelung in dem Fahrzeug 110 durch Steuern von einem oder mehreren von einem Verbrennungsmotor, Elektromotor, Hybridmotor usw.), der Lenkung, der Klimaregelung, der Innen- und/oder Außenbeleuchtung usw. sowie zum Bestimmen, ob und wann die Rechenvorrichtung 115 im Gegensatz zu einem menschlichen Fahrzeugführer derartige Vorgänge steuern soll, beinhalten.
Die Rechenvorrichtung 115 kann mehr als eine Rechenvorrichtung, z. B. Steuerungen oder dergleichen, die in dem Fahrzeug 110 zum Überwachen und/oder Steuern verschiedener Fahrzeugkomponenten enthalten sind, z. B. eine Antriebsstrangsteuerung 112, eine Bremssteuerung 113, eine Lenksteuerung 114 usw., beinhalten oder z. B. über einen Fahrzeugkommunikationsbus, wie nachfolgend genauer beschrieben, kommunikativ daran gekoppelt sein. Die Rechenvorrichtung 115 ist im Allgemeinen zur Kommunikationen in einem Fahrzeugkommunikationsnetzwerk angeordnet, wie etwa einem Bus in dem Fahrzeug 110, wie etwa einem Controller Area Network (CAN) oder dergleichen; das Netzwerk des Fahrzeugs 110 kann drahtgebundene oder drahtlose Kommunikationsmechanismen wie die bekannten beinhalten, z. B. Ethernet oder andere Kommunikationsprotokolle.
Über das Fahrzeugnetzwerk kann die Rechenvorrichtung 115 Meldungen an verschiedene Vorrichtungen in dem Fahrzeug übertragen und/oder Meldungen von den verschiedenen Vorrichtungen, z. B. Steuerungen, Aktoren, Sensoren usw., einschließlich der Sensoren 116, empfangen. Alternativ oder zusätzlich kann in Fällen, bei denen die Rechenvorrichtung 115 tatsächlich mehrere Vorrichtungen umfasst, das Fahrzeugkommunikationsnetzwerk zur Kommunikation zwischen Vorrichtungen verwendet werden, die in dieser Offenbarung als die Rechenvorrichtung 115 dargestellt sind. Ferner können, wie nachfolgend erwähnt, verschiedene Steuerungen oder Messelemente der Rechenvorrichtung 115 Daten über das Fahrzeugkommunikationsnetzwerk bereitstellen.
Des Weiteren kann die Rechenvorrichtung 115 zum Kommunizieren über eine Fahrzeug-Infrastruktur(F-I)-Schnittstelle 111 mit einem Remote-Servercomputer 120, z. B. einem Cloud-Server, über ein Netzwerk 130 konfiguriert sein, das, wie nachfolgend beschrieben, verschiedene drahtgebundene und/oder drahtlose Netzwerktechniken, z. B. Mobilfunk, Bluetooth® und drahtgebundene und/oder drahtlose Paketnetzwerke, verwenden kann. Die Rechenvorrichtung 115 kann zum Kommunizieren mit anderen Fahrzeugen 110 über die F-I-Schnittstelle 111 konfiguriert sein, indem Fahrzeug-Fahrzeug(F-F)-Netzwerke verwendet werden, die ad hoc zwischen Fahrzeugen 110 in der Nähe oder über infrastrukturbasierte Netzwerke gebildet werden. Die Rechenvorrichtung 115 beinhaltet zudem nichtflüchtigen Speicher, wie er bekannt ist. Die Rechenvorrichtung 115 kann Informationen protokollieren, indem sie die Informationen zum späteren Abrufen und Übertragen über das Fahrzeugkommunikationsnetzwerk und eine Fahrzeug-Infrastruktur-(F-I-)Schnittstelle 111 an einen Servercomputer 120 oder eine mobile Benutzervorrichtung 160 in nichtflüchtigem Speicher speichert.
Wie bereits angemerkt, ist in Anweisungen, die in dem Speicher gespeichert sind und durch den Prozessor der Rechenvorrichtung 115 ausgeführt werden, im Allgemeinen Programmierung zum Betreiben einer oder mehrerer Komponenten des Fahrzeugs 110, z. B. Bremsung, Lenkung, Antrieb usw., ohne Eingreifen eines menschlichen Fahrzeugführers enthalten. Unter Verwendung von in der Rechenvorrichtung 115 empfangenen Daten, z. B. der Sensordaten von den Sensoren 116, dem Servercomputer 120 usw., kann die Rechenvorrichtung 115 ohne einen Fahrer zum Betreiben des Fahrzeugs 110 verschiedene Bestimmungen vornehmen und/oder verschiedene Komponenten und/oder Vorgänge des Fahrzeugs 110 steuern. Beispielsweise kann die Rechenvorrichtung 115 Programmierung beinhalten, um ein Betriebsverhalten des Fahrzeugs 110, wie z. B. Geschwindigkeit, Beschleunigung, Abbremsung, Lenken usw., sowie taktisches Verhalten zu regulieren, wie z. B. einen Abstand zwischen Fahrzeugen und/oder eine Zeitspanne zwischen Fahrzeugen, Fahrstreifenwechsel, Mindestabstand zwischen Fahrzeugen, minimale Linkswendung über Weg, Zeit bis zur Ankunft an einem bestimmten Standort und minimale Zeit bis zur Ankunft an einer Kreuzung (ohne Ampel), um die Kreuzung zu überqueren.
Steuerungen schließen im hier verwendeten Sinne dieses Ausdrucks Rechenvorrichtungen ein, die üblicherweise zum Steuern eines konkreten Fahrzeugteilsystems programmiert sind. Zu Beispielen gehören eine Antriebsstrangsteuerung 112, eine Bremssteuerung 113 und eine Lenksteuerung 114. Bei einer Steuerung kann es sich um eine elektronische Steuereinheit (electronic control unit - ECU) handeln, wie sie bekannt ist, die möglicherweise eine zusätzliche Programmierung beinhaltet, wie hier beschrieben ist. Die Steuerungen können kommunikativ mit der Rechenvorrichtung 115 verbunden sein und Anweisungen von dieser empfangen, um das Teilsystem gemäß den Anweisungen zu betätigen. Beispielsweise kann die Bremssteuerung 113 Anweisungen zum Betreiben der Bremsen des Fahrzeugs 110 von der Rechenvorrichtung 115 empfangen.
Die eine oder mehreren Steuerungen 112, 113, 114 für das Fahrzeug 110 können bekannte elektronische Steuereinheiten (electronic control units - ECUs) oder dergleichen einschließen, zu denen als nicht einschränkende Beispiele eine oder mehrere Antriebsstrangsteuerungen 112, eine oder mehrere Bremssteuerungen 113 und eine oder mehrere Lenksteuerungen 114 gehören. Jede der Steuerungen 112, 113, 114 kann entsprechende Prozessoren und Speicher und einen oder mehrere Aktoren beinhalten. Die Steuerungen 112, 113, 114 können mit einem Kommunikationsbus des Fahrzeugs 110 programmiert und verbunden sein, wie etwa einem Controller-Area-Network(CAN-)Bus oder Local-Interconnect-Network(LIN-)Bus, um Anweisungen von dem Computer 115 zu empfangen und Aktoren auf Grundlage der Anweisungen zu steuern.
Die Sensoren 116 können eine Vielzahl von Vorrichtungen beinhalten, die bekanntlich Daten über den Fahrzeugkommunikationsbus bereitstellen. Beispielsweise kann ein Radar, das an einem vorderen Stoßfänger (nicht dargestellt) des Fahrzeugs 110 befestigt ist, einen Abstand des Fahrzeugs 110 zu einem nächsten Fahrzeug vor dem Fahrzeug 110 bereitstellen oder kann ein Sensor des globalen Positionsbestimmungssystems (GPS), der in dem Fahrzeug 110 angeordnet ist, geografische Koordinaten des Fahrzeugs 110 bereitstellen. Der/die durch das Radar und/oder andere Sensoren 116 bereitgestellte Abstand/Abstände und/oder die durch den GPS-Sensor bereitgestellten geographischen Koordinaten kann/können von der Rechenvorrichtung 115 verwendet werden, um das Fahrzeug 110 autonom oder halbautonom zu betreiben.
Das Fahrzeug 110 ist im Allgemeinen ein autonomes Landfahrzeug 110, das drei oder mehr Räder aufweist, z. B. ein PKW, ein Kleinlaster usw. Das Fahrzeug 110 beinhaltet einen oder mehrere Sensoren 116, die F-I-Schnittstelle 111, die Rechenvorrichtung 115 und eine oder mehrere Steuerungen 112, 113, 114.
Die Sensoren 116 können programmiert sein, um Daten bezüglich des Fahrzeugs 110 und der Umgebung, in der das Fahrzeug 110 betrieben wird, zu sammeln. Beispielsweise können zu den Sensoren 116 unter anderem Höhenmesser, Kameras, LIDAR, Radar, Ultraschallsensoren, Infrarotsensoren, Drucksensoren, Beschleunigungsmesser, Gyroskope, Temperatursensoren, Drucksensoren, Hall-Sensoren, optische Sensoren, Spannungssensoren, Stromsensoren, mechanische Sensoren, wie etwa Schalter usw., gehören. Die Sensoren 116 können verwendet werden, um die Umgebung zu erfassen, in der das Fahrzeug 110 betrieben wird, wie etwa Wetterbedingungen, die Neigung einer Straße, den Ort einer Straße oder den Standort von benachbarten Fahrzeugen 110. Die Sensoren 116 können ferner verwendet werden, um Daten zu sammeln, einschließlich dynamischer Daten des Fahrzeugs 110, die den Betrieb des Fahrzeugs 110 betreffen, wie etwa Geschwindigkeit, Gierrate, Lenkwinkel, Motordrehzahl, Bremsdruck, Öldruck, den auf die Steuerungen 112, 113, 114 in dem Fahrzeug 110 angewendeten Leistungspegel, Konnektivität zwischen Komponenten und den Gesamtzustand der Elektrik und Logik des Fahrzeugs 110.
Aufgaben, die durch eine Rechenvorrichtung 115 in einem Fahrzeug 110 durchgeführt werden können, um die Fähigkeit der Rechenvorrichtung 115, das Fahrzeug 110 zu führen, zu verbessern und einen Insassen beim Steuern des Fahrzeugs 110 zu unterstützen, können Erfassen und Erkennen von Verkehrszeichen beinhalten. Bei Verkehrszeichen kann es sich um Zeichen handeln, die Informationen, Anweisungen oder Warnungen an Insassen vermitteln, während diese Fahrzeuge führen. Verkehrszeichen können zum Beispiel die Schilder „Geschwindigkeitsbegrenzung“, „Durchfahrt verboten“, „Einbahnstraße“ und „Parken“ einschließen und können Informationen bereitstellen, die ein sicheres und legales Führen eines Fahrzeugs 110 ermöglichen. Verkehrszeichen können so angeordnet sein, dass sie für Insassen sichtbar sind, die ein Fahrzeug 110 führen, und können mit Farben und Formen ausgebildet sein, um für Insassen einfach erkennbar zu sein, zum Beispiel Stoppschilder. Das Erfassen und Erkennen von Verkehrszeichen kann Bestimmen eines Standorts eines Verkehrszeichens in Bezug auf ein Fahrzeug 110 und Bestimmen einer Identität und Semantik, die einem Verkehrszeichen zugeordnet sind, beinhalten. Beispielsweise kann das Erfassen und Erkennen eines Schildes „Geschwindigkeitsbegrenzung“ Bestimmen, dass sich das Zeichen benachbart zu einer Fahrbahn befindet und somit für ein Fahrzeug 110 gilt, das auf der Fahrbahn geführt wird, und Bestimmen beinhalten, dass das Zeichen den Ausdruck „Geschwindigkeitsbegrenzung 50 MPH“ beinhaltet, wodurch eine gesetzliche Maximalgeschwindigkeit von 50 Meilen pro Stunde für ein Fahrzeug 110 auf der Fahrbahn festgelegt wird.
2 ist ein Schwarz-Weiß-Rendering eines Farbbildes 200 einer Szene, die von einem Fahrzeug 110 betrachtet wird und ein Verkehrszeichen 202 beinhaltet, in diesem Beispiel ein Schild „Parkverbot“. Das Farbbild 200 kann durch eine Rechenvorrichtung 115 in einem Fahrzeug 110 mit einer Farbkamera aufgenommen werden, bei der es sich zum Beispiel um eine Farbvideokamera handeln kann. Bei dem Farbbild 200 kann es sich zum Beispiel um einen einzigen Frame von Farbvideodaten oder eine Zusammensetzung aus mehr als einem Frame von Farbvideodaten handeln, um das Signal-Rausch-Verhältnis zu verbessern. Das Farbbild 200 kann durch die Rechenvorrichtung gemäß hierin offenbarten Techniken verarbeitet werden, um zu bestimmen, dass ein Verkehrszeichen 202 in dem Farbbild 200 vorhanden ist. Das Erfassen und Erkennen des Verkehrszeichens 202 kann die Rechenvorrichtung 115 beim Führen des Fahrzeugs 110 auf sichere und legale Weise unterstützen.
Das Erfassen und Erkennen von Verkehrszeichen wird durch Farben und Farbanordnungen, die in Verkehrszeichen verwendet werden, unterstützt. Eine achteckige Form, die eine vorwiegend rote Farbe mit weißen Buchstabe aufweist, ist zum Beispiel üblicherweise „Stopp-„Schildern vorbehalten, während es sich bei einer rechteckigen Form, die eine vorwiegend weiße Farbe mit schwarzen Buchstaben aufweist, um ein Informationsschild, wie ein Schild mit „Geschwindigkeitsbegrenzung“ handeln kann. In anderen Zeichen, wie dem Verkehrszeichen 202, können verschiedene Farben in bestimmten Formen kombiniert sein, in diesem Beispiel weiß, schwarz und rot, um einen Insassen darüber zu informieren, dass Parken nahe dem Verkehrszeichen 202 verboten ist. Durch hierin offenbarte Techniken werden vorteilhafterweise die Farben akkurat bestimmt, die in einem Farbbild 200 enthalten sind, um Verkehrszeichen zu erfassen und zu erkennen, zum Beispiel das Verkehrszeichen 202.
3 ist eine Abbildung eines Schwarz-Weiß-Renderings eines Farbbildes 302, die zeigt, wie ein Farbbild 302 in einem Speicher der Rechenvorrichtung 115 durch drei RGB-Bilder 304, 306, 308 von Bilddaten dargestellt werden kann, die jeweils rote, grüne und blaue (red, green and blue - RGB) Farbkomponenten jedes Pixels in dem Farbbild 302 darstellen. Bei dem Darstellen eines Farbbildes 302 unter Verwendung von drei RGB-Bildern 304, 306, 308, die RGB-Farbkomponenten entsprechen, handelt es sich um eine Technik zum Darstellen der vollständigen Farbpalette, wie durch Menschen wahrgenommen. Jede durch Menschen wahrgenommene Farbe kann abhängig davon, ob additive oder subtraktive Farben verwendet werden, durch eine Kombination aus RGB-Komponenten als Pigment oder Licht angenähert werden. Durch das Kombinieren der RGB-Komponenten können alle durch Menschen wahrgenommenen Farben innerhalb der Auflösungsgrenzen der RGB-Komponenten erzeugt werden.
Bei dem Darstellen eines Farbbildes 302 unter Verwendung von drei RGB-Bildern 304, 306, 308 handelt es sich um eine von vielen Darstellungen, die ein Farbbild 302 akkurat darstellen können. Bei anderen Farbdarstellungen wird ein Farbbild 302 zum Beispiel durch Darstellen des Farbtons, der Sättigung und der Intensität (hue, saturation and intensity - HIS) jedes Farbpixels in einem Farbbild 302 kodiert, um eine andere Darstellung des Farbbildes 302 zu erzeugen, die Farben wie durch einen Menschen wahrgenommen ebenfalls akkurat darstellen kann. In weiteren hierin offenbarten Beispielen kann ein als drei RGB-Bilder 304, 306, 308 kodiertes Farbbild 302 neu kodiert werden, um ein Farbbild 302 mit 11 Bildebenen darzustellen, wobei jede der 11 Bildebenen eine einzige Farbe darstellt.
4 ist eine Abbildung einer Technik zum Umwandeln von Drei-Element-RGB-Vektoren, welche die Farbe eines Pixels in einem Farbbild 302 darstellen, durch Farbraumumwandlung 400 in einen 11-Element-Vektor. Die RGB-Vektoren können in Farbnamensvektoren transformiert werden, die weniger oder mehr als 11 Elemente aufweisen. Durch das Auswählen eines 11-dimensionalen Farbnamenraums, der 11-Element-Farbnamensvektoren aufweist, kann der Raum der menschlichen Wahrnehmung angemessen mit der Mindestanzahl an Elementen überspannt werden, die eine gute Spezifität für Farben bereitstellt; d. h. Farben, die durch RGB-Vektoren dargestellt werden, können in einen 11-Element-Vektor transformiert werden, der die meisten der Gesamtanzahl der 11 Elemente aufweist, die in einem oder zwei Elementen konzentriert sind. Durch Farbraumumwandlung 400 wird ein Drei-Element-RGB-Vektor 402, der einen Farbpixel darstellt, in einen 11-Element-Farbnamensvektor 404 transformiert, wobei jedes Element des 11-Element-Farbnamensvektors 404 die Wahrscheinlichkeit ist, dass die Werte in einem Drei-Element-RGB-Vektor 402 jede Farbe des 11-Element-Farbnamensvektors darstellen.
Jedes Element des 11-Element-Farbnamensvektors stellt eine übliche Farbe dar, wie in 4 gezeigt, und zwar schwarz, blau, braun, grau, grün, orange, rosa, violett, rot, weiß und gelb. Ein Vorteil des Transformierens eines Drei-Element-RGB-Vektors 402 in einen 11-Element-Farbnamensvektor 404 besteht darin, dass Farben durch einen Vektor dargestellt werden können, der einen hohen Wert in einem Element und Werte nahe null in den anderen 10 Elementen eines einzigen Pixels aufweist. Nach dem Umwandeln der rohen RGB-Bilder in Farbnamensbilder können die Farbkomponentenkarten (color-component maps - CCMs) durch Berechnen der Ähnlichkeit zwischen den Farbnamensbildern und Farbkomponenten generiert werden, was in 8 gezeigt ist. 8 ist ein beispielhafter Prozess 800 zum Generieren von Farbkomponentenkarten (color component maps - CCMs) 826 aus Eingabefarbnamensvektorkarten 802. Beispielsweise können die drei Farbkomponenten eines Parkverbotsschildes rot, schwarz und weiß sein. Somit werden drei CCMs 826 für jedes Eingabebild 802 generiert, wenn es sich bei dem Verkehrszeichen, auf das abgezielt wird, um das Parkverbotsschild handelt. Jede CCM gibt eine entscheidende Farbe (rot, schwarz oder weiß) an.
Unter erneuter Bezugnahme auf 4 kann eine Transformation einer Farbraumumwandlung 400 unter Verwendung von Farbbildern von Szenen natürlicher Farben vortrainiert werden, um eine Transformationsmatrix zu bilden. Ein Farbbild 302, das durch Farbvideokameras aufgenommen wurde, kann Farben in einer Szene zugewiesene RGB-Werte aufweisen, die aufgrund von Farbvideokameravarianzen und Aufnahmeelektronikvarianzen, die dazu führen können, dass Farbvideokameras verschiedene RGB-Werte aus derselben Szene aufnehmen, variieren. In weiteren Beispielen können Beleuchtungsunterschiede dazu führen, dass unterschiedliche RGB-Werte als Reaktion auf dieselben Farben aufgenommen werden. Um diese Unterschiede auszugleichen, wird die Transformationsmatrix unter anderem aus Training mit Bildern mit natürlichen Farben im Offline-Betrieb und Verwendung davon, um die 3-Element-RGB-Vektoren 402 in 11-Element-Farbnamensvektoren 404 zu transformieren, erhalten. Die Verkehrszeichen und jede Farbe, die in den Verkehrszeichen vorhanden ist, können unter Verwendung von k-Means-Clustering trainiert werden, um Cluster mit Gruppen von Pixeln zu bestimmen, welche dieselbe Farbe darstellen, bei denen es sich um Farbkomponenten des Verkehrszeichens handelt.
Bei k-Means-Clustering handelt es sich um eine unüberwachte Lerntechnik, bei der Daten durch Bestimmen von k-Schwerpunkten (auch als Farbgrundlagen bezeichnet) in dem Farbraum auf Grundlage von Partitionsdaten in diskrete Cluster gruppiert werden und dann durch Messen der Entfernung des 11-Element-Farbnamensvektors 404 von den 11-dimensionalen Schwerpunkten der Cluster Wahrscheinlichkeiten bestimmt werden, dass eine bestimmte Farbe, die durch einen 11-Element-Farbnamensvektor 404 dargestellt wird (z. B. k = 3 für ein Parkverbotsschild), einer bestimmten Farbgruppe angehört, und somit das Element dem nächsten Cluster zugewiesen wird. Die Cluster (Farben) können iterativ bestimmt werden, um die Entfernung zwischen Clustern zu maximieren und die Anzahl an inkorrekt zugewiesenen Elementen zu minimieren. Das Blockdiagramm ist in 9 gezeigt. K-Means-Clustering mit Verkehrszeichen kann die Varianzen von Aufnahmeelektronik weiter verringern, da die Farbkomponenten unter Verwendung von zugeschnittenen Verkehrszeichenbildern trainiert werden. Durch Eingeben von Trainingsdaten aus natürlichen Bildern mit verschiedenen Varianzen können Transformationsparameter bestimmt werden, die 11-Element-Farbnamensvektoren 404 aus 3-Element-RGB-Vektoren 402 erzeugen. Unter Verwendung der bestimmten Transformationen können 3-Element-RGB-Vektoren 402 in 11-Element-Farbnamensvektoren 404 transformiert werden, wodurch ein Farbbild, das durch drei (RGB-)Bildebenen dargestellt wird, in 11 Farbnamensebenen transformiert wird. Die Farbkomponenten, welche die wichtigsten Farben des abgezielten Verkehrszeichens angeben, können durch k-Means-Clustering bestimmt werden. Die Farbkomponentenkarten (color-component maps - CCMs) können durch Berechnen der Ähnlichkeit zwischen Farbnamensbildern und Farbkomponenten bestimmt werden, was in 8 gezeigt ist. Jeder einzelne Wert in den CCMs zeigt die Ähnlichkeit zwischen der Farbkomponente und dem Farbnamensbild; jede CCM weist dieselbe x-,y-Größe auf wie das Eingabefarbbild 200.
Jede CCM stellt die Ähnlichkeit zu einer Farbkomponente des Verkehrszeichens dar. Ein Vorteil dieser Darstellung besteht darin, dass für interessierende Farben in Verkehrszeichen jede Farbe durch eine CCM mit einem hohen Wert auf einer Ebene und ansonsten Nullen dargestellt werden kann, wodurch die Identifikation von Verkehrszeichen nach Farbe sehr effizient wird. 5 ist eine Abbildung von drei Farbkomponentenkarten, die aus dem Farbbild 200 aus 2 unter Verwendung des CCM-Generierungsmoduls wie vorangehend beschrieben abgeleitet wurde. Die drei Farbkomponentenkarten 502, 504, 506 aus 5 stellen eine „rote“ Farbkomponentenkarte 502, eine „schwarze“ Farbkomponentenkarte 504 und eine „weiße“ Farbkomponentenkarte 506 dar, die alle aus dem Farbbild 200 abgeleitet wurden. Die „1“-Pixel der „roten“ Farbkomponentenkarte 502, „schwarzen“ Farbkomponentenkarte 504 und „weißen“ Farbkomponentenkarte 506 stellen die Wahrscheinlichkeiten dar, dass Pixel an dieser Position in dem Farbbild 200 jeweils rot, schwarz oder weiß sind. Die Farbkomponentenkarten 502, 504, 506 werden gebildet, indem zuerst die RGB-Pixel in dem Farbbild 200 in Farbnamensbilder transformiert werden, wie vorangehend beschrieben, die Wurzel der mittleren quadratischen Abweichungen aus Farbgrundlagen berechnet und die Werte dann mit -1 multipliziert, zu 1 addiert und dann als Potenzen von e oder einem natürlichen Algorithmus berechnet werden, um höhere Werte zu erhalten, die kürzere Entfernungen in dem 11-dimensionalen Farbraum darstellen, wie in Bezug auf 8 gezeigt.
6 ist eine Abbildung, die zeigt, wie räumliche Übereinstimmung in Farbkomponentenkarten verwendet werden kann, um die Identifizierung von Farben in einem aufgenommenen Farbbild zu unterstützen. Als erstes werden Schwellenwerte der Farbkomponentenkarten 602, 604, 606 gebildet, um unter Verwendung der Otsu-Schwellenwertbildung Farbwahrscheinlichkeiten mit niedrigerem Wert zu unterdrücken, um binäre Ergebnisse zu bilden. Schwellenwertbildung bedeutet Umwandeln jedes Pixels eines Eingabebildes, in diesem Fall der Farbkomponentenkarten 602, 604, 606, von einem Wert, der im Bereich von 0 bis zu einem Maximalwert liegen kann, in einen binären Wert, der abhängig davon, ob der Pixelwert größer oder kleiner einem vorbestimmten Schwellenwert ist, entweder bei 0 oder 1 liegen kann. Der Otsu-Schwellenwertbildung liegt die Annahme zugrunde, dass die Farbwahrscheinlichkeiten in jeder Farbkomponentenkarte 602, 604, 606 von binären Verteilungen abgeleitet sind und ein binäres Bild bilden, wobei jeder Pixel abhängig davon, von welcher binären Verteilung er der Bestimmung nach abgeleitet wurde, in eine 1 oder eine 0 umgewandelt wird. Die binären Ausgaben werden dann algebraisch kombiniert, um durch Anwenden eines sich bewegenden Fensters auf die binären Farbkomponentenkarten, um wie in 6 gezeigt Eingabefenster 602, 604, 606 zu bilden, zu bestätigen, dass alle Farben, die in einem Verkehrszeichen 202 auftreten, in derselben Region aufgefunden werden.
Die drei Eingabefenster 602, 604, 606 aus 6 umgeben entsprechende Punkte der drei binären Farbkomponentenkarten, die jeweils einer „roten“, „schwarzen“ und „weißen“ Farbe entsprechen. Um als eine „1“ in einem Ausgabefenster 610, 612, 614 zu erscheinen, muss der Pixel nicht nur eine „1“ in dem Eingabefenster 602, 604, 606 sein, sondern außerdem zumindest eine „1“ aufweisen, die an einer beliebigen Stelle in den zwei anderen Eingabefenstern 602, 604, 606 auftritt, die den zwei anderen Farben entsprechen. Dies bedeutet, dass jeder „1“-Pixel in den Ausgabefenstern 610, 612, 614 wahrscheinlich ein Verkehrszeichen darstellt, da alle der Farben, die in einem gegebenen Verkehrszeichen 202 enthalten sind, in einer Region nahe dem Pixel enthalten sind. Diese Operation wird durch Pfeile 608 angegeben, die zeigen, dass es sich bei jedem Ausgabefenster 610, 612, 614 um eine algebraische Kombination aus drei Eingabefenstern 602, 604, 606 handelt. Des Weiteren werden die drei Eingabefenster 602, 604, 606 jeweils in Quadranten 616, 618, 620 aufgeteilt und muss jeder Quadrant zumindest einen Pixel ungleich null aufweisen, damit der Pixel als eine „1“ in einem der Ausgabefenster 610, 612, 620 ausgegeben wird. Nach diesem Schritt werden die drei Ausgabefenster 610, 612, 614 kombiniert 618, indem die logische OR der drei Ausgabefenster 610, 612, 614 herangezogen wird, um ein Ausgabebild 616 zu bilden, das die Pixel darstellt, die zu dem Verkehrszeichen 202 gehören.
7 ist eine Abbildung einer Verarbeitung zeitlicher Beständigkeit, die auf zwei oder mehr Ausgabebilder 710, 722 angewendet wird, die aus Eingabefarbbildern 702, 704 gebildet wurden, die zu unterschiedlichen Zeitpunkten aufgenommen wurden, während ein Fahrzeug 110 geführt wurde. Zuerst wird Verarbeitung eines optischen Flusses auf die Eingabefarbbilder 702, 704 angewendet. Durch die Verarbeitung des optischen Flusses kann auf Grundlage von Informationen bezogen auf den Standort der Kamera und der Richtung, in welche die Kamera zu dem Zeitpunkt gerichtet war, zu dem die Farbbilder 702, 704 aufgenommen wurden, zusammen mit Parametern der Kameralinse, einschließlich Vergrößerung, bestimmt werden, wo Objekte in einer Szene in den Eingabefarbbildern 702, 704 umgesetzt sind. Die Verarbeitung des optischen Flusses stützt sich auf Erfassen von Merkmalen auf Grundlage von Objekten in einem aufgenommenen Farbbild 702, zum Beispiel mit Techniken des maschinellen Sehens, durch welche zum Beispiel dieselben Merkmale in einem ersten aufgenommenen Farbbild 702 und einem zweiten aufgenommenen Farbbild 704 bestimmt werden. Durch die Verarbeitung des optischen Flusses kann auf Grundlage von Bestimmen der Bewegung der Kamera im Raum zu dem Zeitpunkt zwischen dem Aufnehmen von Farbbildern 702, 704 bestimmt werden, wie Merkmale und die Objekte, von denen die Merkmale abgeleitet sind, in den Farbbildern 702, 704 umgesetzt sind.
Auf die Eingabefarbbilder 702, 704 angewendete Verarbeitung des optischen Flusses wird durch ein optisches Flussbild 706 veranschaulicht, das optische Flusspfeile 708 beinhaltet, welche die Bewegung von Merkmalen zwischen den zwei Eingabefarbbildern 702, 704 darstellen. Die optischen Flusspfeile 708 können durch die Rechenvorrichtung 115 auf Grundlage der Sensoren 116, die eine Bewegung des Fahrzeugs 110 erfassen, das zum Beispiel Beschleunigungsmesser und GPS beinhaltet, kombiniert mit Informationen bezogen auf die Vergrößerung der Kameralinse bestimmt werden. Durch Bestimmen der Videokamerabewegung im Raum zwischen dem Aufnehmen der zwei Farbbilder 702, 704 und Kennen der Vergrößerung der Linse kann die Änderung der Stelle eines Merkmals in den zwei Farbbildern 702, 704 prognostiziert werden. Die Änderung der Stelle von erfassten Merkmalen in den Farbbildern 702, 704 ist durch die optischen Flusspfeile 708 gezeigt.
Durch die Verarbeitung zeitlicher Beständigkeit wird die Verarbeitung des optischen Flusses auf zwei oder mehr Eingabefarbbilder 702, 704 angewendet, die zu unterschiedlichen Zeitpunkten aufgenommen wurden, um das optische Flussbild 706 zu bilden, das die optischen Flusspfeile 708 beinhaltet. Des Weiteren können die Eingabefarbbilder 702, 704 durch eine Verarbeitung räumlicher Übereinstimmung verarbeitet werden, wie in Bezug auf 6 erörtert, um Ausgabebilder 710, 722 zu erzeugen. Die optischen Flusspfeile 708, die eine Bewegung der Merkmale zwischen den Eingabefarbbildern 702, 704 angeben, können auf ein Ausgabebild 710 angewendet werden, um erfasste Farbobjekte 712, 714 umzusetzen, um das Ausgabebild 716 zu bilden, das die Farbobjekte entsprechend einem Verkehrszeichen 718 und überflüssiges Farbrauschen 720 beinhaltet. Durch das Umsetzen von Farbobjekten 712, 714 gemäß den optischen Flusspfeilen 708 aus dem optischen Flussbild 706 können die Farbobjekte 712, 714, die realen Objekten im Raum entsprechen, wie etwa einem Verkehrszeichen 718, von dem überflüssigem Rauschen 728, 726 getrennt werden, da die realen Objekte im Raum gemäß dem bestimmten optischen Fluss umgesetzt sind, während dies für das überflüssige Rauschen nicht der Fall ist.
Das Ausgabebild 722 beinhaltet Farbobjekte entsprechend einem Verkehrszeichen 724 und überflüssigem Rauschen 728, 726. Das Ausgabebild 730 wird durch Heranziehen des logischen UND des Ausgabebildes 722 und umgesetzten Ausgabebildes 716 gebildet. Da das Verkehrszeichen 718, 724 in beiden der Ausgabebilder 716, 722 auftritt und gemäß den optischen Flusspfeilen 708 umgesetzt wurde, tritt das Verkehrszeichen 718, 724 in jedem Bild an derselben Stelle auf und tritt somit in dem Ausgabebild 730 als Verkehrszeichen 732 auf. Das überflüssige Rauschen 720, 726, 728 tritt nicht in den beiden Ausgabebildern 716, 722 an einer selben Stelle in den Bildern auf und tritt somit nicht in dem Ausgabebild 730 auf. Auf diese Weise kann durch die Verarbeitung zeitlicher Beständigkeit auf Grundlage der auf die aufgenommenen Farbbilder 702, 720 angewendeten Verarbeitung des optischen Flusses prognostiziert werden, wo die Pixel, die ein Verkehrszeichen 718, 724 darstellen, in den Ausgabebildern 716, 722 auftreten; da sich Pixel eines zufälligen überflüssigen Rauschens nicht gemäß der Verarbeitung des optischen Flusses bewegen, können diese durch diesen Prozess herausgefiltert werden, während einem Verkehrszeichen 718, 724 zugeordnete Pixel das Filtern überstehen, um als Pixel des Verkehrszeichens 732 in dem Ausgabebild 730 aufzutreten.
Die Rechenvorrichtung 115 kann den Standort und die Richtung der Kameras, die in einem Fahrzeug 110 enthalten sind, durch Erhalten von Informationen von Sensoren 116 bestimmen, wie etwa Beschleunigungsmessern, elektronischen Kompassen und GPS, und diese mit Informationen bezüglich der Vergrößerung der Kameralinse kombinieren, um zu prognostizieren, wohin sich das Merkmal zwischen den Farbbildern 702, 704 bewegen wird, die zu unterschiedlichen Zeitpunkten aufgenommen werden. Das Prognostizieren der Stellen von einem oder mehreren Merkmalen, die einem Verkehrszeichen 732 zugeordnet sind, können verwendet werden, um diese Pixel zu bestätigen, die einem Verkehrszeichen 718, 722 zugeordnet sind, die ein selbes Zeichen darstellen und somit zeitlich beständig sind. Durch die Verarbeitung des optischen Flusses kann die zeitliche Beständigkeit von Objekten bestimmt werden, die durch räumliche Übereinstimmung erfasst wurde, was bedeutet, dass die erfassten Objekte sowohl auf Grundlage räumlicher Übereinstimmung als auch zeitlicher Beständigkeit dasselbe Objekt (ein Verkehrszeichen) in zwei oder mehr Farbbildern 702, 704 darstellen.
8 ist ein beispielhafter Prozess 800 zum Generieren von Farbkomponentenkarten (color component maps - CCMs) 826 (CCMs-Generierung) aus Eingabefarbnamensvektorkarten 802. Beispielsweise können die drei Farbkomponenten eines Parkverbotsschildes rot, schwarz und weiß sein. Somit werden drei CCMs 826 für jedes Farbnamensraum-Eingabebild 802 generiert, wenn es sich bei dem Verkehrszeichen, auf das abgezielt wird, um das Parkverbotsschild handelt. Jede CCM-826-Ebene gibt eine entscheidende Farbe (rot, schwarz oder weiß) an. Auf einer Subtraktionsstufe 808 werden Eingabe-Farbnamensvektorkarten 802 durch Subtrahieren der Farbgrundlage 804 normalisiert, die durch den Prozess 1000 gebildet und vor dem Subtrahieren von den Eingabe-Farbnamensvektorkarten 802 durch Farbraumumwandlung 806 verarbeitet wird.
Auf Stufe 810 kann die Rechenvorrichtung 115 die Wurzel der mittleren quadratischen Abweichung jedes Punktes in den Eingabe-Farbnamensvektorkarten 802 zum Beispiel von jeder Farbe in den drei Farbkomponenten eines Parkverbotsschildes berechnen und die Ergebnisse an Entfernungskarten 812 ausgeben. Die Entfernungskarten können durch Multiplizieren jedes Elements der Entfernungskarten 812 mit -1 814 auf einer Multiplikationsstufe 816 und dann Addieren einer 1 zu jedem Element der Entfernungskarten 812 vor dem Bilden der Potenz jedes Elements der Entfernungskarten 812 zur Berechnung geeigneter gestaltet werden. Nach dieser Stufe können die potenzierten Elemente zum Beispiel durch Subtrahieren des Durchschnitts aus einem oder mehreren Datenframes auf einer Normalisierungsstufe 824 wieder normalisiert werden. Nach der Normalisierungsstufe 814 kann eine CCM 826 zur weiteren Verarbeitung an die Rechenvorrichtung 115 ausgegeben werden, zum Beispiel zur Verarbeitung räumlicher Übereinstimmung, wie in Bezug auf 6 beschrieben.
9 ist eine Abbildung eines Ablaufdiagramms eines Prozesses 900 zum Erfassen von Verkehrszeichen, das in Bezug auf 2-7 beschrieben wird. Der Prozess 900 kann durch einen Prozessor der Rechenvorrichtung 115 umgesetzt werden, indem beispielsweise Informationen von den Sensoren 116 als Eingabe herangezogen und Anweisungen über die Steuerungen 112, 113, 114 ausgeführt und Steuersignale hierüber gesendet werden. Der Prozess 900 beinhaltet mehrere Schritte, die in der offenbarten Reihenfolge vorgenommen werden. Alternativ könnte der Prozess 900 Umsetzungen beinhalten, die weniger Schritte oder die Schritte in anderen Reihenfolgen vorgenommen beinhalten können.
Der Prozess 900 beginnt bei Schritt 902, bei dem eine Rechenvorrichtung 115 in einem Fahrzeug 110 ein Farbbild 702 aufnimmt und speichert. Wie vorangehend in Bezug auf 2 erörtert, kann das Farbbild 702 zum Beispiel als ein oder mehrere Farbvideodatenframes von einer Farbvideokamera aufgenommen werden. Bei Schritt 904 können die durch Drei-Element-RGB-Vektoren 402 dargestellten Pixel des Farbbildes 702 durch trainierte Farbraumumwandlung 400 wie vorangehend in Bezug auf 3 und 4 erörtert in 11-Element-Farbnamensvektoren 404 umgewandelt werden. Die 11-Element-Farbvektoren 404 bilden Farbkoordinatenkarten (color coordinate maps - CCMs) 502, 504, 506, die den Farben entsprechen, die wie in 8 gezeigt durch das Framework (CCMs-Generierung) in Verkehrszeichen aufgefunden werden.
Bei Schritt 906 werden die CCMs, welche die in Verkehrszeichen aufgefundenen Farben darstellen, wie vorangehend in Bezug auf 5 und 6 erörtert mit einer Verarbeitung räumlicher Übereinstimmung kombiniert, um ein Bild 706 zu bilden und auszugeben, das Pixel beinhaltet, die ein Verkehrszeichen 708 darstellen. Die Verarbeitung räumlicher Übereinstimmung macht erforderlich, dass die Pixel, die ein Verkehrszeichen 708 beinhalten, nahegelegene Farben beinhalten, die als in einem Verkehrszeichen enthalten bestimmt wurden, um als Pixel bestimmt zu werden, die ein Verkehrszeichen 708 darstellen. Durch diese Verarbeitung werden Pixel herausgefiltert, die eine Farbe beinhalten können, die in einem Verkehrszeichen enthalten ist, jedoch nicht räumlich nahe an den anderen Farben liegen, die in dem Verkehrszeichen enthalten sind.
Bei Schritt 908 kann die Rechenvorrichtung 115 das Ausgabebild 706 umsetzen, um ein umgesetztes Ausgabebild 714 zu bilden, und das umgesetzte Ausgabebild 714 mit einem Ausgabebild 732 kombinieren, das durch Verarbeiten eines Farbbildes 720 gebildet wurde, das zu einem anderen Zeitpunkt als das Farbbild 702 gemäß Umsetzungen aufgenommen wurde, die durch die Verarbeitung des optischen Flusses bestimmt wurden, um eine zeitliche Beständigkeit erforderlich zu machen. Auf diese Weise ist erforderlich, das Pixel, die ein Verkehrszeichen 716 darstellen, nach der Umsetzung wie vorangehend in Bezug auf 7 erörtert in mehr als einem Ausgabebild an einer ähnlichen Stelle erscheinen.
Bei Schritt 908 können Pixel, die erfasste Verkehrszeichen 740 darstellen, durch die Rechenvorrichtung 115 ausgegeben werden, um verwendet zu werden, um das Fahrzeug 110 zu führen oder einen Insassen bei dem Führen eines Fahrzeugs 110 zu unterstützen. Nach diesem Schritt endet der 908 Prozess 900.
10 ist eine Abbildung eines Ablaufdiagramms eines Prozesses 1000 zum Trainieren von Farbkomponentengrundlagen für Verkehrszeichen, der in Bezug auf 4 und 5 beschrieben wird. Der Prozess 1000 kann durch einen Prozessor der Rechenvorrichtung 115 umgesetzt werden, indem beispielsweise Informationen von den Sensoren 116 als Eingabe herangezogen und Anweisungen über die Steuerungen 112, 113, 114 ausgeführt und Steuersignale hierüber gesendet werden. Der Prozess 1000 beinhaltet mehrere Schritte, die in der offenbarten Reihenfolge vorgenommen werden. Der Prozess 1000 beinhaltet zudem Umsetzungen, die weniger Schritte beinhalten, oder kann die Schritte in anderen Reihenfolgen vorgenommen beinhalten.
Der Prozess 1000 beginnt bei Schritt 1002, bei dem eine Rechenvorrichtung 115 eine Vielzahl von Farbbildern 200, die Verkehrszeichen 202 beinhalten, aufnimmt und speichert. Bei dem Prozess 1000 handelt es sich um ein Beispiel für unüberwachtes Lernen, wobei keine Kennzeichnungen in den Eingabefarbbildern 200 verfügbar sind.
Bei Schritt 1004 werden die Pixel, die Verkehrszeichen 202 darstellen, durch einen menschlichen Bediener ausgewählt, und alle anderen Pixel des Bildes auf Null einstellt. In anderen Beispielen können die Verkehrszeichen 202 in den Farbbildern 200 unter Verwendung von Techniken des maschinellen Sehens durch eine Rechenvorrichtung 115 ausgewählt werden.
Bei Schritt 1006 werden die ausgewählten Pixel von einem Drei-Element-RGB-Vektor 402 in einen 11-Element-Farbvektor 404 umgewandelt, wie in Bezug auf 4 beschrieben. Bei Schritt 1008 werden die 11-Element-Farbvektoren 404 unter Verwendung von k-Means-Clustering wie vorangehend beschrieben in Cluster ähnlich farbiger Pixel gruppiert. Durch das Gruppieren von ähnlich farbigen Pixeln können Parameter erzeugt werden, die verwendet werden, um die Farbraumumwandlungstransformation zu modifizieren, um Pixel, die Verkehrszeichen entsprechen, zuverlässig und akkurat in dieselben Gruppen zu gruppieren. Auf diese Weise können die Farbgrundlagen mit Variationen in denselben Gruppen trainiert werden, wodurch die Erfassung von Verkehrszeichen, die bei unterschiedlichen Bedingungen aufgenommen wurden, akkurater und wiederholbarer gestaltet wird. Die modifizierten Farbraumumwandlungsparameter können durch die Rechenvorrichtung 115 gespeichert werden, um zum Verarbeiten von aufgenommenen Farbbildern verwendet zu werden. Nach diesem Schritt 1008 endet der Prozess 1000.
11 ist eine Abbildung eines Ablaufdiagramms eines Prozesses 1100 zum Durchführen einer Verarbeitung räumlicher Übereinstimmung an aufgenommenen Farbbildern 200, der in Bezug auf 1-7 beschrieben wird. Der Prozess 1100 kann durch einen Prozessor der Rechenvorrichtung 115 umgesetzt werden, indem beispielsweise Informationen von den Sensoren 116 als Eingabe herangezogen und Anweisungen über die Steuerungen 112, 113, 114 ausgeführt und Steuersignale hierüber gesendet werden. Der Prozess 1100 beinhaltet mehrere Schritte, die in der offenbarten Reihenfolge vorgenommen werden. Der Prozess 1100 beinhaltet zudem Umsetzungen, die weniger Schritte beinhalten, oder kann die Schritte in anderen Reihenfolgen vorgenommen beinhalten.
Der Prozess 1100 beginnt bei Schritt 1102, bei dem eine Rechenvorrichtung 115 ein Farbbild 200 aufnehmen kann, wie vorangehend in Bezug auf 2 beschrieben. Das Farbbild 200 wird durch Durchführen einer Farbraumumwandlung unter Verwendung einer trainierten Farbraumumwandlungstransformation und dann Berechnen der Ähnlichkeit zu einem vorbestimmten Verkehrszeichen wie vorangehend in Bezug auf 9 erörtert in Farbkomponentenkarten umgewandelt, welche die Farben darstellen, die in dem Farbbild 200 enthalten sind.
Bei Schritt 1104 werden die CCMs berechnet, die das zu erfassende Verkehrszeichen darstellen. Wenn zum Beispiel ein Verkehrszeichen „Parkverbot“ erfasst werden soll, können die CCMs, welche die Farben „rot“, „schwarz“ und „weiß“ darstellen, generiert werden.
Bei Schritt 1106 können die CCMs, welche die erwünschten Farben darstellen, wie in Bezug auf 6 erörtert erweitert werden, und zwar durch Multiplizieren mit -1, Addieren von 1 und Heranziehen des Antilogarithmus des resultierenden Wertes, um die Werte in der CCM zur weiteren Verarbeitung zu konditionieren.
Bei Schritt 1108 können Schwellenwerte der erweiterten CCMs gebildet werden, wie vorangehend in Bezug auf 6 erörtert, um binäre Bilder zu bilden, wobei jeder Wert in dem Bild entweder „0“ oder „1“ ist. Nach diesem Schritt können bei Schritt 1110 die binären CCMs, welche die Farben darstellen, wie vorangehend in Bezug auf 6 erörtert kombiniert werden, um lediglich die Pixel als „1er“ beizubehalten, die in räumlicher Übereinstimmung mit anderen Farben aus dem Verkehrszeichen auftreten. Nach diesem Schritt endet der Prozess 1100.
12 ist eine Darstellung eines Flussdiagramms eines Prozesses 1200 zum Durchführen einer Verarbeitung zeitlicher Beständigkeit, der in Bezug auf 1-7 beschrieben wird. Der Prozess 1200 kann durch einen Prozessor der Rechenvorrichtung 115 umgesetzt werden, indem beispielsweise Informationen von den Sensoren 116 als Eingabe herangezogen und Anweisungen über die Steuerungen 112, 113, 114 ausgeführt und Steuersignale hierüber gesendet werden. Der Prozess 1200 beinhaltet mehrere Schritte, die in der offenbarten Reihenfolge vorgenommen werden. Der Prozess 1200 beinhaltet zudem Umsetzungen, die weniger Schritte beinhalten, oder kann die Schritte in anderen Reihenfolgen vorgenommen beinhalten.
Der Prozess 1200 beginnt bei Schritt 1202, bei dem ein Farbbild 702 durch eine Rechenvorrichtung 115 aufgenommen und gespeichert wird.
Bei Schritt 1204 kann das Farbbild 702 unter Verwendung einer Verarbeitung räumlicher Übereinstimmung wie vorangehend in Bezug auf 4, 5, 6, 9 und 10 beschrieben verarbeitet werden, um ein binäres Ausgabebild 706 zu erzeugen.
Bei Schritt 1206 kann die Rechenvorrichtung 115 ein zweites Farbbild 720 aufnehmen und speichern und bei Schritt 1208 kann das zweite Farbbild 720 unter Verwendung einer Verarbeitung räumlicher Übereinstimmung verarbeitet werden, um ein zweites binäres Ausgabebild 724 zu erzeugen.
Bei Schritt 1210 kann die Rechenvorrichtung optische Flussparameter von Merkmalen, die Verkehrszeichen zugeordnet sind, in den Eingabefarbbildern 702, 720 bestimmen, um Umsetzungsparameter zur Anwendung auf die binären Ausgabebilder 706, 720 wie vorangehend in Bezug auf 7 erörtert zu bestimmen. Jedes binäre Ausgabebild 706, 720 kann umgesetzt werden, um mit dem anderen übereinzustimmen, solange die Pixel, welche die Verkehrszeichen 716, 732 darstellen, in Ausrichtung gebracht werden, sodass die Pixel, welche die Verkehrszeichen 716, 732 darstellen, eine zeitliche Beständigkeit wiedergeben, wenn die Bewegung der Kamera durch bestimmte optische Flussparameter ausgeglichen wird.
Die zeitliche Beständigkeit wird bei Schritt 1212 geprüft, bei dem durch Bilden des logischen AND der binären Ausgabebilder 706, 720 bestimmt werden kann, ob die Positionen der Pixel, welche die Verkehrszeichen 716, 732 darstellen, an derselben Stelle auftreten. Wenn die Antwort „Ja“ lautet, verzweigt sich der Prozess 1200 zu Schritt 1214, bei dem die Erfassung eines Verkehrszeichens 202 durch eine Ausgabe ungleich null von dem logischen AND zwischen dem binären Ausgabebild 706, 720 bestätigt wird. In dem Fall, in dem Pixel ungleich null von dem logischen AND-Prozess ausgegeben werden, wird der „Nein“-Zweig eingeschlagen und endet der Prozess 1200.
Rechenvorrichtungen, wie etwa die hier erörterten, beinhalten im Allgemeinen jeweils Anweisungen, die durch eine oder mehrere Rechenvorrichtungen, wie etwa die vorstehend genannten, und zum Ausführen von Blöcken oder Schritten von vorstehend beschriebenen Prozessen ausführbar sind. Beispielsweise können die vorstehend erörterten Prozessblöcke als computerausführbare Anweisungen ausgeführt sein.
Computerausführbare Anweisungen können von Computerprogrammen zusammengestellt oder interpretiert werden, die unter Verwendung einer Vielzahl von Programmiersprachen und/oder -technologien erstellt wurden, einschließlich unter anderem, entweder einzeln oder in Kombination, Java™, C, C++, Visual Basic, Java Script, Perl, HTML usw. Im Allgemeinen empfängt ein Prozessor (z. B. ein Mikroprozessor) Anweisungen, z. B. von einem Speicher, einem computerlesbaren Medium usw., und führt diese Anweisungen aus, wodurch er ein oder mehrere Prozesse durchführt, die einen oder mehrere der hierin beschriebenen Prozesse beinhalten. Derartige Anweisungen und andere Daten können in Dateien gespeichert und unter Verwendung vielfältiger computerlesbarer Medien übertragen werden. Eine Datei in einer Rechenvorrichtung ist im Allgemeinen eine Datensammlung, die auf einem computerlesbaren Medium, wie etwa einem Speichermedium, einem Direktzugriffsspeicher usw., gespeichert ist.
Ein computerlesbares Medium schließt ein beliebiges Medium ein, das am Bereitstellen von Daten (z. B. Anweisungen), die durch einen Computer gelesen werden können, beteiligt ist. Ein derartiges Medium kann viele Formen annehmen, einschließlich unter anderem nichtflüchtige Medien, flüchtige Medien usw. Nichtflüchtige Medien schließen zum Beispiel optische oder magnetische Platten und andere Dauerspeicher ein. Flüchtige Medien schließen einen dynamischen Direktzugriffsspeicher (DRAM) ein, der in der Regel einen Hauptspeicher darstellt. Zu gängigen Formen computerlesbarer Medien gehören beispielsweise eine Diskette, eine Folienspeicherplatte, eine Festplatte, ein Magnetband, ein beliebiges anderes magnetisches Medium, eine CD-ROM, eine DVD, ein beliebiges anderes optisches Medium, Lochkarten, Lochstreifen, ein beliebiges anderes physisches Medium mit Lochmustern, ein RAM, ein PROM, ein EPROM, ein FLASH-EEPROM, ein beliebiger anderer Speicherchip oder eine beliebige andere Speicherkassette oder ein beliebiges anderes Medium, das von einem Computer gelesen werden kann.
Allen in den Ansprüchen verwendeten Ausdrücken soll deren allgemeine und gewöhnliche Bedeutung zukommen, wie sie vom Fachmann verstanden wird, sofern nicht ausdrücklich etwas anderes angegeben ist. Insbesondere ist die Verwendung der Singularartikel wie etwa „ein“, „eine“, „der“, „die“, „das“ usw. dahingehend auszulegen, dass ein oder mehrere der aufgeführten Elemente genannt werden, es sei denn, ein Anspruch enthält ausdrücklich eine gegenteilige Einschränkung.
Der Ausdruck „beispielhaft“ wird hier in dem Sinne verwendet, dass er ein Beispiel angibt; z. B. sollte ein Verweis auf eine „beispielhafte Vorrichtung“ einfach als Bezugnahme auf ein Beispiel für eine Vorrichtung gelesen werden.
Das einen Wert oder ein Ergebnis modifizierende Adverb „ungefähr“ bedeutet, dass eine Form, eine Struktur, eine Messung, ein Wert, eine Bestimmung, eine Berechnung usw. von einer/einem genau beschriebenen Geometrie, Entfernung, Messung, Wert, Bestimmung, Berechnung usw. aufgrund von Mängeln hinsichtlich Materialien, Bearbeitung, Herstellung, Sensormessungen, Berechnungen, Bearbeitungszeit, Kommunikationszeit usw. abweichen kann.
In den Zeichnungen kennzeichnen die gleichen Bezugszeichen die gleichen Elemente. Ferner könnten manche oder alle dieser Elemente geändert werden. Hinsichtlich der hier beschriebenen Medien, Prozesse, Systeme, Verfahren usw. versteht es sich, dass die Schritte derartiger Prozesse usw. zwar als gemäß einer bestimmten Abfolge erfolgend beschrieben worden sind, derartige Prozesse jedoch so umgesetzt werden könnten, dass die beschriebenen Schritte in einer anderen Reihenfolge als der hier beschriebenen Reihenfolge durchgeführt werden. Es versteht sich ferner, dass bestimmte Schritte gleichzeitig durchgeführt, andere Schritte hinzugefügt oder bestimmte hier beschriebene Schritte weggelassen werden könnten. Anders ausgedrückt dienen die Beschreibungen von Prozessen in dieser Schrift der Veranschaulichung bestimmter Ausführungsformen und sollten keinesfalls dahingehend ausgelegt werden, dass sie die beanspruchte Erfindung einschränken.
Gemäß der vorliegenden Erfindung wird ein Verfahren bereitgestellt, durch das Folgendes durchgeführt wird: Aufnehmen eines Farbbildes; Transformieren des Farbbildes in Farbkomponentenkarten; und Verarbeiten der Farbkomponentenkarten, um ein Verkehrszeichen durch Bestimmen räumlicher Übereinstimmung und zeitlicher Beständigkeit von den Farbkomponentenkarten mit dem Verkehrszeichen zu erfassen.
Gemäß einer Ausführungsform ist die vorangehende Erfindung ferner durch Transformieren des Farbbildes in Farbkomponentenkarten durch Umwandeln von Drei-Element-RGB-Vektoren, die Pixel des Farbbildes darstellen, in Elf-Element-Farbnamensvektoren auf Grundlage von RGB in Farbnamen-Raumtransformationen gekennzeichnet.
Gemäß einer Ausführungsform stellt jeder Elf-Element-Farbnamensvektor eine einzige Farbe dar.
Gemäß einer Ausführungsform werden Farbgrundlagen durch k-Means-Clustering mit Trainingsdaten generiert, die eine Wahrscheinlichkeit des Auftretens der Elf-Element-Farbnamensvektoren bestimmen.
Gemäß einer Ausführungsform beinhalten die Trainingsdaten Bilder, die Verkehrszeichen beinhalten.
Gemäß einer Ausführungsform ist die vorangehende Erfindung ferner durch Verarbeiten der Farbkomponentenkarten durch Segmentieren der Farbkomponentenkarten unter Verwendung von Schwellenwertbildung gekennzeichnet.
Gemäß einer Ausführungsform ist die vorangehende Erfindung ferner durch Verarbeiten der Farbkomponentenkarten auf Grundlage von räumlicher Übereinstimmung gekennzeichnet, wobei segmentierte Farbkomponenten auf Grundlage von Abgleichen einer Farbkomponente, die in dem Verkehrszeichen enthalten ist, beibehalten werden, während räumlich nahegelegene Farbkomponenten Farbkomponenten entsprechen, die in dem Verkehrszeichen enthalten sind.
Gemäß einer Ausführungsform ist die vorangehende Erfindung ferner durch Folgendes gekennzeichnet: Aufnehmen eines zweiten Farbbildes, Transformieren des zweiten Farbbildes in zweite Farbkomponentenkarten, Segmentieren der zweiten Farbkomponentenkarten, Bestimmen räumlicher Übereinstimmung und Bestimmen zeitlicher Beständigkeit auf Grundlage von Vergleichen der Farbkomponentenkarten aus dem zweiten Bild mit den Farbkomponentenkarten aus dem ersten Bild.
Gemäß einer Ausführungsform werden durch das Bestimmen zeitlicher Beständigkeit Farbkomponenten beibehalten, die in Verkehrszeichen in zwei oder mehr Farbbildern auftreten, die zu verschiedenen Zeitpunkten aufgenommen wurden.
Gemäß einer Ausführungsform werden die Verkehrszeichen auf Grundlage von Bestimmen eines optischen Flusses erfasst, wobei durch den optischen Fluss auf Grundlage von Informationen hinsichtlich einer Sensorbewegung und einer Kameralinse prognostiziert wird, wo die Verkehrszeichen auftreten.
Gemäß der vorliegenden Erfindung wird ein Computergerät bereitgestellt, das zu Folgendem programmiert ist: Aufnehmen eines Farbbildes; Transformieren des Farbbildes in Farbkomponentenkarten; und Verarbeiten der Farbkomponentenkarten, um ein Verkehrszeichen durch Bestimmen räumlicher Übereinstimmung und zeitlicher Beständigkeit von den Farbkomponentenkarten mit dem Verkehrszeichen zu erfassen.
Gemäß einer Ausführungsform ist die vorangehende Erfindung ferner dadurch gekennzeichnet, dass sie zu Folgendem programmiert ist: Transformieren des Farbbildes in Farbkomponentenkarten durch Umwandeln von Drei-Element-RGB-Vektoren, die Pixel des Farbbildes darstellen, in Elf-Element-Farbnamensvektoren auf Grundlage von RGB in Farbnamen-Raumtransformation.
Gemäß einer Ausführungsform stellt jeder Elf-Element-Farbnamensvektor eine einzige Farbe dar.
Gemäß einer Ausführungsform werden Farbgrundlagen durch k-Means-Clustering mit Trainingsdaten generiert, die eine Wahrscheinlichkeit des Auftretens der Elf-Element-Farbnamensvektoren bestimmen.
Gemäß einer Ausführungsform beinhalten die Trainingsdaten Bilder, die Verkehrszeichen beinhalten.
Gemäß einer Ausführungsform ist die vorangehende Erfindung ferner dadurch gekennzeichnet, dass sie zu Verarbeiten der Farbkomponentenkarten durch Segmentieren der Farbkomponentenkarten unter Verwendung von Schwellenwertbildung programmiert ist.
Gemäß einer Ausführungsform ist die vorangehende Erfindung ferner dadurch gekennzeichnet, dass sie zu Folgendem programmiert ist: Verarbeiten der Farbkomponentenkarten auf Grundlage von räumlicher Übereinstimmung, wobei segmentierte Farbkomponenten auf Grundlage von Abgleichen einer Farbkomponente, die in dem Verkehrszeichen enthalten ist, beibehalten werden, während räumlich nahegelegene Farbkomponenten Farbkomponenten entsprechen, die in dem Verkehrszeichen enthalten sind.
Gemäß einer Ausführungsform ist die vorangehende Erfindung ferner dadurch gekennzeichnet, dass sie zu Folgendem programmiert ist: Aufnehmen eines zweiten Farbbildes, Transformieren des zweiten Farbbildes in zweite Farbkomponentenkarten, Segmentieren der zweiten Farbkomponentenkarten, Bestimmen räumlicher Übereinstimmung in den zweiten Farbkomponentenkarten und Bestimmen zeitlicher Beständigkeit auf Grundlage von Vergleichen der zweiten Farbkomponentenkarten mit den Farbkomponentenkarten.
Gemäß einer Ausführungsform werden durch das Bestimmen zeitlicher Beständigkeit Farbkomponenten beibehalten, die in Verkehrszeichen in zwei oder mehr Farbbildern auftreten, die zu verschiedenen Zeitpunkten aufgenommen wurden.
Gemäß einer Ausführungsform werden die Verkehrszeichen auf Grundlage von Bestimmen eines optischen Flusses erfasst, wobei durch den optischen Fluss auf Grundlage von Informationen hinsichtlich einer Sensorbewegung und einer Kameralinse prognostiziert wird, wo die Verkehrszeichen auftreten.

Claims

Verfahren, umfassend: Aufnehmen eines Farbbildes; Transformieren des Farbbildes in Farbkomponentenkarten; und Verarbeiten der Farbkomponentenkarten, um ein Verkehrszeichen durch Bestimmen räumlicher Übereinstimmung und zeitlicher Beständigkeit von den Farbkomponentenkarten mit dem Verkehrszeichen zu erfassen.
Verfahren nach Anspruch 1, ferner umfassend Transformieren des Farbbildes in Farbkomponentenkarten durch Umwandeln von Drei-Element-RGB-Vektoren, die Pixel des Farbbildes darstellen, in Elf-Element-Farbnamensvektoren auf Grundlage von RGB in Farbnamen-Raumtransformationen, die auf Grundlage von Trainingsdaten bestimmt wurden.
Verfahren nach Anspruch 2, wobei jeder Elf-Element-Farbnamensvektor eine einzige Farbe darstellt.
Verfahren nach Anspruch 3, wobei Farbgrundlagen durch k-Means-Clustering mit Trainingsdaten generiert werden, die eine Wahrscheinlichkeit des Auftretens der Elf-Element-Farbnamensvektoren bestimmen.
Verfahren nach Anspruch 4, wobei die Trainingsdaten Bilder beinhalten, die Verkehrszeichen beinhalten.
Verfahren nach Anspruch 1, ferner umfassend Verarbeiten der Farbkomponentenkarten durch Segmentieren der Farbkomponentenkarten unter Verwendung von Schwellenwertbildung.
Verfahren nach Anspruch 1, ferner umfassend Verarbeiten der Farbkomponentenkarten auf Grundlage von räumlicher Übereinstimmung, wobei segmentierte Farbkomponenten auf Grundlage von Abgleichen einer Farbkomponente, die in dem Verkehrszeichen enthalten ist, beibehalten werden, während räumlich nahegelegene Farbkomponenten Farbkomponenten entsprechen, die in dem Verkehrszeichen enthalten sind.
Verfahren nach Anspruch 7, ferner umfassend: Aufnehmen eines zweiten Farbbildes, Transformieren des zweiten Farbbildes in zweite Farbkomponentenkarten, Segmentieren der zweiten Farbkomponentenkarten, Bestimmen räumlicher Übereinstimmung und Bestimmen zeitlicher Beständigkeit auf Grundlage von Vergleichen der Farbkomponentenkarten aus dem zweiten Bild mit den Farbkomponentenkarten aus dem ersten Bild.
Verfahren nach Anspruch 8, wobei durch das Bestimmen zeitlicher Beständigkeit Farbkomponenten beibehalten werden, die in Verkehrszeichen in zwei oder mehr Farbbildern auftreten, die zu verschiedenen Zeitpunkten aufgenommen wurden.
Verfahren nach Anspruch 9, wobei die Verkehrszeichen auf Grundlage von Bestimmen eines optischen Flusses erfasst werden, wobei durch den optischen Fluss auf Grundlage von Informationen hinsichtlich einer Sensorbewegung und einer Kameralinse prognostiziert wird, wo die Verkehrszeichen auftreten.
Verfahren nach Anspruch 5, wobei das Trainieren Durchführen einer k-Clusteranalyse an Farbnamensvektoren beinhaltet.
Verfahren nach Anspruch 6, ferner umfassend Schwellenwertbildung der Farbkomponentenkarten auf Grundlage der Otsu-Schwellenwertbildungstechnik.
Verfahren nach Anspruch 12, wobei durch die Otsu-Schwellenwertbildungstechnik ein binäres Ausgabebild erzeugt wird.
Verfahren nach Anspruch 13, wobei das binäre Ausgabebild mit dem Farbbild kombiniert wird, um ein Ausgabefarbbild zu erzeugen.
System, umfassend einen Computer, der dazu programmiert ist, die Verfahren nach einem der Ansprüche 1-14 durchzuführen.