DE112014006493T5

DE112014006493T5 - Bestimmen eines Massstabs dreidimensonaler Informationen

Info

Publication number: DE112014006493T5
Application number: DE112014006493.9T
Authority: DE
Inventors: Robin Plowman
Original assignee: Application Solutions Electronic and Vision Ltd
Current assignee: Continental Autonomous Mobility Germany GmbH
Priority date: 2014-05-27
Filing date: 2014-05-27
Publication date: 2017-01-19
Also published as: WO2015180758A1; EP3149702A1; JP6396499B2; US20170076459A1; JP2017517727A; US10192141B2

Abstract

Diese Offenbarung betrifft ein Verfahren, bei dem Punkte ermittelt werden, die zweien oder mehr der Bilder, welche die gleichen Merkmale der realen Welt darzustellen scheinen, gemeinsam sind, und Lageänderungen der Punkte zwischen entsprechenden Bildern verwendet werden, um auf die Bewegung der Kamera zu schließen und die Position der Merkmale der realen Welt in einem 3D-Raum zu finden. Um den Maßstab der dreidimensionalen Informationen zu bestimmen, wird aus den Bildern die Position eines Referenzmerkmals ermittelt, dessen tatsächliche Entfernung von der Kamera bekannt ist. Das Referenzmerkmal wird gefunden, indem lediglich Kandidatenpunkte berücksichtigt werden, die aus Kandidatenpunkten ausgewählt sind, die in einen Ausschnitt des Bildes fallen, der einem Teil des Sichtfeldes der Kamera entspricht. Der Maßstab wird aus der Entfernung zwischen der Kamera und dem Referenzmerkmal in dem Bild und in der Realität bestimmt.

Description

Technisches Gebiet
Diese Offenbarung betrifft ein Verfahren zum Erzeugen von Maßstabsinformationen, insbesondere ein Verfahren zum Erzeugen von Maßstabsinformationen aus Bildern, die durch eine an einem Fahrzeug angebrachte Kamera aufgenommen werden, und eine entsprechende Vorrichtung.
Hintergrund
Es sind verschiedene Techniken zum Erhalten dreidimensionaler (3D) Informationen aus zweidimensionalen (2D) Bildern, die nacheinander durch eine einzige, sich bewegende Kamera aufgenommen werden, verfügbar. Eine derartige Technik wird in dem Aufsatz „Shape and motion from image streams under orthography – a factorization method”, C. Tomasi und T. Kanade, Technischer Bericht TR-92-1270, Cornell University, März 1992, beschrieben. Diese Technik beinhaltet grundlegend ein Ermitteln von Punkten in den aufgenommenen Bildern, welche die gleichen Merkmale der realen Welt darzustellen scheinen. Lageänderungen der Punkte zwischen entsprechenden Bildern können dann verwendet werden, um auf die Bewegung der Kamera zu schließen und die Position der Merkmale der realen Welt in einem 3D-Raum zu triangulieren. Die Techniken sind zwar in rechentechnischer Hinsicht kostenintensiv, funktionieren aber allgemein gut. Eine Einschränkung ist jedoch, dass es ohne Kenntnis der Größe wenigstens eines Merkmals der realen Welt für Vergleichszwecke unmöglich ist, den Maßstab der erzeugten 3D-Struktur zu wissen.
Diese Art der Technik wird auf dem Gebiet von Fahrzeugkamerasystemen angewendet, um Informationen über ein Fahrzeugumfeld zu erhalten. Beispielsweise wird in der Patentveröffentlichung US 2009/0243889 ein System zur Erkennung eines freien Parkplatzes beschrieben, bei dem eine 3D-Struktur, die aus Bildern erzeugt wird, die durch eine einzige, an einem Fahrzeug angebrachte Kamera aufgenommen werden, verwendet wird, um Positionen benachbarter Fahrzeuge zu schätzen. In der US 2009/0243889 wird der Maßstab der erzeugten 3D-Struktur bestimmt durch: Erkennen einer Bodenebene in der 3D-Struktur, Schätzen der Höhe der Kamera über der Bodenebene innerhalb der 3D-Struktur und Vergleichen dieser Höhe mit der Höhe der Kamera in der realen Welt, die als feststehend angenommen wird, um ein „Kamerahöhenverhältnis” zwischen der erzeugten 3D-Struktur und der realen Welt zu berechnen. Das Kamerahöhenverhältnis stellt den Maßstab der 3D-Struktur dar.
Die Bodenebene wird ermittelt, indem zunächst sichergestellt wird, dass die 3D-Struktur in einem XYZ-Koordinatensystem korrekt ausgerichtet ist, wobei Y die Vertikale darstellt. Es wird dann geschätzt, dass sich die Bodenebene an der Stelle entlang der Y-Achse mit der höchsten Dichte erkannter Merkmale der realen Welt befindet. Dann wird ein RANdom-SAmple-Consensus(RANSAC)-Verfahren angewendet, um die Lage der Bodenebene zu präzisieren. Das RANSAC-Verfahren wählt iterativ eine Untergruppe der erkannten Merkmale der realen Welt nahe der geschätzten Bodenebene zwecks Berücksichtigung bei der Bestimmung einer präzisierten Bodenebene aus, wobei Merkmale, die der ausgewählten Untergruppe angehören, allgemein als Einlieger bekannt sind und Merkmale, die nicht der ausgewählten Untergruppe angehören, als Ausreißer bekannt sind.
Ein Problem der in der US 2009/0243889 beschriebenen Technik ist, dass die Oberfläche, auf der ein Fahrzeug steht, d. h. die Oberfläche einer Fahrbahn, allgemein recht einheitlich und merkmalslos ist. Es ist auch wahrscheinlich, dass in den Bildern, in unterschiedlichen Höhen bezogen auf die Oberfläche, auf der das Fahrzeug steht, andere horizontale Oberflächen vorhanden sein können, wie etwa ein Bürgersteig oder die Karosserie eines anderen Fahrzeugs. Dies bedeutet, dass die Annahme, die Bodenebene befinde sich entlang der Y-Achse dort, wo die Dichte erkannter Merkmale am größten ist, häufig falsch sein kann und andere Oberflächen fälschlicherweise als die Oberfläche ermittelt werden können, auf der das Fahrzeug steht. Wenn die Bodenebene inkorrekt ermittelt wird, ist in der Folge das berechnete Kamerahöhenverhältnis inkorrekt und der Maßstab der erzeugten 3D-Struktur ungenau. Bei dem in der US 2009/0243889 beschriebenen Verfahren zur Erkennung eines freien Parkplatzes kann dies dazu führen, dass Entfernungen zu anderen Objekten innerhalb der erzeugten 3D-Struktur falsch sind, mit der Folge, dass Parkplätze fehlerkannt werden können und es bei Nichtvorhandensein anderer Schutzeinrichtungen zu Fahrzeugkollisionen kommen kann.
Die vorliegende Offenbarung soll diese Schwierigkeiten ausräumen.
Kurzdarstellung
Gemäß einem ersten Aspekt wird ein Verfahren bereitgestellt, das umfasst: Empfangen einer Folge von Bildern von einer Kamera; Ermitteln von Kandidatenpunkten, die zweien oder mehr der Bilder gemeinsame Merkmale darstellen; Ableiten dreidimensionaler Informationen aus den Bildern basierend auf Positionsänderungen von Kandidatenpunkten zwischen den Bildern; Ermitteln von einem Referenzmerkmal zugehörigen Kandidatenpunkten in den Bildern; und Bestimmen eines Maßstabs der dreidimensionalen Informationen basierend auf einer Entfernung zwischen der Kamera und dem Referenzmerkmal, wobei der Schritt des Ermittelns von Kandidatenpunkten, die dem Referenzmerkmal zugehörig sind, ein Auswählen aus lediglich solchen Kandidatenpunkten umfasst, die in einen Ausschnitt des Bildes fallen, der einem Teil des Sichtfeldes der Kamera entspricht.
Gemäß einem zweiten Aspekt wird eine Vorrichtung bereitgestellt, die umfasst: eine Bildstufe, die dazu angeordnet ist, bei Gebrauch eine Folge von Bildern von einer Kamera zu empfangen; und so betriebsfähig ist, dass sie Kandidatenpunkte ermittelt, die zweien oder mehr der Bilder gemeinsame Merkmale darstellen; und, basierend auf Positionsänderungen von Kandidatenpunkten zwischen den Bildern, dreidimensionale Informationen aus den Bildern ableitet; und eine Informationsextraktionsstufe, die mit der Bildstufe gekoppelt und dazu angeordnet ist, in den Bildern Kandidatenpunkte zu ermitteln, die einem Referenzmerkmal zugehörig sind, und zwar durch Auswählen aus lediglich solchen Kandidatenpunkten, die in einen Ausschnitt des Bildes fallen, der einem Teil des Sichtfeldes der Kamera entspricht; und, basierend auf einer Entfernung zwischen der Kamera und dem Referenzmerkmal, einen Maßstab der dreidimensionalen Informationen zu bestimmen.
Ausführungsformen der Erfindung ermöglichen es daher, dass durch die Fehlermittlung einer Bodenebene bedingte Fehler minimiert oder ausgeräumt werden, was zur genaueren Bestimmung des Maßstabs dreidimensionaler Informationen führt.
In einigen Ausführungsformen wird die erwartete Position des Referenzmerkmals innerhalb des Sichtfeldes der Kamera bestimmt und der Ausschnitt des Bildes ermittelt, aus dem Kandidatenpunkte ausgewählt werden und der die erwartete Position des Referenzmerkmals enthält. In diesen Ausführungsformen wird die Wahrscheinlichkeit eines Findens des Referenzmerkmals erhöht, indem lediglich Kandidatenpunkte in einem Bereich berücksichtigt werden, in dem das Referenzmerkmal sich wahrscheinlich befindet.
In einigen Ausführungsformen kann der Maßstab dreidimensionaler Informationen gleichzeitig aus entsprechenden Bildfolgen bestimmt werden, die gleichzeitig von mehr als einer Kamera aufgenommen werden. Die bestimmten Maßstäbe und/oder entsprechenden skalierten dreidimensionalen Daten können verglichen werden, um die Zuverlässigkeit der bestimmten Maßstabsfaktoren anzugeben.
In einigen Ausführungsformen wird der Maßstab dreidimensionaler Daten aus einer Folge von Bildern von einer Kamera bestimmt, die an dem Fahrzeug angebracht und dazu angeordnet ist, wenigstens Bilder des Bodens aufzunehmen, den das Fahrzeug überfahren hat. In derartigen Ausführungsformen kann die Genauigkeit der Bestimmung des Maßstabsfaktors verbessert werden, da es wahrscheinlich leichter ist, die Bodenebene für den Boden zu ermitteln, den das Fahrzeug bereits überfahren hat und von dem angenommen werden kann, dass er flach ist und eine leicht ermittelbare Bodenebene aufweist.
Ausführungsformen der Offenbarung werden nachstehend unter Bezugnahme auf die beigefügten Zeichnungen, jedoch lediglich beispielhaft, beschrieben.
Kurze Beschreibung der Zeichnungen
1 ist eine schematische Darstellung eines Fahrzeugkamerasystems in einem Fahrzeug gemäß einer Ausführungsform der vorliegenden Offenbarung.
2 ist eine schematische Darstellung eines Fahrzeugkamerasystems gemäß der in 1 gezeigten Ausführungsform.
3 ist ein Ablaufdiagramm, das ein Verfahren gemäß einer Ausführungsform der vorliegenden Offenbarung darstellt.
4 ist eine schematische Darstellung, die Bereiche zeigt, in denen eine Bodenebene erwartet werden kann.
5 ist eine Fotografie, die einen Ausschnitt eines Bildes zeigt, der einem Teil des Sichtfeldes einer Kamera entspricht.
6 ist eine Fotografie, die einen Ausschnitt eines anderen Bildes zeigt, der einem Teil des Sichtfeldes der Kamera entspricht.
7 zeigt eine Draufsicht auf Kandidatenpunkte.
8 ist eine Ansicht von Kandidatenpunkten in einer dreidimensionalen visuellen Darstellung, die eine ermittelte Bodenebene zeigt.
9 ist ein Ablaufdiagramm, das ein Verfahren gemäß einer anderen Ausführungsform der vorliegenden Offenbarung darstellt.
10 ist ein Ablaufdiagramm, das ein Verfahren gemäß einer weiteren Ausführungsform der vorliegenden Offenbarung darstellt.
11 ist eine schematische Darstellung, die eine Merkmalsabbildung zwischen drei aufeinanderfolgenden Bildern darstellt.
12 ist ein Ablaufdiagramm, das Teilschritte in dem Verfahren zum Einanderzuordnen von Merkmalen ausweist.
Ausführliche Beschreibung
Ein Verfahren zum Erzeugen von Maßstabsinformationen aus durch eine Kamera aufgenommenen Bildern wird nun im Kontext eines Fahrzeugkamerasystems beschrieben.
Bezug nehmend auf 1 und 2 umfasst ein Fahrzeugkamerasystem 1 gemäß einer Ausführungsform eine nach hinten blickende Kamera 2, eine nach vorn blickende Kamera 3 und eine Verarbeitungseinheit 4, die an einem Fahrzeug 5 angebracht sind. Die nach hinten blickende Kamera 2 ist an einem hinteren Ende des Fahrzeugs 5 angebracht, so dass das Sichtfeld der nach hinten blickenden Kamera 2 das Umfeld hinter dem Fahrzeug 5 beinhaltet. Die nach vorn blickende Kamera 3 ist an einem vorderen Ende des Fahrzeugs 5 angebracht, so dass das Sichtfeld der nach vorn blickenden Kamera 3 das Umfeld vor dem Fahrzeug 5 beinhaltet. Die Verarbeitungseinheit 4 ist mit der nach hinten blickenden Kamera 2 und der nach vorn blickenden Kamera 3 gekoppelt, um durch die Kameras 2, 3 aufgenommene Bilder zu empfangen.
In der dargestellten Ausführungsform weist die Verarbeitungseinheit 4 eine Bildverarbeitungsstufe 6 und eine Informationsextraktionsstufe 7 auf. Die Bildverarbeitungsstufe 6 ist dazu angeordnet, eine Folge von Bildern von einer Kamera zu empfangen und in dem Bild Kandidatenpunkte zu ermitteln, die zweien oder mehr der Bilder gemeinsame Merkmale darstellen, wie in der folgenden Beschreibung ausführlicher erläutert wird. Die Informationsextraktionsstufe 7 ist dazu angeordnet, die durch die Bildverarbeitungsstufe 6 ermittelten Kandidatenpunkte zu verwenden, um dreidimensionale Informationen bezüglich der durch die Kamera abgebildeten Objekte sowie Informationen bezüglich des Maßstabs der dreidimensionalen Informationen zu bestimmen, wie in der folgenden Beschreibung näher erläutert wird.
Der Betrieb der Verarbeitungseinheit 4 des Fahrzeugkamerasystems 1 der dargestellten Ausführungsform wird unter Bezugnahme auf 3 ausführlicher erläutert.
Bei Schritt S1 ist die Bildverarbeitungsstufe 6 dazu angeordnet, eine entsprechende Folge von Bildern zu empfangen, die durch die nach hinten blickende Kamera 2 und/oder die nach vorn blickende Kamera 3 aufgenommen werden. Der Klarheit halber wird nachfolgend lediglich die Verarbeitung einer der Folgen von Bildern beschrieben.
In einigen Ausführungsformen kann/können die nach hinten blickende Kamera 2 und/oder die nach vorn blickende Kamera 3 eine optische Linse mit einem weiten Sichtfeld aufweisen, wie etwa eine Weitwinkellinse oder Fischaugenlinse. Diese optischen Linsen können Bilder über einen festen Winkel aufnehmen, der sich über eine vollständige Halbkugel, oder 2π Steradianten, erstreckt, aber ein Nachteil davon ist, dass Merkmale am Rand der aufgenommenen Bilder, verglichen mit Merkmalen in der Mitte der aufgenommenen Bilder, aufgrund einer optischen Verzerrung tendenziell entweder gestreckt oder zusammengedrückt erscheinen. In diesem Fall verwendet die Bildverarbeitungsstufe 6 Informationen über die durch die Linse bedingte optische Verzerrung, um die aufgenommenen Bilder zu korrigieren und korrigierte Bilder zu erzeugen, in denen die relativen Abmessungen von in den Bildern vorhandenen Merkmalen unmittelbarer von ihrer Entfernung von der entsprechenden Kamera 2, 3 und nicht so sehr von der Natur der Linsen abhängen.
Bei Schritt S2 ermittelt die Bildverarbeitungsstufe 6 Kandidatenpunkte, die zweien oder mehr der Bilder in der Bildfolge gemeinsame Merkmale darstellen. Ein Kandidatenpunkt ist ein Bildpunkt in einem Bild, der bestimmte Eigenschaften aufweist, oder häufiger eine Gruppe von Bildpunkten eines Bildes, die bestimmte Eigenschaften aufweisen. In dieser Ausführungsform wird ein Kandidatenpunkt als ein oder mehrere Bildpunkt(e) ermittelt, der/die, bezogen auf umgebende Bildpunkte, eine Helligkeits- oder Farbabweichung aufweist/aufweisen, die größer ist als entsprechende Schwellwerte. Typischerweise stellen diese Kandidatenpunkte in den Bildern Merkmale der realen Welt in der abgebildeten Szene dar, wie etwa eine Kante eines Gebäudes oder eine Linie auf einer Fahrbahn.
Bei Schritt S3 verwendet die Informationsextraktionsstufe 7 die ermittelten Kandidatenpunkte, um, basierend auf Änderungen von Kandidatenpunkten zwischen den Bildern, dreidimensionale Informationen aus der Folge von Bildern abzuleiten. Konkrete Techniken, die geeignet sind, um aus einer Folge von Bildern dreidimensionale (3D) Strukturen zu erzeugen, sind dem Fachmann bekannt; sie werden unter Bezugnahme auf 9 und 10 näher beschrieben und werden daher hier nicht ausführlicher beschrieben.
Bei Schritt S4 ermittelt die Informationsextraktionsstufe 7 in dem Bild Kandidatenpunkte, die einem Referenzmerkmal zugehörig sind, und zwar durch Auswählen aus lediglich solchen Kandidatenpunkten, die in einen Ausschnitt des Bildes fallen, der einem Teil des Sichtfeldes der Kamera entspricht.
Ein Objekt, das geeignet ist, als Referenzmerkmal zu dienen, ist eines, das aus der Folge von Bildern erkannt werden kann und das eine bekannte räumliche Trennung von der Kamera aufweist, welche die Bildfolge erzeugt hat. Das Referenzmerkmal kann eine Bodenebene, d. h. eine flache Oberfläche in Bodenhöhe, sein, wenn die Höhe der Kamera über dem Boden bekannt ist. Beispielsweise kann, wenn die Kamera an einem Fahrzeug angebracht ist, das Referenzmerkmal die Oberfläche sein, auf der das Fahrzeug steht, bei der es sich allgemein um eine Fahrbahn handelt. In anderen Ausführungsformen kann das Referenzmerkmal ein beliebiger, bezogen auf die Kamera feststehender Punkt sein; es kann entweder ein spezielles Referenzpunktobjekt vorgesehen sein oder es kann beispielsweise ein Teil des Fahrzeugs verwendet werden, wenn die Kamera an einem Fahrzeug angebracht ist.
In Ausführungsformen der Erfindung wird die erwartete Position des Referenzmerkmals innerhalb des Sichtfeldes der Kamera bestimmt und es werden lediglich solche Kandidatenpunkte ausgewählt, die in dem Ausschnitt des Bildes liegen, welcher der erwarteten Position des Referenzmerkmals entspricht.
4 zeigt das Fahrzeug 5 mit der nach hinten blickenden Kamera 2 und der nach vorn blickenden Kamera 3. Außerdem ist das in 4 gezeigte Fahrzeug 5 auch mit zur Seite blickenden Kameras 10, 11 versehen. Die Positionen jeder der Kameras bezogen auf das Fahrzeug und die Anbringungshöhe jeder der Kameras ist bekannt, wie durch die zweispitzigen Pfeile in 4 angezeigt.
Hinter der nach hinten blickenden Kamera 2 kann ein Bereich 12 ermittelt werden, in dem eine Bodenebene erwartet werden kann. Der Bereich 12 kann auf das durch die nach hinten weisende Kamera 2 aufgenommene Bild projiziert werden, wie durch den in 5 gezeigten eingekästelten Bereich 13 dargestellt. Die Koordinaten des Ausschnitts des Bildes, der einem Teil des Sichtfeldes der nach hinten blickenden Kamera 2 entspricht und der durch den eingekästelten Bereich 13 dargestellt ist, können gespeichert und verwendet werden, um die Untergruppe von Kandidatenpunkten auszuwählen, aus denen dem Referenzmerkmal zugehörige Kandidatenpunkte zu ermitteln sind.
In ähnlicher Weise kann vor der nach vorn weisenden Kamera 3 ein Bereich 14 ermittelt werden, in dem eine Bodenebene erwartet werden kann. Der Bereich 14 kann auf das durch die nach vorn weisende Kamera 3 aufgenommene Bild projiziert werden, wie durch den in 5 gezeigten eingekästelten Bereich 15 dargestellt. Die Koordinaten des Ausschnitts des Bildes, der einem Teil des Sichtfeldes der nach vorn blickenden Kamera 3 entspricht und der durch den eingekästelten Bereich 15 dargestellt ist, können gespeichert und verwendet werden, um die Untergruppe von Kandidatenpunkten auszuwählen, aus denen dem Referenzmerkmal zugehörige Kandidatenpunkte zu ermitteln sind.
In Ausführungsformen der Erfindung wird die Position der Bereiche 12 oder 14, in denen das Referenzmerkmal, in diesem Fall eine Bodenebene, erwartet werden kann, unter Verwendung von Informationen bezüglich der konkreten Kamera bestimmt. So kann beispielsweise in der dargestellten Ausführungsform die Position des Bereichs 12 oder 14 durch Faktoren wie etwa die Höhe oder Ausrichtung oder Position der an dem Fahrzeug angebrachten Kamera beeinflusst sein.
In Ausführungsformen werden die innerhalb der eingekästelten Bereiche 13, 15 liegenden Kandidatenpunkte analysiert, um an ihre Stellen in der dreidimensionalen Struktur eine Bodenebene anzulegen. Dieser Schritt wird ebenfalls in Verbindung mit einer unter Bezugnahme auf 9 und 10 beschriebenen Ausführungsform der Erfindung ausführlicher beschrieben.
7 zeigt eine Draufsicht 16 auf durch dunklere Markierungen gezeigte Kandidatenpunkte aus einem Ausschnitt 17 des Bildes, die für eine Analyse ausgewählt wurden, um an ihre Stellen eine Bodenebene anzulegen.
8 ist eine Ansicht von aus Bildern von einer Kamera 2 ermittelten Kandidatenpunkten in einer dreidimensionalen visuellen Darstellung 18, die eine ermittelte Bodenebene 19 zeigt.
Bei Schritt S5 von 3 bestimmt die Informationsextraktionsstufe 7 einen Maßstab der dreidimensionalen Informationen, basierend auf einer Entfernung zwischen der Kamera und dem Referenzmerkmal. Hier sind dem Fachmann ebenfalls Techniken bekannt, um den Maßstab der dreidimensionalen Informationen zu bestimmen, nachdem die Position eines Referenzmerkmals, wie etwa einer Bodenebene, ermittelt wurde. Dieser Schritt wird in Verbindung mit einer unter Bezugnahme auf 9 und 10 beschriebenen Ausführungsform der Erfindung ausführlicher beschrieben.
Nachdem der Maßstab der dreidimensionalen Informationen bestimmt wurde, kann er auf die dreidimensionalen Informationen angewendet werden, um skalierte dreidimensionale Informationen zu erzeugen. Es können zwei oder mehr Sätze skalierter dreidimensionaler Informationen kombiniert werden.
In Ausführungsformen, in denen an einem Fahrzeug zwei Kameras angebracht sind, beispielsweise eine nach vorn weisende Kamera und eine nach hinten weisende Kamera, können Ausführungsformen der Erfindung auf die Folge von Bildern von der nach hinten weisenden Kamera angewendet werden, während das Fahrzeug sich vorwärts bewegt, und auf die Folge von Bildern von der nach vorn weisenden Kamera angewendet werden, während das Fahrzeug rückwärts fährt. Auf diese Weise wird das Referenzmerkmal für Boden erkannt, über den das Fahrzeug bereits gefahren ist und der daher mit größerer Wahrscheinlichkeit flach ist und genaue Ergebnisse liefert.
In Ausführungsformen, in denen an einem Fahrzeug zwei Kameras angebracht sind, beispielsweise eine nach vorn weisende Kamera und eine nach hinten weisende Kamera, kann das oben beschriebene Verfahren für gleichzeitig von den zwei Kameras erfasste Bildfolgen ausgeführt werden. Die Position der Referenzbodenebene, die aus den unterschiedlichen Kamerafolgen bestimmt wird, oder die Maßstäbe, die aus der Position der Referenzbodenebenen abgeleitet werden, können verglichen werden. Wenn die Maßstäbe, oder die unter Verwendung der Maßstäbe bestimmten Bodenpositionen, einander entsprechen, kann man den Werten in höherem Maße vertrauen. In einigen Ausführungsformen wird, wenn die von entsprechenden unterschiedlichen Bildfolgen abgeleiteten Bodenebenen einander nicht entsprechen, wenigstens einer der Maßstäbe verworfen.
In einigen Ausführungsformen wird der Maßstab für jedes Einzelbild bestimmt und vorherige Bestimmungen des Maßstabs werden verworfen, wie in dem Verfahren des in 9 gezeigten Ausführungsbeispiels gezeigt.
Bezug nehmend auf 9 liest in Betrieb, bei Schritt S10, die Bildverarbeitungsstufe 6 ein Bild und erkennt in dem Bild Merkmale, welche die bestimmten Eigenschaften aufweisen. In einigen Ausführungsformen kann das durch die Kamera erzeugte Bild eine Korrektur durchlaufen haben, bevor es durch die Bildverarbeitungsstufe 6 gelesen wird.
Bei Schritt S11 liest die Bildverarbeitungsstufe 6 ein nachfolgendes Bild und erkennt in dem Bild Merkmale, welche die bestimmten Eigenschaften aufweisen. In ähnlicher Weise kann in einigen Ausführungsformen das durch die Kamera erzeugte Bild eine Korrektur durchlaufen haben, bevor es durch die Bildverarbeitungsstufe 6 gelesen wird.
Bei Schritt S12 ordnet dann die Informationsextraktionsstufe 7 in dem anfänglichen Bild erkannte Merkmale Merkmalen zu, die in dem nachfolgenden Bild erkannt werden, um Merkmale zu ermitteln, die dem anfänglichen Bild und dem nachfolgenden Bild gemeinsam sind. Die Stellen gemeinsamer Merkmale in dem anfänglichen Bild und nachfolgenden Bild werden als Kandidatenpunkte gespeichert.
Bei Schritt S13 erzeugt die Informationsextraktionsstufe 7 eine Kandidatenpunktmatrix, welche die Kandidatenpunktstelleninformationen umfasst.
Bei Schritt S14 leitet die Informationsextraktionsstufe 7 aus der Kandidatenpunktmatrix Informationen bezüglich der dreidimensionalen Drehung und Translation der Kamera zwischen dem anfänglichen Bild und dem nachfolgenden Bild ab. An diesem Punkt sind keine Maßstabsinformationen für die dreidimensionalen Informationen bekannt und es muss eine Ermittlung eines metrischen Maßstabs erfolgen.
Bei Schritt S15 wählt die Informationsextraktionsstufe 7 eine Untergruppe der Kandidatenpunkte aus. Konkreter wählt die Informationsextraktionsstufe 7 durch Ermitteln, welche der Kandidatenpunkte innerhalb eines Ausschnitts des Bildes liegen, der einem Teil des Sichtfeldes der Kamera entspricht, die Kandidatenpunkte aus, die mit größter Wahrscheinlichkeit einem Referenzmerkmal zugehörig sind, das in dieser Ausführungsform die Bodenebene ist. Dies kann erreicht werden, indem zuerst die erwartete Position des Referenzmerkmals innerhalb des Sichtfeldes der Kamera bestimmt und dann der Ausschnitt des Bildes ermittelt wird, aus dem Kandidatenpunkte ausgewählt werden, um die erwartete Position des Referenzmerkmals zu berücksichtigen.
Der Bereich der Bodenebene lässt sich durch einfache Überlegungen finden. In einem Verfahren ist die Kamerahöhe h über dem Boden bekannt; somit kann ein Rechteck auf dem Boden mit Abmessungen von 2X × Y berücksichtigt werden, wobei X die Entfernung von der Kamera nach links und rechts und Y die Entfernung entlang der Bewegungsrichtung ist. In einem Beispiel könnte X 1 Meter betragen und Y könnte 5 Meter betragen. Dieses Rechteck kann zurück auf das Kamerabild projiziert werden, um in dem Bild einen trapezförmigen Bereich zu erhalten. Dann kann angenommen werden, dass Fahrbahnmerkmale (und Merkmalsentsprechungen zwischen Bildern) innerhalb dieses Bereichs trapezförmig sind. Etwaige Hindernisse in diesem Bereich sollten durch den RANSAC-Algorithmus automatisch entfernt werden, solange sie nicht den gesamten Bereich bedecken.
Bei Schritt s16 fügt die Informationsextraktionsstufe 7 die ausgewählten Kandidatenpunkte zu einer Ebene zusammen, in diesem Ausführungsbeispiel unter Verwendung eines RANSAC-Verfahrens.
Bei Schritt s17 bestimmt die Informationsextraktionsstufe 7 die Höhe der Kamera über der in Schritt S16 ermittelten Ebene, die als Bodenebene angenommen wird. Die Höhe der bestimmten Bodenebene wird mit der bekannten Höhe der Kamera über dem Boden verglichen, um ein Kamerahöhenverhältnis zu erzeugen. Das Kamerahöhenverhältnis stellt den Maßstab für die dreidimensionalen Informationen bereit.
Bei Schritt s18 passt die Informationsextraktionsstufe 7 dreidimensionale Informationen bezüglich der Drehung und Translation der Kamera zwischen dem anfänglichen Bild und dem in Schritt s14 erfassten nachfolgenden Bild an, und zwar unter Verwendung des in Schritt s17 erhaltenen Maßstabs.
Danach kann in Schritt S19 die Lageschätzung nach Bedarf ausgegeben werden.
Die in 9 gezeigten Schritte können wiederholt werden, bis es keine weiteren Bilder in der Folge mehr gibt oder bis das Fahrzeug, an dem die Kamera angebracht ist, anhält.
In anderen Ausführungsformen werden dreidimensionale Merkmale über die Zeit verfolgt und Anpassungen der Höhe der Bodenebene, und folglich des zum Skalieren der dreidimensionalen Informationen verwendeten Maßstabsfaktors, periodisch vorgenommen. Ein Beispiel dieses Verfahrens ist in 10 gezeigt.
Die in 10 gezeigten Schritte S10–S18 sind die gleichen Schritte wie in 9 gezeigt und sie werden nicht näher erläutert.
In Schritt S20 wird aus den in Schritt s18 erhaltenen skalierten dreidimensionalen Informationen eine dreidimensionale Struktur mit dem korrekten Maßstab aufgebaut.
Danach wird ein nachfolgendes Bild auf ähnliche Weise verarbeitet. In Schritt s21 liest die Bildverarbeitungsstufe 6 ein nachfolgendes Bild und erkennt in dem Bild Merkmale, welche die bestimmten Eigenschaften aufweisen. In ähnlicher Weise kann in einigen Ausführungsformen das durch die Kamera erzeugte Bild eine Korrektur durchlaufen haben, bevor es durch die Bildverarbeitungsstufe 6 gelesen wird.
In Schritt s22 ordnet die Informationsextraktionsstufe 7 in dem letzten Bild erkannte Merkmale Merkmalen zu, die in der 3D-Struktur verwendet werden. Weitere Einzelheiten von Schritt s22 werden nun unter Bezugnahme auf 11 und 12 ausführlicher erläutert.
11 zeigt drei durch eine Kamera aufgenommene aufeinanderfolgende Bilder, nämlich Bild n – 2 20, Bild n – 1 21 und Bild n 22. Ein Punkt P in dem durch die Kamera abgebildeten dreidimensionalen Raum ist in Bild n – 2 20 als Punkt 23; in Bild n – 1 21 als Punkt 24 und in Bild n 22 als Punkt 25 gezeigt. Eine Entsprechung 26, die zwischen Punkt 25 in Bild n 22 und Punkt 24 in Bild n – 1 21 gefunden wird, kann verbunden werden, und zwar unter Verwendung einer etablierten Entsprechung 27 zwischen Punkt 24 in Bild n – 1 21 und Punkt 23 in Bild n – 2 20, um eine neue Zuordnung 28 zwischen Punkt 25 in Bild n und dem dreidimensionalen Punkt P auszubilden.
12 ist ein Ablaufdiagramm, das Teilschritte des Verfahrens zum Einanderzuordnen von Merkmalen ausweist, die im Rahmen von Schritt s22 in 10 ausgeführt werden.
In einem ersten Teilschritt von Schritt 22 von 10, nämlich Schritt s222, werden Merkmale aus dem neuesten Bild n 22 Merkmalen in dem vorherigen Bild n – 1 21 zugeordnet. Dieser Schritt kann durch einen Merkmalszuordnungsalgorithmus ausgeführt werden.
Dann werden in einem nächsten Schritt s222 einander zuvor zugeordnete Merkmale aus Bild n – 1 21 und Bild n – 2 20 und ihre entsprechenden 3D-Punkte abgerufen.
In Teilschritt s223 werden die einander zuvor zugeordneten Merkmale aus Bild n – 1 21 und Bild n – 2 20 Merkmalen aus Bild n zugeordnet. Dies kann beispielsweise durch umfassendes Suchen gemeinsamer Merkmale von Bild n – 1 21 aus erreicht werden, um Merkmalsverläufe auszubilden, die ermittelten Entsprechungen entsprechen, die daraus resultieren, dass das gleiche Merkmal P in allen drei Bildern 20, 21, 22 erscheint.
In Schritt s224 werden diese Verläufe und das zugehörige Merkmal 25 aus Bild n 22 dem bekannten 3D-Punkt P zugeordnet, der zuvor durch Einanderzuordnen von Bild n – 1 21 und Bild n – 2 20 gefunden wurde.
Danach können in Schritt s23 unter Verwendung der dreidimensionalen Struktur Drehungs- und Translationsinformationen berechnet werden, beispielsweise unter Verwendung eines 3-Punkt-Absolutpositionsalgorithmus.
In Schritt s24 wird die dreidimensionale Struktur durch Hinzufügen neuer Merkmale aktualisiert, die einander in den Einzelbildern n und n – 1 entsprechen und die keine etablierten Verläufe aufweisen.
In Schritt s25 wird erneut die Bodenebene ermittelt und die Kamerahöhe bestimmt. In dem beispielhaften Verfahren erfolgt dies unter Verwendung des oben unter Bezugnahme auf die Schritte s15–s17 von 9 skizzierten Verfahrens.
In Schritt s26 erfolgt periodisch eine Bündelblockausgleichung, um den Fehler bezüglich der Bodenebene zu minimieren, bevor der Betrieb zu Schritt 21 zurückgeht, um das nächste empfangene Bild zu verarbeiten. Die Bündelblockausgleichung verwendet alle zuvor etablierten Merkmalsverläufe und dreidimensionalen (3D) Punkte in einem einzigen Optimierungsalgorithmus. Dieser Schritt wird aufgrund der damit einhergehenden erheblichen Rechenkosten nur selten durchgeführt, in einigen Ausführungsformen beispielsweise alle 10–20 Einzelbilder.
Danach kann in Schritt S27 die Lageschätzung nach Bedarf ausgegeben werden.
Die in 10 gezeigten Schritte s21–s27 können wiederholt werden, bis es keine weiteren Bilder in der Folge mehr gibt oder bis das Fahrzeug, an dem die Kamera angebracht ist, anhält.
Andere Veränderungen und Abwandlungen sind für den Fachmann offensichtlich. Derartige Veränderungen und Abwandlungen können vergleichbare und andere Merkmale beinhalten, die bereits bekannt sind und die anstelle von oder zusätzlich zu hier beschriebenen Merkmalen verwendet werden können. Merkmale, die im Kontext separater Ausführungsformen beschrieben werden, können miteinander kombiniert in einer einzigen Ausführungsform vorgesehen sein. Umgekehrt können Merkmale, die im Kontext einer einzigen Ausführungsform beschrieben werden, auch separat oder in jeder geeigneten teilweisen Kombination vorgesehen sein.
Man beachte, dass der Begriff „umfassend” andere Elemente oder Schritte nicht ausschließt, der Begriff „ein/e/r/s” eine Mehrzahl nicht ausschließt, ein einziges Merkmal die Funktionen mehrerer in den Ansprüchen genannter Merkmale erfüllen kann und Bezugszeichen in den Ansprüchen nicht als den Schutzbereich der Ansprüche einschränkend auszulegen sind. Man beachte ebenfalls, dass die Figuren nicht unbedingt maßstabsgerecht sind; vielmehr liegt das Augenmerk allgemein auf der Veranschaulichung der Prinzipien der vorliegenden Erfindung.

Claims

Verfahren, umfassend: Empfangen einer Folge von Bildern von einer Kamera; Ermitteln von Kandidatenpunkten, die zweien oder mehr der Bilder gemeinsame Merkmale darstellen; Ableiten dreidimensionaler Informationen aus den Bildern, basierend auf Positionsänderungen von Kandidatenpunkten zwischen den Bildern; Ermitteln von einem Referenzmerkmal zugehörigen Kandidatenpunkten in den Bildern; und Bestimmen eines Maßstabs der dreidimensionalen Informationen, basierend auf einer Entfernung zwischen der Kamera und dem Referenzmerkmal, wobei der Schritt des Ermittelns von dem Referenzmerkmal zugehörigen Kandidatenpunkten ein Auswählen aus lediglich solchen Kandidatenpunkten umfasst, die in einen Ausschnitt des Bildes fallen, der einem Teil des Sichtfeldes der Kamera entspricht.
Verfahren nach Anspruch 1, weiterhin umfassend: Bestimmen einer erwarteten Position des Referenzmerkmals innerhalb des Sichtfeldes der Kamera; und Ermitteln des Ausschnitts des Bildes, aus dem Kandidatenpunkte ausgewählt werden, um die erwartete Position des Referenzmerkmals zu berücksichtigen.
Verfahren nach Anspruch 2, bei dem die erwartete Position des Referenzmerkmals innerhalb des Sichtfeldes der Kamera unter Bezugnahme auf die Position der Kamera bestimmt wird, von der die Bilder empfangen wurden.
Verfahren nach Anspruch 2 oder 3, das ein Ermitteln des Ausschnitts des Bildes umfasst, aus dem Kandidatenpunkte ausgewählt werden, um die erwartete Position einer Bodenebene in dem Bild zu berücksichtigen.
Verfahren nach einem vorangehenden Anspruch, wobei die Folge von Bildern von einer an einem Fahrzeug angebrachten Kamera empfangen wird und das Referenzmerkmal eine Oberfläche ist, auf der das Fahrzeug steht.
Verfahren nach einem vorangehenden Anspruch, wobei die Folge von Bildern von einer an einem Fahrzeug angebrachten Kamera empfangen wird und das Referenzmerkmal ein Teil des Fahrzeugs ist.
Verfahren nach einem vorangehenden Anspruch, wobei die Folge von Bildern von einer an einem Fahrzeug angebrachten Kamera empfangen wird, die dazu angeordnet ist, Bilder in einer primären Kamerarichtung aufzunehmen, die von der Vorderseite des Fahrzeugs nach vorn weist.
Verfahren nach einem der Ansprüche 1–6, wobei die Folge von Bildern von einer an einem Fahrzeug angebrachten Kamera empfangen wird, die dazu angeordnet ist, Bilder in einer primären Kamerarichtung aufzunehmen, die von der Hinterseite des Fahrzeugs nach hinten weist.
Verfahren nach einem vorangehenden Anspruch, das weiterhin ein Anwenden des bestimmten Maßstabs der dreidimensionalen Informationen auf die dreidimensionalen Informationen umfasst, um skalierte dreidimensionale Informationen zu erhalten.
Verfahren nach Anspruch 9, das weiterhin ein Kombinieren von wenigstens zwei Sätzen skalierter dreidimensionaler Informationen umfasst.
Verfahren nach Anspruch 9 oder 10, weiterhin umfassend: Aufbauen einer dreidimensionalen Struktur aus den skalierten dreidimensionalen Informationen; und Aktualisieren der dreidimensionalen Struktur unter Verwendung der skalierten dreidimensionalen Informationen aus nachfolgenden Bildern.
Verfahren, umfassend: Anwenden des Verfahrens nach einem vorangehenden Anspruch auf die Folge von Bildern von einer ersten Kamera, um einen ersten Maßstab dreidimensionaler Informationen zu bestimmen, die von Bildern abgeleitet sind, die von der ersten Kamera empfangen werden; und Anwenden des Verfahrens nach einem vorangehenden Anspruch auf die Folge von Bildern von einer zweiten Kamera, um einen zweiten Maßstab zweiter dreidimensionaler Informationen zu bestimmen, die von Bildern abgeleitet sind, die von der zweiten Kamera empfangen werden.
Verfahren nach Anspruch 12, weiterhin umfassend: Vergleichen des ersten Maßstabs erster dreidimensionaler Informationen, die von durch die erste Kamera aufgenommenen Bildern abgeleitet sind, mit dem zweiten Maßstab zweiter dreidimensionaler Informationen, die von im Wesentlichen gleichzeitig durch die zweite Kamera aufgenommenen Bildern abgeleitet sind, wobei der erste und/oder zweite Maßstab dreidimensionaler Informationen verworfen wird/werden, wenn der erste und zweite Maßstab dreidimensionaler Informationen einander nicht entsprechen.
Verfahren nach einem vorangehenden Anspruch, weiterhin umfassend: Bestimmen der Fahrtrichtung des Fahrzeugs; wobei der Maßstab dreidimensionaler Daten unter Verwendung der Folge von Bildern von einer Kamera bestimmt wird, die an dem Fahrzeug angebracht und dazu angeordnet ist, wenigstens Bilder des Bodens aufzunehmen, den das Fahrzeug überfahren hat.
Vorrichtung, umfassend: eine Bildstufe, die dazu angeordnet ist, bei Gebrauch eine Folge von Bildern von einer Kamera zu empfangen; und so betriebsfähig ist, dass sie Kandidatenpunkte ermittelt, die zweien oder mehr der Bilder gemeinsame Merkmale darstellen; und, basierend auf Positionsänderungen von Kandidatenpunkten zwischen den Bildern, dreidimensionale Informationen aus den Bildern ableitet; und eine Informationsextraktionsstufe, die mit der Bildstufe gekoppelt und dazu angeordnet ist, in den Bildern Kandidatenpunkte zu ermitteln, die einem Referenzmerkmal zugehörig sind, und zwar durch Auswählen aus lediglich solchen Kandidatenpunkten, die in einen Ausschnitt des Bildes fallen, der einem Teil des Sichtfeldes der Kamera entspricht; und, basierend auf einer Entfernung zwischen der Kamera und dem Referenzmerkmal, einen Maßstab der dreidimensionalen Informationen zu bestimmen.
Fahrzeug, versehen mit: wenigstens einer daran angebrachten Kamera; und einer Vorrichtung nach Anspruch 15, die mit der wenigstens einen Kamera gekoppelt und dazu angeordnet ist, eine Folge von Bildern von der Kamera zu empfangen.