-
TECHNISCHES GEBIET
-
Die vorliegende Erfindung betrifft eine Vorrichtung und ein Verfahren zum Detektieren von freien Parkplätzen. Insbesondere betrifft die vorliegende Erfindung eine Vorrichtung zum Detektieren von freien Parkplätzen und ein Verfahren zur Erfassung eines Fahrzeugrückblickes und zum Detektieren eines freien Parkplatzes anhand des Bildes.
-
HINTERGRUND DER OFFENBARUNG
-
Ein System zum automatischen Einparken ist für Fahrer angenehm, indem es freie Parkplätze automatisch findet und deren Fahrzeuge dorthin lenkt. Seit kurzem gibt es zunehmendes Interesse an Systemen zum automatischen Einparken. Auf Grund des Interesses der Kunden und der Erfolgsgeschichten von mehreren Systemen zum automatischen Einparken bereiten sich viele Fahrzeughersteller und Fahrzeugkomponentenhersteller darauf vor, selbstparkende Produkte herauszubringen.
-
Systeme zum automatischen Einparken bestehen aus drei Komponenten: Wegplanung (einschließlich Detektion von freien Parkplätzen), ein automatisches Lenk- und Bremssystem zum Implementieren der geplanten Trajektorie und die HMI (Human Machine Interface), die dazu verwendet werden kann, um von einem Fahrer Eingaben zu erhalten und optische Information über den stattfindenden Einparkprozess zu liefern.
-
Die Detektion von freien Parkplätzen ist durch Verwendung von zahlreichen Verfahren implementiert worden: das Verfahren auf der Grundlage von Ultraschallsensoren, das Verfahren auf der Grundlage von Laserscannern, das Verfahren auf der Grundlage von Radarnetzen mit kurzer Reichweite und das Verfahren auf der Grundlage von Sehen. Davon hat sich das Verfahren auf der Grundlage von Sehen als für Fahrer am attraktivsten herausgestellt, da es Parksituationen visualisiert und Prozeduren durchführt, damit sich Fahrer sicherer fühlen. Das Verfahren auf der Grundlage von Sehen kann in 4 Lösungsansätze unterteilt werden: den Lösungsansatz auf der Grundlage von Parkplatzmarkierungen, den Lösungsansatz auf der Grundlage von binokularen Stereo, der Lösungsansatz auf der Grundlage von Lichtstreifenprojektion und der Lösungsansatz auf der Grundlage von monokularem Motion-Stereo und Wegmessung (odometry).
-
Der erste Lösungsansatz erkennt Parkplatzmarkierungen. Xu et al entwickelten eine Lokalisierung von Parkplätzen auf der Grundlage von Farbensehen. Dieses Verfahren verwendet Farbsegmentation auf der Grundlage von neuronalen RCE-Netzen, Konturenextraktion auf der Grundlage des Verfahrens der kleinsten Quadrate und inverse perspektivische Transformation (Jin Xu et al.: ”Vision-Guided Automatic Parking for Smart Car”, Intelligent Vehicle Symposium 2000, IEEE, Seite 725–730). Jung et al schlugen ein halbautomatisches Einparkhilfesystem vor, das Markierungslinien unter Verwendung der Hough-Transformation in einem Vogelperspektivenkantenbild erkennt, das mit einer Weitwinkelkamera erfasst wurde (Ho Gi Jung et al.: ”Parking Slot Markings Recognition for Automatic Parking Assist System”, Intelligent Vehicle Symposium 2006, IEEE, Seite 106–113). Auf diese Weise können Zielplätze mit einem einzigen Bild und relativ geringen Rechenkosten detektiert werden. Außerdem kann eine allgemeine Konfiguration einer Rückblickkamera (eine einzige Fischaugenkamera) verwendet werden. Es kann jedoch nicht verwendet werden, wenn Parkplatzmarkierungen nicht sichtbar sind. Außerdem kann die Leistung durch schlechte optische Bedingungen, wie zum Beispiel Flecken bzw. Einfärbungen, Schatten oder Verdecken durch benachbarte Fahrzeuge vermindert werden.
-
Der zweite Lösungsansatz erkennt benachbarte Fahrzeuge durch Verwendung eines 3D-Rekonstruktionsverfahrens auf der Grundlage von binokularem Stereo. Kaempchen at al entwickelten ein Parkplatzschätzsystem, das einen merkmalsbasierten Stereo-Algorithmus, einen Musterabgleichalgorithmus auf einer Tiefenkarte und eine 3D-Anpassung an das planare 2D-Oberflächemodell des Fahrzeugs verwendet (N. Kaempchen et al.: ”Stereo vision based pose estimation of parking lots using 3D vehicle models”, Intelligent Vehicle Symposium 2002, IEEE, Seite 459–464). Dieser Lösungsansatz kann metrische Information anhand der festen Länge der Basislinie leicht wiedergewinnen und die extrinsischen Parameter der Kamera müssen nicht jedes Mal geschätzt werden. Dies erfordert jedoch Extrakosten und, Platz für die Gerate, da eine Stereokamera keine allgemeine Konfiguration einer Rückblickkamera darstellt. Es ist Subpixelgenauigkeit erforderlich, wenn kurze Basislinien zwischen den beiden Kameras vorliegen, und Punktkorrespondenzen sind schwer zu finden, wenn breite Basislinien vorliegen.
-
Jung at al entwickelten ein Verfahren, das den Lösungsansatz auf der Grundlage von Parkplatzmarkierungen mit dem Lösungsansatz auf der Grundlage von binokularem Stereo kombiniert. Besagte Forscher verwendeten Hindernistiefenkarten zum Bereitstellen des Suchbereiches und einfachen Mustervergleich bzw. -abgleich zum Auffinden des exakten Ortes von freien Parkplätzen. Besagtes Verfahren ist gegen Rauschfaktoren, wie zum Beispiel Flecken bzw. Einfärbung, Müll und Schatten, im Vergleich zum Verfahren auf der Grundlage von Parkplatzmarkierungen robust, aber kann nur verwendet werden, wenn sowohl Hindernistiefe als auch Parkplatzmarkierungen verfügbar sind.
-
Der dritte Lösungsansatz erkennt benachbarte Fahrzeuge durch Verwendung eines Laserprojektors und einer einzigen Rückblickkamera. Jung et al. entwickelten ein Verfahren, das freie Parkplätze durch Analysieren des Lichtstreifens (rückwärtigen Objekten) analysiert, der von dem Laserprojektor erzeugt wird. Dieser Lösungsansatz kann bei Parkplätzen mit dunklem Untergrund verwendet werden und der Algorithmus zum Erfassen von 3D-Information ist recht einfach. Es kann eine allgemeine Konfiguration einer Rückblickkamera verwendet werden. Dieser Lösungsansatz kann aber auf Grund des Sonnenlichtes nicht während des Tages verwendet werden.
-
Der vierte Lösungsansatz erkennt benachbarte Fahrzeuge durch Verwendung eines monokularen Motion-Stereo-Verfahrens und Wegmessung. Fintzel at al haben ein System vorgeschlagen, das ein gerendertes Bild von einem virtuellen Aufnahmeort zum besseren Verständnis von Parksituationen und Prozeduren liefert (K. Fintzel et al.: ”3D Parking Assistant System”, Intelligent Vehicle Symposium 2004, IEEE, Seite 881–886). Besagtes System erhält externe Parameter und metrische Information anhand von Wegmessung und rekonstruiert die 3D-Struktur des Parkplatzes durch Verwendung von Punktkorrespondenzen. Besagte Forscher haben jedoch kein Verfahren zum Detektieren von freien Parkplätzen präsentiert. Es kann eine allgemeine Konfiguration der Rückblickkamera verwendet werden. Die Wegmessungsinformation kann jedoch fehlerhaft sein, wenn der Zustand der Straße auf Grund von Regen oder Schnee rutschig ist.
-
E. Wahl et al.: ”Realisierung eines Parkassistenten, basierend auf Motion-Stereo”, 16. Aachener Kolloquium Fahrzeug und Motorentechnik 2007, Seiten 871–880 beschreibt ein videobasiertes Verfahren zur Parklückenvermessung, das sich auf Motion Stereo stützt. Das Verfahren unterscheidet zwei Operationsmodi: Im ersten Modus wird die Parkklücke vermessen und ihre Länge bestimmt. Der zweite Modus dient der (verfeinerten) Rekonstruktion der Fahrumgebung beim Zurücksetzen in die Lücke um Warnfunktionen zu erzeugen bzw. autonome Fahrmanöver zu ermöglichen.
-
US 2006/0159308 A1 beschreibt ein System und ein Verfahren zum Analysieren von Videodaten einer nicht-statischen Kamera. Insbesondere soll überprüft werden, ob ein statisches Objekt entfernt wurde oder hinzukam, wie z. B. das Ein- und Ausparken von Fahrzeugen in einem Parkplatz.
-
OFFENBARUNG DER ERFINDUNG
-
Zur Lösung der oben genannten Probleme schlägt die vorliegende Erfindung vor, eine Bildsequenz durch Erfassen der Bilder von freien Parkplätzen mit einer Fahrzeugrückblickbilderfassungseinrichtung oder -kamera zu erfassen, die Ansicht hinter dem Fahrzeug bzw. Automobil unter Verwendung von Punktkorrespondenzen in der Bildsequenz dreidimensional zu rekonstruieren und metrische Informationen über die 3D-Strukturen anhand der bekannten Kamerahöhe wiederzugewinnen und freie Parkplätze durch Schätzen der Positionen von benachbarten Fahrzeugen zu detektieren.
-
Eine Ausführungsform der vorliegenden Erfindung liefert eine Vorrichtung zum Detektieren von freien Parkplätzen für Fahrzeuge, umfassend: eine Merkmalspunkteverfolgungseinrichtung zum Verfolgen von Merkmalspunkten durch Empfangen von Eingabebildern von einer Bilderfassungseinrichtung und Erfassen von Punktkorrespondenzen durch Analysieren der Eingabebilder; eine 3D-Strukturerzeugungseinrichtung zum Erzeugen einer dreidimensionalen Struktur durch dreidimensionales Rekonstruieren eines freien Parkplatzes durch Verwendung der Merkmalspunkte; eine 3D-Mosaikstrukturerzeugungseinrichtung zum Erzeugen eines dreidimensionalen Strukturmosaiks durch neues Auswählen der Merkmalspunkte zum Rekonstruieren der dreidimensionalen Struktur durch Verwendung einer De-Rotation-basierten Merkmalsauswahl und mosaikförmiges Zusammensetzen der rekonstruierten dreidimensionalen Struktur durch Schätzen einer Ähnlichkeitstransformation; eine metrische Wiedergewinnungseinrichtung zum Erfassen von metrischer Information anhand des dreidimensionalen Strukturmosaiks durch Verwendung eines Bilderfassungseinrichtungshöhenverhältnisses; und eine Parkplatzdetektionseinrichtung zum Detektieren eines freien Parkplatzes durch Schätzen der Positionen von benachbarten Fahrzeugen in dem dreidimensionalen Strukturmosaik.
-
Eine weitere Ausführungsform der vorliegenden Erfindung liefert eine Vorrichtung zum Detektieren von freien Parkplätzen für Fahrzeuge, umfassend: eine Bilderfassungseinrichtung zum Erfassen eines freien Parkplatzes und Erzeugen von Eingabebildern und Liefern derselben; eine Benutzerschnittstelle zum Anzeigen des detektierten freien Parkplatzes in einem Ausgabebild; eine Parkplatzdetektionseinrichtung zum Empfangen der Eingabebilder und Verfolgen von Merkmalspunkten durch Erfassen von Punktkorrespondenzen durch Analysieren der Eingabebilder, Erzeugen einer dreidimensionalen Struktur durch dreidimensionales Rekonstruieren des freien Parkplatzes durch Verwendung der Merkmalspunkte, Erzeugen eines dreidimensionalen Strukturmosaiks durch neues Auswählen der Merkmalspunkte zum Rekonstruieren der dreidimensionalen Struktur durch Verwendung einer De-Rotation-basierten Merkmalsauswahl und mosaikförmiges Zusammensetzen der rekonstruierten dreidimensionalen Struktur durch Schätzen einer Ähnlichkeitstransformation, Erfassen von metrischer Information anhand des dreidimensionalen Strukturmosaiks durch Verwendung eines Bilderfassungseinrichtungshöhenverhältnisses und Detektieren des freien Parkplatzes durch Schätzen der Positionen von benachbarten Fahrzeugen in dem dreidimensionalen Strukturmosaik zum Erzeugen des detektierten freien Parkplatzes und Liefern desselben; einen Sensor mit einer Anzahl von Messeinheiten zum Erkennen von Fahrzuständen des Fahrzeugs zum Erzeugen und Liefern von Fahrzeugfahrzustandsinformation; eine Einparkhilfesteuereinrichtung zum Empfangen der Fahrzustandsinformation von dem Sensor zum Schätzen der Fahrzeugposition, Erzeugen eines Wegplanes zum Einparken des Fahrzeugs in den freien Parkplatz durch Verwendung des gelieferten detektierten freien Parkplatzes und Erzeugen und Liefern von Steuersignalen zum Ausführen des Einparkens in den freien Parkplatz; ein aktives Lenksystem zum Lenken des Fahrzeugs als Reaktion auf die Steuersignale nach deren Empfang; und ein aktives Bremssystem zum Bremsen des Fahrzeugs als Reaktion auf die Steuersignale bei deren Empfang.
-
Wiederum eine weitere Ausführungsform der vorliegenden Erfindung liefert ein Verfahren für eine Vorrichtung zum Detektieren von freien Parkplätzen für Fahrzeuge zum Detektieren eines freien Parkplatzes, umfassend die Schritte: Verfolgen von Merkmalspunkten durch Empfangen von Eingabebildern von einer Bilderfassungseinrichtung und Erfassen von Punktkorrespondenzen durch Analysieren der Eingabebilder; Erzeugen einer dreidimensionalen Struktur durch dreidimensionales Rekonstruieren des freien Parkplatzes durch Verwendung der Merkmalspunkte; Rekonstruieren der dreidimensionalen Struktur durch neues Auswählen der Merkmalspunkte durch Verwendung einer De-Rotation-basierten Merkmalsauswahl; Erzeugen eines dreidimensionalen Strukturmosaiks durch mosaikförmiges Zusammensetzen der rekonstruierten dreidimensionalen Struktur durch Schätzen einer Ähnlichkeitstransformation; Erfassen von metrischer Information anhand des dreidimensionalen Strukturmosaiks durch Verwendung eines Bilderfassungseinrichtungshöhenverhältnisses; und Detektieren des freien Parkplatzes durch Schätzen der Positionen von benachbarten Fahrzeugen in dem dreidimensionalen Strukturmosaik.
-
Wie oben beschrieben, kann die vorliegende Erfindung eine Verschlechterung von dreidimensionalen Strukturen in der Nähe des Epipols durch Verwendung von De-Rotations-basierter Merkmalsauswahl und dreidimensionalen Strukturmosaikzusammensetzung lösen.
-
Zusätzlich schlägt die vorliegende Erfindung eine effiziente Art zum Lokalisieren von freien Parkplätzen in dreidimensionalen Punktwolken vor.
-
Außerdem kann die unzuverlässige Wegmessung gemäß der vorliegenden Erfindung nicht verwendet werden, da ihre Genauigkeit in großem Maße von Straßenzuständen abhängt, indem die externen Parameter durch Verwendung von lediglich der Bildinformation geschätzt werden und die metrische Information anhand des Verhältnisses der Kamerahöhe in der rekonstruierten Welt und der realen Welt wiedergewonnen wird.
-
Dies kann ein monokulares Motion-Stereo-basiertes System zum Detektieren von freien Parkplätzen implementieren.
-
KURZBESCHREIBUNG DER ZEICHNUNGEN
-
Die oben genannten unten und weitere Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden anhand der folgenden ausführlichen Beschreibung in Verbindung mit den beigefügten Zeichnungen ersichtlicher werden, in denen:
-
1 eine schematische Zeichnung von einem System zum automatischen Einparken unter Verwendung einer Vorrichtung zum monokularen Motion-Stereo-basierten Detektieren von freien Parkplätzen gemäß einer Ausführungsform der vorliegenden Erfindung ist;
-
2 ein Blockdiagramm eines Verfahrens zum monokularen Motion-Stereo-basierten Detektieren von freien Parkplätzen gemäß einer Ausführungsform der vorliegenden Erfindung ist;
-
3 eine Zeichnung zur Darstellung der Position eines Epipols in einer typischen Parksituation ist;
-
4A, B den Ort des Epipols in dem ersten Frame der Bildsequenz und der rekonstruierten Rückblickstruktur zeigen;
-
5A, B eine De-Rotation-basierte Merkmalsauswahlprozedur zeigen;
-
6Aa–6Ac, 6Ba–6Bc, 6Ca–6Cc die rekonstruierten 3D-Strukturen mit der und ohne die vorgeschlagene Merkmalsauswahl zeigen;
-
7A, B die 3D-Strukturen mit bzw. ohne Verwendung des Merkmalsauswahl- und 3D-Mosaikzusammensetzungsverfahrens zeigen;
-
8 ein Schemadiagramm ist, das eine Konfiguration einer Rückblickkamera zeigt;
-
9 eine Grafik ist, die die Dichte der Y-Achsenkoordinate der 3D-Punkte zeigt;
-
10A, B das Ergebnis von metrischer Wiedergewinnung der Kamerasicht bzw. Draufsicht von oben zeigen;
-
11A, B das Ergebnis der Abmessungsreduzierung bzw. das Ergebnis des Beseitigens von isolierten Punkten zeigen;
-
12A, B die Außenlinienpunktauswahl zeigen;
-
13A, B einen Suchbereich der Lokalisierung von anderen benachbarten Fahrzeugen und freien Parkplätzen zeigen;
-
14 das Endergebnis des Detektierens von freien Parkplätzen zeigt, das in dem letzten Frame der Bildsequenz dargestellt ist;
-
15 ein Foto einer Fischaugenkamera und eines Laserscanners zeigt, die an dem Fahrzeug montiert sind;
-
16Aa–16Ab, 16Ba–16Bb, 16Ca–16Cb Vergleiche der rekonstruierten Rückblickstrukturen mit und ohne Verwendung des vorgeschlagenen Verfahrens zeigen;
-
17Aa–17Ac, 17Ba–17Bc, 17Ca–17Cc, 17Da–17Dc sechs erfolgreiche Detektionen zeigen;
-
18A, B, C, D vier Funktionsstörungen zeigen;
-
19A, B Bewertungsergebnisse durch Verwendung von Laserscannerdaten zeigen.
-
AUSFÜHRLICHE BESCHREIBUNG VON BEISPIELHAFTEN AUSFÜHRUNGSFORMEN
-
Nachfolgend wird eine beispielhafte Ausführungsform der vorliegenden Erfindung unter Bezugnahme auf die beigefügten Zeichnungen beschrieben. In der folgenden Beschreibung werden dieselben Elemente mit denselben Bezugszahlen gekennzeichnet, obwohl sie in verschiedenen Zeichnungen gezeigt sind.
-
Darüber hinaus wird in der folgenden Beschreibung der vorliegenden Erfindung eine detaillierte Beschreibung von bekannten Funktionen und Konfigurationen, die hierin enthalten sind, weggelassen, wenn sie den Gegenstand der vorliegenden Erfindung stattdessen unklar werden lassen könnte.
-
1 zeigt eine schematische Zeichnung von einem Sytsem 100 zum automatischen Parken mit einer Vorrichtung zum monokularen Motion-Stereo-basierten Detektieren von freien Parkplätzen gemäß einer Ausführungsform der vorliegenden Erfindung.
-
Das System 100 zum automatischen Parken enthält eine Bilderfassungseinrichtung 110, eine Benutzerschnittstelle 120, eine Einrichtung 130 zum Detektieren von freien Parkplätzen, eine Einparkhilfesteuereinrichtung 140, einen Sensor 150, ein aktives Lenksystem 160 und ein aktives Bremssystem 170.
-
Die Bilderfassungseinrichtung 110 ist ein Mittel, das zum Erfassen von Bildern an einem Fahrzeug montiert ist. Sie könnte an zahlreichen Orten des Fahrzeugs, wie zum Beispiel seiner Vorderseite, Rückseite oder seinen Seiten so montiert sein, dass sie das Bild von einem freien Parkplatz erfassen kann, um ein Eingabebild zur Übergabe an die Benutzerschnittstelle 120, die Einrichtung 130 zum Detektieren von freien Parkplätzen, Einparkhilfesteuereinrichtung 140 und andere zu erzeugen. Für diesen Zweck kann die Bilderfassungseinrichtung 110 durch zahlreiche Bilderfassungsvorrichtungen implementiert sein, die eine Filmkamera, digitale Kamera, einen digitalen Camcorder, CCTV, etc. einschließen.
-
Die Benutzerschnittstelle 120 ist ein Mittel, das zum Eingaben/Ausgeben von Daten oder Befehlen an dem Fahrzeug montiert ist. Sie kann an dem Fahrzeug in der Nähe seines Inneren, Fahrersitzes oder Beifahrersitzes zum Empfangen von Daten oder Befehlen durch einen Fahrer und Übergeben derselben an die Einrichtung 130 zum Detektieren von freien Parkplätzen und Einparkhilfesteuereinrichtung 140 und Empfangen von Daten von der Bilderfassungseinrichtung 110, Einrichtung 130 zum Detektieren von freien Parkplätzen und Einparkhilfesteuereinrichtung 140 und Ausgeben von Daten an selbige montiert sein.
-
Zusätzlich zeigt die Benutzerschnittstelle 120 bei Empfangen des Eingabebildes von der Bilderfassungseinrichtung 110 dasselbe an und überträgt es an die Einrichtung 130 zum Detektieren von freien Parkplätzen. Für diesen Zweck kann die Benutzerschnittstelle 120 durch zahlreiche Eingabe/Ausgabegeräte, wie zum Beispiel eine Flüssigkristallanzeige oder LCD, Touchpad, Tastatur, Maus und/oder berührungsempfindlicher Bildschirm implementiert sein.
-
Die Einrichtung 130 zum Detektieren von freien Parkplätzen ist ein Mittel zum Durchführen von Datenkommunikation und Berechnungen, das bei Erhalt des Eingabebildes von der Bilderfassungseinrichtung 110 einen freien Parkplatz in dem Eingabebild detektiert und Bilder, die den detektierten freien Parkplatz anzeigen, als ein Ausgabebild zum Übertragen an die Benutzerschnittstelle 120 erzeugt, die dann angesteuert wird, um das Ausgabebild anzuzeigen.
-
Diesbezüglich kann die Einrichtung 130 zum Detektieren von freien Parkplätzen eine Merkmalspunkteverfolgungseinrichtung (feature point tracker) 132, eine Einrichtung 134 zum Erzeugen einer dreidimensionalen Struktur (3D-Strukturerzeugungseinrichtung), eine Einrichtung 136 zum Erzeugen einer dreidimensionalen Mosaikstruktur (3D-Mosaikstrukturerzeugungseinrichtung), eine metrische Rückgewinnungseinrichtung 138 und einen Platzdetektor 139 umfassen.
-
Die Merkmalspunkteverfolgungseinrichtung 132 verfolgt Merkmalspunkte (feature points) durch Empfangen der Eingabebilder von der Bilderfassungseinrichtung 110 und Erfassen von Punktkorrespondenzen durch Analysieren der Eingabebilder. Hier detektiert die Merkmalspunkteverfolgungseinrichtung die Merkmalspunkte durch Analysieren der Eingabebilder und verfolgt die Merkmalspunkte über die Eingabebilder durch Verwendung des Lucas-Kanade-Verfahrens.
-
Die Einrichtung 134 zum Erzeugen von dreidimensionalen Strukturen erzeugt eine dreidimensionale Struktur durch dreidimensionale Rekonstruktion des freien Parkplatzes unter Verwendung der Merkmalspunkte. Hier wählt die Einrichtung 134 zum Erzeugen von dreidimensionalen Strukturen Keyframes der Eingabebilder aus, schätzt Bewegungsparameter und berechnet dann dreidimensionale Koordinaten der Merkmalspunkte durch Verwendung eines linearen Triangulationsverfahrens zum Erzeugen der dreidimensionalen Struktur.
-
Die Einrichtung 136 zum Erzeugen von dreidimensionalen Mosaiken erzeugt ein dreidimensionales Strukturmosaik durch neues Auswählen der Merkmalspunkte zum Rekonstruieren der dreidimensionalen Struktur durch Verwendung einer De-Rotation-basierten Merkmalsauswahl und mosaikförmiges Zusammensetzen der rekonstruierten dreidimensionalen Struktur durch Schätzen einer Ähnlichkeitstransformation.
-
Die metrische Wiedergewinnungseinrichtung 138 erfasst metrische Information von dem dreidimensionalen Strukturmosaik durch Verwendung eines Bilderfassungseinrichtungshöhenverhältnisses. Hier erfasst die metrische Wiedergewinnungseinrichtung 138 das Bilderfassungseinrichtungshöhenverhältnis durch Bestimmen der Höhe der Bilderfassungseinrichtung in der dreidimensionalen Mosaikstruktur durch eine Neigungswinkelkompensation, eine Dichteschätzungs-basierte Grundebenendetektion und eine dreidimensionale Ebenenschätzungs-basierte Grundebenenverfeinerung hinsichtlich Ort und Orientierung.
-
Der Platzdetektor 139 detektiert den freien Parkplatz durch Schätzen der Positionen von benachbarten Fahrzeugen in dem dreidimensionalen Strukturmosaik. Hier reduziert der Platzdetektor 139 das dreidimensionale Strukturmosaik auf eine Draufsicht von oben, beseitigt isolierte Punkte von Nachbarn, erfasst Außenlinienpunkte der benachbarten Fahrzeuge mit einem Einfallswinkel und der Distanz von der Mitte der Bilderfassungseinrichtung und schätzt einen Eckpunkt und die Orientierung des benachbarten Fahrzeugs, wodurch der freie Parkplatz detektiert wird.
-
Der Platzdetektor 139 schätzt zusätzlich andere benachbarte Fahrzeuge, die sich gegenüber dem geschätzten Fahrzeug befinden, durch Festlegen eines Kreises mit einem vorab festgelegten Radius als den Suchbereich der anderen benachbarten Fahrzeuge, wobei sich der Mittelpunkt des Kreises in einer vorab festgelegten Distanz von dem Eckpunkt in der orthogonalen Richtung der Orientierung befindet.
-
Hier können die Einrichtung 130 zum Detektieren von freien Parkplätzen und ihre Komponenten Merkmalspunkteverfolgungseinrichtung 132, Einrichtung 134 zum Erzeugen von dreidimensionalen Strukturen, Einrichtung 136 zum Erzeugen von dreidimensionalen Mosaikstrukturen, metrischen Wiedergewinnungseinrichtung 138 und Platzdetektor 139 durch ein unabhängige Vorrichtung mit Speichern zum Speichern von Programmen zum Ausführen der korrespondierenden Funktionen und Mikroprozessoren zum Ausführen der gespeicherten Programme in den Speichern implementiert sein, obwohl deren Implementierung durch Softwaremodule möglich sein könnte, die durch Hardware (Speicher, Mikroprozessoren und dergleichen), die in dem System 100 zum automatischen Parken vorgesehen sind, zum laufen gebracht werden.
-
Eine Einparkhilfesteuereinrichtung 140 empfängt Fahrzustandsinformation von einem Sensor 150, um die Fahrzeugposition zu schätzen, empfängt den detektierten freien Parkplatz von der Einrichtung 130 zum Detektieren von freien Parkplätzen und erzeugt einen Wegplan zum Parken des Fahrzeugs auf dem freien Parkplatz und erzeugt Steuersignale zum Ausführen des Einparkens in den freien Parkplatz zum Senden derselben Signale an das aktive Lenksystem 160 und aktive Bremssystem 170.
-
Außerdem kann die Einparkhilfesteuereinrichtung 140 steuern, dass der erzeugte Wegplan an die Benutzerschnittstelle 120 gesendet wird, die den Wegplan anzeigt, da sie die Bilder des Einparkprozesses des Fahrzeuges in den freien Parkplatz so steuert, dass sie von der Bilderfassungseinrichtung 110 erfasst und an die Benutzerschnittstelle 120 gesendet werden, die die erfassten Bilder anzeigt.
-
Für diesen Zweck umfasst die Einparkhilfesteuereinrichtung 140 eine Wegplanerzeugungseinrichtung 142 zum Erzeugen eines Wegplanes für das Parken des Fahrzeugs unter Verwendung des von der Einrichtung 130 zum Detektieren von freien Parkplätzen gelieferten detektierten freien Parkplatzes, eine Wegverfolgungssteuereinrichtung 144 zum Verfolgen des festgelegten Wegplanes auf der Grundlage der Fahrzeugposition und der Fahrzustände zum Erzeugen von Steuersignalen zur Steuerung des Einparkens des Fahrzeugs in dem freien Parkplatz und Senden der Steuersignale an das aktive Lenksystem 160 und aktive Bremssystem 170, und eine Fahrzeugpositionsschätzeinrichtung 146 zum Schätzen der Fahrzeugposition durch Verwendung der Fahrzustandsinformation, die von dem Sensor 150 erhalten wird.
-
Hier können die Einparkhilfesteuereinrichtung 140 und ihre Komponenten Wegplanerzeugungseinrichtung 142, Wegverfolgungssteuereinrichtung 144 und Fahrzeugpositionsschätzeinrichtung 146 durch eine unabhängige Vorrichtung mit Speichern zum Speichern von Programmen zum Ausführen der korrespondierenden Funktionen und Mikroprozessoren zum Ausführen der gespeicherten Programme in den Speichern implementiert sein, obwohl deren Implementierung durch Softwaremodule möglich sein kann, die durch Hardware (Speicher, Mikroprozessoren und dergleichen), die in dem automatischen Parksystem 100 vorgesehen ist, zum Laufen gebracht werden.
-
Der Sensor 150 kann mit einer Anzahl von Sensoreinheiten zum Erkennen von Fahrzuständen des Fahrzeugs, d. h. einem Radgeschwindigkeitssensor, einem Lenkwinkelsensor, einem Gierratensensor, Beschleunigungssensor etc. zum Messen der Fahrzustände des Fahrzeugs und Erzeugen von äquivalenten elektrischen Sensorsignalen für Fahrzeugfahrzustandsinformation versehen sein, die an eine Fahrzeugpositionsschätzeinrichtung 146 der Einparkhilfesteuereinrichtung 140 gesendet werden soll.
-
Das aktive Lenksystem 160 ist eine Lenkhilfeeinrichtung zum Erzeugen von sicherem Lenken des Fahrzeugs durch Verwendung von zahlreichen Sensoren und Steuereinrichtungen anhand von Fahrerlenkeingaben, die das Fahrzeug als Reaktion auf die von der Einparkhilfesteuereinrichtung 140 empfangenen Steuersignale lenkt.
-
Ohne darauf beschränkt zu sein, kann das aktive Lenksystem 160 EPS (Electronic Power Steering System), MDPS (Motor Driven Power Steering System), AFS (Active Front Steering System) etc. umfassen.
-
Das aktive Bremssystem 170 dient zum Beschränken der Fahrzeugbewegungsgeschwindigkeit durch Ändern des Bremsgrades des Fahrzeugs als Reaktion auf das von der Einparkhilfesteuereinrichtung 140 empfangene Steuersignal, um dadurch das Fahrzeug anzuhalten.
-
Zur Bewerkstelligung desselben kann das aktive Bremssystem 170 unter anderem ABS (Antilock Brake System), ESC (Electronic Stability Control System) etc. umfassen.
-
2 zeigt ein Blockdiagramm eines Verfahrens zum monokularen Motion-Stereo-basierten Detektieren von freien Parkplätzen gemäß einer Ausführungsform der vorliegenden Erfindung.
-
Bei dem offenbarten Verfahren zum monokularen Motion-Stereo-basierten Detektieren von freien Parkplätzen empfängt das System 100 zum automatischen Parken in Schritt 210 das erfasste Bild von freien Parkplätzen von der Bilderfassungseinrichtung 110, verfolgt Merkmalspunkte der Bildeingabe in Schritt 230, rekonstruiert die Parkstruktur in 3D unter Verwendung der Merkmalspunkte in Schritt 230, wählt die Merkmalspunkte unter Verwendung der De-Rotation-basierten Merkmalsauswahl in Schritt 240, rekonstruiert 3D-Strukturen unter Verwendung der ausgewählten Punktkorrespondenzen und bildet die rekonstruierte 3D-Struktur zu einem 3D-Strukturmosaik durch Schätzen der Ähnlichkeitstransformation in Schritt 250, wiedergewinnt die 3D-Struktur durch Verwendung des Kamerahöhenverhältnisses in Schritt 260 und detektiert freie Parkplätze durch Schätzen der Positionen von benachbarten Fahrzeugen in Schritt 250. Danach kann das automatische Parksystem 100 das Bild, das den detektierten freien Parkplatz repräsentiert, als Ausgabebild zum Senden desselben und Anzeigen bei der Benutzerschnittstelle 120 in Schritt 280 erzeugen.
-
Gemäß der vorliegenden Erfindung werden die Rückblickstrukturen durch Verwendung einer einzigen Fischaugenkamera dreidimensional rekonstruiert und werden freie Parkplätze in der 3D-Struktur durch die Stufen von Video(Bildsequenz)-Erfassung, Merkmalspunkteverfolgung, 3D-Rekonstruktion, 3D-Strukturmosaikzusammensetzung, metrische Wiedergewinnung und Detektion von freien Parkplätzen ermittelt.
-
Im Vergleich zum Stand der Technik liefert das offenbarte System drei wichtige Vorteile. Erstens wird die Verschlechterung der 3D-Struktur in der Nähe des Epipols durch Verwendung von De-Rotation-basierter Merkmalsauswahl und 3D-Strukturmosaikzusammensetzung gelöst. Dies stellt ein ernstes Problem bei der Rekonstruktion von 3D-Strukturen mit einer Fahrzeugrückblickkamera dar, weil sich der Epipol gewöhnlich in dem Bild eines benachbarten Fahrzeugs befindet, das präzise rekonstruiert werden muss. Zweitens wird ein effizientes Verfahren zum Detektieren von freien Parkplätzen in 3D-Punktwolken bereitgestellt. Vorteilhafterweise wird Wegmessung aufgrund ihrer Unzuverlässigkeit nicht verwendet, da die Genauigkeit von dem Straßenzustand abhängen würde. Die externen Parameter können durch Verwendung von lediglich Bildinformation geschätzt werden. Die metrische Information kann anhand des Verhältnisses der Kamerahöhen in der rekonstruierten Welt und der realen Welt wiedergewonnen werden.
-
Nachfolgend wird die vorliegende Erfindung in Abschnitten 1 bis 4 detailliert erläutert. Abschnitt 1 beschreibt die Verfahren für Punktkorrespondenzen und 3D-Rekonstruktion. Abschnitt 2 erläutert das Problem des Epipols und bietet eine Lösung. Abschnitt 3 beschreibt metrische Wiedergewinnung und die Prozedur zum Detektieren von freien Parkplätzen. Abschnitt 4 präsentiert die experimentellen Ergebnisse im Vergleich zu den Lasescannerdaten. Im übrigen wird zum leichteren Verständnis die Bilderfassungseinrichtung 110 als „Kamera” bezeichnet.
-
1. Monokulare Motion-Stereo-basierte 3D-Rekonstruktion
-
1.1 Punktkorrespondenzen
-
Es müssen Punktkorrespondenzen in zwei verschiedenen Bildern, die mit einer sich bewegenden Kamera erfasst werden, ermittelt werden, um die Bewegungsparameter und 3D-Strukturen zu schätzen. In dieser Beschreibung werden drei unterschiedliche Lösungsansätze verglichen. Der erste Lösungsansatz ermittelt eine geringe Anzahl von zuverlässigen Punktkorrespondenzen, um die Fundamentalmatrix zu schätzen, und gleicht (matches) Merkmalspunkte durch Verwendung der epipolaren Einschränkungen bei den entzerrten Bildern ab. Dies wird als „guided matching” bezeichnet, was erfordert, dass die Fischaugenbilder nicht verzeichnet und entzerrt sind.
-
Der zweite Lösungsansatz findet Punktkorrespondenzen durch Verwendung eines naiven Algorithmus und verwirft falsche Paare (matches) durch Verwendung eines Ausreißerselektionsverfahrens, das für Kameras bei intelligenten Fahrzeugen entworfen ist. Obwohl dieser Lösungsansatz schnell ist und wenige fehlerhafte Paarungen (mismatches) erzeugt, ist er aufgrund des Mangels von Merkmalen auf den Oberflächen bzw. der Merkmalslosigkeit schwierig, Punktkorrespondenzen auf Fahrzeugoberflächen zu finden.
-
Der dritte Lösungsansatz detektiert Merkmalspunkte und verfolgt sie über Bildsequenzen. Da dieses Verfahren die Merkmalspunkte zwischen aufeinanderfolgenden Bildern verfolgt, kann es viele Punktkorrespondenzen auf Automobil- bzw. Fahrzeugoberflächen finden. Jedoch sind die Rechenkosten hoch, weil der Algorithmus auf viele Bilder angewendet werden muss.
-
Die ersten und zweiten Lösungsansätze erfordern mindestens zwei Bilder. Die Speichergröße zum Speichern der Bilder ist gering, aber es ist schwierig, Keyframes auszuwählen, ohne die gesamte Sequenz zu sichern. Der dritte Lösungsansatz erfordert auch mindestens zwei Bilder, jedes Mal wenn er in Echtzeit unter Verwendung von FPGA (Field-Programmable Gate Array) implementiert wird. Da die Punktkorrespondenzen für jeden Frame gesichert werden, können Keyframes unter Verwendung der Verfolgungsergebnisse ausgewählt werden. Unter Berücksichtigung dieses Vergleiches wird der dritte Lösungsansatz von Verfolgungsverfahren bei der vorliegenden Erfindung bevorzugt.
-
Zum Verfolgen wählt die vorliegende Erfindung das Lucas-Kanade-Verfahren, weil es genaue Ergebnisse erzeugt, erschwingliche Rechenleistung bietet und es einige vorhandene Beispiele für Echtzeit-Hardwareimplementierungen gibt. Dieses Verfahren verwendet auch die Least-Square-Lösung von optischen Flüssen (optical flows). Wenn I und J zwei aufeinanderfolgende Bilder sind und x und Ω die Merkmalsposition bzw. die geringe räumliche Nachbarschaft von x bezeichnen, dann besteht das Ziel darin, den optischen Flussvektor v zu finden, der minimiert:
-
Die Lösung von Gleichung (1), v
opt, sieht wie folgt aus:
-
Ix und Iy sind die Bildgradienten in der horizontalen bzw. vertikalen Richtung und δI ist die Bildpixeldifferenz. Da die Matrix G nicht-singulär sein muss, kann der Bildort, wo der minimale Eigenwert von G größer als der Schwellenwert ist, als ein Merkmalspunkt ausgewählt und über die Bildsequenz verfolgt werden.
-
1.2. 3D-Rekonstruktion
-
Wenn die Punktkorrespondenzen erhalten sind, kann die Struktur des Parkplatzes unter Verwendung der folgenden drei Schritte dreidimensional rekonstruiert werden: Keyframe-Auswahl, Bewegungsparameterschätzen und Triangulation. Zur 3D-Rekonstruktion müssen die Keyframes, die das 3D-Rekonstruktionsintervall bestimmen, geeignet ausgewählt werden. Wenn keine ausreichende Kamerabewegung zwischen den beiden Frames vorliegt, kann die Berechnung der Fundamentalmatrix ungenau sein, und im umgekehrten Fall kann die Anzahl von korrespondierenden Punkten vermindert sein.
-
Die vorliegende Erfindung verwendet ein einfaches, aber weniger allgemeines Verfahren, das die mittlere Länge des optischen Flusses verwendet. Dieses Verfahren funktioniert gut, da Drehbewegung immer durch Translationsbewegung in Fahrzeugrückblickkameras induziert wird. Da Parkplätze auf Anforderung des Fahrers rekonstruiert werden sollten, kann der letzte Frame als der erste Keyframe ausgewählt werden.
-
Der zweite Keyframe kann ausgewählt werden, wenn die mittlere Länge des optischen Flusses von dem ersten Keyframe den Schwellenwert überschreitet. Der nächste Keyframe kann auf dieselbe Art ausgewählt werden. Der Schwellenwert kann auf 50 Pixel eingestellt werden und dies führt zu einer Basislinienlänge von ca. 100~150 cm.
-
Wenn die Keyframes ausgewählt sind, wird die Fundamentalmatrix geschätzt, um die Relativdrehungs- und -translationswerte zwischen den beiden Kameras zu extrahieren. Für diese Aufgabe verwendet die vorliegende Erfindung den Random Sample Consensus (hierin nachfolgend als RANSAC bezeichnet), gefolgt vom M-Estimator. Torr und Murray waren der Ansicht, dass dies eine empirisch optimale Kombination ist. Außerdem wurden Fahrzeugrückblickbildexperimente unter Verwendung der zahlreichen Verfahren durchgeführt, die von Armangue, X., Salvi, J.: Overall view regarding fundamental matrix extimation, Image Vision Computing 21(2), 205–220 (2003), vorgeschlagen wurden.
-
Der RANSAC basiert auf zufallsmäßiges Auswählen einer Gruppe von Punkten zum Berechnen der Kandidaten der Fundamentalmatrix durch Verwendung eines linearen Verfahrens. Dieses Verfahren berechnet die Anzahl von Inliers (Einlieger) für jede Fundamentalmatrix und wählt diejenige aus, die sie maximiert. Wenn die Fundamentalmatrix bestimmt wurde, wurde sie in den Experimenten durch Verwendung aller Inliers verfeinert. Der M-Estimator kann zum Reduzieren des Effekts der Ausreißer (Outliers) durch Messen des Restwertes jeder Punktkorrespondenz verwendet werden. Es gilt, dass r
i der Restwert von
x' T / i, Fx
i ist, wobei x'
i und x
i die Koordinaten der Punktkorrespondenzen in zwei Bildern sind und F die Fundamentalmatrix ist. Dann können die M-Estimators auf Lösen von Gleichungen (3) gestützt werden:
in der w
i eine Gewichtungsfunktion ist und die Huber-Funktion in Gleichung (4) verwendet wird:
-
Zum Erhalten von σ kann die robuste Standardabweichung in Gleichung (5) verwendet werden: σ = 1.4826{1 + 5/(n 7)}mediani|ri| (5)
-
Die Essentialmatrix (essential matrix) kann unter Verwendung der Fundamentalmatrix und der kameraspezifischen Parametermatrix (K) berechnet werden. Die kameraspezifischen Parameter werden vorab kalibriert, da sie sich bei der vorliegenden Erfindung nicht ändern. Die vier Kombinationen der Drehmatrix (R) und des Translationsvektors (t) können anhand der Essentialmatrix extrahiert werden. Da nur die korrekte Kombination ermöglicht, dass die 3D-Punkte vor beiden Kameras angeordnet sind, werden zufallsmäßig ausgewählte mehrere Punkte rekonstruiert, um die korrekte Kombination zu ermitteln. Danach können die 3D-Koordinaten jeder Punktkorrespondenz durch Verwendung eines linearen Triangulationsverfahrens berechnet werden. Wenn P und P' die Projektionsmatrizen der beiden Kameras präsentieren würden und X die 3D-Koordinate der Punktkorrespondenzen repräsentieren würde, würde Gleichung (6) wie folgt erscheinen: xx(PX) = 0
x'x(P'X) = 0 (6)
-
Durch Kombinieren der beiden obigen Gleichungen in der Form AX = 0 können die 3D-Koordinaten (X) leicht berechnet werden, indem der Einheitssingulärvektor ermittelt wird, der dem geringsten singulären Wert von A entspricht. Dies kann durch Verwendung einer SVD (Singular Value Decomposition) gelöst werden. Die Matrix A kann ausgedrückt werden als:
-
piT und p'iT repräsentieren die i-te Zeile von P bzw. P' und [x, y]T und [x', y']T repräsentieren die Bildkoordinaten der Punktkorrespondenzen. Zur 3D-Rekonstruktion wird vorzugsweise ein komplexer Optimierungsalgorithmus, wie zum Beispiel eine Bündelanpassung (bundle adjustment) verwendet, da die Rechenkosten zu hoch wären.
-
2. Merkmalsauswahl und 3D-Strukturmosaikzusammensetzung
-
2.1 Verschlechterung von 3D-Struktur in der Nähe des Epipols
-
Allgemeiner bei Rekonstruktion von 3D-Strukturen kann eine starke Verschlechterung in der Nähe des Epipols auftreten. Dies liegt daran, dass Triangulation unter einem kleinen Winkel durchgeführt werden muss, da die Genauigkeit der 3D-Koordinaten aufgrund der relativ hohen Punktdetektions- und Bildquantisierungseffekte vermindert wird. Dies kann als ein Rangabfall der Matrix A in Gleich (7) gezeigt werden. Wenn die Projektionsmatrizen der beiden Kameras durch P bzw. P' repräsentiert werden, könne sie wie folgt beschrieben werden: P = K[I|0] = [K|0]
P' = K[R|t] = [KR|e] (8)
-
K und I repräsentieren eine kameraspezifische 3×3-Parametermatrix bzw. eine 3×3-Identitätsmatrix und R und t repräsentieren eine 3×3-Drehmatrix und einen 3×1-Translationsvektor. e ist der Epipol. Da die letzte Spalte von P' die Koordinaten des Epipols repräsentiert, nähert sich die letzte Spalte A Null, wenn sich die Punktkorrespondenz dem Epipol nähert.
-
Obwohl dieses Problem bei 3D-Rekonstruktion sehr ernst ist, ist es im Stand der Technik aus zwei Gründen noch nicht wirklich behandelt worden. Erstens befindet sich der Epipol aufgrund von Kamerakonfigurationen in vielen Anwendungen nicht innerhalb des Bildes. Dies geschieht, wenn die 3D-Strukturen durch Verwendung einer Stereokamera oder einer einzelnen sich bewegenden Kamera rekonstruiert werden, deren Translation in der optischen Achse nicht größer als die Translationen in den anderen Achsen ist. Zweitens befindet sich der Epipol innerhalb des Bildes, aber nicht auf den Zielobjekten. Dies ist der Fall, wenn ein mobiler Roboter mit einer einzigen nach vorne (oder nach hinten) schauenden Kamera sich entlang einer Straße oder eines Korridors bewegt. In diesem Fall befindet sich der Epipol innerhalb des Bildes, aber er befindet sich gewöhnlich auf Objekten fern von der Kamera, so dass das Gebiet um den Epipol nicht interessiert.
-
Bei dem Verfahren gemäß der vorliegenden Erfindung ist die Translation in der optischen Achse recht dominant. So befindet sich der Epipol immer innerhalb des Bildes. Außerdem befindet sich der Epipol gewöhnlich auf einem benachbarten Fahrzeug, das das vorliegende Zielobjekt ist, das zum Orten von freien Parkplätzen verwendet wird. 3 zeigt den Epipolort in einer typischen Parksituation. Wie in dieser Figur gezeigt, befindet sich der Epipol gewöhnlich in dem Bild eines benachbarten Fahrzeugs aufgrund der Bewegungscharakteristiken der Fahrzeugrückblickkamera.
-
Aus diesem Grund wird die 3D-Struktur des benachbarten Fahrzeugs gemäß der vorliegenden Erfindung fehlerhaft rekonstruiert. 4A, B zeigen den Ort des Epipols in dem letzten Frame der Bildsequenz und der rekonstruierten Rückblickstruktur. Der typische Ort des Epipols ist in 4A dargestellt, während 4B die Struktur aus Sicht von oben nach Entfernen der Punkte in der Nähe der Grundebene zeigt. In 4A scheinen die 3D-Punkte in der Nähe des Epipols auf dem benachbarten Fahrzeug recht fehlerhaft, so dass die Detektionsergebnisse verschlechtert sind. Zur Lösung dieses Problems werden die De-Rotation-basierte Merkmalsauswahl und 3D-Strukturmosaikzusammensetzung verwendet.
-
2.2. De-Rotation-basierte Merkmalsauswahl und 3D-Strukturmosaikzusammensetzung
-
Zur Lösung des Problems mit dem Epipol und zum Erhalten einer genauen 3D-Rückblickstruktur verwendet die vorliegende Erfindung ein Verfahren mit zwei Schritten. In dem ersten Schritt wird der Dreheffekt aus dem optischen Fluss beseitigt und wird der Translationseffekt beibehalten. Da die optische Flusslänge bei einer reinen Translation proportional zur 3D-Strukturgenauigkeit ist, wirft die vorliegende Erfindung die Punktkorrespondenzen einfach weg, deren optischen Flusslängen kürzer als der Schwellenwert sind. Dies verhindert, dass die 3D-Struktur fehlerhaft rekonstruierte Punkte enthält. Zur Beseitigung des Dreheffekts des optischen Flusses kann eine konjugierte Rotationshomographie (conjugate rotation homography) verwendet werden. Wenn x und x' die Bilder eines 3D-Punktes X vor und nach der reinen Drehung wären: x = K[I|0]X
x'= K[R|0]X = KRK–1x (9) so wäre x' = Hx mit H = KRK–1. Durch Verwendung dieser Homographie beseitigt die vorliegende Erfindung den Dreheffekt und setzt die Punktkorrespondenzen durch eine reine Translation in Beziehung. 5A, B zeigen die Prozedur der de-rotated-basierten Merkmalsauswahl. Zuerst werden die Punktkorrespondenzen in den Fischaugenbildern, wie in 5A gezeigt, entzerrt und transformiert. Danach werden die entzerrten Punktkorrespondenzen unter Verwendung einer Homographie, wie in 5B gezeigt, de-rotated. Alle Linien, die die Punktkorrespondenzen verbinden, zeigen in Richtung zum Epipol, weil der Dreheffekt vollständig beseitigt ist. In diesem Fall ist der Epipol als der Ausdehnungsfokus bekannt. Eine große Streubreite L1 von Linien zeigt die durch das De-Rotation-basierte Verfahren klassifizierten unzuverlässigen Punktkorrespondenzen an. Die unzuverlässigen Punktkorrespondenzen schließen die Merkmale in der Nähe des Eipols und fern von der Kamera ein. Der Schwellenwert für die optische Flusslänge kann auf 10 Pixel eingestellt werden.
-
In dem zweiten Schritt rekonstruiert die vorliegende Erfindung mehrere 3D-Strukturen durch Verwendung der ausgewählten Punktkorrespondenzen und setzt diese mosaikförmig zu einer Struktur durch Schätzen der Ähnlichkeitstransformation zusammen. Die Ähnlichkeitstransformationsparameter können bestehen aus R (3×3-Drehmatrix), t (3×1-Translationsvektor) und c (Maßstabstransformation) und die Anpassung nach der Methode der kleinsten Quadrate kann mit den anhand der Verfolgungsergebnisse bekannten 3D-Punktkorrespondenzen verwendet werden. Da die rekonstruierten 3D-Punkte fehlerhaft sind und Ausreißer enthalten, wird der RANSAC-Lösungsansatz zur Parameterschätzung verwendet. Die Anpassung nach der Methode der kleinsten Quadrate kann wie folgt erläutert werden. Es können zwei Gruppen von Punktkorrespondenzen Xi und Yi; i = 1, 2, ..., n im 3D-Raum vorliegen. Xi und Yi können als 3×1-Spaltenvektoren betrachtet werden und n ist gleich oder größer als 3. Die Beziehung zwischen Xi und Yi kann beschrieben werden als: Yi = cRXi + t (10)
-
Der Fehler der kleinsten Quadrate von zwei Gruppen von Punkten kann geschrieben werden als:
-
Wenn A und B die 3×n-Matrizen von {X
1, X
2, L, X
n} bzw. {Y
1, Y
2, L, Y
n} sind, und wenn UDV
T ein SVD von AB
T (UU
T = VV
T = I, D = diag(d
1), d
1 ≥ d
2 ≥ L > 0) ist, können die Transformationsparameter, die den mittleren quadratischen Fehler minimieren, berechnet werden durch:
-
σ
2 X, μ
2 X und μ
2 Y können definiert werden als:
-
6A, B, C zeigen die rekonstruierten 3D-Strukturen mit dem und ohne das vorgeschlagene Verfahren zur Merkmalsauswahl und 3D-Mosaikzuammensetzung. 6Aa-6Ac zeigen die Keyframe-Bilder, 6Ba–6Bc die rekonstruierten 3D-Strukturen ohne Verwendung des offenbarten Merkmalsauswahlverfahrens und 6Ca–6Cc die rekonstruierten 3D-Strukturen mit Verwendung des Merkmalsauswahlverfahrens. Die 3D-Strukturen sind aus Sicht von oben (nach Entfernen der Punkte in der Nähe des Grundes) gezeigt. Die 6Aa–6Ac zeigen die Keyframe-Bilder und deren Epipolorte. Es ist ersichtlich, dass sich die Epipole an unterschiedlichen Positionen des benachbarten Fahrzeugs befinden. 4B zeigt die rekonstruierten 3D-Strukturen jedes Keyframes. Die Strukturen in der Nähe der Epipole sind schlecht rekonstruiert. Der fehlerhaft rekonstruierte Teil in einer Struktur ist jedoch in einer anderen Struktur korrekt rekonstruiert. 4C zeigt die rekonstruierten 3D-Strukturen von jedem Keyframe nach Entfernen der korrespondierenden Punkte durch Verwendung des De-Rotation-basierten Verfahrens. Die meisten fehlerhaften 3D-Punkte in 4 sind beseitigt.
-
7A, B zeigen den Vergleich der 3D-Strukturen bei Verwendung des vorgeschlagenen Verfahrens zur Merkmalsauswahl und 3D-Mosaikzusammensetzung bzw. ohne Verwendung desselben.
-
Der Punkt CC kennzeichnet den Kameramittelpunkt. Die Verschlechterung der 3D-Struktur in der Nähe des Epipols wird durch das vorliegende Verfahren gelöst.
-
3. Detektion von freien Parkplätzen
-
3.1 Metrische Wiedergewinnung durch Verwendung des Kamerahöhenverhältnisses
-
Zum Orten von freien Parkplätzen in Zentimetern muss die metrische Information der 3D-Struktur wiedergewonnen werden. Dies wird gewöhnlich durch Verwendung einer bekannten Basislinienlänge oder Vorkenntnis von der 3D-Struktur erzielt. Da die Kamerahöhe in der realen Welt bei der vorliegenden Erfindung bekannt ist, kann eine Schätzung hinsichtlich der Kamerahöhe in der rekonstruierten Welt vorgenommen werden und wird das Verhältnis der geschätzten Kamerahöhe zur realen Höhe zur metrischen Wiedergewinnung verwendet. Die Kamerahöhe in der realen Welt kann bei dieser Erfindung als fest angenommen werden. Der Höhensensor kann mit Kamerahöhenvariationen verwendet werden, die aufgrund von Änderungen der Ladung oder Passagiere auftreten können.
-
Zur Berechnung des Kamerahöhenverhältnisses muss die Grundebene in der rekonstruierten Welt geschätzt werden, da der Kameraort auf den Ursprung eingestellt ist. Die Schätzprozedur kann aus drei Schritten bestehen: Neigungswinkelkompensation, Dichteschätzungs-basierte Grundebenendetektion (density estimation-based ground plane detection) und 3D-Ebenen-Schätzungs-basierte Grundebenenverfeinerung (3D plane estimation-based ground plane refinement). Der Neigungswinkel wird berechnet und die 3D-Struktur wird gemäß dieser Berechnung gedreht. Diese Prozedur macht die Grundebene parallel zur XZ-Ebene. 8 zeigt eine Konfiguration der Rückblickkamera. In der Kamerakonfiguration der 6A, B, C kann der Neigungswinkel (θ) durch Verwendung von Gleichung (14) berechnet werden.
-
-
ex und y0 sind die y-Achsenkoordinaten des Epipols bzw. des Hauptpunkts. f ist die Brennweite der Kamera.
-
Die Grundebene kann durch Verwendung der Dichte der 3D-Punkte in der Y-Achse grob detektiert werden. Da es gewöhnlich nur eine Ebene (die Grundebene) gibt, die parallel zur XZ-Ebene ist, befindet sich die Dichte der Y-Achsenkoordinate der 3D-Punkte am Ort der Grundplatte auf dem maximalen Wert. 9 zeigt die Dichte der Y-Achsenkoordinate der 3D-Punkte. In dieser Figur erkennt man den Spitzenort als den Ort der Grundebene und erkennt man die Distanz von dem Spitzenort zum Ursprung als die Kamerahöhe in der 3D-Struktur.
-
In den Experimenten wurden der korrekte Ort und die Orientierung der Grundebene durch 3D-Ebenenschätzung verfeinert. Die 3D-Punkte in der Nähe der grob geschätzten Grundebene wurden ausgewählt und der RANSAC-Lösungsansatz wurde zum Schätzen der 3D-Ebene verwendet. Die Kamerahöhe wurde durch Berechnen der senkrechten Distanz zwischen dem Kameramittelpunkt und der Grundebene verfeinert. Die 3D-Struktur wurde durch Verwendung des Kamerahöhenverhältnisses in Zentimetern skaliert. Danach wurden die 3D-Punkte fern von dem Kameramittelpunkt beseitigt und wurden die verbleibenden Punkte gemäß der 3D-Ebenenorientierung gedreht, um die Grundebene parallel zur XZ-Ebene zu machen. Die 10A, B zeigen das Endergebnis der metrischen Wiedergewinnung. 8A repräsentiert die resultierende metrische Wiedergewinnung aus der Sicht der Kamera und 8B die metrische Wiedergewinnung aus der Sicht von oben, wobei der Punkt bei (0, 0, 0) den Kameramittelpunkt angibt.
-
3.2. Detektion von freien Parkplätzen
-
Wenn die euklidische 3D-Struktur des Rückblicks rekonstruiert ist, müssen freie Parkplätze in den 3D-Punktwolken detektiert werden. Dazu kann eine Schätzung hinsichtlich der Position der benachbarten Fahrzeuge vorgenommen werden und können die freien Parkplätze entsprechend lokalisiert werden. Da eine Positionsschätzung kompliziert und zeitaufwendig sein kann, reduziert die vorliegende Erfindung die Dimensionen der Struktur von 3D auf 2D durch Verwendung der Draufsicht von oben. Die 3D-Punkte, deren Höhen von der Grundebene zwischen 30 bis 160 cm betragen, können ausgewählt werden und die Höheninformation kann durch Reduzieren der Dimensionen beseitigt werden. 11A, B zeigen das Ergebnis der Reduzierung der Dimension, wobei 11A das Ergebnis der Reduzierung der Dimension und 11B das Ergebnis des Beseitigens von isolierten Punkten zeigt. Wie dargestellt, sind in dem Ergebnis der Reduzierung der Dimension die Außenlinien des benachbarten Fahrzeugs und anderer Hindernisse zu sehen. In dieser Figur gibt es einige isolierte Punkte, die durch den 3D-Rekonstruktionsfehler verursacht worden sein können, so dass sie durch Zählen der Anzahl von Nachbarn beseitigt werden, die definiert sind als: N(x, ε) = {y|||y – x|| ≤ ε} (15)
-
x und y repräsentieren die 2D-Punkte und ε repräsentiert den Radius. Wenn N(x, ε) geringer als der Schwellenwert wäre, würde x als ein isolierter Punkt definiert und beseitigt. 11B zeigt das Ergebnis des Beseitigens von isolierten Punkten mit ε und dem Schwellenwert, die gleich 10 cm bzw. 3 gesetzt sind. Der Punkt bei (0, 0) gibt den Kameramittelpunkt an.
-
Da alle Punkte in den 11A, B nicht zur äußersten Fläche des Fahrzeugs gehören, werden die Außenlinienpunkte durch Verwendung der Beziehung zwischen dem Einfallswinkel und der Distanz von dem Kameramittelpunkt ausgewählt. Diese Prozedur wird zur besseren Schätzung der Position des benachbarten Fahrzeugs durchgeführt. Der Einfallswinkel ist der Winkel zwischen der horizontalen Achse und der Linie, die den Kameramittelpunkt und einen 2D-Punkt verbindet.
-
12A, B zeigen die Außenlinienpunktauswahl, wobei 12A 2D-Punkte mit dem Einfallswinkel und der Distanz von dem Kameramittelpunkt neu darstellt und 12B das Ergebnis der Außenlinienpunktauswahl zeigt. 11B kann in 12A neu dargestellt werden, indem der Einfallswinkel und die Distanz von dem Kameramittelpunkt verwendet werden. Da die Punkte auf derselben vertikalen Linie unter demselben Einfallswinkel in 12A kommen, kann der nächste Punkt von dem Kameramittelpunkt von den Punkten auf derselben vertikalen Linie als der Außenlinienpunkt erkannt werden.
-
Wenn die Fahrzeugform bei Sicht von oben ein Rechteck ist, kann die Position des benachbarten Fahrzeugs durch einen Eckpunkt und Orientierung repräsentiert werden. Somit können der Eckpunkt und die Orientierung des benachbarten Fahrzeugs geschätzt werden und können dieser Werte verwendet werden, um freie Parkplätze zu lokalisieren. Da die rekonstruierte Struktur mit Rauschen behaftet ist und nicht nur benachbarte Fahrzeuge, sondern auch andere Hindernisse enthält, wird bevorzugtermaßen ein projektionsbasiertes Verfahren verwendet. Dieses Verfahren dreht die 2D-Punkte und projiziert sie auf die X-Achse und Z-Achsen. Es findet den Drehwinkel heraus, der die Summe der maximalen Spitzenwerte der zwei Projektionsergebnisse maximiert. Der Drehwinkel und die Orte der beiden maximalen Spitzenwerte werden als die Orientierung bzw. der Eckpunkt erkannt. Dieses Verfahren schätzt die Orientierung und den Eckpunkt gleichzeitig und ist robust gegen mit Rauschen behaftete Daten.
-
Bei Verwendung dieses Verfahrens ist es jedoch nicht möglich zu wissen, ob die geschätzte Orientierung longitudinal oder lateral ist. Zur Ermittlung desselben wird angenommen, das ein Fahrer rechts abbiegen würde, wenn sich ein freier Parkplatz links befindet, und umgekehrt. Unter Verwendung dieser Annahme ist es möglich zu ermitteln, ob die geschätzte Orientierung longitudinal oder lateral ist. Die Abbiegerichtung des Fahrzeugs kann anhand der von der fundamentalen Matrix extrahierten Drehmatrix geschätzt werden.
-
Nach Schätzen der Orientierung und des Eckpunktes können die Punkte in der longitudinalen Richtung des benachbarten Fahrzeugs ausgewählt und zum Verfeinern der Orientierung durch Verwendung von RANSAC-basierter Linienschätzung verwendet werden. Dieser Prozedur ist notwendig, da die laterale Seite von Fahrzeugen gewöhnlich gekrümmt ist, so dass die longitudinale Seite genauere Orientierungsinformation liefert. Der Eckpunkt wird auch gemäß der verfeinerten Orientierung verfeinert.
-
13A zeigt einen Suchbereich des anderen benachbarten Fahrzeugs und 13B zeigt die Lokalisierung eines freien Parkplatzes. Zum Lokalisieren der geeignetsten freien Parkplätze werden auch andere benachbarte Fahrzeuge, die sich gegenüber dem geschätzten Fahrzeug befinden, gesucht. Der Suchbereich kann, wie in 13A gezeigt, durch Verwendung des geschätzten Eckpunktes und der Orientierung festgelegt werden. Ein Kreis mit einem Radius von 150 cm kann so festgelegt werden, dass sich sein Mittelpunkt 300 cm von den Eckpunkt in der orthogonalen Richtung der Orientierung weg befindet.
-
Wenn Punktwolken innerhalb des Suchbereiches vorhanden wären, gilt das andere Fahrzeug als gefunden und befindet sich der freie Parkplatz in der Mitte von zwei Fahrzeugen in der lateralen Richtung. Die Eckpunkte von zwei benachbarten Fahrzeugen werden in einer longitudinalen Richtung projiziert und der äußere kann zum Lokalisieren von freien Parkplätzen verwendet werden. Dies ist in 13B beschrieben. In dieser Figur wird der Eckpunkt 1 ausgewählt, da er der äußere ist. Wenn das andere Fahrzeug (Eckpunkt 2) nicht gefunden würde, befindet sich der freie Parkplatz neben dem identifizierten Fahrzeug mit einem Abstand von 50 cm in der lateralen Richtung. 14 zeigt das Endergebnis des in der letzten Bildsequenz dargestellten Prozesses zum Detektieren von freien Parkplätzen. Die Breite und Länge des freien Parkplatzes sind in 14 als 180 cm bzw. 480 cm festgelegt.
-
4. Experimentelle Ergebnisse
-
Das System zum Detektieren von freien Parkplätzen wurde in 154 verschiedenen Parksituationen getestet. Anhand der Datenbank wurden 53 Sequenzen mit den Laserscannerdaten und 101 Sequenzen ohne dieselben zum Analysieren der Ergebnisse hinsichtlich Erfolgsrate und Detektionsgenauigkeit herangezogen.
-
4.1 Vergleich der rekonstruierten Rückblickstrukturen
-
Dieses Experiment rekonstruierte die 3D-Rückblickstrukturen bei Verwendung und ohne Verwendung des beschriebenen Merkmalsauswahl- und 3D-Mosaikzusammensetzungsverfahrens und verglich sie mit den Laserscannerdaten. Die Winkelauflösung und Tiefenauflösung des verwendeten Laserscanners betrugen 0,125° bzw. 3,9 mm und der systematische Fehler betrug ±25 mm. 15 zeigt die Fischaugenkamera und den Laserscanner, die an dem Fahrzeug montiert sind. Diese beiden Sensoren wurden vorab kalibriert.
-
16A, B, C zeigen Vergleiche der rekonstruierten Rückblickstrukturen bei Verwendung und ohne Verwendung des offenbarten Verfahrens. 16Aa–16Ab zeigen die letzten Frames der beiden Bildsequenzen, 16Ba–16Bb die Rückbildstrukturen bei Rekonstruktion mit dem offenbarten Verfahren und 16Ca–16Cb die Rückblickstrukturen bei Rekonstruktion ohne Verwendung des offenbarten Verfahrens.
-
Die rekonstruierten Strukturen werden aus Sicht von oben nach Entfernen der Punkte in der Nähe der Grundebene gezeigt. Die Punkte auf dem Fahrzeug geben die Orte der Epipole an. In 16Ba–16Bb, 16Ca–16Cb geben die Punkte mit vollen und umrissenen Flächen die rekonstruierten Punkte bzw. die Laserscannerdaten an.
-
Durch Verwendung dieses Vergleichs ist es möglich, drei Vorteile des offenbarten Verfahrens zu erhalten. Erstens reduziert es die Anzahl von fehlerhaft rekonstruierten Punkten. 16Ca–16Cb zeigen mehr fehlerhafte Punkte außerhalb der Grundwahrheitsdaten (ground truth data) als 16Ba–16Bb, weil das offenbarte Verfahren die Punktkorrespondenzen in der Nähe des Epipols und fern von dem Kameramittelpunkt entfernt. Zweitens erhöht die vorliegende Erfindung die Menge von Information über benachbarte Fahrzeuge. Die Struktur in den 16Ba–16Bb ist detaillierter als in den 16Ca–16Cb, weil die Dichte der Punkte auf dem benachbarten Fahrzeug durch die mosaikartig zusammengesetzten 3D-Strukturen erhöht wird. Schließlich verbessert die vorliegende Erfindung die Ergebnisse der metrischen Wiedergewinnung. In den 16Ca–16Cb unterscheidet sich der Maßstab der rekonstruierten Struktur von der Grundwahrheit (ground tuth), da das offenbarte Verfahren mehr Punkte auf der Grundebene erzeugt, so dass es die Grundebenenschätzung genauer macht.
-
4.2. Ergebnisse der Detektion von freien Parkplätzen
-
Das offenbarte System wurde bei 154 realen Parksituationen eingesetzt. Die Grundebenen waren mit Asphalt, Schmutz, Schnee, stehendem Wasser und Parkmarkierungen bedeckt. Die Automobile variierten in der Farbe von dunkel bis hell und sie enthielten Limousinen, SUVs, Lastkraftwagen, Vans und Busse. Die Umgebung enthielt zahlreiche Typen von Gebäuden, Fahrzeugen und Bäumen. 17A, B, C, D zeigen sechs erfolgreiche Beispiele. 17Aa-17Ac, 17Ca–17Cc zeigen die letzten Frames der Bildfolgen und 17Ba–17Bc, 17Da–17Dc zeigen die Rückblickstrukturen, die den 17Aa–17Ac bzw. 17Ca–17Cc entsprechen. In diesen Figuren gibt (0, 0) den Kameramittelpunkt an.
-
Um zu entscheiden, ob das System erfolgreich war, wurde freier Parkplatz in dem letzten Frame der Bildfolge angezeigt. Wenn er sich innerhalb des freien Raumes zwischen zwei benachbarten Fahrzeugen befand, wurde das Ergebnis als erfolgreich angesehen. Auf diese Weise hatte das System in 139 Situation Erfolg und versagte es in 15 Situationen, so dass die Detektionsrate 90,3% betrug.
-
18A, B, C, D zeigen vier Typen von Fehlfunktionen aufgrund des reflektierten Sonnenlichts in 18A, eines dunklen Fahrzeugs in einem schattigen Gebiet in 18B, einer fernen Parkplatzes in 18C und einer unebenen Grundebene 18D.
-
In 18A wurde die Sonne an der Oberfläche des benachbarten Fahrzeugs und der Grundebene stark reflektiert, so dass Merkmalspunktverfolgung versagte. In 18B war das benachbarte Fahrzeug sehr dunkel und befand es sich in einem schattigen Gebiet, so dass wenige Merkmalspunkte detektiert und auf der Oberfläche des Fahrzeugs verfolgt wurden. In 18C befand sich der freie Parkplatz sehr weit von der Kamera, so dass die Seite des weißen Fahrzeugs bei W genauer rekonstruiert wurde als diejenige des silbernern Vans bei S. Dies bewirkte eine falsche Detektion. In 18D wurde ein Teil der Grundebene auf dem Parkplatz P mit Asphalt neu versehen, so dass die Grundebene nicht eben war. Dies führte zu einer fehlerhaften Grundebenenschätzung. Von den 15 Fehlfunktionen könnten drei durch 18A, neun durch 18B, zwei durch 18C und eine durch 18D dargestellt werden.
-
4.3. Genauigkeit der Detektion von benachbarten Fahrzeugen
-
Das offenbarte Verfahren zum Detektieren von freien Parkplätzen schätzt den Eckpunkt und die Orientierung des benachbarten Fahrzeugs und lokalisiert dann den Zielraum entsprechend. Da das Detektionsergebnis von dem Schätzen des Eckpunktes und der Orientierung abhängt, wird eine Berechnung durchgeführt, um deren Fehler zur Bewertung der Genauigkeit zu erhalten. Die Grundwahrheit des Eckpunktes und der Orientierung durch Verwendung von Laserscannerdaten erhalten werden. Der Fehler der Eckpunkte ist die euklidische Distanz von dem geschätzten Punkt zum gemessenen Punkt und der Fehler der Orientierung ist die absolute Differenz zwischen dem geschätzten Winkel und dem gemessenen Winkel. Für diese Bewertung wurden 47 Bildsequenzen und die korrespondierenden Laserscannerdaten verwendet. Der Eckpunkt und die Orientierung des benachbarten Fahrzeugs wurden für jede Bildfolge 10mal geschätzt. Dies liegt daran, dass sich die rekonstruierte Struktur aufgrund der Parameterschätzergebnisse jedes Mal etwas unterscheiden kann.
-
19A, B zeigen Bewertungsergebnisse durch Verwendung von Laserscannerdaten, wobei 19A den Eckpunktfehler und 19B den Orientierungsfehler zeigt. In den 19A, B werden die Fehler des Eckpunktes und der Orientierung als Histogramme dargestellt. Die mittleren und maximalen Fehler des Eckpunktes betrugen 14,9 cm bzw. 42,7 cm. Die Distanz zwischen dem Eckpunkt und dem Kameramittelpunkt betrug zwischen 281,4 cm und 529,2 cm. Da die laterale Distanz zwischen zwei benachbarten Fahrzeugen ca. zwischen 280 cm und 300 cm in einer gewöhnlichen Garagenparksituation beträgt, besteht ein Extraraum von ca. 50 cm auf jeder Seite des Fahrzeugs. Dies bedeutet, dass selbst der maximale Fehler des Eckpunktes für die Lokalisierung des freien Parkplatzes akzeptabel ist. Die mittleren und maximalen Fehler der Orientierung können 1,4° bzw. 7,7° betragen. Dieser mittlere Fehler der Orientierung ist akzeptabel, aber der maximale Fehler der Orientierung kann etwas groß sein. Dies liegt daran, dass die Seitenflächen der Fahrzeuge wenige korrespondierende Punkte aufgrund von Merkmalslosigkeit aufweisen und dies die Orientierungsschätzung schwierig macht. Diese Bewertung zeigt, dass das offenbarte System akzeptable Ergebnisse zum Detektieren von freien Parkplätzen erzeugt.
-
Die obigen beispielhaften Ausführungsformen der vorliegenden Erfindung sind zu Darstellungszwecken beschrieben worden und Fachleute auf dem Gebiet werden erkennen, dass zahlreiche Modifikationen, Hinzufügungen und Austausche möglich sind, ohne von den wesentlichen Eigenschaften der Erfindung abzuweichen. Somit die beispielhaften Ausführungsformen der vorliegenden Erfindung nicht zum Zwecke der Beschränkung beschrieben worden.
-
Es versteht sich, dass die vorliegende Erfindung nicht auf die oben beschriebenen Ausführungsformen beschränkt ist. Der Schutzbereich der vorliegenden Erfindung ergibt sich durch die folgenden Ansprüche und die gesamte technische Idee innerhalb des beanspruchten Schutzes soll bei der Bestimmung, was zur Erfindung gehört, ausgelegt werden.