DE102016002398A1

DE102016002398A1 - Optischer 3D-Sensor zur schnellen und dichten Formerfassung

Info

Publication number: DE102016002398A1
Application number: DE102016002398.8A
Authority: DE
Inventors: Florian Willomitzer
Original assignee: Individual
Current assignee: Individual
Priority date: 2016-02-26
Filing date: 2016-02-26
Publication date: 2017-08-31
Anticipated expiration: 2036-02-27
Also published as: DE102016002398B4; US20170251197A1; US10404967B2; CN107131848A; CN107131848B

Abstract

Die Erfindung bezieht sich auf einen optischen 3D-Sensor zur sehr schnellen hochaufgelösten und dichten Erfassung der Oberflächengestalt von Objekten im 3D-Raum. Zur Aufnahme genügt ein Bild oder mehrere zeitgleich aufgenommene Bilder („Single-Shot Methode”). Damit ist es prinzipiell möglich, 3D-Daten mit der Bildrate der verwendeten Kameras aufzunehmen, also eine 3D-Videokamera zu bauen. Der optische 3D-Sensor besteht aus einem Projektor (7), der ein Linienmuster (6) mit vorzugsweise großer Anzahl von Linien auf das Objekt projiziert, sowie einer Anzahl von K Kameras (10), (20), (30)..., die vorzugsweise zeitgleich jeweils ein Bild des vom Projektor (7) beleuchteten Objekts (9) aufnehmen, welches in einer Steuer- und Auswerteeinheit (4) weiterverarbeitet wird. Das Linienmuster enthält Linien in einer Anzahl von R Richtungen, und die K Kameras sind so angeordnet, dass sie bis zu K × R Triangulationssensoren aufspannen. Die Triangulationssensoren werden durch die Steuer- und Auswerteeinheit (4) über das gemeinsame Linienmuster (6) gekoppelt.

Description

Die Erfindung bezieht sich auf einen optischen 3D-Sensor zur hochaufgelösten und dichten Erfassung der Oberflächengestalt von Objekten im 3D-Raum mit einer Single-Shot Methode. „Single-Shot Methode” bedeutet, dass zur 3D-Erfassung keine zeitsequenzielle Reihe von Bildern aufgenommen werden muss, anders als bei konkurrierenden Verfahren; es genügt ein Bild oder mehrere Bilder, die zeitgleich aufgenommen werden. Damit ist es prinzipiell möglich, 3D-Daten mit der Bildrate der verwendeten Kameras aufzunehmen, also eine 3D-Videokamera zu bauen. „Dichte 3D-Messung” bedeutet, dass die Objektoberfläche an sehr vielen Punkten abgetastet wird, vorzugsweise bis an die theoretische Grenze der Anzahl, die die Kamera und die Physik zulassen. Konkurrierende Verfahren sind deutlich davon entfernt. „Hochauflösend” bedeutet, dass die Schnelligkeit und die Datendichte nicht durch Kompromisse bei der lateralen- und der Tiefenauflösung erkauft werden, wie bei anderen Verfahren. Feine Details des Objekts können dreidimensional gemessen werden.
Fast alle bekannten hochwertigen Verfahren zur dichten 3D-Vermessung benötigen eine zeitliche Sequenz von N Bildern mit einer Aufnahmezeit von T = N·T_C, wobei T_C die Taktzeit der verwendeten Kamera bzw. der Beleuchtung ist [Halioua et al., "Automated phasemeasuring profilometry of 3-D diffuse objects," Appl. Opt. 23, 3105–3108 (1984)], [Schaffer et al., "High-speed pattern projection for three-dimensional shape measurement using laser speckles", Appl. Opt. 49, 3622–3629 (2010)]. Die Anzahl N liegt im Bereich von 3 bis über 30. Das bedeutet, dass das Objekt und der Sensor sich während der gesamten Aufnahmezeit T nicht bewegen dürfen und das Objekt sich nicht verformen darf. Die 3D-Messung beispielsweise von sich bewegenden Menschen oder eine 3D-Hochgeschwindigkeitsmessung für einen Crashtest ist damit nicht ohne weiteres möglich. Dies gilt insbesondere deshalb, weil für hochwertige 3D-Messungen Verfahren verwendet werden, bei denen ein zeitlich variierendes Muster – etwa von Linien, Sinusstreifen oder Zufallsmustern auf das Objekt projiziert wird. Zwar sind zunehmend schnellere Kameras verfügbar, doch halten die verfügbaren Projektionsmöglichkeiten damit nicht Schritt. Deshalb haben sich Erfindungen auf dem Gebiet solcher Verfahren in den letzten Jahren im Wesentlichen auf die Entwicklung schnellerer Projektionssequenzen beschränkt. Die Zeit, um eine variierende Mustersequenz mit ausreichender Helligkeit zu projizieren (besonders wenn verschiedene Grauwerte enthalten sind) stellt bei den meisten sequentiellen Verfahren den limitierenden zeitlichen Faktor dar. Ein Verfahren, dass a) keine zeitlich variierende Mustersequenz benötigt und das b) die 3D-Daten innerhalb eines Kamerataktes (oder „Videotaktes”) liefert, ist also von großem Interesse.
Ein bekanntes Verfahren, das keine zeitliche Sequenz von Aufnahmen benötigt, ist das sog. Lichtschnittverfahren. Hier wird im einfachsten Fall eine Linie auf das Objekt projiziert und durch Triangulation ausgewertet. Um die Datendichte zu erhöhen, kann man auch mehrere Linien gleichzeitig projizieren. Damit hat das Lichtschnittverfahren das Potential für einen Single-Shot 3D-Sensor. Für eine dichte Abtastung mit vielen Linien ergibt sich allerdings das sog. Korrespondenzproblem: Im Kamerabild ist es notwendig, die einzelnen Linien zu identifizieren (zu „indizieren”). Dies ist schon bei geringer Anzahl von Linien und komplizierten Objekten meist nicht eindeutig möglich.
Eine Umgehung des Problems wird beispielsweise bei der „Flying Triangulation” [Patentschrift US 2010/0303341 A1 ] verwirklicht. Es werden nur wenige Linien projiziert, die eine eindeutige Indizierung in jedem aufgenommenen Single-Shot Videobild erlauben. Schließlich werden viele nacheinander aufgenommene Einzelbilder mit jeweils wenig dichter Abtastung zusammengeführt („registriert”), während der Sensor um das Objekt herumgeführt wird. Damit erhält man schließlich eine dichte Abtastung der Objektoberfläche. Da jeder 3D-Datenpunkt aus nur einem Bild stammt, dürfen sich Objekt und Kamera frei bewegen. Das Objekt muss allerdings während der gesamten Messsequenz starr sein, da die Oberfläche aus mehreren zeitsequentiell aufgenommenen 3D-Ansichten rekonstruiert wird. Ein ähnliche Verfahren, das ebenfalls eine Registrierung von mehreren Single-Shot Einzelansichten benutzt, ist in der Patentschrift US 8,140,295 B2 beschrieben.
Es gibt auch Ansätze, das Korrespondenzproblem beim Lichtschnitt für Einzelbilder (Single-Shot) zu lösen, damit die Anzahl der projizierten Linien im Einzelbild erhöht werden kann und so eine dichtere Abtastung erreicht wird. Solche Verfahren basieren meist auf Codierung der Linien.
So können beispielweise die Linien durch verschiedene Farben codiert werden, [Schmalz, "Robust single-shot structured light 3D scanning", Dissertation, Universität Erlangen-Nürnberg (2012)] oder [Nguyen et al., "Real-time, high-accuracy 3D imaging and shape measurement," Appl. Opt. 54, A9–A17 (2015)]. Oder es wird ein kontinuierlicher Farbverlauf (Spektrum) auf das Objekt projiziert [Häusler et al., "Parallel three-dimensional sensing by color-coded triangulation", Appl. Opt. 32, 7164–7169 (1993)].
Der Nachteil dieser Verfahren ist, dass die eigene Farbtextur der gemessenen Objektoberfläche zu einer rauschempfindlichen Decodierung führen kann. Weiterhin ist die Farbtextur des Objekts mit diesen Verfahren nicht ohne weiteres akquirierbar.
Ein anderer Ansatz zur Codierung ist die Intensitätsmodulation der projizierten Linien [Yang et al.,"A 3D sensor for intraoral metrology," in DGaO Proceedings 2009, P19] oder auch die Modulation ihrer räumlichen Gestalt [Patentschrift: US 7,768,656 B2 ]. Es ist augenscheinlich, dass eine Modulation Ortsbandbreite benötigt, die damit zur lateral hochaufgelösten Erfassung des Objektes nicht mehr zur Verfügung steht. Dies erkennt man daran, dass bei oben genannten Verfahren feine 3D-Details nicht sichtbar werden. Gleiches gilt für alle Verfahren der aktiven Stereophotogrammetrie, bei denen ein räumlich moduliertes Muster projiziert wird [Zhang, "Microsoft Kinect sensor and its effect", IEEE Multimedia 19, 410 (2012)].
Der Stand der Technik zeigt also, dass hochauflösende Verfahren für dichte Datenerfassung eine, zeitliche Sequenz von Aufnahmen erfordern, während Single-Shot Verfahren keine dichten Daten liefern. Dies beruht auf einem fundamentalen informationstheoretischen Problem.
Werden binäre Muster wie z. B. schmale helle Linien beim Lichtschnittverfahren projiziert, so können diese nicht beliebig dicht angeordnet werden, es entstehen Lücken. Werden graucodierte Muster, z. B. Sinusstreifen projiziert, so kann zwar jeder Kamerapixel zur 3D-Information beitragen, aber es ist grundsätzlich nicht möglich, in einem Kamerapixel gleichzeitig die Information über die unbekannte Hintergrundbeleuchtung, die unbekannte lokale Reflexion der Objektoberfläche und den unbekannten Grauwert des Projektionsmusters (dieser codiert üblicherweise den Abstand eines Objektpunktes) zu erhalten [Häusler et al., "Why can't we purchase a perfect single-shot 3D-sensor?" in DGaO Proceedings 2012, A8]. Die drei Unbekannten machen es notwendig, mindestens drei passend codierte Kameraaufnahmen zu akquirieren. Wegen des Korrespondenzproblems werden bei Objekten mit großer Messtiefe meist deutlich mehr Aufnahmen nötig.
In [Young et al., "Viewpoint-Coded Structured Light," in CVPR'07 IEEE Conference pp. 1–8 (2007)] wird die Idee formuliert, die zeitliche Sequenz von aufgenommenen Bildern durch zum gleichen Zeitpunkt (parallel) aufgenommene Bilder zu ersetzen. Zu diesem Zweck werden mehrere Kameras geeignet geometrisch so angeordnet; dass aus den gleichzeitig aufgenommenen Bildern, mit Hilfe eines geeigneten projizierten Musters eine eindeutige Decodierung des Raumes möglich ist. Prinzipiell ist dabei die Idee, T = 2^k Tiefen durch k Kameras zu decodieren und dazu ein binäres (Schwarz-Weiß-)Streifengitter zu verwenden. Wegen der binären Codierung hat das Verfahren zwei Nachteile: Um z. B. 1024 verschiedene Höhen im Messvolumen zu unterscheiden, braucht man mindestens 10 Kameras. Die Kalibrierung und stabile Montage von so vielen Kameras ist technisch sehr anspruchsvoll.
Die in der vorliegenden Patentschrift vorgeschlagene vorteilhafte Ausführung kommt mit nur zwei Kameras aus und kann bei gutem Signal-Rausch-Verhältnis mehrere tausend Höhen im Messvolumen unterscheiden. Die laterale Auflösung ist besser, weil nur sehr schmale Linien anstelle von binären Schwarz-Weiß-Streifen projiziert werden.
Im Übrigen sind auch für zeitlich sequentielle Methoden Ansätze bekannt, welche mehrere Kameras zur Beseitigung von Mehrdeutigkeit nutzen [Breitbarth et al., „Phase unwrapping of fringe images for dynamic 3D measurements without additional pattern projection", in SPIE Proceedings Vol. 9489, 948903 1–10 (2015)]. Dies dient der Verkürzung der Messsequenz. Eine Single-Shot Messung kann aus oben genannten informationstheoretischen Gründen jedoch nicht realisiert werden.
Die vorliegende Erfindung offenbart, wie die Beschränkungen des Standes der Technik weitgehend überwunden werden können, das heißt beispielsweise, es können mit einer Standard-Videokamera mit 1000 × 1000 Pixeln etwa 300.000 3D-Punkte in einem einzigen Videotakt erfasst werden, mit einer Auflösung und Messunsicherheit, die nur durch die Physik begrenzt ist. Es wurde erklärt, dass eine vollständig dichte Erfassung, wobei jeder Kamerapixel individuell einen 3D-Punkt codiert, mit einem Single-Shot Verfahren nicht ohne Kompromisse möglich ist. In [Häusler et al., "Why can't we purchase a perfect single-shot 3D-sensor?" in DGaO Proceedings 2012, A8] wurde gezeigt, dass das Abtasttheorem theoretisch erlaubt, mit einer Kamera mit M × M Pixeln eine Anzahl von L_max = M/2 Linien zu projizieren, und damit M²/2 3D-Punkte in einem Videobild zu akquirieren. In der Praxis ist wegen des Kamerarauschens und der perspektivischen Verkürzung der Linienperiode bei geneigten Objekten eine Anzahl L_prax ≈ 0.16 × M² bis 0.33 × M² realistisch.
Bekannte Single-Shot Verfahren sind noch deutlich von dieser Grenze entfernt, da nach dem Stand der Technik das Korrespondenz- bzw. Indizierungsproblem die Anzahl der zu projizierenden Linien stark limitiert.
Die vorliegende Erfindung basiert auf dem oben genannten Prinzip der Multilinientriangulation, bei der mehrere Lichtlinien auf das zu messende Objekt projiziert werden. Dabei wird das Objekt unter einem Triangulationswinkel θ mit einer Kamera beobachtet. Durch die Projektion schmaler, gerader Linien kann üblicherweise (abhängig vom Rauschen im Bild) das Zentrum jeder Linie auf ca. 1/10 Pixel genau bestimmt werden. Diese Subpixelinterpolation der schmalen Linienbilder erlaubt eine sehr geringe Messunsicherheit δz für den Abstand des zugehörigen Objektpunktes. Weiter erlauben die schmalen Linien eine hohe laterale Auflösung – auch kleine Oberflächenmerkmale sind messbar. Schmale Linien verbrauchen auch weniger Platz und es lassen sich mehr Linien projizieren, als dies für codierte Linien möglich ist. Damit lassen sich mehr und dichtere 3D-Daten akquirieren.
Die Projektion schmaler, gerader Linien hat auch Nachteile: weisen die Linien keine Codierung auf, wird es mit steigender Linienzahl schwierig, den Index („die Nummer”) der jeweiligen Linie im Kamerabild zu bestimmen. Nach [Willomitzer et al., "Single-shot 3D sensing with improved data density", Appl. Opt. 54(3), 408–417 (2015)] lässt sich die Zahl der maximal zu projizierenden Linien für Standard-Multilinientriangulation nach Gleichung 1 L ≤ Δx / Δz·tanθ (G1.1) abschätzen, wobei L die Linienzahl, Δx die laterale Ausdehnung des Messfelds, Δz die eindeutige Messtiefe ist und θ den Triangulationswinkel darstellt, siehe 1. Eindeutige Messtiefe bedeutet, dass alle Linien innerhalb dieser Messtiefe eindeutig indiziert werden können. Die Messunsicherheit δz ist umso geringer, je größer der Triangulationswinkel und je geringer das Rauschen ist. [Dorsch et al.,"Laser triangulation: fundamental uncertainty in distance measurement," Appl. Opt. 33, 1306–1314 (1994)].
Nach Gleichung 1 ist somit eine dichte und gleichzeitig präzise Single-Shot Messung innerhalb einer größeren Messtiefe mit dem bekannten Stand der Multilinientriangulation unmöglich.
Die Erfindung löst dieses Problem durch Einführung einer oder mehrerer zusätzlicher Kameras (10), (20), (30), ..., sowie der Projektion von Linienmustern (6), vorzugsweise mit Linien in mehreren Richtungen. Der optische 3D-Sensor besteht aus einem Sensorkopf (3) und einer Steuer- und Auswerteeinheit (4), sowie einem Anzeigegerät (5) zur Visualisierung, nach 2. Im Folgenden soll eine beispielhafte Ausführung (s. 3) eines 3D-Sensors mit zwei Kameras (10) und (20) beschrieben werden. Zunächst wird die Ausführungsform betrachtet, dass ein Muster (6a) mit Linien nur entlang einer Richtung projiziert wird. In 3 definiert die Linienrichtung beispielsweise die y-Richtung des Koordinatensystems. Zur weiteren Erhöhung der Datendichte wird weiter eine Ausführungsform beschrieben, bei der ein Muster (6b) mit einem Kreuzgitter projiziert wird, wie in 5 schematisch gezeigt. Die Richtungen der Linien definieren beispielhaft die x- und y-Richtung des Koordinatensystems. Ohne Beschränkung der Allgemeinheit befindet sich der Projektor (7) im Koordinatenursprung. Die optische Achse (8) des Projektors fällt mit der z-Achse des Koordinatensystems zusammen und ist auf das Objekt (9) gerichtet.
Für die Ausführungsform nach 3 werden die beiden Kameras (10) und (20) entlang der x-Achse angeordnet, wobei ihre optischen Achsen (13) und (14) vorzugsweise ebenfalls auf das Objekt (9) gerichtet sind und mit der optischen Achse (8) des Projektors (der z-Achse) verschiedene Triangulationswinkel (1) und (2) einschließen. So entsteht ein Sensorkopf (3), bestehend aus zwei Triangulationssensoren T1 und T2, welche das gleiche Projektionsmuster (6a) nutzen. Der Triangulationssensor T1 wird durch den Projektor (7) und die Kamera (10) definiert. Der Triangulationssensor T2 wird durch den Projektor (7) und die Kamera (20) definiert. Wird mit den beiden Kameras (10) und (20) zeitgleich jeweils ein Bild des vom Muster (6a) beleuchteten Objekts (9) aufgenommen, so wird die 3D-Information der Objektoberfläche an den Orten, wo das Muster (6a) projiziert wird, von zwei unabhängigen Triangulationssensoren T1 und T2 akquiriert. Wichtig ist für das Verfahren, dass die Triangulationssensoren Tl, T2 die gleichen Objektpunkte messen.
Eine Grundidee der Erfindung ist es, dass durch die Kopplung der Triangulationssensoren (im Ausführungsbeispiel der 3 sind dies T1 und T2) ein 3D-Sensor entsteht, welcher die Objektoberfläche sowohl dicht (viele Linien), als auch mit geringer Messunsicherheit δz (großer Triangulationswinkel) und gleichzeitig in einer großen Messtiefe Δz im Single-Shot Verfahren akquiriert.
Dies kann beispielsweise beim Ausführungsbeispiel nach 3 erreicht werden, indem Kamera (10) unter einem kleinen Triangulationswinkel (1) und Kamera (20) unter einem großen Triangulationswinkel (2) entlang der x-Achse angeordnet werden. Für eine Anzahl L projizierter Linien und einem gegebenen Messfeld Δx ergibt sich nach Gleichung 1 für T1 eine sehr große eindeutige Messtiefe Δz_T1, d. h. die Linien werden korrekt indiziert. Wegen des kleinen Triangulationswinkels (1) zeigen die 3D-Daten aber eine große Messunsicherheit δz_T1. Für den Sensor T2 ergibt sich eine geringere eindeutige Messtiefe Δz_T2 bei gleichzeitig geringerer Messunsicherheit δz_T2. Aufgrund der geringeren eindeutigen Messtiefe Δz_T2 können die Linien vom Triangulationssensor T2 jedoch nicht korrekt indiziert werden und die Daten sind nicht ohne zusätzliche Information eindeutig auswertbar.
Eine Kopplung beider Triangulationssensoren kann dieses Problem erfindungsgemäß lösen. Die Kopplung kann durch Rückprojektion der Datensätze der Triangulationssensoren erreicht werden.
Zunächst wird ein 3D-Modell M₁ des Objektes aus den Daten von T1 berechnet. Wie beschrieben, zeigt dieses Modell eine große Messunsicherheit, jedoch richtige Indizierung der Linien. Nun werden alle 3D-Punkte von M₁ inklusive ihrer Indexinformation aus dem 3D-Raum numerisch auf das Bild von Kamera (20) von T2 rückprojiziert. In einem kalibrierten Gesamtsystem werden sich die rückprojizierten 3D-Punkte mit den Liniensignalen im Bild der Kamera (20) nahezu decken. Dabei zeigen die rückprojizierten 3D-Punkte mehr Rauschen, aber korrekte Indizes. Diese Indizes Werden nun den Linien im Kamerabild von T2 zugeordnet. Damit können nun die Daten von T2 eindeutig und mit geringer Messunsicherheit ausgewertet werden, und ein korrektes Modell M_K des Objektes erstellt werden. Die Beschränkung durch die Gleichung 1, welche für jeden der Triangulationssensoren T1, T2 einzeln gilt, wird somit durch die Kopplung für den 3D-Sensor aufgehoben.
Die Grundidee, zwei Kameras, sowie einen kleinen und einen großen Triangulationswinkel mit einem Linienmuster mit nur einer Richtung wie in (6a) gezeigt, zu nutzen, ist in der Publikation [Willomitzer et al., "Single-shot 3D sensing with improved data density ", Appl. Opt. 54(3), 408–417 (2015)] erwähnt.
Die vorliegende Patentschrift entwickelt die Idee, mehrere Kameras zu nutzen vorteilhaft weiter, insbesondere durch die Nutzung von Linienmustern mit mehreren Richtungen, was in Verbindung mit mehreren Kameras eine große Anzahl von koppelbaren Triangulationssensoren erzeugt.
Auch die Kopplung mittels Rückprojektion ist nicht auf die beschriebene Ausführungsform mit kleinem Triangulationswinkel (1) und großem Triangulationswinkel (2) beschränkt. Es können auch beide Triangulationswinkel annähernd gleich groß gewählt werden, sodass bei fester Linienzahl L die eindeutigen Messtiefen Δz_T1 und Δz_T2 (nach Gleichung 1) so geartet sind, dass mit Hilfe eines Restzahlverfahrens analog zur Nonienablesung (s. 4b) der richtige Linienindex ermittelt werden kann. Beispielsweise ergäbe die Wahl von Δz_T1 = 300 mm und Δz_T2 = 400 mm einen resultierenden eindeutigen Messbereich von 1200 mm. 4b zeigt anhand eines ebenen Objektes symbolisch die mehrdeutigen Modelle M₁ und M₂ der Datensätze von T1, T2. Die Kopplung der Daten über die Rückprojektion erlaubt die Ermittlung der „richtigen” Modells M_K.
Im oben erwähnten Fall eines kleinen und großen Winkels kann neben der Berechnung des 3D-Modells M₁ beispielsweise auch das mehrdeutige 3D-Modell M₂ von T2 direkt berechnet werden. Im 3D-Raum wird dann nach Übereinstimmungen von M₁ und M₂ gesucht und daraus das kombinierte eindeutige Modell M_K erzeugt. Dies ist in 4a symbolisch dargestellt, wo M₁ eindeutig, aber verrauscht ist. Es wird die Akquisition eines ebenen Objektes angenommen und es werden die Modelle M₁, M₂ und das kombinierte eindeutige Modell M_K gezeigt.
Weiterhin ist eine Kopplung von T1 und T2 auch über Merkmale des Objekts möglich, sowie auch durch eine Kombination der Lehre des Patents mit einer Codierung der Muster (z. B. räumlich oder durch Farbe) denkbar.
Um die Dichte der Messdaten bei gleichbleibender Qualität weiter zu erhöhen, kann die beschriebene Ausführungsform von 3 modifiziert werden. Dabei wird anstelle eines Linienmusters (6a) nun ein Linienmuster (6b), das als Kreuzgitter ausgeformt ist, projiziert. Die zwei Linienrichtungen, liegen hier beispielhaft entlang der x- und y-Richtung der Koordinatenachsen. Grundsätzlich wäre es nun möglich, analog zur Ausführungsform nach 3 einen weiteren 3D-Sensor hinzuzufügen, um 90° bezüglich der z-Achse gedreht. Es gibt nach der Lehre der Patentschrift eine sehr effektive Möglichkeit, dies ohne zusätzliche Kameras zu erreichen: werden die Kameras (10), (20) wie in 5 gezeigt, neben der x- bzw. y-Achse positioniert, so spannen ihre optischen Achsen (13), (14), welche wieder vorzugsweise auf das Objekt (9) gerichtet sind, mit der x-z- bzw. y-z-Ebene vier Winkel (11), (12), (21), (22) auf. Diese fungieren immer paarweise als Triangulationswinkel für eine projizierte Linienrichtung. Es werden vier unabhängige Triangulationssysteme T11, T12, T21, T22 gebildet, welche für jede Linienrichtung mindestens 2 unabhängige 3D-Datensätze der gleichen Oberflächenpunkte akquirieren. Dadurch wird die Lehre des Patents bereits mit zwei Kameras erfüllt, anstatt mit vier Kameras.
5a zeigt eine räumliche Darstellung des 3D-Sensors mit dem Objekt (9) und ein Schema des projizierten Musters (6b). 5b zeigt eine Projektion des 3D-Sensors auf die x-z-Ebene, 5c zeigt eine Projektion auf die y-z-Ebene. Die Winkel (11) und (21) sind hierbei Triangulationswinkel für die Linien in y-Richtung (vgl. 5b), die Winkel (12) und (22) sind die Triangulationswinkel für die Linien in x-Richtung (vgl. 5c). Wie in 5 gezeigt, kann auf diese Weise eine Ausführungsform mit vier verschiedenen Triangulationswinkeln für beide projizierte Linienrichtungen mit nur zwei Kameras realisiert werden.
Alle für die Ausführungsform nach 3 beschriebenen Verfahren zur Kopplung von Triangulationssystemen durch Rückprojektion können analog für die Ausführungsform nach 5 angewendet werden.
Die Idee der Ausführungsform nach 5 lässt sich zwanglos erweitern für Systeme mit mehr Kameras oder mit mehr Linienrichtungen. Mit einer Anzahl von K Kameras und einer Anzahl von R Linienrichtungen lassen sich grundsätzlich Q = K × R Triangulationssysteme erzeugen. Diese Q Triangulationssysteme zeigen je nach Lage der Kameras und der Linienrichtungen oder der Periode der Linienmuster verschiedene Eigenschaften bezüglich des eindeutigen Tiefenbereichs, der Messunsicherheit und der Datendichte. Diese Eigenschaften können auch lokal variieren. Die Lehre des Patents erlaubt viele Möglichkeiten der Beleuchtung. Es ist keineswegs notwendig, ein periodisches Muster zu verwenden, oder nur zwei Richtungen der Linien. Andere Muster, wie in 2 beispielhaft bei (6c), (6d), (6e), (6f) gezeigt, erlauben eine Vielzahl von Variationen. Dies liegt daran, dass die Projektionsachse (8), die Kameraachsen (13), (14), (15), ... und auch die Richtungen der Linien oder der Liniensegmente die Eigenschaften der Triangulationssensoren bestimmen. Die Kopplung der Triangulationssensoren über das gemeinsam beobachtete Linienmuster und die Kombination bzw. Kopplung der jeweiligen Daten durch die Auswerteeinheit erlaubt wiederum die Erzeugung von dichten und gleichzeitig genauen 3D-Daten der zu akquirierenden Objektoberfläche.
Dies ist leicht einsichtig: mit beispielsweise drei Linienrichtungen und zwei Kameras lassen sich 6 verschiedene Triangulationssensoren T1 bis T6 erzeugen, die 6 unabhängige Datensätze des gleichen Objekts akquirieren. Für die Beseitigung möglicher Fehler in den Datensätzen, zum Beispiel aufgrund von mangelnder Eindeutigkeit oder Rauschen, hat man damit 6 unabhängige Datensätze zur Verfügung. Auch hier ist die Kopplung durch Rückprojektion anwendbar, ähnlich wie es für zwei Sensoren in 4a und 4b dargestellt ist. Die 6 Triangulationssensoren T1 bis T6 erzeugen 6 nicht eindeutige 3D-Modelle M1 bis M6. In diesem Fall können die Linienmuster und Triangulationswinkel sogar willkürlich gewählt werden. Denn die Modelle M1 bis M6 sollten bei Fehlerfreiheit alle das gleiche Objektmodell zeigen. Wenn mindestens zwei oder mehr Datensätze übereinstimmen, besteht eine große Wahrscheinlichkeit dafür, dass diese Datensätze richtig sind. Die beschriebene statistische Methode ist zur Kopplung besonders geeignet, wenn die projizierten Linienmuster sehr kompliziert sind und viele Triangulationssensoren beitragen.
Besonders erwähnt sei die Projektion eines Linienmusters wie in (6c). Ein Sensor mit einem solchen Linienmuster, sowohl mit zwei Kameras wie in 4 dargestellt, als auch mit einer zusätzlichen Kamera, erlaubt eine weitere Erhöhung der Datendichte.
Für die Projektion mehrerer Gitterlinienrichtungen besteht auch die Möglichkeit, für jede Richtung eine unterschiedliche Linienperiode zu projizieren, etwa durch Linienmuster wie (6e) oder (6f). In diesem Fall würden sich nach Gleichung 1 für gleiche Triangulationswinkel unterschiedliche eindeutige Messtiefen Δz_Ti ergeben.
Weiterhin kann man bei mehreren Gitterlinienrichtungen die Kreuzungspunkte zur Indizierung nutzen. Kennt man den richtigen Index einer Linie, so kennt man den Index aller Linien, die diese Linie schneiden, an den Kreuzungspunkten. Durch eine Verfolgung der Linien im Kamerabild können die betreffenden Indizes auf die restlichen Liniensegmente übertragen werden. Besonders für diese Ausführungsform ist die Wahl passender Linienperioden wirkungsvoll.
Gekreuzte Linien haben weiter den Vorteil, dass man in den Kreuzungspunkten den Gradienten der Objektoberfläche in beiden Richtungen berechnen kann. Damit ist eine sehr genaue Interpolation der 3D-Daten in den Zwischenräumen zwischen den Linien möglich. Überdies ist die Zerlegung der Objektoberfläche in Dreiecksnetze für Kreuzgitterprojektion einfacher und immer eindeutig.
Um jede Linie korrekt und mit hoher Genauigkeit auszuwerten, müssen alle Linienrichtungen in der Auswerteeinheit (4) zunächst separiert werden. Dies kann beispielsweise mittels Richtungs-Filterung der Kamerabilder in der Fourierebene oder im Ortsraum erfolgen. Damit auch an den Kreuzungspunkten der Linien noch Daten ausgewertet werden können, kann es von Vorteil sein die Intensität des projizierten Musters an den Kreuzungspunkten gegenüber den restlichen Liniensegmenten zu erhöhen oder zu erniedrigen, auch z. B. auf Null zu setzen, oder die Breite der Linien dort zu variieren. Wenn für die verwendeten Kameras die Möglichkeit der Farbselektion besteht, können die verschiedenen Linienrichtungen prinzipiell auch durch geeignete Farbcodierung der Linien getrennt werden.
Eine Besonderheit der vorliegenden Lehre ist, dass unmittelbar nach jedem Aufnahmetakt die vollständige 3D-Information über die Form der Oberfläche zur Verfügung steht. Damit eröffnen sich Möglichkeiten für die Verarbeitung und Visualisierung in Echtzeit, wie sie nach dem Stand der Technik nicht so vorteilhaft zur Verfügung stehen:
Zunächst erlaubt das Single-Shot Verfahren, die dreidimensionale Erfassung extrem schneller Vorgänge, darunter die Erfassung bewegter, auch nicht starrer Objekte oder die Messung der Verformung bei Crash-Tests. Die Bildfrequenz der Kamera schränkt die schnelle Erfassung nur bedingt ein, denn die Bildszene kann durch eine Kurzzeitbelichtung (Blitz) oder eine kurze elektronische Verschlusszeit, wie sie moderne Kameras ermöglichen, in einem sehr kurzen Zeitraum dreidimensional erfasst werden, deutlich schneller als der Kameratakt erlaubt. Dies ist möglich, weil die Beleuchtung mit einem „festen Muster” erfolgt. Ein festes, nicht zeitlich variierendes Muster ist technisch erheblich einfacher und kostengünstiger zu realisieren – und es ist beliebig kurze Belichtung möglich. Das schließt jedoch nicht aus, dass für die Musterprojektion auch steuerbare Mustergeneratoren benutzt werden, z. B. Laserprojektoren, die sehr schnell sind und sehr helle Projektion erlauben. Auch mag in bestimmten Fällen die Datendichte wichtiger sein als die Schnelligkeit. In diesem Fall könnte man zeitlich sequentielle Verschiebung von Gittern mit der Lehre des Patents verknüpfen.
Die zeitlich unmittelbar zur Verfügung stehenden 3D-Daten erlauben eine Echtzeitdarstellung und Visualisierung, sodass der Benutzer des Sensors interaktiv den Sensor zum Beispiel um das Objekt kontinuierlich (ohne „stop-and-go”) herumführen kann und dabei jederzeit die Kontrolle über die bereits gelieferten Daten hat. Somit kann das Objekt bequem und vollständig rundum gemessen werden, was ohne die Echtzeitdarstellung nicht ohne weiteres möglich wäre.
Vorteilhaft für die interaktive Nutzung des Sensors und für virtuelle Realität ist eine fotorealistische Darstellung des Objektes, wie sie durch bekannte Verfahren der Oberflächenzerlegung in Dreiecksnetze und des Renderings auch in Echtzeit erreicht werden kann.
Für die fotorealistische Darstellung ist auch die zusätzliche Akquisition der Farbtextur vorteilhaft. Das vorgestellte Verfahren lässt sich dazu erweitern, indem entweder die Kameras (10), (20), (30)... Farbkameras sind oder eine zusätzliche Farbkamera in den Sensor eingebaut wird. Im ersteren Fall enthalten die Bilddaten sowohl die Farbtextur als auch die 3D-Daten. Der zweite Fall bietet den Vorteil, dass Schwarz-Weiß-Kameras i. a. eine genauere 3D-Erfassung ermöglichen und die Erfassung der Farbtextur von der 3D-Akquisition unabhängig ist. So ist auch denkbar, dass durch passende großflächige kurzzeitige weiße Beleuchtung zu passenden Zeitpunkten die Farbtextur völlig unabhängig von der 3D-Datenakquisition erfolgt. Dies ist mit beiden erwähnten Optionen möglich.
Ein besonders wichtiger Vorteil der Single-Shot Echtzeit-Daten ist die Möglichkeit der Visualisierung aus verschiedenen Perspektiven: In jedem Kameratakt wird ein Datensatz akquiriert, der die vollständigen 3D-Daten der Objektoberfläche enthält. Werden mehrere Datensätze eines bewegten Objekts in mehreren aufeinanderfolgenden Kameratakten aufgenommen, können diese schließlich als 3D-Filmsequenz visualisiert werden. Somit ist eine Visualisierung einer 3D-Fimsequenz (in Echtzeit oder auch nachträglich) unter freier Wahl der Beobachtungsperspektive oder sogar unter einer Änderung der Beobachtungsperspektive während der 3D-Filmsequenz („free-viewpoint-movie”) möglich. Auch kann die 3D-Filmsequenz gleichzeitig für beliebige Perspektiven visualisiert werden.
Dies wird in 7 demonstriert. Gezeigt sind beispielhaft 3 Einzelbilder einer 3D-Filmsequenz aus 3 verschiedenen, frei gewählten Perspektiven (A, B, C). Die 3D-Daten für die abgebildeten Visualisierungen wurden mit einem 3D-Sensor der Ausführungsform nach 5 akquiriert. Gemessen wurde ein sprechender Mensch.
Das Modell und die Visualisierung enthält bereits die Textur des Objekts, weil auch die Linienintensität aufgrund der lokalen Objektreflektivität in den Kamerabildern erfasst wird. Eine Interpolation der Datenpunkte zwischen den Linien oder eine Oberflächenzerlegung in Dreiecksnetze wurde im Beispiel der 7 nicht angewendet, kann aber prinzipiell für eine fotorealistische Darstellung erfolgen.
Die einfachste Möglichkeit, die Blickwinkel zu variieren, besteht darin, dass der Beobachter mit einem Kontrollgerät, z. B. einer Computermaus, die gewünschte Perspektive in Echtzeit einstellt oder variiert.
Eine andere Option ist, dass am Monitor (5) ein Sensor (23) zur Erfassung der Beobachterposition angebracht ist. Wenn sich der Beobachter vor dem Monitor bewegt, so kann die erfasste Beobachterposition dazu dienen, die gezeigte Perspektive so darzustellen, als ob sich der Beobachter um das visualisierte Objekt herumbewegt.
Man kann aber auch, z. B. wie in 6 dargestellt, die Visualisierung von mehreren Perspektiven auf mehreren Monitoren oder einem gebogenen Monitor darstellen. Der Monitor (16) zeigt das virtuelle Modell (19) des Objekt aus der Richtung (16a), der Monitor (17) zeigt das Modell (19) aus der Richtung (17a), der Monitor (18) zeigt das Modell (19) aus der Richtung (18a). Die Monitore können zweckmäßig so aufgestellt werden, dass ein oder mehrere Beobachter die Möglichkeit haben, die Monitore gleichzeitig oder durch Bewegung nacheinander zu betrachten, und somit quasi um das visualisierte Objekt herumzugehen.
Die oben genannten Möglichkeiten zur Visualisierung lassen sich auch mit Hilfe einer sogenannten VR-Datenbrille erreichen.
Mit dem vorgestellten optischen 3D-Sensor lassen sich Objekte extrem schnell einmalig vermessen, z. B. für die industrielle Sichtprüfung schneller Prozesse. Es lassen sich aber auch bewegte Szenen, zum Beispiel für die virtuelle Realität, als 3D-Filmsequenz erfassen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 2010/0303341 A1 [0004]
US 8140295 B2 [0004]
US 7768656 B2 [0008]

Zitierte Nicht-Patentliteratur

Halioua et al., ”Automated phasemeasuring profilometry of 3-D diffuse objects,” Appl. Opt. 23, 3105–3108 (1984) [0002]
Schaffer et al., ”High-speed pattern projection for three-dimensional shape measurement using laser speckles”, Appl. Opt. 49, 3622–3629 (2010) [0002]
Schmalz, ”Robust single-shot structured light 3D scanning”, Dissertation, Universität Erlangen-Nürnberg (2012) [0006]
Nguyen et al., ”Real-time, high-accuracy 3D imaging and shape measurement,” Appl. Opt. 54, A9–A17 (2015) [0006]
Häusler et al., ”Parallel three-dimensional sensing by color-coded triangulation”, Appl. Opt. 32, 7164–7169 (1993) [0006]
Yang et al.,”A 3D sensor for intraoral metrology,” in DGaO Proceedings 2009, P19 [0008]
Zhang, ”Microsoft Kinect sensor and its effect”, IEEE Multimedia 19, 410 (2012) [0008]
Häusler et al., ”Why can't we purchase a perfect single-shot 3D-sensor?” in DGaO Proceedings 2012, A8 [0010]
Young et al., ”Viewpoint-Coded Structured Light,” in CVPR'07 IEEE Conference pp. 1–8 (2007) [0011]
Breitbarth et al., „Phase unwrapping of fringe images for dynamic 3D measurements without additional pattern projection”, in SPIE Proceedings Vol. 9489, 948903 1–10 (2015) [0013]
Häusler et al., ”Why can't we purchase a perfect single-shot 3D-sensor?” in DGaO Proceedings 2012, A8 [0014]
Willomitzer et al., ”Single-shot 3D sensing with improved data density”, Appl. Opt. 54(3), 408–417 (2015) [0017]
Dorsch et al.,”Laser triangulation: fundamental uncertainty in distance measurement,” Appl. Opt. 33, 1306–1314 (1994) [0017]
Willomitzer et al., ”Single-shot 3D sensing with improved data density ”, Appl. Opt. 54(3), 408–417 (2015) [0025]

Claims

Optischer 3D Sensor zur schnellen und dichten Formerfassung, mit gleichzeitig geringer Messunsicherheit und großem Messbereich, bestehend aus einem Projektor (7), dessen optische Achse (8) vorzugsweise auf das Objekt (9) gerichtet ist wobei der Projektor (7) ein Linienmuster (6) mit vorzugsweise großer Anzahl von Linien auf das Objekt projiziert, und einer Anzahl von K Kameras (10), (20), (30)..., deren optische Achsen (13), (14), (15), ... vorzugsweise auf das Objekt (9) gerichtet sind, und diese Kameras vorzugsweise zeitgleich jeweils ein Bild des vom Projektor (7) beleuchteten Objekts (9) aufnehmen, welches in der Steuer- und Auswerteeinheit (4) weiterverarbeitet wird, dadurch gekennzeichnet, dass das Linienmuster Linien in einer Anzahl von R Richtungen aufweist, mit der Bedingung K × R ≥ 2, und die K Kameras so angeordnet sind, dass sie mit dem Projektor bezüglich der R Linienrichtungen bis zu K × R Triangulationssensoren mit bis zu K × R Triangulationswinkeln aufspannen, und dass die Triangulationssensoren über das gemeinsame Linienmuster durch die Auswerteeinheit vorzugsweise über eine Rückprojektion gekoppelt werden.
Optischer 3D-Sensor nach Anspruch 1, dadurch gekennzeichnet, dass zwei Kameras (10), (20) eingesetzt werden und der Projektor (7) ein Kreuzgitter (6b) mit vorzugsweise großer Anzahl von Linien auf das Objekt (9) projiziert, und die Richtung der Linien die Richtung der x- und y-Achse des Koordinatensystems definieren und die optischen Achsen (13), (14) der verwendeten Kameras (10), (20) mit der x-z- bzw. y-z-Ebene des Koordinatensystems 4 Winkel (11), (12), (21), (22) aufspannen, und der optische 3D-Sensor vier unabhängig messende Triangulationssysteme T11, T12, T21, T22 mit den Triangulationswinkeln (11), (12), (21), (22) beinhaltet, welche für jede Linienrichtung zwei unabhängige Messdatensätze der gleichen Oberflächenpunkte akquirieren, und die Steuer- und Auswerteeinheit (4) die Messdatensätze der unabhängig messenden Triangulationssysteme nach Anspruch 1 koppelt.
Optischer 3D-Sensor nach Anspruch 1 und 2, dadurch gekennzeichnet, dass die Triangulationswinkel (12) und (21) groß gewählt werden, dass die zugehörigen Triangulationssensoren T12 und T21 für die projizierten Linien in x-Richtung und in y-Richtung eine hohe Genauigkeit erreichen, und dass die Winkel (11) und (22) so gewählt werden, dass in den Triangulationssystemen T11 und T22 unmittelbar Eindeutigkeit der Messdatensätze von T11 und T22 im Messvolumen erreicht wird, und dass die erhaltene Information über die Eindeutigkeit an die Triangulationssysteme T12 und T21 weitergegeben wird.
Optischer 3D-Sensor nach Anspruch 1 und 2, dadurch gekennzeichnet, dass die Winkel (12) und (21) groß gewählt werden, dass die zugehörigen Triangulationssensoren T12 und T21 für die projizierten Linien in x-Richtung und in y-Richtung eine hohe Genauigkeit erreichen, und dass die Winkel (11) und (22) so gewählt werden, dass für die Triangulationssysteme T11 und T22 nach Gleichung 1 bei fester Linienzahl L die eindeutigen Messtiefen von T11 und von T22 so geartet sind, dass mit Hilfe eines Restzahlverfahrens der richtige Linienindex ermittelt werden kann.
Optischer 3D-Sensor nach Anspruch 1–4, dadurch gekennzeichnet, dass ein Liniengitter (6a) mit nur einer Linienrichtung, beispielsweise der y-Richtung, projiziert wird und die wirksamen Triangulationswinkel (11) und (21) in der x-z-Ebene liegen.
Optischer 3D-Sensor nach Anspruch 1–5, dadurch gekennzeichnet, dass eine oder mehrere Kameras im 3D-Sensor Farbkameras sind oder zusätzlich Farbkameras eingebracht werden, um neben der Erfassung der 3D-Daten die Information über die Farbtextur der Objektoberfläche zu akquirieren.
Optischer 3D-Sensor nach Anspruch 1–6, dadurch gekennzeichnet, dass die Periode des projizierten Linienmusters örtlich oder für verschiedene Richtungen variiert wird.
Optischer 3D-Sensor nach Anspruch 1–7, dadurch gekennzeichnet, dass im Kameratakt 3D-Daten akquiriert werden, und daraus jeweils ein 3D-Modell des Objektes (9) erzeugt wird, wobei eine Serie von nacheinander aufgenommenen 3D-Modellen zu einer 3D-Filmsequenz zusammengesetzt wird, die auf einem Anzeigegerät abgespielt werden kann.
Optischer 3D-Sensor nach Anspruch 1–8, dadurch gekennzeichnet, dass die akquirierten Daten so visualisiert werden, dass der Blickwinkel, unter dem das 3D-Modell dargestellt wird, durch einen Sensor (23) in Echtzeit gesteuert wird, der die Position des Beobachters ermittelt.
Optischer 3D-Sensor nach Anspruch 1–9, dadurch gekennzeichnet, dass gleichzeitig das 3D-Modell aus mehreren Blickwinkeln angezeigt wird.