DE102020126954A1

DE102020126954A1 - System und Verfahren zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung

Info

Publication number: DE102020126954A1
Application number: DE102020126954.4A
Authority: DE
Inventors: Ahmet Firintepe
Original assignee: Bayerische Motoren Werke AG
Current assignee: Bayerische Motoren Werke AG
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2022-04-14
Also published as: CN114429630A; US20220114748A1

Abstract

Die vorliegende Offenbarung betrifft ein zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung. Das System umfasst wenigstens eine Erfassungseinheit, die eingerichtet ist, um Bilddaten in Bezug auf die tragbare Vorrichtung zu erfassen; und wenigstens eine Prozessoreinheit, die eingerichtet ist, um unter Verwendung eines mittels Deep Learning trainierten Erkennungsalgorithmus eine räumliche Orientierung der tragbaren Vorrichtung basierend auf den Bilddaten zu bestimmen.

Description

Die vorliegende Offenbarung betrifft ein System zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung, ein Fahrzeug mit einem solchen System, ein Assistenzsystem mit einem solchen System, ein Verfahren zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung und ein Speichermedium zum Ausführen des Verfahrens. Die vorliegende Offenbarung betrifft insbesondere ein Tracking einer Datenbrille.
Stand der Technik
Smartglasses bzw. Datenbrillen sind tragbare Computer, die Informationen zum Sichtfeld des Benutzers hinzufügen können, beispielsweise um Augmented Reality zu ermöglichen. Derartige Datenbrillen können auch in Fahrzeugen Anwendung finden, um einem Nutzer eine reibungslose und glaubwürdige Illusion durch in die Umgebung eingeblendete virtuellen Elemente zu bieten. Um die virtuellen Elemente korrekt anzeigen zu können, muss eine Pose der Datenbrille bestimmt werden. Dies kann zum Beispiel mittels einer Kamera erfolgen, die die Datenbrille erfasst. Solche konventionellen Trackingsysteme erzielen jedoch insbesondere wegen der typischerweise beschränkten Anzahl von Obj ektmerkmalen nicht die für Augmented Reality gewünschte Genauigkeit.
Offenbarung der Erfindung
Es ist eine Aufgabe der vorliegenden Offenbarung, ein System zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung, ein Fahrzeug mit einem solchen System, ein Assistenzsystem mit einem solchen System, ein Verfahren zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung und ein Speichermedium zum Ausführen des Verfahrens anzugeben, die ein verbessertes Tracking einer räumlichen Orientierung der tragbaren Vorrichtung ermöglichen. Insbesondere ist es eine Aufgabe der vorliegenden Offenbarung, eine Bereitstellung von Augmented Reality (AR)-Inhalten für tragbare Vorrichtungen zu verbessern.
Diese Aufgabe wird durch den Gegenstand der unabhängigen Ansprüche gelöst. Vorteilhafte Ausgestaltungen sind in den Unteransprüchen angegeben.
Gemäß einem unabhängigen Aspekt der vorliegenden Offenbarung ist ein System zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung, insbesondere einer Datenbrille, angegeben. Das System umfasst wenigstens eine Erfassungseinheit, die eingerichtet ist, um Bilddaten in Bezug auf die tragbare Vorrichtung zu erfassen; und wenigstens eine Prozessoreinheit, die eingerichtet ist, um unter Verwendung eines mittels Deep Learning trainierten Erkennungsalgorithmus eine räumliche Orientierung der tragbaren Vorrichtung basierend auf den Bilddaten zu bestimmen.
Erfindungsgemäß wird ein Erkennungsalgorithmus mittels Deep Learning trainiert, um die räumliche Orientierung der tragbaren Vorrichtung zu ermitteln. Hierdurch kann eine verbesserte Bereitstellung von Augmented Reality (AR)-Inhalten ermöglicht werden. Deep Learning bezeichnet dabei eine Methode des maschinellen Lernens, die künstliche neuronale Netze mit Zwischenschichten bzw. Hidden Layers zwischen Eingabeschicht und Ausgabeschicht einsetzt und dadurch eine innere Struktur herausbildet.
Der Begriff „Augmented Reality“, wie er im Rahmen der vorliegenden Offenbarung verwendet wird, bezieht sich auf eine computergestützte Erweiterung der Realitätswahrnehmung für einen Nutzer. Insbesondere bezieht sich der Begriff „Augmented Reality“ auf eine visuelle Darstellung von Informationen, wie zum Beispiel computergenerierte Zusatzinformationen oder virtuelle Objekte, mittels Einblendung oder Überlagerung.
Vorzugsweise ist die tragbare Vorrichtung eine Datenbrille („Smartglasses“). Datenbrillen bzw. Smartglasses sind tragbare Vorrichtungen, die Informationen zum Beispiel im Rahmen von Augmented Reality zum Sichtfeld des Nutzers bzw. Trägeres hinzufügen. Die vorliegende Offenbarung ist jedoch nicht hierauf begrenzt und die tragbare Vorrichtung kann ein anders Objekt sein, dessen räumliche Orientierung bestimmt werden soll.
Die Begriffe „Orientierung“ bzw. „räumliche Orientierung“, wie sie im Rahmen der vorliegenden Offenbarung verwendet werden, beziehen sich auf eine Anordnung bzw. Pose der tragbaren Vorrichtung im dreidimensionalen Raum. Die räumliche Orientierung kann auf geeignete Weise aus den Bilddaten abgeleitet werden.
Die Orientierung kann eindimensionale, zweidimensionale oder dreidimensional Informationen in Bezug auf die tragbare Vorrichtung und optional ein Körperteil, an dem die tragbare Vorrichtung angeordnet ist, umfassen. Die Orientierung kann dabei absolut oder relativ sein. Vorzugsweise ist das Körperteil, an dem die tragbare Vorrichtung angeordnet ist, ein Kopf eines Nutzers, und insbesondere ein Gesicht des Nutzers bzw. Trägers der tragbaren Vorrichtung. Der Nutzer kann zum Beispiel ein Fahrer eines Fahrzeugs sein.
Vorzugsweise geben die Bilddaten wenigstens ein Einzelbild an bzw. umfassen oder definieren wenigstens ein Einzelbild. Die wenigstens eine Prozessoreinheit kann eingerichtet sein, um die räumliche Orientierung der tragbaren Vorrichtung aus dem wenigstens einen Einzelbild zu extrahieren. Insbesondere kann die tragbare Vorrichtung auf Basis von einzelnen Bildern, die zum Beispiel in einem Fahrzeuginnenraum durch Kameras aufgenommen werden, mittels des Erkennungsalgorithmus zur Laufzeit in Position und Orientierung verortet werden.
Der Begriff „Einzelbild“ bedeutet dabei, dass der Erkennungsalgorithmus Informationen in Bezug auf die räumliche Orientierung der tragbaren Vorrichtung aus den einzelnen Bildern extrahiert. Anders gesagt erfolgt das Extrahieren der räumlichen Orientierung der tragbaren Vorrichtung in dieser beispielhaften Ausführungsformen der vorliegenden Offenbarung nicht basierend auf einer (zeitlichen) Korrelation einer Sequenz einer Vielzahl von Bildern, sondern erfolgt auf unabhängigen Einzelbildern bzw. unter Nichtberücksichtigung einer (zeitlichen) Korrelation von Einzelbildern.
Der mittels Deep Learning trainierte Erkennungsalgorithmus kann die Pose (Position und Orientierung) der tragbaren Vorrichtung aus den einzelnen Bildern exakt bestimmen. Beispielsweise können das System bzw. der Erkennungsalgorithmus durch das Sammeln von Bildern der tragbaren Vorrichtung, in denen die tragbare Vorrichtung in unterschiedlichen Positionen und Orientierungen erscheint, sowie durch Aufnahme dieser Position und Orientierung als Ground Truth, mit einem Deep Learning-Verfahren trainiert werden. Ein Trainieren mit unterschiedlichen tragbaren Vorrichtungen in den Trainingsdaten ermöglicht dabei ein Tracking verschiedener tragbarer Vorrichtungen und somit eine Skalierbarkeit. Im Ergebnis können verschiedenen Objekttypen, wie z.B. diverse Datenbrillen, erkannt und verortet werden.
Vorzugsweise sind die Bilddaten Videodaten. Der Begriff „Videodaten“ bezieht sich dabei auf die Aufnahme und Verarbeitung von bewegten Bildern.
Vorzugsweise ist die wenigstens eine Prozessoreinheit eingerichtet, um die räumliche Orientierung der tragbaren Vorrichtung aus den Videodaten zu extrahieren. Beispielsweise kann die räumliche Orientierung der tragbaren Vorrichtung in dieser Ausführungsform (und in Abgrenzung zur zuvor beschriebenen Ausführungsform) basierend auf einer zeitlichen Korrelation einer Sequenz von aufeinanderfolgenden Einzelbildern der Videodaten bestimmt werden.
Der mittels Deep Learning trainierte Erkennungsalgorithmus kann die Pose (Position und Orientierung) der tragbaren Vorrichtung aus den Videodaten und den darin enthaltenen Zusatzinformation in Bezug auf den zeitlichen Zusammenhang exakt bestimmen. Beispielsweise können das System bzw. der Erkennungsalgorithmus durch das Aufnehmen von Videos der tragbaren Vorrichtung, in denen die tragbare Vorrichtung in unterschiedlichen Positionen und Orientierungen erscheint, sowie durch Aufnahme dieser Position und Orientierung als Ground Truth, mit einem Deep Learning-Verfahren trainiert werden. Ein Trainieren mit unterschiedlichen tragbaren Vorrichtungen in den Trainingsdaten ermöglicht dabei ein Tracking verschiedener tragbarer Vorrichtungen und somit eine Skalierbarkeit. Im Ergebnis können verschiedenen Objekttypen, wie z.B. diverse Datenbrillen, erkannt und verortet werden.
Vorzugsweise ist die wenigstens eine Prozessoreinheit weiter eingerichtet, um basierend auf den Bilddaten und unter Verwendung des mittels Deep Learning trainierten Erkennungsalgorithmus Tiefeninformationen bzw. eine Form der tragbaren Vorrichtung zu bestimmen.
Insbesondere kann der mittels Deep Learning trainierte Erkennungsalgorithmus die dreidimensionale (3D-)Form der tragbaren Vorrichtung bestimmen, wodurch eine Verortung der tragbaren Vorrichtung weiter verbessert werden kann. Ein Trainieren mit unterschiedlichen tragbaren Vorrichtungen in den Trainingsdaten ermöglicht dabei eine Bestimmung einer 3D-Form verschiedener tragbarer Vorrichtungen und somit eine Skalierbarkeit. Im Ergebnis können verschiedenen Objekttypen, wie zum Beispiel diverse Datenbrillen, erkannt und verortet werden.
Vorzugsweise umfasst die wenigstens eine Erfassungseinheit wenigstens einen Tiefensensor, der eingerichtet ist, um Tiefeninformationen in Bezug auf die tragbare Vorrichtung zu erfassen.
Der mittels Deep Learning trainierte Erkennungsalgorithmus kann die Pose der tragbaren Vorrichtung unter Verwendung der erfassten Tiefeninformationen (Tiefenkarte(n) und/oder Punktewolke(n)) exakt bestimmen. Beispielsweise können das System bzw. der Erkennungsalgorithmus durch das Sammeln von Tiefeninformationen der tragbaren Vorrichtung, in denen die tragbare Vorrichtung in unterschiedlichen Positionen und Orientierungen erscheint, sowie durch Aufnahme dieser Position und Orientierung als Ground Truth, mit einem Deep Learning-Verfahren trainiert werden. Ein Trainieren mit unterschiedlichen tragbaren Vorrichtungen in den Trainingsdaten ermöglicht dabei ein Tracking verschiedener tragbarer Vorrichtungen und somit eine Skalierbarkeit. Im Ergebnis können verschiedenen Objekttypen, wie zum Beispiel diverse Datenbrillen, erkannt und verortet werden.
Vorzugsweise umfasst das System eine Lerneinheit, die eingerichtet ist, um basierend auf den erfassten Bilddaten (weiteres) Deep Learning durchzuführen.
Das System kann damit aus einzelnen Bildern eine Pose mithilfe von Deep Learning deutlich exakter bestimmen. Die Bilder der tragbaren Vorrichtung, die in unterschiedlichen Positionen und Orientierungen erscheint, können dabei als Trainingsdaten genutzt werden. Zeitsynchron zu diesen Daten kann eine Ground Truth der Position und Orientierung aufgezeichnet werden. Mithilfe dieser gelabelten Daten kann das System mit einem Deep Learning-Verfahren trainiert werden.
In einigen Ausführungsformen erfolgt das Training mittels Deep Learning vor dem Einsatz des Systems in einem Fahrzeug, also vor dem Einsatz im Realbetrieb. In weiteren Ausführungsformen kann das System während eines Einsatzes im Realbetrieb weiter trainiert werden, um die Posenbestimmung der tragbaren Vorrichtung laufend zu verbessern.
In einigen Ausführungsformen kann durch das Trainieren mit unterschiedlichen tragbaren Vorrichtungen zudem ein Tracking verschiedener Arten von tragbaren Vorrichtungen ermöglicht werden. Dies führt zu einer hohen Skalierbarkeit. Im Gegensatz zu herkömmlichen Ansätzen ist ein Training derart möglich, dass verschiedene tragbare Vorrichtungen erkannt und verortet werden können kann, sobald diese zum Beispiel in einem Kamerabild sichtbar sind.
Vorzugsweise ist das System eingerichtet, um basierend auf der bestimmten räumlichen Orientierung der tragbaren Vorrichtung eine Augmented Reality (AR)-Funktion für die tragbare Vorrichtung bereitzustellen.
Vorzugsweise ist das System zum Erfassen der räumlichen Orientierung der tragbaren Vorrichtung in Bezug auf einen Innenraum eines Fahrzeugs eingerichtet. Damit können zum Beispiel einem Fahrer des Fahrzeugs, der eine Datenbrille trägt, Augmented Reality-Inhalte bereitgestellt werden, die an eine Bewegung des Fahrzeugs und eine Bewegung des Kopfes des Fahrers bzw. der Datenbrille angepasst sind.
Vorzugsweise umfasst die wenigstens eine Erfassungseinheit eine Kamera, insbesondere eine Innenraumkamera. Die Kamera kann die tragbare Vorrichtung erfassen, so dass basierend auf Merkmalen der tragbaren Vorrichtung die exakte Pose der tragbaren Vorrichtung bestimmt werden kann. In einigen Ausführungsformen kann die Kamera eine Infrarotkamera sein, die aufgrund einer kontrollierten, weitgehend störungsfreien und gleichbleibenden Belichtung der Bilddaten vorteilhaft ist.
Die wenigstens eine Prozessoreinheit ist ein programmierbares Rechenwerk, also eine Maschine oder eine elektronische Schaltung, die gemäß übergebenen Befehlen andere Elemente steuert und dabei einen Algorithmus (Prozess) vorantreibt.
Gemäß einem weiteren unabhängigen Aspekt der vorliegenden Offenbarung ist ein Fahrzeug, insbesondere Kraftfahrzeug, angegeben. Das Fahrzeug umfasst das System zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung, insbesondere einer Datenbrille, gemäß den Ausführungsformen der vorliegenden Offenbarung.
Der Begriff Fahrzeug umfasst PKW, LKW, Busse, Wohnmobile, Krafträder, etc., die der Beförderung von Personen, Gütern, etc. dienen. Insbesondere umfasst der Begriff Kraftfahrzeuge zur Personenbeförderung.
Gemäß einem weiteren unabhängigen Aspekt der vorliegenden Offenbarung ist ein Assistenzsystem, insbesondere für ein Fahrzeug, angegeben. Das Assistenzsystem umfasst das System zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung gemäß den Ausführungsformen der vorliegenden Offenbarung sowie die tragbare Vorrichtung, wie zum Beispiel eine Datenbrille.
Vorzugswiese ist die tragbare Vorrichtung eine Brille, und insbesondere eine Augmented Reality (AR)-Brille bzw. Datenbrille.
Gemäß einem weiteren unabhängigen Aspekt der vorliegenden Offenbarung ist ein Verfahren zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung, insbesondere einer Datenbrille, angegeben. Das Verfahren umfasst ein Erfassen von Bilddaten in Bezug auf die tragbare Vorrichtung; und ein Bestimmen einer räumlichen Orientierung der tragbaren Vorrichtung basierend auf den Bilddaten und unter Verwendung eines mittels Deep Learning trainierten Erkennungsalgorithmus.
Das Verfahren kann die Aspekte des in diesem Dokument beschriebenen Systems zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung, insbesondere einer Datenbrille, implementieren.
Gemäß einem weiteren unabhängigen Aspekt ist ein Software (SW) Programm angegeben. Das SW Programm kann eingerichtet werden, um auf einem oder mehreren Prozessoren ausgeführt zu werden, und um dadurch das in diesem Dokument beschriebene Verfahren zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung, insbesondere einer Datenbrille, auszuführen.
Gemäß einem weiteren unabhängigen Aspekt ist ein Speichermedium angegeben. Das Speichermedium kann ein SW Programm umfassen, welches eingerichtet ist, um auf einem oder mehreren Prozessoren ausgeführt zu werden, und um dadurch das in diesem Dokument beschriebene Verfahren zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung, insbesondere einer Datenbrille, auszuführen.
Gemäß einem weiteren unabhängigen Aspekt der vorliegenden Offenbarung ist eine Software mit Programmcode zur Durchführung des Verfahrens zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung, insbesondere einer Datenbrille, auszuführen, wenn die Software auf einer oder mehreren softwaregesteuerten Einrichtungen abläuft.
Figurenliste
Ausführungsbeispiele der Offenbarung sind in den Figuren dargestellt und werden im Folgenden näher beschrieben. Es zeigen:

1 schematisch ein System zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung gemäß Ausführungsformen der vorliegenden Offenbarung,
2 schematisch eine Datenbrille, die ein Nutzer trägt, gemäß Ausführungsformen der vorliegenden Offenbarung, und
3 ein Flussdiagram eines Verfahrens zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung gemäß Ausführungsformen der vorliegenden Offenbarung.

Ausführungsformen der Offenbarung
Im Folgenden werden, sofern nicht anders vermerkt, für gleiche und gleichwirkende Elemente gleiche Bezugszeichen verwendet.
1 zeigt schematisch ein System 100 zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung 10 gemäß Ausführungsformen der vorliegenden Offenbarung. 2 zeigt schematisch eine Datenbrille, die ein Nutzer auf seinem Kopf 20 trägt, gemäß Ausführungsformen der vorliegenden Offenbarung.
Das System 100 umfasst wenigstens eine Erfassungseinheit 110 und wenigstens eine Prozessoreinheit 120. Die wenigstens eine Erfassungseinheit 110, die zum Beispiel eine Kamera sein kann, ist eingerichtet, um Bilddaten in Bezug auf die tragbare Vorrichtung 10 zu erfassen. Die wenigstens eine Prozessoreinheit 120 ist eingerichtet, um unter Verwendung eines mittels Deep Learning trainierten Erkennungsalgorithmus eine räumliche Orientierung der tragbaren Vorrichtung 10 basierend auf den Bilddaten zu bestimmen.
Mit dem erfindungsgemäßen System 100 kann beispielsweise eine Bestimmung der Pose (bzw. Position und Orientierung) von Augmented Reality-Brillen im Fahrzeuginnenraum anhand von lembasierten Verfahren erfolgen. Im Ergebnis kann einem Nutzer eine reibungslose und glaubwürdige Illusion mittels der in die (reale) Umgebung eingeblendeten virtuellen Elemente in der Datenbrille geboten werden. Insbesondere ist durch die Verwendung von Deep Learning eine exakte Verortung einer Datenbrille möglich. Hierdurch wird eine genaue Anzeige von virtuellen Objekten in der Datenbrille ermöglicht.
Im Folgenden werden beispielhafte, gleichwertige und kombinierbare Ausführungsformen beschrieben, die eine Verortung der tragbaren Vorrichtung 10 ermöglichen.
Erste beispielhafte Ausführungsform
In der ersten beispielhaften Ausführungsform geben die Bilddaten, die durch die wenigstens eine Erfassungseinheit 110 erfasst werden, wenigstens ein Einzelbild an bzw. umfassen oder definieren wenigstens ein Einzelbild. Insbesondere kann die tragbare Vorrichtung 10 auf Basis von einzelnen Bildern, die zum Beispiel in einem Fahrzeuginnenraum durch Kameras aufgenommen werden, mittels des Erkennungsalgorithmus zur Laufzeit in Position und Orientierung verortet werden.
Beispielsweise können Kameras Bilder der tragbaren Vorrichtung aufnehmen. Insbesondere Kameras im Infrarotspektrum sind für den Einsatz im Fahrzeug aufgrund der kontrollierten, weitgehend störungsfreien und gleichbleibenden Belichtung der Bilddaten vorteilhaft. Basierend auf einer (großen) Menge an Trainingsdaten kann das trainierte System 100 automatisiert Merkmale wie beispielsweise Kontrastgradienten und/oder Kanten in den Bildern bestimmen, die das System 100 zur Laufzeit zur Posenbestimmung heranziehen kann. Aus diesen einzelnen Bildern und den darin vorhandenen Merkmalen kann die Pose bzw. Orientierung der tragbaren Vorrichtung 10 bestimmt werden. In einigen Ausführungsformen kann die bestimmte Pose bzw. Orientierung der tragbaren Vorrichtung 10 übergeben werden, um virtuelle Objekte realistisch darzustellen.
In einigen Ausführungsformen, die mit anderen hier beschriebenen Ausführungsformen kombiniert werden können, kann das System 100 fortlaufend weiterlernen und die Posenbestimmung verbessern. Beispielsweise umfasst das System 100 eine Lerneinheit, die eingerichtet ist, um basierend auf den Bilddaten (weiteres) Deep Learning am Erkennungsalgorithmus durchzuführen.
Zweite beispielhafte Ausführungsform
In der zweiten beispielhaften Ausführungsform sind die Bilddaten Videodaten. Die wenigstens eine Prozessoreinheit 120 kann dabei eingerichtet sein, um die räumliche Orientierung der tragbaren Vorrichtung 10 aus den Videodaten zu extrahieren. Beispielsweise kann die räumliche Orientierung der tragbaren Vorrichtung 10 in dieser Ausführungsform (und in Abgrenzung zur ersten Ausführungsform) basierend auf einer zeitlichen Korrelation einer Sequenz von aufeinanderfolgenden Einzelbildern der Videodaten bestimmt werden.
Beispielsweise können Kameras zur kontinuierlichen Aufnahme von Videos zur Posenbestimmung verwendet werden. Insbesondere Kameras im Infrarotspektrum sind für den Einsatz im Fahrzeug aufgrund der kontrollierten, weitgehend störungsfreien und gleichbleibenden Belichtung der Videodaten vorteilhaft. Basierend auf einer (großen) Menge an Trainingsdaten kann das trainierte System 100 automatisiert Merkmale wie beispielsweise Kontrastgradienten und/oder Kanten in den Bildern bestimmen, die das System 100 zur Laufzeit zur Posenbestimmung heranziehen kann. Aus den Videos und den darin enthaltenen zeitlichen Information kann die Pose bzw. Orientierung der tragbaren Vorrichtung 10 bestimmt werden. In einigen Ausführungsformen kann die bestimmte Pose bzw. Orientierung der tragbaren Vorrichtung 10 übergeben werden, um virtuelle Objekte für den Nutzer realistisch darzustellen.
In einigen Ausführungsformen, die mit anderen hier beschriebenen Ausführungsformen kombiniert werden können, kann das System 100 fortlaufend weiterlernen und die Posenbestimmung verbessern. Beispielsweise umfasst das System 100 eine Lerneinheit, die eingerichtet ist, um basierend auf den Videodaten (weiteres) Deep Learning am Erkennungsalgorithmus durchzuführen.
Dritte beispielhafte Ausführungsform
In der dritten beispielhaften Ausführungsform werden basierend auf den erfassten Bilddaten Tiefeninformationen der tragbaren Vorrichtung 10 bestimmt, so dass eine verbesserte Verortung der tragbaren Vorrichtung erfolgen kann.
Beispielsweise können Kameras Bilder und/oder Videos der tragbaren Vorrichtung 10 aufnehmen. Insbesondere Kameras im Infrarotspektrum sind für den Einsatz im Fahrzeug aufgrund der kontrollierten, weitgehend störungsfreien und gleichbleibenden Belichtung der Bilddaten vorteilhaft.
Im Gegensatz zur konventionellen Stereoskopie werden gemäß der dritten Ausführungsform der vorliegenden Offenbarung die Tiefeninformation bzw. Form der tragbaren Vorrichtung (z.B. Datenbrille) aus den Bildinformationen mittels Deep Learning erlernt und stereoskopische Eigenschaften der tragbaren Vorrichtung implizit ermittelt. Damit muss keine dedizierte und spezielle Tiefenkamera verwendet werden, wodurch Herstellungskosten des erfindungsgemäßen Systems reduziert werden können. Zudem kann eine genauere Tiefengenauigkeit erzielt werden, da das trainierte Netz automatisch optimale Pixelkorrespondenzen über die gleichzeitig aufgezeichneten Bilder bestimmt. Die Tiefeninformation kann zur Posenbestimmung der tragbaren Vorrichtung genutzt werden, beispielsweise um virtuelle Objekte in einer Datenbrille realistisch für einen Nutzer darzustellen.
Die Tiefeninformationen ermöglichen beispielsweise auch den Einsatz von Datenbrillen im Fahrzeug für Ferninteraktionen mittels real vorhandener Objekte mit anderen Personen (z.B. „holographische“ Videotelefonie) oder mit dem Fahrzeug anhand von Objekten. Ein Beispiel ist eine Erfassung und Erkennung von Objekten (z.B. von Schuhen) zur Suche in Online-Shops oder lokalen Geschäften direkt aus dem Fahrzeug heraus. Die genaue Bestimmung der Tiefeninformation bzw. Form von Objekten kann somit zur Suche von Artikeln in Geschäften genutzt werden.
In einigen Ausführungsformen, die mit anderen hier beschriebenen Ausführungsformen kombiniert werden können, kann das System 100 fortlaufend weiterlernen und die Tiefenbestimmung verbessern. Beispielsweise umfasst das System 100 eine Lerneinheit, die eingerichtet ist, um basierend auf den Bilddaten (weiteres) Deep Learning am Erkennungsalgorithmus durchzuführen.
Vierte beispielhafte Ausführungsform
In der vierten Ausführungsform umfasst die wenigstens eine Erfassungseinheit wenigstens einen Tiefensensor, der eingerichtet ist, um Tiefeninformationen in Bezug auf die tragbare Vorrichtung zu erfassen. Anders gesagt können die Bilddaten (auch) Tiefeninformationen umfassen.
Die Tiefeninformationen werden durch das erfindungsgemäße Deep Learning-basierte System zur Posenbestimmung genutzt. Der Tiefensensor bestimmt dabei die Tiefeninformation und Form der tragbaren Vorrichtung und optional des Nutzers (z.B. Fahrers). Aus einer großen Menge an Trainingsdaten kann das trainierte System automatisiert Positionsunterschiede beispielsweise zwischen Punkten einer Punktewolke und deren Ausrichtung aus der Tiefeninformation bestimmen, die das System zur Laufzeit zur Posenbestimmung verwendet. In einigen Ausführungsformen kann die bestimmte Pose bzw. Orientierung der tragbaren Vorrichtung 10 übergeben werden, um virtuelle Objekte für einen Nutzer realistisch darzustellen.
In einigen Ausführungsformen, die mit anderen hier beschriebenen Ausführungsformen kombiniert werden können, kann das System 100 fortlaufend weiterlernen und die Posenbestimmung verbessern. Beispielsweise umfasst das System 100 eine Lerneinheit, die eingerichtet ist, um basierend auf den Tiefeninformationen (weiteres) Deep Learning am Erkennungsalgorithmus durchzuführen.
3 zeigt schematisch ein Flussdiagramm eines Verfahrens 300 zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung gemäß Ausführungsformen der vorliegenden Offenbarung.
Das Verfahren 300 kann durch eine entsprechende Software implementiert werden, die durch einen oder mehrere Prozessoren (z.B. eine CPU) ausführbar ist.
Das Verfahren 300 umfasst im Block 310 ein Erfassen von Bilddaten in Bezug auf die tragbare Vorrichtung, und im Block 320 ein Bestimmen einer räumlichen Orientierung der tragbaren Vorrichtung basierend auf den Bilddaten und unter Verwendung eines mittels Deep Learning trainierten Erkennungsalgorithmus.
Erfindungsgemäß wird ein Erkennungsalgorithmus mittels Deep Learning trainiert, um die räumliche Orientierung der tragbaren Vorrichtung zu ermitteln. Hierdurch kann eine verbesserte Bereitstellung von Augmented Reality (AR)-Inhalten ermöglicht werden.
Obwohl die Erfindung im Detail durch bevorzugte Ausführungsbeispiele näher illustriert und erläutert wurde, so ist die Erfindung nicht durch die offenbarten Beispiele eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen. Es ist daher klar, dass eine Vielzahl von Variationsmöglichkeiten existiert. Es ist ebenfalls klar, dass beispielhaft genannte Ausführungsformen wirklich nur Beispiele darstellen, die nicht in irgendeiner Weise als Begrenzung etwa des Schutzbereichs, der Anwendungsmöglichkeiten oder der Konfiguration der Erfindung aufzufassen sind. Vielmehr versetzen die vorhergehende Beschreibung und die Figurenbeschreibung den Fachmann in die Lage, die beispielhaften Ausführungsformen konkret umzusetzen, wobei der Fachmann in Kenntnis des offenbarten Erfindungsgedankens vielfältige Änderungen beispielsweise hinsichtlich der Funktion oder der Anordnung einzelner, in einer beispielhaften Ausführungsform genannter Elemente vornehmen kann, ohne den Schutzbereich zu verlassen, der durch die Ansprüche und deren rechtliche Entsprechungen, wie etwa weitergehenden Erläuterungen in der Beschreibung, definiert wird.

Claims

System (100) zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung (10), umfassend: wenigstens eine Erfassungseinheit (110), die eingerichtet ist, um Bilddaten in Bezug auf die tragbare Vorrichtung (10) zu erfassen; und wenigstens eine Prozessoreinheit (120), die eingerichtet ist, um unter Verwendung eines mittels Deep Learning trainierten Erkennungsalgorithmus eine räumliche Orientierung der tragbaren Vorrichtung (10) basierend auf den Bilddaten zu bestimmen.
Das System (100) nach Anspruch 1, wobei die Bilddaten wenigstens ein Einzelbild angeben, und wobei die wenigstens eine Prozessoreinheit eingerichtet ist, um die räumliche Orientierung der tragbaren Vorrichtung aus dem wenigstens einen Einzelbild zu extrahieren.
Das System (100) nach Anspruch 1 oder 2, wobei die Bilddaten Videodaten sind.
Das System (100) nach Anspruch 3, wobei die wenigstens eine Prozessoreinheit (120) eingerichtet ist, um die räumliche Orientierung der tragbaren Vorrichtung (10) aus den Videodaten zu extrahieren, insbesondere wobei die wenigstens eine Prozessoreinheit (120) eingerichtet ist, um die räumliche Orientierung basierend auf einer zeitlichen Korrelation einer Sequenz von aufeinanderfolgenden Einzelbildern der Videodaten zu bestimmen.
Das System (100) nach einem der Ansprüche 1 bis 4, wobei die wenigstens eine Prozessoreinheit (120) weiter eingerichtet ist, um basierend auf den Bilddaten und unter Verwendung des mittels Deep Learning trainierten Erkennungsalgorithmus Tiefeninformationen der tragbaren Vorrichtung (10) zu bestimmen.
Das System (100) nach einem der Ansprüche 1 bis 5, wobei die wenigstens eine Erfassungseinheit (110) wenigstens einen Tiefensensor umfasst, der eingerichtet ist, um Tiefeninformationen in Bezug auf die tragbare Vorrichtung (10) zu erfassen.
Das System (100) nach einem der Ansprüche 1 bis 6, weiter umfassend: eine Lerneinheit für den Erkennungsalgorithmus, die eingerichtet ist, um Deep Learning durchzuführen.
Das System (100) nach einem der Ansprüche 1 bis 7, wobei das System (100) zum Erfassen der räumlichen Orientierung der tragbaren Vorrichtung (10) in Bezug auf einen Innenraum eines Fahrzeugs eingerichtet ist.
Das System (100) nach einem der Ansprüche 1 bis 8, wobei das System (100) eingerichtet ist, um basierend auf der bestimmten räumlichen Orientierung der tragbaren Vorrichtung (10) eine Augmented Reality-Funktion für die tragbare Vorrichtung (10) bereitzustellen.
Das System (100) nach einem der Ansprüche 1 bis 9, wobei die wenigstens eine Erfassungseinheit (110) eine Kamera, insbesondere eine Innenraumkamera und/oder Infrarotkamera, umfasst.
Fahrzeug, insbesondere Kraftfahrzeug, umfassend das System (100) nach einem der Ansprüche 1 bis 10.
Assistenzsystem, umfassend das System (100) nach einem der Ansprüche 1 bis 10 und die tragbare Vorrichtung (10).
Das Assistenzsystem nach Anspruch 12, wobei die tragbare Vorrichtung (10) eine Brille, und insbesondere eine Augmented Reality-Brille, ist.
Verfahren (300) zum Erfassen einer räumlichen Orientierung einer tragbaren Vorrichtung, umfassend: Erfassen (310) von Bilddaten in Bezug auf die tragbare Vorrichtung; und Bestimmen (320) einer räumlichen Orientierung der tragbaren Vorrichtung basierend auf den Bilddaten und unter Verwendung eines mittels Deep Learning trainierten Erkennungsalgorithmus.
Speichermedium, umfassend ein Software-Programm, das eingerichtet ist, um auf einem oder mehreren Prozessoren ausgeführt zu werden, und um dadurch das Verfahren (300) gemäß Anspruch 14 auszuführen.