WO2021052660A1

WO2021052660A1 - Verfahren und vorrichtung zum verarbeiten eines durch eine kamera aufgenommenen bildes

Info

Publication number: WO2021052660A1
Application number: PCT/EP2020/071084
Authority: WO
Inventors: Johannes Von Hoyningen-Huene; Andreas Mueller; Nikolaj Marchenko
Original assignee: Robert Bosch Gmbh
Priority date: 2019-09-19
Filing date: 2020-07-27
Publication date: 2021-03-25
Also published as: DE102019214283A1

Abstract

Verfahren (10) zum Verarbeiten eines durch eine Kamera aufgenommenen Bildes, gekennzeichnet durch folgende Merkmale: - in einem Transformationsmodus wird das Bild einer vorgegebenen Transformation (13) unterzogen und einem Nutzer auf einer Darstellungseinheit (21) angezeigt und - der Transformationsmodus wird bei einem vorgegebenen Ereignis verlassen (14).

Description

Beschreibung

Titel

Verfahren und Vorrichtung zum Verarbeiten eines durch eine Kamera aufgenommenen Bildes

Die vorliegende Erfindung betrifft ein Verfahren zum Verarbeiten eines durch eine Kamera aufgenommenen Bildes. Die vorliegende Erfindung betrifft darüber hinaus eine entsprechende Vorrichtung, ein entsprechendes Computerprogramm sowie ein entsprechendes Speichermedium.

Stand der Technik

Unter erweiterter Realität {augmented reality, AR) wird gemeinhin die computergestützte Erweiterung der Realitätswahrnehmung in Echtzeit verstanden.

US9269011B1 verwendet Bilder aus einer Vielzahl von Quellen, um verschiedene Winkel, Zoomstufen und Ansichten von Objekten und Sehenswürdigkeiten bei unterschiedlichen Lichtverhältnissen zu erfassen. Die Bilder werden mit Tags versehen oder mit einer bestimmten Position oder mit einem bestimmten Sonderziel verknüpft und in einer Datenbank gespeichert, um mittels AR Objekte zu erkennen, die in der Liveansicht einer Szene erscheinen, die von mindestens einer Kamera einer Datenverarbeitungsvorrichtung aufgenommen wurde.

In US20140043365A1 wird ein Ansatz bereitgestellt, um ein interaktives perspektivisches Layout für interessante Orte in einer AR-Ansicht bereitzustellen. Die Layout- Plattform bestimmt mindestens eine Zoomstufe für die Wiedergabe einer oder mehrerer Abbildungen eines oder mehrerer Elemente in einer perspektivischen Darstellung, die zumindest teilweise auf mindestens einer Push-Interaktion oder mindestens einer Pull-Interaktion in der perspektivischen Darstellung basiert. Die Layoutplattform bewirkt zumindest teilweise eine Wiedergabe der Darstellungen, die zumindest teilweise auf der Zoomstufe basieren.

GB2513865A beschreibt eine AR-Szene mit einem oder mehreren Objekten, wobei jedes Objekt erweiterte Daten aufweist und unter Verwendung eines oder mehrerer Sensoren eine Anforderung eines Benutzers zum Durchsuchen mindestens eines der angereicherten Datensätze erkennt, die möglicherweise einer oder mehreren Kategorien wie Bild, Video oder Multimedia angehören. Eine Sequenz zu durchsuchender erweiterter Daten wird bereitgestellt und basierend auf einem Befehlssignal durchsucht, das an einem oder mehreren Sensoren erfasst wird. Das gesuchte Objekt kann dann basierend auf einem Befehlssignal angezeigt werden, das von den Sensoren empfangen wird, die Berührungssensoren sein können. Die Suche in der Sequenz von erweiterten Daten kann auf Dreh-Berührungsbefehlen basieren. Das eine oder die mehreren Objekte können basierend auf einer Nähe zum Benutzer gefiltert werden, wobei die Filterung auf einem Kneif-, Spreizzoom- oder anderen Mehrfingerbefehl basieren kann.

Offenbarung der Erfindung

Die Erfindung stellt ein Verfahren zum Verarbeiten eines durch eine Kamera aufgenommenen Bildes, eine entsprechende Vorrichtung, ein entsprechendes Computerprogramm sowie ein entsprechendes Speichermedium gemäß den unabhängigen Ansprüchen bereit.

Dem erfindungsgemäßen Verfahren liegt die Erkenntnis zugrunde, dass sich bei üblichen AR-Anwendungen die auf dem AR- Endgerät dargestellten (augmentierten) Inhalte auf virtuelle 3D-Modelle oder zweidimensionale Flächen auf realen Oberflächen oder im Raum zur Darstellung von Text, Bildern, Videos oder Programmen beziehen. Bei vielen Anwendungen kann es von Vorteil sein, wenn statt solchen virtuellen (zusätzlichen) Objekten das Erscheinungsbild von realen Objekten für den Nutzer des AR-Endgeräts in verarbeiteter Form dargestellt wird. Mit dem vorgeschlagenen Verfahren wird es möglich, dass in bestimmten Situationen Teile der Umgebung für den Nutzer anders dargestellt werden, um ihn bei einer Aufgabe zu unterstützen. Dabei wird das aufgenommene Kamerabild in einer gewünschten Weise transformiert und im Sichtfeld des Nutzers dargestellt. Eine detaillierte Interpretation des Kamerabildes ist dabei nicht unbedingt erforderlich, was den Rechenaufwand im Rahmen hält. Im Gegensatz zu herkömmlichen AR-Anwendungen erfolgt also keine Erweiterung der Realität durch zusätzlich eingeblendete virtuelle Objekte, sondern eine auf spezifische Weise transformierte Darstellung der tatsächlichen Realität. Der Wechsel vom Standard-Modus des AR-Endgeräts in den erfindungsgemäßen Modus und umgekehrt gestaltet sich dabei für den Nutzer unkompliziert. Er kann unterschiedliche Teile seiner Aufgabe so mit demselben Gerät effizient durchführen.

Ein Vorzug dieser Lösung liegt in der Schaffung einer hilfreichen Erweiterung von AR-Videobrillen, die das dargestellte Bild für den Betrachter aufbereitet und ihn dabei unterstützt, bestimmte Arbeiten einfacher durchzuführen. Durch unterschiedliche Bildtransformationen sind dabei vielfältige Hilfestellungen für den Nutzer denkbar. Durch eine geeignete Vorauswahl der interessanten Bildbereiche sowie einen einfachen und schnellen Wechsel zwischen AR- Funktionalität und veränderter Darstellung der realen Umgebung können viele Aufgaben vereinfacht werden, bei denen derzeit unterschiedliche Hilfsmittel genutzt werden.

Der vorgeschlagene Transformationsmodus setzt dabei keine wesentlichen Änderungen der Hardware der AR-Endgeräte voraus. Kamera, Verarbeitungseinheit und Bildschirm sind auch bei konventionellen AR- Endgeräten vorhanden. Der zusätzliche Modus stellt unter Umständen sogar geringere Anforderungen an die Hardware der AR-Brille als deren herkömmlicher AR-Modus. Eine Transformation des gesamten Bildes oder eines festen Bildausschnitts verursacht mitunter einen geringeren Rechenaufwand als die Darstellung von virtuellen Objekten an realen Bezugspunkten mittels optischer Bilderkennung. Ausführungsformen der Erfindung könnten im Rahmen unterschiedlichster Anwendungen eingesetzt werden, bei denen der Nutzer sowohl durch zusätzliche Informationen als auch durch eine veränderte Darstellung der Umgebung unterstützt werden kann, ohne das optische Hilfsmittel, in diesem Fall die AR-Brille, wechseln zu müssen. Derartige Anwendungen umfassen Aufbau und Reparatur oder Wartung von filigranen Komponenten (Vergrößerung), Überwachung von Anlagen (Hervorhebung von Bildausschnitten) und Arbeiten bei schlechten, veränderlichen Sichtverhältnissen (Helligkeits- und Kontrastveränderung).

Durch die in den abhängigen Ansprüchen aufgeführten Maßnahmen sind vorteilhafte Weiterbildungen und Verbesserungen des im unabhängigen Anspruch angegebenen Grundgedankens möglich. So kann der Wechsel der Modi durch Sprachkommandos und Kopfbewegungen vorgesehen sein. Dies birgt den Vorteil, dass dem Benutzer weiterhin beide Hände zur Erfüllung seiner Aufgabe zur Verfügung stehen, da er diese nicht zum Wechsel des Modus benötigt. Dies ist insbesondere bei solchen Aufgaben von Nutzen, die beidhändig ausgeführt werden müssen, sodass keine Hand zur Bedienung des Endgeräts frei ist.

Kurze Beschreibung der Zeichnungen

Ausführungsbeispiele der Erfindung sind in den Zeichnungen dargestellt und in der nachfolgenden Beschreibung näher erläutert. Es zeigt:

Figur 1 das Flussdiagramm eines Verfahrens gemäß einer ersten Ausführungsform.

Figur 2 schematisch eine AR-Brille gemäß einer zweiten Ausführungsform im Standardmodus.

Figur 3 einen erweiterten Modus mit Lupenfunktion, bei dem das Kamerabild vergrößert dargestellt wird. Ausführungsformen der Erfindung

Figur 1 illustriert den Ablauf eines erfindungsgemäßen Verfahrens (10). Ausgangspunkt ist dabei ein herkömmlicher AR-Modus, bei dem der Nutzer die gegebenenfalls um AR-Inhalte erweiterte, ansonsten jedoch unverfälschte Umgebung sieht.

In einem optionalen ersten Schritt (11) trifft das AR- Endgerät für die Bildtransformation eine Vorauswahl der Bildausschnitte und erkannten Objekte im Sichtfeld des Nutzers und markiert diese auf der Darstellungseinheit als Bereiche, die durch den Nutzer ausgewählt werden können.

In einem ebenfalls optionalen zweiten Schritt (12) wird der Bereich bzw. das erkannte Objekt für eine Bildtransformation durch den Nutzer ausgewählt. Der Modus der Bildtransformation wird für diesen Bildbereich aktiviert.

In einem dritten Schritt (13) wird das gesamte Umgebungsbild oder ein Teil desselben mit gewünschten Bildtransformation unterzogen und auf der Darstellungseinheit im Sichtfeld des Nutzers dargestellt. Die veränderte Darstellung soll dem Nutzer beispielsweise dabei helfen, seine Aufgabe einfacher, effizienter oder ergonomischer zu erledigen.

In einem vierten Schritt (14) wird der Modus der Bildtransformation wieder verlassen. Dies kann unter anderem direkt durch den Nutzer oder aber selbsttätig durch das AR- Endgerät veranlasst werden, wenn zum Beispiel eine bestimmte Zeitspanne abläuft oder erkannt wird, dass ein Arbeitsschritt beendet ist.

Diese Schritte (11 bis 14) seien nunmehr im Einzelnen erläutert.

Die Detektion von interessanten Bildbereichen im ersten Schritt (11) erfolgt z. B. anhand einer geeigneten Bilderkennung. Dies könnte z. B. im Wege einer Objekterkennung durch Vergleich des Kamerabildes mit Objekten und Bildern aus einer Datenbank, einer Kantenerkennung im Kamerabild, der Erkennung von bestimmten Farben bzw. Farbmustern sowie der Erkennung von Markern, Beschriftungen o. ä. erfolgen. Die Marker können dabei direkt auf den betrachteten Objekten oder mit einem bekannten Versatz zu diesen angebracht sein.

Neben den anhand des Kamerabildes gewonnenen Erkenntnissen kann weiteres Wissen über die Objekte vorhanden sein und zur Vorauswahl interessanter Bildbereiche genutzt werden. So können etwa Position und Status von Roboterarmen, Waren auf Transportsystemen oder anderen Objekten von externen Informationsquellen bezogen werden.

Die für eine Bildtransformation in Betracht kommenden Bereiche werden dem Nutzer durch entsprechende Markierungen auf der Darstellungseinheit zur Auswahl angeboten.

Aus dieser Auswahl wählt der Nutzer im zweiten Schritt (12) den Bereich für die Bildtransformation aus. In Betracht kommt die manuelle Auswahl durch ein handbedientes Eingabegerät, z. B. Tastatur, Touchpad oder Joystick. Das Eingabegerät kann sich dabei direkt am AR- Endgerät befinden. Alternativ kann die Eingabe an einem weiteren Gerät vollzogen und dem AR- Endgerät übermittelt werden.

Zu denken ist ferner an Hand- und Fingergesten, die im Sichtbereich der Kamera ausgeführt und durch Bildverarbeitung erfasst werden. Alternativ könnten solche Gesten durch einen Sensorhandschuh erkannt und dem AR- Endgerät mitgeteilt werden.

Möglich sind schließlich Sprachkommandos, die über ein Mikrofon aufgenommen und ihrem Sinngehalt entsprechend verarbeitet werden, spezielle Kopfbewegungen wie Nicken, Drehen oder Schrägstellen des Kopfs, die durch Lage-, Beschleunigungs- und Drehratensensoren, aber auch durch eine Bildverarbeitung des Kamerabildes detektiert werden können, oder die Fixierung des Blicks auf einen Bereich. Für die Bestimmung der Blickrichtung können gesonderte Kameras verwendet werden, die die Augen des Nutzers erfassen. Alternativ kann auch die Bildmitte des Kamerabildes als Anhaltspunkt für die Blickrichtung verwendet werden. Die letztliche Auswahl des in Blickrichtung liegenden Bereiches kann entweder nach einer bestimmten Dauer der Fixierung selbsttätig oder einer Bestätigung durch manuelle Eingabe, Geste oder Sprachkommando erfolgen.

Darüber hinaus ist auch denkbar, dass die Auswahl des Bereiches für die Bildtransformation durch einen Dritten erfolgt. Die automatische Erkennung infrage kommender Bereiche und deren Auswahl durch den Nutzer oder gemäß einer vorgegebenen Regel im Rahmen des Verfahrens (10) ist optional. Es ist ebenso möglich, dass pauschal der gesamte Bildbereich der Kamera für eine Bildtransformation ausgewählt wird oder der Nutzer manuell einen Teil des Bildes auswählt, ohne dass eine Objekterkennung in diesem Bereich erfolgt. Hierzu könnte der Benutzer beispielsweise durch eine geeignete Geste den zu transformierenden Bereich in seinem Sichtfeld umreißen oder anderweitig markieren.

Im dritten Schritt (13) wird nach dem Wechsel in den Modus der Bildtransformation das gesamte Bild, der ausgewählte Bereich oder das erkannte und ausgewählte Objekt in veränderter Form auf dem Bildschirm dargestellt. Dabei sind unter anderem folgende Bildtransformationen denkbar: Vergrößerung - etwa nach dem Wirkprinzip einer Lupe - oder Verkleinerung, Spiegelung oder Drehung, Farbanpassung oder Farbaustausch, Helligkeitsveränderung oder Kontrastverstärkung, Anwendung eines Bildfilters, Kantenerkennung und Kantenhervorhebung oder Ersetzung des Bildes durch eine Aufnahme in einem anderen Wellenlängenbereich, z. B. mit Hilfe von Infrarot- oder Ultraviolett- Kameras.

Alternativ kann eine Bildtransformation auf alle anderen Bereiche des Kamerabildes außerhalb des gewählten Bereichs bzw. abseits des ausgewählten Objekts erfolgen, um z. B. eine Ablenkung des Nutzers zu verhindern. Einschlägige Maßnahmen umfassen die Schwärzung oder anderweitige Überdeckung mit einer oder mehreren Farben oder Farbverläufen sowie unscharfe Darstellung dieser Bereiche.

Gerade für den Fall, dass die Bildtransformation nicht vom Nutzer selbst, sondern durch das AR- Endgerät oder einen Dritten ausgewählt wird, bietet es sich an, die Transformation (13) fließend einzuleiten - zum Beispiel durch eine simulierte Brennweitenänderung („Zoomfahrt“) bzw. langsames Steigern der Filterfunktion damit der Nutzer beim Wechsel des Darstellungsmodus nicht die Orientierung verliert.

Im Modus der Bildtransformation ist es sowohl denkbar, dass weiterhin AR-Inhalte eingeblendet werden, als auch dass diese Einblendung ausgesetzt wird.

Im vierten Schritt (14) wird der Modus der Bildtransformation verlassen und zurück in den Standardmodus gewechselt, in dem der Nutzer die nichttransformierte Umgebung zusammen mit AR-Inhalten sieht. Das Beenden des Verfahrens (10) kann - ähnlich wie bei der Auswahl des zu transformierenden Bereiches - durch eine Aktion des Nutzers mittels manueller Eingabegeräte oder in Gestalt von Hand- und Fingergesten, Kopfbewegungen und Sprachkommandos beendet werden. Die Rückkehr in den Normalbetrieb kann auch nach Ablauf einer definierten Zeitspanne, dadurch, dass die ausgewählten Objekte den Sichtbereich der Kamera verlassen, oder durch externe Ereignisse veranlasst werden, die dem AR- Endgerät übermittelt werden. Denkbar sind insbesondere eine Beendigung durch Dritte oder das Erkennen einer Situation, in der der Nutzer seine Umgebung unverändert - also ohne Bildtransformation - sehen muss, um zum Beispiel eine Gefahr für sich oder andere erkennen und abwenden zu können.

Ein Anwendungsbeispiel für den praktischen Nutzen einer AR-Brille mit Standard- und Zusatzfunktion könnte die computerunterstützte Bestückung einer Platine mit sehr kleinen Bauteilen sein. Ein entsprechendes Szenario ist in Figur 2 dargestellt. Der Benutzer der AR-Brille (20) sieht im Standardmodus die reale Umgebung, wie er sie auch ohne Brille (20) sehen würde. Zusätzlich werden auf dem Bildschirm der Brille (20) virtuelle Objekte (27) dargestellt, die ihn bei seiner Aufgabe unterstützen. Im konkreten Beispiel könnte ein solches Objekt (27) in Gestalt einer Sprechblase den mit Lot (23) und Lötkolben (24) ausgerüsteten Nutzer dabei anleiten, an einer bestimmten Stelle (25) auf der Platine (22) ein bestimmtes Bauteil (26) anzubringen, um ihn bei diesem komplexen Arbeitsablauf zu unterstützen. Auf diese Weise würde er in seinem direkten Sichtfeld auf den anstehenden Arbeitsschritt hingewiesen, ohne den Blick von der Platine (22) abwenden und auf einen Bestückungsplan richten zu müssen.

Für die Durchführung des Arbeitsschritts selbst, vorliegend also das filigrane Löten eines sehr kleinen Bauteils, ist der zweite Modus der AR-Brille (20) von

Vorteil. Daher wird dem Nutzer eine Vergrößerung des Bildbereiches um die Lötstelle oder des gesamten Bildes vorgeschlagen.

Nach dem durch den Nutzer bestätigten Wechsel in den Transformationsmodus wird der besagte Bildbereich oder das gesamte Bild digital vergrößert und - wie in Figur 3 gezeigt - auf dem Bildschirm der AR-Brille (20) dargestellt. Dabei ist es zielführend, dass die Wahrnehmung der tatsächlichen Umgebung vollständig unterdrückt wird, damit der Benutzer nicht gleichzeitig die tatsächliche Umgebung in unveränderter Form und eine teiltransparente Darstellung der digital vergrößerten Umgebung sieht. Nachdem der Arbeitsschritt mittels der Vergrößerung erfolgreich abgeschlossen wurde, versetzt der Nutzer die AR-Brille (20) wieder in den Standardmodus.

Durch diese alternativen Betriebsmodi muss er nicht fortlaufend zwischen unterschiedlichen Hilfsmitteln wechseln, sondern kann die AR-Brille (20) gleichermaßen zur Wahrnehmung seiner Umgebung und inhaltlichen Unterstützung der ihm übertragenen Arbeitsaufgabe einsetzen. Sein

Arbeitsablauf wird dadurch beschleunigt und vereinfacht.

Dieses Verfahren (10) kann beispielsweise in Software oder Hardware oder in einer Mischform aus Software und Hardware beispielsweise in der AR-Brille (20) implementiert sein.

Claims

Ansprüche

1. Verfahren (10) zum Verarbeiten eines durch eine Kamera aufgenommenen Bildes, gekennzeichnet durch folgende Merkmale:

- in einem Transformationsmodus wird das Bild einer vorgegebenen Transformation (13) unterzogen und einem Nutzer auf einer Darstellungseinheit (21) angezeigt und

- der Transformationsmodus wird bei einem vorgegebenen Ereignis verlassen (14).

2. Verfahren (10) nach Anspruch 1, gekennzeichnet durch folgende Merkmale:

- mindestens ein Bereich (25) des Bildes wird auf der Darstellungseinheit (21) markiert (11) und

- der Bereich (25) wird zur Transformation (13) ausgewählt (12) und der Transformationsmodus aktiviert.

3. Verfahren (10) nach Anspruch 2, dadurch gekennzeichnet, dass der Bereich (25) mit mindestens einer der folgenden Techniken erkannt wird:

- eine Objekterkennung durch einen Vergleich des Bildes mit Objekten und weiteren Bildern aus einer Datenbank,

- eine Erkennung von Kanten im Kamerabild,

- eine Erkennung bestimmter Farben oder Farbmuster oder

- eine Erkennung von Markierungen oder Beschriftungen.

4. Verfahren (10) nach Anspruch 2 oder 3, dadurch gekennzeichnet, dass das Auswählen (12) auf eine der folgenden Weisen erfolgt:

- eine manuelle Auswahl durch ein handbedientes Eingabegerät, - Hand- und Fingergesten, die in einem Sichtbereich der Kamera ausgeführt und durch eine Bildverarbeitung erkannt werden,

- Sprachkommandos, die über ein Mikrofon aufgenommen und verarbeitet werden,

- spezielle Kopfbewegungen, die durch Lage-, Beschleunigungs- und Drehratensensoren oder die Bildverarbeitung erkannt werden oder

- eine durch den Sichtbereich oder weitere Kameras bestimmte Blickrichtung des Nutzers.

5. Verfahren (10) nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass die Transformation (13) mindestens eine der folgenden Maßnahmen umfasst:

- eine Vergrößerung oder Verkleinerung,

- eine Spiegelung oder Drehung,

- eine Farbanpassung oder ein Farbaustausch,

- eine Helligkeitsveränderung oder Kontrastverstärkung,

- eine Anwendung eines Bildfilters,

- eine Kantenerkennung und -hervorhebung,

- eine Ersetzung des Bildes durch eine Aufnahme in einem anderen Wellenlängenbereich oder

- eine Unkenntlichmachung oder Weichzeichnung des Bildes außerhalb des ausgewählten (12) Bereiches (25).

6. Verfahren (10) nach einem der Ansprüche 3 bis 5, dadurch gekennzeichnet, dass das Verlassen (14) des Transformationsmodus durch mindestens eines der folgenden Ereignisse ausgelöst wird:

- eine vorgegebene Aktion des Nutzers,

- den Ablauf einer definierten Zeitspanne,

- einer Bewegung der Kamera derart, dass der ausgewählte (12) Bereich (25) außerhalb des Sichtbereiches liegt oder

- eine zum Verlassen (14) des Transformationsmodus auffordernde Benachrichtigung.

7. Verfahren (10) nach Anspruch 1, gekennzeichnet durch folgendes Merkmal:

- das Bild wird vollumfänglich der Transformation (13) unterzogen.

8. Computerprogramm, welches eingerichtet ist, das Verfahren (10) nach einem der Ansprüche 1 bis 7 auszuführen.

9. Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 8 gespeichert ist.

10. Vorrichtung (20), die eingerichtet ist, das Verfahren (10) nach einem der Ansprüche 1 bis 7 auszuführen.