DE102020129164A1

DE102020129164A1 - Verfahren und vorrichtung zur unterscheidung von verschiedenen konfigurationszuständen eines objekts auf der grundlage einer bildlichen darstellung des objekts

Info

Publication number: DE102020129164A1
Application number: DE102020129164.7A
Authority: DE
Inventors: Johanna Awada; Florian Hartmann
Original assignee: Gestigon GmbH
Current assignee: Gestigon GmbH
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2022-05-05
Also published as: CN116420176A; WO2022096343A1; EP4241250A1; US20230410561A1

Abstract

Ein Verfahren zum Unterscheiden von verschiedenen Konfigurationszuständen eines Objekts auf der Grundlage einer bildlichen Darstellung des Objekts weist auf: Aufnehmen von ursprünglichen Bilddaten, die ein ursprüngliches Bild darstellen, das ein Bild des Objekts aufweist; Detektieren des Objekts innerhalb des ursprünglichen Bildes; Bestimmen einer Orientierung des detektierten Objekts innerhalb des ursprünglichen Bildes; Bestimmen eines Bereichs, der von Interesse ist, ROI, innerhalb des ursprünglichen Bildes, der das Bild des Objekts zumindest teilweise darstellt; Erzeugen von normierten Bilddaten, die ein zweidimensionales normiertes Bild darstellen, durch Transformieren des ROI des ursprünglichen Bildes auf der Grundlage der bestimmten Orientierung des Objekts in ein Bezugssystem, in dem der ROI durch das normierte Bild mit einer vordefinierten Standardorientierung und -skalierung dargestellt wird; Extrahieren von einem oder mehreren charakteristischen Merkmalen des Objekts, wie es durch die normierten Bilddaten dargestellt wird; und Klassifizieren des oder der extrahierten einen oder mehreren charakteristischen Merkmale gemäß einem zugehörigen Klassifizierungsschema, um aus einem Satz von zwei oder mehr möglichen Konfigurationszuständen des Objekts einen spezifischen Konfigurationszustand zu bestimmen, der mit dem Ergebnis der Klassifizierung verbunden ist. Das Verfahren kann mittels eines Computerprogramms und/oder einer Vorrichtung implementiert werden, das/die dazu konfiguriert ist, um das Verfahren auszuführen.

Description

Die vorliegende Erfindung bezieht sich auf den Bereich der Bildverarbeitung. Konkret richtet sich die Erfindung auf ein Verfahren und eine Vorrichtung zur Unterscheidung von verschiedenen Konfigurationszuständen eines Objekts auf der Grundlage einer bildlichen Darstellung des Objekts, sowie auf ein Computerprogramm zur Durchführung des Verfahrens.
Im Bereich der Bildverarbeitung besteht häufig die Notwendigkeit, ein oder mehrere Objekte zu erfassen, zwischen verschiedenen Objekten zu unterscheiden oder zwischen verschiedenen Konfigurationen eines Objekts auf der Grundlage von Bilddaten zu unterscheiden, die ein solches oder mehrere solche Objekte darstellen. In der Regel können diese Objekte willkürlich ausgerichtet sein, insbesondere in Szenarien mit sich ändernden Umgebungsbedingungen, z.B. wenn das Objekt einer menschlichen Benutzereingabe entspricht, z.B. im Bereich der Gestenerkennung, was es schwierig macht, einfache Merkmalsdeskriptoren auf das Problem anzuwenden.
Zwar ermöglicht heutzutage die Nutzung hoher Rechenleistung, wie sie zur Zeit in vielen Anwendungen zur Verfügung steht, im Prinzip die Anwendung von komplexen Algorithmen zur Mustererkennung und von umfangreichem maschinellen Lernen, um die oben genannten Anforderungen zu erfüllen, doch gibt es dennoch Anwendungen und entsprechende Systemkonfigurationen, bei denen nur eine begrenzte Rechenleistung für den oben genannten Zweck zur Verfügung steht.
Die meisten gebräuchlichen Computer-Visions-Techniken zielen auf die Objekterkennung und/oder auf die Objekterfassung ab, d.h. auf das Feststellen, ob und wo sich ein bestimmtes Objekt in einem Bild befindet. Beispielhafte bekannte Algorithmen für solche Zwecke weisen unter anderem auf: Skaleninvariante Merkmalstransformation („scale-invariant feature transform“, SIFT), beschleunigte robuste Merkmale („Speeded Up Robust Features“, SURF) und „Bag of Words“-Modelle.
Die vorliegende Erfindung macht es sich zur Aufgabe, eine verbesserte Möglichkeit zur Unterscheidung von verschiedenen Konfigurationszuständen eines Objekts auf der Grundlage einer bildlichen Darstellung des Objekts und mit relativ geringem Bedarf an Rechenleistung bereitzustellen.
Eine Lösung für dieses Problem wird durch die Lehre der unabhängigen Ansprüche bereitgestellt. Verschiedene bevorzugte Ausführungsformen der vorliegenden Erfindung werden durch die Lehre der abhängigen Ansprüche bereitgestellt.
Ein erster Aspekt der Erfindung richtet sich auf ein Verfahren, insbesondere ein computerimplementiertes Verfahren, zum Unterscheiden von verschiedenen Konfigurationszuständen eines Objekts auf der Grundlage einer bildlichen Darstellung des Objekts. Das Verfahren weist auf: (i) Aufnehmen von ursprünglichen Bilddaten, die ein ursprüngliches Bild darstellen, das ein Bild des Objekts, z.B. ein Bild einer menschlichen Hand, aufweist; (ii) Detektieren des Objekts innerhalb des ursprünglichen Bildes; (iii) Bestimmen einer Orientierung des detektierten Objekts innerhalb des ursprünglichen Bildes; (iv) Bestimmen eines Bereichs, der von Interesse ist, ROI, innerhalb des ursprünglichen Bildes, d.h. eine Teilmenge von miteinander verbundenen Bildpunkten, die das Bild des Objekts zumindest teilweise darstellen; (v) Erzeugen von normierten Bilddaten, die ein zweidimensionales normiertes Bild darstellen, durch Transformieren des ROI des ursprünglichen Bildes auf der Grundlage der bestimmten Orientierung des Objekts in ein Bezugssystem, in dem der ROI durch das normierte Bild mit einer vordefinierten Standardorientierung und -skalierung dargestellt wird; (vi) Extrahieren von einem oder mehreren charakteristischen Merkmalen des Objekts, wie es durch die normierten Bilddaten dargestellt wird; und (vii) Klassifizieren des oder der extrahierten einen oder mehreren charakteristischen Merkmale gemäß einem zugehörigen Klassifizierungsschema, um aus einem Satz von zwei oder mehr möglichen Konfigurationszuständen des Objekts einen spezifischen Konfigurationszustand zu bestimmen, der mit dem Ergebnis der Klassifizierung verbunden ist.
Das ursprüngliche Bild kann insbesondere ein zweidimensionales (2D) oder ein dreidimensionales (3D) Bild sein. Im Falle eins ursprünglichen Bildes in 2D können die ursprünglichen Bilddaten insbesondere durch einen 2D-Bildsensor, wie z.B. eine geeignete 2D-Kamera, erzeugt worden sein. Im Falle eines 3D-Bildes können die ursprünglichen Bilddaten insbesondere von einem 3D-Bildsensor, wie z.B. einer TOF-Kamera (Time of Flight), erzeugt worden sein. In beiden Fällen können ein oder mehrere Bildvorverarbeitungsschritte angewandt worden sein, um die ursprünglichen Bilddaten aus den von den Bildsensoren gelieferten Bilddaten zu gewinnen. Als Alternative hierzu können sowohl im Falle von 2D als auch im Falle von 3D die ursprünglichen Bilddaten stattdessen künstlich erzeugt worden sein, z.B. mit Hilfe von Computergrafikanwendungen. Konkret kann es sich bei einem oder beiden, dem ursprünglichen Bild und dem normierten Bild, um digitale Bilder handeln, die entsprechende Bildpunkte enthalten (d.h. Pixel in 2D oder Voxel in 3D).
Der Begriff „charakteristisches Merkmal des Objekts“ und dergleichen, wie er hier verwendet wird, bezieht sich auf ein Merkmal des Objekts, das eine Besonderheit des Objekts definiert oder mitdefiniert, insbesondere in einer bildlichen Darstellung desselben, durch die mindestens zwei verschiedene Konfigurationen des Objekts unterschieden werden können. Einige Beispiele für charakteristische Merkmale werden im Folgenden ausführlicher erörtert.
Der Begriff „Klassifizieren“ und dergleichen, wie er hier verwendet wird, bezieht sich auf einen Prozess, bei dem ein Satz von einem oder mehreren extrahierten Merkmalen gemäß einem zugehörigen Klassifizierungsschema einer ausgewählten Klasse von mehreren durch das Klassifizierungsschema definierten Klassen zugeordnet wird. In einem einfachen Beispiel könnte sich ein extrahiertes Merkmal auf das Verhältnis von Pixeln, die sich in einem gegebenen normierten 2D-Bild auf das Objekt beziehen, zu der Gesamtzahl der Pixel des normierten Bildes beziehen, wobei ein „Bildpunkt, der sich auf ein Objekt bezieht“ ein Bildpunkt ist, der einen entsprechenden Teil des Objekts selbst innerhalb des normierten Bildes darstellt. Wenn es sich bei dem Objekt z.B. um eine menschliche Hand handelt, kann es mehrere verschiedene Konfigurationen haben (die sich auf verschiedene Gesten, die mit der Hand ausgeführt werden, beziehen). In diesem Beispiel könnte es sich bei einer der Gesten um eine Faust handeln und bei einer anderen um eine Zeigegeste, bei der der Zeigefinger in eine bestimmte Richtung zeigt. Jede dieser beiden Gesten kann einer entsprechenden Klasse des Klassifizierungsschemas entsprechen, z.B. einer Klasse „Faust“ bzw. „zeigender Finger“. Insbesondere könnte durch das Klassifizieren des extrahierten Verhältnisses von Pixeln, die sich auf das Objekt beziehen, nach dem Klassifizierungsschema ein Verhältnis unter einem bestimmten Schwellenwert mit der Klasse „Faust“ assoziiert werden, während ein Verhältnis über dem Schwellenwert mit der Klasse „zeigender Finger“ assoziiert werden könnte.
Die Begriffe „erster“, „zweiter“, „dritter“ und so weiter werden in der Beschreibung und in den Ansprüchen dazu verwendet, um zwischen ähnlichen Elementen zu unterscheiden und nicht unbedingt zur Beschreibung einer sequenziellen oder chronologischen Reihenfolge. Es soll so verstanden werden, dass die auf diese Weise verwendeten Begriffe unter geeigneten Umständen untereinander austauschbar sind und dass die hier beschriebenen Ausführungsformen der Erfindung dazu fähig sind, in anderen als den hier beschriebenen oder dargestellten Reihenfolgen ausgeführt zu werden.
Wenn in der vorliegenden Beschreibung und in den Ansprüchen der Begriff „aufweisend“ oder „beinhaltend“ verwendet wird, schließt dies weitere Elemente oder Schritte nicht aus.
Dort, wo ein unbestimmter oder bestimmter Artikel verwendet wird, wenn auf ein Substantiv in der Einzahl Bezug genommen wird, z.B. „ein“ oder „eine“ oder „der / die / das“, so schließt dies eine Mehrzahl dieses Substantivs ein, es sei denn, es ist etwas anderes ausdrücklich angegeben.
Des Weiteren bezieht sich „oder“, sofern nicht ausdrücklich etwas anderes angegeben ist, auf ein inklusives oder und nicht auf ein exklusives oder. Zum Beispiel wird eine Bedingung A oder B durch eine jede der folgenden Bedingungen erfüllt: A ist wahr (oder vorhanden) und B ist nicht wahr (oder nicht vorhanden), A ist nicht wahr (oder nicht vorhanden) und B ist wahr (oder vorhanden), und sowohl A als auch B sind wahr (oder vorhanden).
Dementsprechend ist das Verfahren des ersten Aspekts nicht von einem umfangreichen Einsatz von Rechenleistung abhängig und kann dennoch einen besonders robusten Prozess zur Unterscheidung von verschiedenen Konfigurationen eines Objekts auf der Grundlage einer normierten Darstellung des Objekts in einem bestimmten Bezugssystem bereitstellen, so dass der Klassifizierungsschritt unabhängig von einer Größe und Ausrichtung des Objekts in seiner Darstellung in dem ursprünglichen Bild und in einer Weise definiert werden kann, die optimal an die normierte Darstellung von Objekten in dem Bezugssystem angepasst ist.
Im Folgenden werden bestimmte bevorzugte Ausführungsformen des Verfahrens beschrieben, die beliebig miteinander oder mit anderen Aspekten der vorliegenden Erfindung kombiniert werden können, es sei denn, eine solche Kombination ist ausdrücklich ausgeschlossen oder technisch nicht möglich.
In manchen Ausführungsformen ist das normierte Bild ein digitales Bild, und mindestens eines der charakteristischen Merkmale des Objekts wird auf der Grundlage von Histogrammdaten extrahiert, wobei die Histogrammdaten ein Histogramm darstellen, das jede Zeile von mindestens einer Untermenge der Zeilen von Bildpunkten des normierten Bildes entlang einer ausgewählten der Dimensionen des normierten Bildes einer jeweiligen Häufigkeit oder Anzahl von Bildpunkten, die sich auf das Objekt beziehen, in der jeweiligen Zeile zuordnet, wobei ein Bildpunkt, der sich auf das Objekt bezieht, ein Bildpunkt ist, der einen entsprechenden Abschnitt des Objekts innerhalb des normierten Bildes darstellt. Diese Art der Verwendung von Histogrammdaten hat den Vorteil, dass für den Extrahierungsprozess nur sehr wenig Rechenleistung benötigt wird. Darüber hinaus kann der Extrahierungsprozess, wenn er einmal bekannt ist, im Hinblick auf die Codegröße und die Rechenzeit recht effizient implementiert werden, was ihn besonders für Installationen geeignet macht, die begrenzte Rechenressourcen zur Verfügung haben. Im Gegensatz zu den Verfahren des maschinellen Lernens, insbesondere solchen, bei denen künstliche neuronale Netzwerke verwendet werden, erfordert das Verfahren gemäß dem ersten Aspekt und insbesondere der histogrammbasierte Extrahierungsprozess kein vorheriges Trainings oder vorherige Trainingsdaten und kann auf sehr transparente Weise implementiert werden, so dass eine direkte Konfigurationskontrolle über das Verfahren möglich ist (im Gegensatz zu manchen „Black Box“-Lösungen im Bereich des maschinellen Lernens).
Die Bedeutung des Begriffs „Zeile“, wie er hier verwendet wird, bezieht sich auf eine gerade Linie von Bildpunkten in einer beliebigen Dimension eines mehrdimensionalen digitalen Bildes. Er ist also nicht auf den Fall einer horizontalen Zeile in einer Pixelmatrix beschränkt, sondern kann sich in anderen Fällen z.B. auf eine vertikale Spalte einer Pixelmatrix beziehen.
Insbesondere wird in manchen verwandten Ausführungsformen das mindestens eine charakteristische Merkmal des Objekts auf der Grundlage einer Anzahl oder eines Verhältnisses von Bildpunkten, die sich auf das Objekt beziehen, in einer ersten Teilmenge der Zeilen entlang der genannten Dimension des normierten Bildes und einer Anzahl oder eines Verhältnisses von Bildpunkten, die sich auf das Objekt beziehen, in einer zweiten, anderen Teilmenge der Zeilen der gleichen Dimension des normierten Bildes extrahiert. Zum Beispiel kann die erste Teilmenge aus einer oder mehreren Zeilen in einem Abschnitt des Histogramms entlang der genannten Dimension und die zweite Teilmenge aus einer oder mehreren Zeilen in einem anderen Abschnitt des Histogramms entlang der gleichen Dimension gebildet werden, wobei die beiden Abschnitte unterschiedlich sein oder sich sogar teilweise überlappen können. Diese Ausführungsformen eignen sich besonders zur Unterscheidung von Objektkonfigurationen, die sich in ihrer Darstellung in dem normierten Bild durch die Anzahl an Bildpunkten, die sich auf das Objekt beziehen, in verschiedenen Abschnitten des normierten Bildes unterscheiden. Um noch einmal auf das obige einfache Beispiel der Faustgeste und der Zeigegeste einer menschlichen Hand zurückzukommen: Im Falle einer Faust wird es typischerweise eine viel geringere Variation der Anzahl an Bildpunkten, die sich auf das Objekt beziehen, entlang einer bestimmten Dimension des normierten Bildes geben als im Falle einer Hand mit einem zeigenden Zeigefinger, bei dem in einem Abschnitt, der den Zeigefinger abdeckt, viel weniger Bildpunkte, die sich auf das Objekt beziehen, vorhanden sein werden als zum Beispiel in einem Abschnitt, der den Handflächenbereich der Hand abdeckt. Manche weiteren, komplexeren, beispielhaften Gesten werden im Folgenden unter Bezugnahme auf die Figuren erläutert.
In manchen der Histogramm-bezogenen Ausführungsformen weist das Verfahren ferner das Detektieren innerhalb des normierten Bildes mindestens einer Teilmenge jener Zeilen entlang der besagten Dimension des normierten Bildes auf, die mehrere diskrete Zeilensegmente aufweisen, wobei jedes Zeilensegment aus Bildpunkten, die sich auf das Objekt beziehen, besteht und jedes Zeilensegment von seinem einen oder seinen mehreren benachbarten Zeilensegmenten der gleichen Zeile durch eine Lücke getrennt ist, die aus mindestens einem Bildpunkt besteht, der kein Bildpunkt, der sich auf das Objekt bezieht, ist. Darüber hinaus basiert das Extrahieren des mindestens einen charakteristischen Merkmals des Objekts ferner auf dem Vorhandensein von einer oder von mehreren solcher Lücken in mindestens einer der genannten Zeilen des normierten Bildes. Dementsprechend stellen diese Ausführungsformen eine weitere unabhängige Möglichkeit zur Unterscheidung von verschiedenen Objektkonfigurationen auf der Grundlage von Histogrammdaten bereit, insbesondere auf der Grundlage der gleichen Histogrammdaten wie bei den Ausführungsformen, die unmittelbar vorangehend diskutiert wurden. Insbesondere können diese verschiedenen Ausführungsformen sogar miteinander kombiniert werden, um einen noch leistungsfähigeren Prozess zur Unterscheidung von verschiedenen Objektkonfigurationen zu definieren, der sowohl auf verschiedenen Teilmengen der Zeilen als auch auf dem Vorhandensein einer Lücke basiert.
Konkret basiert in manchen lückenbezogenen Ausführungsformen das Extrahieren des mindestens einen charakteristischen Merkmals des Objekts auf einem oder mehreren von (i) der Anzahl, (ii) den Größen, (iii) den Positionen der einen oder der mehreren Lücken und (iv) für mindestens eine ausgewählte Lücke, der Anzahl von aneinander angrenzenden Zeilen, die eine entsprechende Lücke aufweisen, die entweder direkt oder über eine oder mehrere andere Lücken mit der ausgewählten Lücke verbunden ist. Alle diese Optionen sind besonders einfach zu implementieren und erfordern nur sehr wenig Rechenleistung, während sie gleichzeitig eine breite Palette von leistungsfähigen Möglichkeiten bereitstellen, um die Unterscheidungsfähigkeiten des Verfahrens in Bezug auf verschiedene Objektkonfigurationen weiter zu verbessern.
Darüber hinaus basiert in Bezug auf Option (iv) in manchen dieser Ausführungsformen das Extrahieren des mindestens einen charakteristischen Merkmals des Objekts auf der Grundlage des Vorhandenseins von einer oder von mehreren Lücken in mindestens einer der besagten Zeilen des normierten Bildes überwiegend oder ausschließlich auf demjenigen Satz von Lücken innerhalb des normierten Bildes, der die größte Anzahl von aneinander angrenzenden Zeilen aufweist, die eine entsprechende Lücke aufweisen, die entweder direkt oder über eine oder mehrere andere Lücken mit der ausgewählten Lücke verbunden sind. Dieser Ansatz erhöht die Robustheit des Extrahierungsprozesses noch weiter, da er Extrahierungsfehler vermeiden kann, die durch kleine Bildfehler verursacht werden, die nur in einer Zeile oder in einer geringen Anzahl von Zeilen auftreten.
In manchen weiteren lückenbezogenen Ausführungsformen wird mindestens eine der Lücken dadurch identifiziert, dass eine entsprechende Zeile des normierten Bildes auf Übergänge von einem Bildpunkt, der sich auf das Objekt bezieht, zu einem Bildpunkt, der sich nicht auf das Objekt bezieht, und umgekehrt abgesucht wird. Dies ist ein besonders effizienter, insbesondere hinsichtlich des Zeitaufwands effizienter, und robuster Prozess zum Identifizieren von Lücken, der aufgrund seiner Einfachheit auch nicht viel Rechenleistung erfordert.
In manchen Ausführungsformen weist das Verfahren ferner die Vorverarbeitung der ursprünglichen Bilddaten vor dem Detektieren des darin enthaltenen Objekts auf, um die Bildqualität des Bildes, das durch die ursprünglichen Bilddaten dargestellt wird, zu verbessern. Konkret kann eine solche Vorverarbeitung eine Rauschunterdrückung, das Entfernen von Bildartefakten, anderes Filtern oder andere bekannte Prozesse der Bildoptimierung aufweisen, die dem Zweck dienen, die Robustheit des Verfahrens gegenüber Bilddefekten oder anderen Bildmängeln in den ursprünglichen Bilddaten zu erhöhen.
In manchen Ausführungsformen basiert die Bestimmung der räumlichen Orientierung des Objekts in dem ursprünglichen Bild auf einem oder mehreren der Folgenden: (i) einer Orientierung (i-1) von einer Bounding Box, z.B. einer rechteckigen Bounding Box, die das Objekt umschließt, (i-2) von einer Kontur des Objekts oder (i-3) von einer Anordnung von zwei oder mehr Extrempunkten auf der Kontur des Objekts in dem ursprünglichen Bild; (ii) einer Verteilung von Bildpunkten, die sich auf das Objekt beziehen, innerhalb einer Bounding Box, die das Objekt umschließt; (iii) einer Orientierung, die durch die relative Position eines bestimmten Extrempunkts des Objekts und (iii-1) des geometrischen Mittelpunkts oder (iii-2) des Schwerpunkts des Objekts oder (iii-3) eines anderen Extrempunkts des Objekts definiert ist; (iv) Amplitudenbilddaten, die ein Amplitudenbild des Objekts darstellen und die als Teil oder zusätzlich zu den ursprünglichen Bilddaten bereitgestellt werden; und (v) Tiefenbilddaten, die ein Tiefenbild des Objekts darstellen und die als Teil oder zusätzlich zu den ursprünglichen Bilddaten bereitgestellt werden. Die Verwendung einer Bounding Box hat den besonderen Vorteil, dass die Bounding Box bereits gleichzeitig als ein geeigneter Bereich, der von Interesse ist, dienen kann und typischerweise ihre Orientierung leicht zu bestimmen ist, insbesondere im Falle einer rechteckigen Bounding Box. Die Option (iii) ist auch besonders einfach in der Implementierung und erfordert nur minimale Rechenleistung.
Die Optionen (iv) und (v) sind insbesondere nützlich, um die Robustheit des Verfahrens weiter zu erhöhen, indem weitere Informationen über das Objekt als Eingangsdaten hinzugefügt werden.
In manchen Ausführungsformen weist das Erzeugen der normierten Bilddaten das Transformieren des ROI in das Bezugssystem mittels einer affinen Transformation auf. Eine affine Transformation hat den Vorteil, dass sie gerade Linien und Parallelität sowie das Längenverhältnis von zwei gegebenen Segmenten einer gegebenen geraden Linie als invariante Eigenschaften bewahrt. Dementsprechend bleiben solche invarianten Eigenschaften des ursprünglichen Bildes auch bei der Transformation in das normierte Bild erhalten und stehen somit für die nachfolgende Extrahierung von charakteristischen Merkmalen zur Verfügung.
In manchen Ausführungsformen weist das Erzeugen der normierten Bilddaten das Transformieren des ROI in das Bezugssystem in einer solchen Weise auf, dass das so transformierte Bild des ROI vollständig mit dem normierten Bild übereinstimmt. Dieser Ansatz sorgt für eine optimale Größe und Auflösung des normierten Bildes und somit eine besonders wirkungsvolle und robuste Basis für das anschließende Extrahieren von Merkmalen und die weitere Verarbeitung im Zuge der Durchführung des Verfahrens, da die Menge der irrelevanten Bilddaten, die zu verarbeiten sind, reduziert oder sogar minimiert wird.
In manchen Ausführungsformen weisen die ursprünglichen Bilddaten eine Sequenz von aneinander angrenzenden Einzelbildern auf, z.B. Videodaten mit einer Sequenz von Video-Einzelbildern, und das Verfahren weist ferner auf: das Führen von Verlaufsdaten, die für jedes Einzelbild von zumindest einer Teilmenge der Sequenz das jeweilige Klassifizierungsergebnis darstellen, das zuvor für das entsprechende Einzelbild bestimmt wurde, wobei die Teilmenge eine aneinander angrenzende Reihe von Einzelbildern ist, die jeweils das Objekt zumindest teilweise abbilden. Darüber hinaus basiert das Bestimmen eines aktuellen Konfigurationszustands des Objekts auf dem Ergebnis der Klassifikation eines aktuellen Einzelbildes und den Verlaufsdaten. Konkret kann das Objekt ein Körperteil wie z.B. eine Extremität einer Person sein, z.B. eine Hand oder ein ganzer Arm. Die Verwendung solcher Verlaufsdaten zusätzlich zum dem Klassifizierungsergebnis für ein aktuelles Einzelbild kann vorteilhaft genutzt werden, um die Robustheit des Verfahrens weiter zu erhöhen, insbesondere ihr Unterscheidungsvermögen zum Unterscheiden (d.h. unterschiedlich behandeln) von verschiedenen Objektkonfigurationen.
Insbesondere wird in manchen dieser Ausführungsformen der aktuelle Konfigurationszustand des Objekts auf der Grundlage einer Mehrheitsentscheidung oder einer Mittelwertbildung in Bezug auf das Ergebnis der Klassifikation des aktuellen Einzelbildes und der Klassifizierungsergebnisse, die durch die Verlaufsdaten dargestellt werden, bestimmt. Auf diese Weise kann ein einfacher, aber leistungsfähiger und robuster Entscheidungsprozess definiert werden, der sowohl die Verlaufsdaten als auch das Klassifizierungsergebnis für ein aktuelles Einzelbild berücksichtigt. Die Menge an Verlaufsdaten kann durch Konfiguration auch so skaliert werden, dass nur eine Teilmenge der zur Verfügung stehenden Verlaufsdaten, wie z.B. nur eine Anzahl von einem oder mehreren der neuesten Klassifizierungsergebnisse in den Verlaufsdaten, für die Entscheidung berücksichtigt wird. Es ist auch möglich, auf jedes der verschiedenen Klassifizierungsergebnisse in den Verlaufsdaten eine individuelle oder gruppenweise Gewichtung anzuwenden, insbesondere in der Weise, dass ältere Klassifizierungsergebnisse weniger stark gewichtet werden als neuere und somit weniger Einfluss auf die Entscheidung haben.
In manchen Ausführungsformen stellen die ursprünglichen Bilddaten eine menschliche Hand als Objekt dar. Insbesondere ist das Verfahren in manchen dieser Ausführungsformen so konfiguriert, dass es, wenn eine Geste von der Hand ausgeführt wird, eine Zeigegeste von einer Streichgeste auf der Grundlage eines Klassifizierens eines oder mehrerer charakteristischer Merkmale der Hand, die aus den normierten Bilddaten extrahiert werden, unterscheidet.
Ein zweiter Aspekt der vorliegenden Erfindung richtet sich auf ein Computerprogramm oder ein nicht vorübergehendes computerlesbares Speichermedium, das Anweisungen enthält, die, wenn sie auf einem Computer oder einer Multi-Computer-Plattform ausgeführt werden, den Computer bzw. die Multi-Computer-Plattform dazu veranlassen, das Verfahren gemäß dem ersten Aspekt der vorliegenden Erfindung auszuführen.
Das Computerprogramm oder das computerlesbare Speichermedium kann insbesondere in Form eines Datenträgers ausgeführt sein, auf dem ein oder mehrere Programme zur Durchführung des Verfahrens gespeichert sind. Vorzugsweise handelt es sich dabei um einen Datenträger, wie z.B. eine CD, eine DVD oder ein Flash-Speichermodul. Dies kann vorteilhaft sein, falls es beabsichtigt ist, dass das Computerprogrammprodukt als Einzelprodukt unabhängig von der Computerplattform, auf der das eine oder die mehreren Programme ausgeführt werden sollen, gehandelt werden soll. In einer anderen Implementierung wird das Computerprogramm als Datei auf einer Datenverarbeitungseinheit, insbesondere auf einem Server, bereitgestellt und kann über eine Datenverbindung, z.B. das Internet oder eine dedizierte Datenverbindung, wie z.B. ein proprietäres oder lokales Netzwerk, heruntergeladen werden.
Ein dritter Aspekt der vorliegenden Erfindung richtet sich auf eine Bildverarbeitungsvorrichtung zum Unterscheiden von verschiedenen Konfigurationszuständen eines Objekts auf der Grundlage einer bildlichen Darstellung des Objekts, wobei die Bildverarbeitungsvorrichtung so konfiguriert ist, dass sie das Verfahren des ersten Aspekts der vorliegenden Erfindung ausführt.
Die Bildverarbeitungsvorrichtung kann dementsprechend über einen Programmspeicher verfügen, in dem das Computerprogramm des zweiten Aspekts gespeichert ist, oder sie kann den genannten Datenträger, auf dem das Computerprogramm gespeichert ist, aufweisen. Als Alternative hierzu kann die Bildverarbeitungsvorrichtung auch so eingerichtet sein, dass sie über eine Kommunikationsverbindung auf ein Computerprogramm zugreift, das extern, z.B. auf einem oder mehreren Servern oder anderen Datenverarbeitungseinheiten, verfügbar ist, insbesondere um mit ihm Daten auszutauschen, die im Verlauf der Ausführung des Computerprogramms verwendet werden oder die Ausgaben des Computerprogramms darstellen.
Die verschiedenen Ausführungsformen und Vorteile, die oben im Zusammenhang mit dem ersten Aspekt der vorliegenden Erfindung beschrieben wurden, gelten in ähnlicher Weise auch für die anderen Aspekte der Erfindung. Weitere Vorteile, Merkmale und Anwendungen der vorliegenden Erfindung sind in der folgenden detaillierten Beschreibung und den beigefügten Figuren dargestellt, wobei:

In 1 ist ein Flussdiagramm schematisch dargestellt, das ein beispielhaftes Verfahren zum Unterscheiden von verschiedenen Konfigurationszuständen eines Objekts nach einer Ausführungsform der vorliegenden Erfindung veranschaulicht;
2 ist ein Satz von drei Bildern, wobei jedes der Bilder ein ursprüngliches Bild einer entsprechenden abgebildeten Handgeste darstellt;
3 ist der gleiche Satz von drei Bildern wie in 2, für jedes Bild mit einer zusätzlichen Veranschaulichung eines entsprechenden Orientierungsdeskriptors;
4 ist der gleiche Satz von drei Bildern wie in 2, für jedes Bild mit einer zusätzlichen Veranschaulichung eines jeweiligen Bereichs, der von Interesse ist, ROI, der durch eine zugehörige Bounding Box umschlossen ist, die gemäß dem zugehörigen Orientierungsdeskriptor von 3 ausgerichtet ist;
5 ist ein Satz von drei normierten Bildern, die aus der Transformation des jeweiligen ROI eines jeden Bildes aus 4 mittels einer affinen Transformation in ein normiertes Bezugssystem hervorgehen; und
6 ist ein Satz von drei Histogrammen, die den jeweiligen Bildern aus 5 entsprechen; wobei jedes Histogramm die Anzahl der Bildpunkte (Pixel), die sich auf das Objekt beziehen, pro horizontale Linie des jeweiligen Bildes aus 5 widerspiegelt.

In den Figuren werden gleiche Bezugszeichen für die gleichen oder für einander entsprechende Elemente der hier beschriebenen Erfindung verwendet.
DETAILLIERTE BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
1 zeigt eine beispielhafte Ausführungsform 100 eines Verfahrens zum Unterscheiden von verschiedenen Konfigurationszuständen eines Objekts, insbesondere einer menschlichen Hand. Das Verfahren 100 beginnt mit einem Schritt 105, wobei ein Verlaufsprotokoll für extrahierte Merkmale initialisiert wird. Das Protokoll kann z.B. in einem Speichergerät, wie z.B. einem Ringpufferspeicher, gespeichert werden. Das Initialisieren kann insbesondere das Löschen von vorigen Verlaufsdaten aufweisen, die in dem Pufferspeicher gespeichert sind und die sich auf eine frühere Durchführung des Verfahrens beziehen, die nicht mehr relevant sind, so dass damit vermieden wird, dass etwaige solche vorigen Verlaufsdaten in einem aktuellen Durchführungsverlauf des Verfahrens, insbesondere fälschlicherweise, berücksichtigt werden. Die Rolle von Verlaufsdaten im Zusammenhang mit dem vorliegenden Verfahren wird weiter unten erläutert.
In einem weiteren Schritt 110 des Verfahrens 100 werden Eingangsdaten in Form von ursprünglichen Bilddaten erfasst, die ein ursprüngliches 2D- oder 3D-Bild darstellen, das ein Bild eines Objekts, das von Interesse ist, enthält, z.B. indem ein entsprechender Bilddatenstrom oder eine Bilddatendatei über eine geeignete Datenschnittstelle empfangen wird. Drei verschiedene Beispiele solcher ursprünglichen Bilder 200 sind in 2 gegeben, wobei jedes der einzelnen Bilder 205, 210 und 215 jeweils ein 2D-Matrix-Standbild einer menschlichen Hand H zeigt, während diese eine entsprechende Geste ausführt, die insbesondere eine Freiraumgeste sein kann. Jede der in 2 gezeigten Gesten kann insbesondere mit einem von einer starren oder einer dynamischen Pose einer Hand im Zusammenhang stehen, die auf ein Objekt in einer Szene zeigt, oder mit einer dynamischen streichenden Bewegung, wie z.B. eine Streichgeste, wie sie von gestenbasierten Eingaben auf Touchscreens bekannt ist. Die verschiedenen Konfigurationen der Hand H, wie sie jeweils in den verschiedenen Bildern 205, 210 bzw. 215 dargestellt sind, sind einander jedoch sehr ähnlich und können daher typischerweise nicht auf einfache Weise unterschieden werden, zumindest nicht durch bisher bekannte Computerprogramme, die nur geringe Anforderungen an die Rechenleistung stellen.
Die Bilder 205, 210 und 215 können insbesondere von einem Sensor oder einer Kamera aufgenommen werden oder von einem Sensor oder einer Kamera aufgenommen worden sein, der bzw. die einen Bereich, der von Interesse ist, innerhalb einer Szene beobachtet, z.B. einen Innenraum eines Fahrzeugs, wie z.B. eines Automobils, und weiter insbesondere einen Raumabschnitt innerhalb eines solchen Innenraums, der von einem Fahrer oder Mitfahrer des Fahrzeugs dazu verwendet wird, um Freiraumgesten auszuführen, um eine oder mehrere Funktionalitäten des Fahrzeugs zu steuern, z.B. Funktionalitäten eines Unterhaltungssystems des Fahrzeugs. Ohne, dass dies als Einschränkung verstanden werden soll, kann jedes ursprüngliche Bild insbesondere eines der Folgenden sein: (i) ein Maskenbild, bei dem einzelne binäre Bildpunkte einfach auf wahr gesetzt werden, wenn sich der entsprechende Bildpunkt auf das Objekt bezieht, d.h. wenn er einen Teil der Darstellung des Bildes des Objekts selbst (und nicht des Hintergrunds) bildet, oder falsch, wenn er sich nicht auf das Objekt bezieht; (ii) ein Einkanal-(Graustufen-)Bild, bei dem sich die Intensität eines einzelnen Datenpunktes auf die Amplitude, den Tiefenwert (im Falle eines 3D-Bildes) oder die Konfidenz bezieht, die oder der von dem Sensor an dieser Stelle erfasst wird; (iii) ein Mehrkanal-(Farb-)Bild, bei dem ein Bildpunkt durch zugehörige Werte von mehreren Farbkanälen dargestellt wird, z.B. in dem RGB-Farbraum, oder (iv) eine Kombination von zwei oder mehr der oben genannten Optionen (i) bis (iii). Konkret handelt es sich bei den Bildern 205, 210 und 215 des vorliegenden Beispiels um Maskenbilder gemäß Option (i), wobei die Bildpunkte (Pixel), die sich auf das Objekt beziehen und die den Binärwert „wahr“ (oder „gültig“) haben, in weißer Farbe gezeichnet sind und alle zur Gesamtdarstellung der Hand H in dem entsprechenden Bild von 2 beitragen.
Um die Bildqualität des ursprünglichen Bildes zu verbessern, werden die erfassten ursprünglichen Bilddaten in einem weiteren Schritt 115 vorverarbeitet, was insbesondere aufweisen kann, dass die Eingangsdaten von nicht benötigten und nicht erwünschten Daten bereinigt werden, wie z.B. von Rauschen oder Artefakten, die sonst falsche Datenwerte in die nachfolgende Bildverarbeitungskette einbringen würden.
Sodann bestimmt das Verfahren 100 in einem weiteren Schritt 120 auf der Grundlage der vorverarbeiteten ursprünglichen Bilddaten, ob ein Objekt, insbesondere ein bestimmtes Objekt, das von Interesse ist, durch das vorverarbeitete ursprüngliche Bild dargestellt wird oder nicht. Eine solche Bestimmung kann insbesondere auf einer Bildsegmentierung, z.B. einer Vordergrund- gegenüber einer Hintergrundsegmentierung beruhen, die in Bezug auf die vorverarbeiteten ursprünglichen Bilddaten durchgeführt wird, auf einer nachfolgenden Größenschätzung einzelner Segmente, die sich aus der Segmentierung ergeben, und/oder auf einem Vergleich der Ergebnisse einer solchen Segmentierung und/oder einer solchen Schätzung mit entsprechenden Referenzinformationen, die das Objekt, das von Interesse ist, charakterisieren. Beispielsweise kann der Segmentierungsprozess Daten liefern, die einen oder mehrere Cluster von miteinander verbundenen Vordergrundbildpunkten charakterisieren. Eine einfache Möglichkeit zum Bestimmen, ob ein bestimmter Cluster ein Objekt, insbesondere ein Objekt, das von Interesse ist, abbildet, besteht darin, dass eine Anzahl von Bildpunkten in dem Cluster bestimmt wird und diese mit einem geeigneten vorgegebenen Schwellenwert verglichen wird, der einer erwarteten Anzahl entspricht, z.B. einer festgelegten Mindestanzahl von Bildpunkten pro Cluster, die ein solches Objekt, das von Interesse ist, darstellen.
Wenn kein relevantes Objekt detektiert wurde (125 - nein), setzt das Verfahren 100 das Verlaufsprotokoll für zuvor extrahierte Merkmale in einem Schritt 130 zurück und verzweigt zurück zu dem Eingangsdatenerfassungsschritt 110, um noch einen weiteren Objektdetektierversuch durchzuführen. Andernfalls (125 - ja), d.h. wenn ein relevantes Objekt, z.B. eine Hand, auf der Grundlage von Schritt 120 detektiert wurde, werden in einem Schritt 135 ein oder mehrere Orientierungsdeskriptoren ermittelt, die eine Orientierung des detektierten Objekts charakterisieren. Dieser Schritt ist als Mittel zur Bestimmung (i) eines Bereichs, der von Interesse ist, ROI, innerhalb des vorverarbeiteten ursprünglichen Bildes, der das Bild des detektierten Objekts zumindest teilweise abdeckt, und (ii) eines oder mehrerer Parameter einer affinen Transformation, die auf den ROI des vorverarbeiteten Bildes anzuwenden ist, mit inbegriffen, wie weiter unten mit Bezugnahme auf die Schritte 140 und 145 beschrieben wird.
In dem Schritt 135 kann ein geeigneter Orientierungsdeskriptor insbesondere aus Merkmalen des vorverarbeiteten Bildes abgeleitet werden, die leicht zu bestimmen sind, wie z.B. einem Umriss oder einem oder mehreren Extrempunkten des detektierten Objekts oder von hinzugefügten Bildhilfsmerkmalen, wie z.B. einer berechneten virtuellen Bounding Box einer bestimmten Form, die das Bild des detektierten Objekts umschließt. Zusätzlich können komplexere Kombinationen von Grundmerkmalen dazu verwendet werden, um das Objekt, seine Hauptausrichtung und den Bereich, der von Interesse ist, für die nachfolgenden Schritte zu definieren, z.B. die Verteilung von Datenpunkten in einer Bounding Box, die sich auf das Objekt beziehen, oder die Position von bestimmten Extrempunkten des Objekts in Bezug auf den Schwerpunkt des Objekts.
Die Ergebnisse 300 eines beispielhaften Prozesses zur Bestimmung eines Orientierungsdeskriptors für jedes der Bilder aus 2 sind in 3 dargestellt, wobei die Bilder 305, 310 und 315 jeweils von den Bildern 205, 210 bzw. 215 aus 2 abgeleitet wurden, indem eine Darstellung einer jeweiligen geraden Linie hinzugefügt wurde, die sich zwischen einem ermittelten Extrempunkt der Hand, nämlich einer vermuteten Fingerspitze T, und einem berechneten geometrischen Mittelpunkt C der Hand erstreckt, d.h. der Fläche, die von den (weißen) Pixeln, die die Hand H selbst darstellen, bedeckt wird. Zum Beispiel kann T als derjenige Punkt, der sich auf das Objekt bezieht, ausgewählt werden, der am weitesten von dem Punkt C entfernt ist. Die Orientierung der geraden Linie, die auf einfache Weise bestimmt werden kann und die dem jeweiligen Satz von Orientierungsparametern, z.B. einem oder mehreren Winkeln, zugeordnet werden kann, liefert eine Orientierung des Objekts, d.h. der Hand H. Darüber hinaus kann ein Abstand zwischen den Punkten T und C in Bezug auf jede der beiden Dimensionen des Bildes, d.h. ein horizontaler Abstand und ein vertikaler Abstand, ermittelt werden.
Unter Bezugnahme auf einen weiteren Schritt 140 kann nun für jedes der Bilder in einem ROI-Bestimmungsprozess 400 ein entsprechender ROI bestimmt werden, wie in 4 dargestellt ist. Für jedes der drei vorverarbeiteten Bilder basiert der Prozess 400 auf dem jeweiligen Orientierungsdeskriptor, der zuvor durch den Prozess 300 aus 3 abgeleitet wurde. Der ROI eines Bildes kann insbesondere als ein rechteckiger Bereich bestimmt werden, wie z.B. einer Bounding Box B, der sich in einer Dimension entlang der geraden Linie zwischen den Punkten T und C erstreckt und eine seitliche Ausdehnung (Breite) hat, die groß genug ist, um einen ausreichenden Abschnitt abzudecken, im Idealfall alle Bildpunkte, die sich auf das Objekt beziehen und die in der Breitendimension, d.h. in einer Richtung, die sich senkrecht von der geraden Linie aus erstreckt, vorhanden sind. Beispiele für solche Bounding Boxen B, die jede ihren jeweiligen ROI definieren, sind in dem Satz 400 von Bildern in 4 für jedes der Bilder 405, 410 und 415 zu sehen, die aus den jeweiligen Bildern 305, 310 und 315 von 3 abgeleitet wurden. Die Größe, Position und Orientierung des ROI in dem vorverarbeiteten ursprünglichen Bild liefert eine Grundlage für die Definition der affinen Transformation.
Nun kann zunächst die tatsächliche affine Transformation bestimmt und dann in einem weiteren Schritt 145 durchgeführt werden. Die Transformation dient dazu, den ROI, d.h. den Bildbereich, der von der Bounding Box B umschlossen wird, auf der Grundlage des/der im vorherigen Schritt 135 ermittelten Bilddeskriptors/Bilddeskriptoren in ein Bezugssystem zu transformieren, in dem der ROI durch ein normiertes Bild mit einer vordefinierten Standardorientierung und -skalierung dargestellt wird. Dementsprechend können in dem Bezugssystem Merkmalsdetektoren unter durchwegs ähnlichen Bedingungen angewendet werden, d.h. unabhängig von einer bestimmten Ausrichtung oder Größe des Objekts in dem ursprünglichen Bild.
In 2D wird ein Bildpunkt $(_{j}^{x})$
des Eingangsbildes, d.h. in dem ROI in dem vorverarbeiteten ursprünglichen Bild, durch die affine Transformation in einen Punkt $(_{v}^{u})$
durch eine Matrix-Multiplikation mit einer Transformationsmatrix wie folgt transformiert M ∈ ℝ^2×3: $(_{v}^{u}) = M \cdot (\begin{matrix} x \\ y \\ 1 \end{matrix}) .$
Sobald der ROI in dem Schritt 140 ermittelt worden ist, müssen mindestens drei Referenzpunkte $(_{y_{i}}^{x_{i}})$
mit i = 1, 2, 3 in dem Eingangsbild definiert werden, damit darauf basierend die Transformationsmatrix M bestimmt werden kann. Durch Setzen der entsprechenden Zielpunkte $(_{v_{i}}^{u_{i}})$
an den Grenzen des Zielbildes der Transformation, d.h. des normierten Bildes, das aus der Transformation hervorgehen soll, wird der ROI, der durch die Eingangsdaten dargestellt wird, d.h. die vorverarbeiteten Bilddaten, durch die Transformation so auf das normierte Bild abgebildet, dass jeder Bildpunkt des normierten Bildes einem entsprechenden Bildpunkt in dem ROI innerhalb des vorverarbeiteten ursprünglichen Bildes entspricht. Als Alternative kann natürlich auch eine andere Zuordnung verwendet werden, so dass die Größe des Zielbereichs, der dem ROI entspricht, entsprechend den Anforderungen einer bestimmten relevanten Anwendung gewählt werden kann.
Anschließend kann M bestimmt werden durch Lösen von $(_{v}^{u}) = M \cdot (\begin{matrix} x_{i} \\ y_{i} \\ 1 \end{matrix}) .$
Sobald die Transformationsmatrix M aus Gleichung (2) bestimmt worden ist, kann die tatsächliche Transformation gemäß Gleichung (1) durchgeführt werden. Beispielhafte Ergebnisse 500 einer solchen Transformation sind in 5 dargestellt. Die Bilder 505, 510 und 515 sind das Ergebnis der affinen Transformation der entsprechenden vorverarbeiteten ursprünglichen Bilder 405, 410 und 415, d.h. der jeweiligen Bounding Box B, welche den ROI definiert. Dementsprechend zeigt jedes der transformierten, d.h. normierten Bilder 505, 510 und 515 ein transformiertes Bild H' der jeweiligen Handgeste in einer normierten Ausrichtung und einem normierten Maßstab.
In einem weiteren Schritt 150 können nun orientierungs- und maßstabsinvariante Merkmale der Bilder von 5 extrahiert werden. Im Folgenden werden exemplarisch zwei verschiedene Arten von Merkmalen verwendet, um die drei Handkonfigurationen zu unterscheiden, die den verschiedenen Bildern zugeordnet sind. Für das erste Merkmal wird nach der Transformation des ROI ein zeilenweises Histogramm (das aus einem Umordnen der Pixel in der horizontalen Dimension der Bilder von 5 in ein erstes Zeilensegment, das alle Pixel enthält, die sich auf das Objekt beziehen (weiß), und ein zweites Zeilensegment, das die Hintergrundpixel (schwarz) aller Pixel enthält, die sich auf das Objekt beziehen, hervorgeht) berechnet. Ein beispielhaftes Ergebnis eines Anwendens dieses Histogrammbestimmungsprozesses auf die einzelnen Bilder von 5 ist in 6 zu sehen. Es besteht natürlich keine Notwendigkeit, ein solches Histogramm tatsächlich auf die eine oder andere Weise darzustellen. Vielmehr kommt es auf die Berechnung der mathematischen Eigenschaften des Histogramms an, insbesondere auf die Verteilung der Anzahl der Pixel, die sich auf das Objekt beziehen, über die zweite Dimension (in diesem Beispiel: die vertikale Dimension).
Tatsächlich bezieht sich das jeweils erste Bild 205, 305, 405, 505 und 605 in jeder der 2 bis 6 auf eine Zeigegeste, bei der sich ein zeigender Finger, z.B. der Zeigefinger der Hand, von dem Rest der Hand weg erstreckt. Wie aus dem Bild 605 in 6 zu erkennen ist, hat ein zeigender Finger in dem ersten (oberen) Abschnitt des Histogramms nur relativ wenige Pixel, die sich auf das Objekt beziehen, während die zurückgebogenen Finger der Hand und der Handrücken im unteren Abschnitt des Histogramms, der die übrigen Zeilen (mittlerer und unterer Teil von Bild 605) abdeckt, eine große Anzahl an Pixeln, die sich auf das Objekt beziehen, ergeben. Dies bedeutet, dass insbesondere für eine erste zu unterscheidende Konfiguration, bei der die Hand mit einem einzigen Finger zeigt, das Histogramm eine signifikante, „Hühnerbein“-ähnliche Form aufweist. Auf der Grundlage dieser Form kann ein Verhältnis von (weißen) Pixeln, die sich auf das Objekt beziehen, in den ersten (oberen) Zeilen gegenüber den anderen Zeilen (Mitte und unten) als ein Merkmal definiert werden, um eine mögliche Zeigekonfiguration der Hand zu identifizieren.
Im Gegensatz dazu hat eine streichende Hand, die vertikal gehalten wird, d.h. der Handrücken ist zur Seite gedreht und in dem ursprünglichen Bild ist wie in dem Bild 210 von 2 nur ein seitlicher Teil der Hand sichtbar, eine über alle Zeilen gleichmäßiger verteilte Anzahl an Pixeln, was zu einem anderen Verhältnis führt, wie in dem Histogramm in dem Bild 610 der 6 zu sehen ist.
Während das erste Merkmal, d.h. die charakteristische „Hühnerbein“-Form in dem Histogramm des transformierten ROI, für die meisten Fälle geeignet ist, um die Zeige- und Streichkonfigurationen einer menschlichen Hand zu unterscheiden, könnte ein Streichen mit einer vertikalen Hand, bei dem der Daumen wie in dem Bild 215 der 2 weggespreizt ist („überlappender Fall“), zu einem Histogramm führen, das Ähnlichkeiten mit dem Fall des zeigenden Fingers von Bild 605 aufweist.
Um das erste Merkmal in einem solchen überlappenden Fall zu unterstützen, wird ein zweites Merkmal definiert: Hier ist in dem ursprünglichen Bild 215 eine deutliche Lücke G zwischen dem Daumen und der Hand H zu sehen. Nach der Transformation in dem Schritt 145 ist es möglich, solche Lücken G dadurch zu erkennen, dass jede Zeile des entsprechenden Histogramms von Bild 615 auf Änderungen von Pixeln, die sich auf das Objekt beziehen, zu Pixeln, die sich nicht auf das Objekt beziehen, und umgekehrt abgesucht wird. Wenn eine Änderung mehr als zwei Mal in einer bestimmten Zeile auftritt, so ist dies ein Indikator für eine Lücke G. Um kleine Fehler in einzelnen Zeilen aufgrund von Datenartefakten zu vermeiden, kann man für dieses zweite Merkmal nur diejenigen Zeilen berücksichtigen, die zusammen den größten Bereich von zusammenhängenden Zeilen mit jeweils einer solchen Lücke bilden. Wenn diese Anzahl an Zeilen eher gering ist, ist es wahrscheinlich, dass das ursprüngliche Bild keine Streichgeste (Konfigurationszustand) zeigt, sondern stattdessen vielmehr eine Zeigegeste (Konfigurationszustand) der Hand.
Im Sinne einer Veranschaulichung sind die Zeilen, die eine identifizierte Lücke G enthalten, in den jeweiligen Histogrammen in 6 ebenfalls schwarz eingefärbt und somit markiert, obwohl sie sich eigentlich auf Pixel beziehen, die sich auf das Objekt beziehen und die ohne diese Markierung normalerweise weiß dargestellt würden. Dementsprechend lassen sich auf der Grundlage dieses zweiten Merkmals auch die beiden Konfigurationszustände einer „Streichgeste“ der Bilder 210 und 215 voneinander und speziell auch von der Zeigekonfiguration des Bildes 205 unterscheiden, obwohl sie sehr ähnlich sind, und sogar in Fällen, in denen es sein könnte, dass das erste Merkmal, wenn man es für sich allein betrachtet, noch keine zuverlässigen Ergebnisse liefert.
Nachdem eine vorläufige Bestimmung getroffen wurde, welcher Handkonfigurationszustand im aktuellen Ausführungslauf des Verfahrens identifiziert wurde, wird diese vorläufige Bestimmung in einem weiteren Schritt 155 in dem Verlaufsprotokoll für die weitere Verwendung und für nachfolgende Ausführungsläufe des Verfahrens gespeichert.
In einem weiteren Schritt 160 wird dann eine endgültige Entscheidung getroffen, welcher Konfigurationszustand, d.h. welche Klasse, der Hand H, d.h. des Objekts, identifiziert worden ist. Dies wird dadurch bewerkstelligt, dass das eine oder die mehreren Merkmale, die aus dem normierten Bild extrahiert wurden, mit Hilfe eines Klassifizierungsschemas klassifiziert werden, das mindestens zwei Klassen definiert, nämlich in dem vorliegenden Beispiel eine Klasse eines „zeigenden Fingers“ und eine Klasse einer „streichenden Bewegung“. Anstelle einer einzigen Klasse „streichende Bewegung“ könnte es zwei solche Klassen geben, wobei sich eine auf eine streichende Bewegung ohne Lücke zwischen dem Daumen und dem Rest der Hand bezieht und eine auf eine streichende Bewegung mit einer solchen Lücke. In dem beispielhaften Verfahren 100 basiert diese endgültige Entscheidung jedoch nicht nur auf dem Identifikationsergebnis des aktuellen Ausführungslaufs, wie es durch die vorläufige Bestimmung dargestellt wird, sondern auch auf vorherigen Bestimmungen, wie sie in dem Verlaufsprotokoll wiedergegeben sind. Insbesondere wird eine solche vorherige Bestimmung in Bezug auf einen oder mehrere Einzelbilder der ursprünglichen Bilddaten vorgenommen, die dem Einzelbild, das für den aktuellen Ausführungslauf verwendet wird, unmittelbar vorausgehen. In der Tat ist das Verfahren 100 in einer solchen Weise strukturiert, dass das Verlaufsprotokoll nur Bestimmungen enthält, die während eines Zeitrahmens vorgenommen wurden, in dem das in Frage stehende Objekt immer vorhanden war, d.h. es wurde in jedem der Einzelbilder, die diesen Zeitrahmen abdecken, detektiert, da sonst das Zusammenwirken der Schritte 125 und 130 das Verlaufsprotokoll zurückgesetzt hätte.
Eine einfache und wirkungsvolle Möglichkeit, die endgültige Entscheidung zu treffen, besteht darin, sie als eine Mehrheitsentscheidung auf der Grundlage der einzelnen Bestimmungen zu definieren, die durch die vorläufige Bestimmung des aktuellen Ausführungslaufs und alle der vorherigen Bestimmungen, die in dem Verlaufsprotokoll gespeichert sind, repräsentiert werden. Natürlich ist es auch möglich, andere Möglichkeiten zur Konsolidierung der verschiedenen, unterschiedlichen Bestimmungen zu definieren, z.B. durch Ermitteln der endgültigen Entscheidung auf der Grundlage eines gewichteten oder ungewichteten Mittelwerts oder Medians der einzelnen Bestimmungen und z.B. einer Art Rundungsmechanismus. Wenn es z.B. insgesamt vier Bestimmungen einer Konfiguration „Streichen“ gibt, die jeweils durch den Wert „1“ dargestellt werden können, und zusätzlich insgesamt zwei Bestimmungen eines Konfigurationszustandes „Zeigen“, die jeweils durch den Wert „0“ dargestellt werden können, ergibt ein ungewichteter Mittelwert einen Wert von m = 2/3, der auf „1“ gerundet werden kann, so dass die endgültige Entscheidung eine Konfiguration „Streichen“ ergibt. In der Regel wird das Verfahren robuster, wenn man sich zusätzlich zu der vorläufigen Bestimmung eines jeweiligen (einzelnen) aktuellen Ausführungslaufs auf das Verlaufsprotokoll stützt.
Schließlich kann das Ergebnis in einem weiteren Schritt 165 ausgegeben werden und in einem weiteren Schritt 170 kann eine Entscheidung getroffen werden, ob die Ausführung des Verfahrens 100 mit einem weiteren Ausführungslauf durch Verzweigung zurück zu dem Schritt 110 fortgesetzt werden soll oder nicht.
Während vorausgehend wenigstens eine beispielhafte Ausführungsform der vorliegenden Erfindung beschrieben wurde, ist zu bemerken, dass es dazu eine große Anzahl von Variationen gibt. Es ist dabei auch zu beachten, dass die beschriebenen beispielhaften Ausführungsformen nur nicht einschränkende Beispiele darstellen, wie die vorliegende Erfindung umgesetzt werden kann, und dass es nicht beabsichtigt ist, den Umfang, die Anwendung oder die Konfiguration der hier beschriebenen Vorrichtungen und Verfahren zu beschränken. Vielmehr wird die vorausgehende Beschreibung dem Fachmann eine Anleitung zur Implementierung mindestens einer beispielhaften Ausführungsform der Erfindung zur Verfügung stellen, wobei es sich zu verstehen hat, dass verschiedene Änderungen in der Funktionsweise und der Anordnung der Elemente der beispielhaften Ausführungsform vorgenommen werden können, ohne dass dabei von dem in den angehängten Ansprüchen jeweils festgelegten Gegenstand sowie seinen rechtlichen Äquivalenten abgewichen wird.
Bezugszeichenliste

100: beispielhafte Ausführungsform eines Verfahrens zum Unterscheiden von verschiedenen Konfigurationszuständen eines Objekts
105-170: Verfahrensschritte des Verfahrens 100
200: Satz von drei ursprünglichen Bildern
205-215: einzelne Bilder des Satzes 200
300: vorverarbeiteter Satz von Bildern 200 mit einer zusätzlichen Veranschaulichung von Orientierungsdeskriptoren
305-315: einzelne Bilder des Satzes 300
400: vorverarbeiteter Satz von Bildern 200 mit einer zusätzlichen Veranschaulichung eines ROI, der durch die Bounding Box B definiert ist
405-415: einzelne Bilder des Satzes 400
500: Satz von normierten Bildern als Ergebnis einer affinen Transformation
505-515: einzelne Bilder des Satzes 500
600: Satz von Histogrammen auf der Grundlage von normierten Bildern 500
605-615: einzelne Bilder des Satzes 600
B: Bounding Box, welche einen ROI definiert
C: geometrischer Mittelpunkt von Bildpunkten (der Hand H), die sich auf das Objekt beziehen
G: Lücke bzw. Zeilen mit einer Lücke
H: Bild einer Hand (Objekt) eines Menschen
H': Bild der Hand eines Menschen in normierten Bildern 500
T: Bild einer Fingerspitze der Hand H

Claims

Verfahren (100) zum Unterscheiden von verschiedenen Konfigurationszuständen eines Objekts (H) auf der Grundlage einer bildlichen Darstellung des Objekts (H), wobei das Verfahren (100) aufweist: Aufnehmen (110) von ursprünglichen Bilddaten, die ein ursprüngliches Bild (205; 210; 215) darstellen, das ein Bild des Objekts (H) aufweist; Detektieren (120) des Objekts (H) innerhalb des ursprünglichen Bildes (205; 210; 215); Bestimmen (135) einer Orientierung des detektierten Objekts (H) innerhalb des ursprünglichen Bildes (205; 210; 215); Bestimmen (140) eines Bereichs, der von Interesse ist, ROI, innerhalb des ursprünglichen Bildes (205; 210; 215), der das Bild des Objekts (H) zumindest teilweise darstellt; Erzeugen (145) von normierten Bilddaten, die ein zweidimensionales normiertes Bild (505; 510; 515) darstellen, durch Transformieren des ROI des ursprünglichen Bildes (205; 210; 215) auf der Grundlage der bestimmten Orientierung des Objekts (H) in ein Bezugssystem, in dem der ROI durch das normierte Bild (505; 510; 515) mit einer vordefinierten Standardorientierung und -skalierung dargestellt wird; Extrahieren (150) von einem oder mehreren charakteristischen Merkmalen des Objekts (H), wie es durch die normierten Bilddaten dargestellt wird; und Klassifizieren (160) des extrahierten einen charakteristischen Merkmals des oder der extrahierten einen oder mehreren charakteristischen Merkmale gemäß einem zugehörigen Klassifizierungsschema, um aus einem Satz von zwei oder mehr möglichen Konfigurationszuständen des Objekts (H) einen spezifischen Konfigurationszustand zu bestimmen, der mit dem Ergebnis der Klassifizierung verbunden ist.
Verfahren (100) nach Anspruch 1, wobei das normierte Bild (505; 510; 515) ein digitales Bild ist, und mindestens eines der charakteristischen Merkmale des Objekts (H) wird auf der Grundlage von Histogrammdaten extrahiert, wobei die Histogrammdaten ein Histogramm (605; 610; 615) darstellen, das jede Zeile von mindestens einer Untermenge der Zeilen von Bildpunkten des normierten Bildes (505; 510; 515) entlang einer ausgewählten der Dimensionen des normierten Bildes einer jeweiligen Häufigkeit oder Anzahl von Bildpunkten, die sich auf das Objekt beziehen, in der jeweiligen Zeile zuordnet, wobei ein Bildpunkt, der sich auf das Objekt bezieht, ein Bildpunkt ist, der einen entsprechenden Abschnitt des Objekts (H) innerhalb des normierten Bildes (505; 510; 515) darstellt.
Verfahren (100) nach Anspruch 2, wobei das mindestens eine charakteristische Merkmal des Objekts (H) auf der Grundlage einer Anzahl oder eines Verhältnisses von Bildpunkten, die sich auf das Objekt beziehen, in einer ersten Teilmenge der Zeilen entlang der genannten Dimension des normierten Bildes (505; 510; 515) und einer Anzahl oder eines Verhältnisses von Bildpunkten, die sich auf das Objekt beziehen, in einer zweiten, anderen Teilmenge der Zeilen der gleichen Dimension des normierten Bildes (505; 510; 515) extrahiert wird.
Verfahren (100) nach Anspruch 2 oder 3, ferner aufweisend das Detektieren innerhalb des normierten Bildes (505; 510; 515) mindestens einer Teilmenge jener Zeilen entlang der besagten Dimension des normierten Bildes (505; 510; 515), die mehrere diskrete Zeilensegmente aufweisen, wobei jedes Zeilensegment aus Bildpunkten, die sich auf das Objekt beziehen, besteht und jedes Zeilensegment von seinem einen oder seinen mehreren benachbarten Zeilensegmenten der gleichen Zeile durch eine Lücke (G) getrennt ist, die aus mindestens einem Bildpunkt besteht, der kein Bildpunkt, der sich auf das Objekt bezieht, ist; und wobei das Extrahieren (150) des mindestens einen charakteristischen Merkmals des Objekts (H) ferner auf dem Vorhandensein von einer oder von mehreren solcher Lücken in mindestens einer der genannten Zeilen des normierten Bildes (505; 510; 515) basiert.
Verfahren (100) nach Anspruch 4, wobei das Extrahieren (150) des mindestens einen charakteristischen Merkmals des Objekts (H) auf einem oder mehreren von der Anzahl, den Größen, den Positionen der einen oder der mehreren Lücken (G) und für mindestens eine ausgewählte Lücke (G) auf der Anzahl von aneinander angrenzenden Zeilen, die eine entsprechende Lücke (G) aufweisen, die entweder direkt oder über eine oder mehrere andere Lücken mit der ausgewählten Lücke verbunden sind, basiert.
Verfahren (100) nach Anspruch 5, wobei das Extrahieren (150) des mindestens einen charakteristischen Merkmals des Objekts (H) auf der Grundlage des Vorhandenseins von einer oder von mehreren Lücken (G) in mindestens einer der besagten Zeilen des normierten Bildes (505; 510; 515) überwiegend oder ausschließlich auf demjenigen Satz von Lücken (G) innerhalb des normierten Bildes (505; 510; 515) basiert, der die größte Anzahl von aneinander angrenzenden Zeilen aufweist, die eine entsprechende Lücke aufweisen, die entweder direkt oder über eine oder mehrere andere Lücken mit der ausgewählten Lücke verbunden sind.
Verfahren (100) nach einem der Ansprüche 4 bis 6, wobei mindestens eine der Lücken (G) dadurch identifiziert wird, dass eine entsprechende Zeile des normierten Bildes (505; 510; 515) auf Übergänge von einem Bildpunkt, der sich auf das Objekt bezieht, zu einem Bildpunkt, der sich nicht auf das Objekt bezieht, und umgekehrt abgesucht wird.
Verfahren (100) nach einem der vorhergehenden Ansprüche, ferner aufweisend die Vorverarbeitung (115) der ursprünglichen Bilddaten vor dem Detektieren des darin enthaltenen Objekts (H), um die Bildqualität des Bildes, das durch die ursprünglichen Bilddaten dargestellt wird, zu verbessern.
Verfahren (100) nach einem der vorhergehenden Ansprüche, wobei die Bestimmung (135) der räumlichen Orientierung des Objekts (H) in dem ursprünglichen Bild (205; 210; 215) auf einem oder mehreren der Folgenden basiert: - einer Orientierung von einer Bounding Box (B), die das Objekt (H) umschließt, einer Kontur des Objekts (H) oder einer Anordnung von zwei oder mehr Extrempunkten (T) auf der Kontur des Objekts (H) in dem ursprünglichen Bild (205; 210; 215); - einer Verteilung von Bildpunkten, die sich auf das Objekt beziehen, innerhalb einer Bounding Box (B), die das Objekt (H) umschließt; - einer Orientierung, die durch die relative Position eines bestimmten Extrempunkts (T) des Objekts (H) und des geometrischen Mittelpunkts (C) oder des Schwerpunkts des Objekts (H) oder eines anderen Extrempunkts des Objekts (H) definiert ist; - Amplitudenbilddaten, die ein Amplitudenbild des Objekts (H) darstellen und die als Teil oder zusätzlich zu den ursprünglichen Bilddaten bereitgestellt werden; und - Tiefenbilddaten, die ein Tiefenbild des Objekts (H) darstellen und die als Teil oder zusätzlich zu den ursprünglichen Bilddaten bereitgestellt werden.
Verfahren (100) nach einem der vorhergehenden Ansprüche, wobei das Erzeugen der normierten Bilddaten das Transformieren des ROI in das Bezugssystem mittels einer affinen Transformation aufweist.
Verfahren (100) nach einem der vorhergehenden Ansprüche, wobei das Erzeugen (145) der normierten Bilddaten das Transformieren des ROI in das Bezugssystem in einer solchen Weise aufweist, dass das so transformierte Bild des ROI vollständig mit dem normierten Bild (505; 510; 515) übereinstimmt.
Verfahren (100) nach einem der vorhergehenden Ansprüche, wobei die ursprünglichen Bilddaten eine Sequenz von aneinander angrenzenden Einzelbildern aufweisen und das Verfahren (100) ferner das Führen (105, 155, 130) von Verlaufsdaten aufweist, die für jedes Einzelbild von zumindest einer Teilmenge der Sequenz das jeweilige Klassifizierungsergebnis darstellen, das zuvor für das entsprechende Einzelbild bestimmt wurde, wobei die Teilmenge eine aneinander angrenzende Reihe von Einzelbildern ist, die jeweils das Objekt (H) zumindest teilweise abbilden; wobei das Bestimmen (160) eines aktuellen Konfigurationszustands des Objekts (H) auf dem Ergebnis der Klassifizierung eines aktuellen Einzelbildes und den Verlaufsdaten basiert.
Verfahren (100) nach Anspruch 12, wobei der aktuelle Konfigurationszustand des Objekts (H) auf der Grundlage einer Mehrheitsentscheidung oder einer Mittelwertbildung in Bezug auf das Ergebnis der Klassifikation des aktuellen Einzelbildes und der Klassifizierungsergebnisse, die durch die Verlaufsdaten dargestellt werden, bestimmt (160).
Verfahren (100) nach einem der vorhergehenden Ansprüche, wobei das Objekt (H) eine menschliche Hand ist und das Verfahren (100) so konfiguriert ist, dass es, wenn eine Geste von der Hand ausgeführt wird, eine Zeigegeste von einer Streichgeste auf der Grundlage eines Klassifizierens eines oder mehrerer charakteristischer Merkmale der Hand, die aus den normierten Bilddaten extrahiert werden, unterscheidet.
Ein Computerprogramm oder ein nicht vorübergehendes computerlesbares Speichermedium, das Anweisungen enthält, die, wenn sie auf einem Computer oder einer Multi-Computer-Plattform ausgeführt werden, den Computer bzw. die Multi-Computer-Plattform dazu veranlassen, das Verfahren (100) nach einem der vorhergehenden Ansprüche auszuführen.
Bildverarbeitungsvorrichtung zum Unterscheiden von verschiedenen Konfigurationszuständen eines Objekts (H) auf der Grundlage einer bildlichen Darstellung des Objekts (H), wobei die Bildverarbeitungsvorrichtung so konfiguriert ist, dass sie das Verfahren (100) nach einem der Ansprüche 1 bis 14 durchführt.