DE102016010909A1

DE102016010909A1 - Strukturiertes Modellieren, Extrahieren und Lokalisieren von Wissen aus Bildern

Info

Publication number: DE102016010909A1
Application number: DE102016010909.2A
Authority: DE
Inventors: Scott D. Cohen; Walter Wei-Tuh Chang; Brian L. Price; Mohamed Hamdy Mahmoud Abdelbaky Elhoseiny
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2015-11-11
Filing date: 2016-09-08
Publication date: 2017-05-11
Also published as: GB2544379A; CN106682060A; GB2544379B; GB201615373D0; CN106682060B

Abstract

Es werden Techniken und Systeme zum Modellieren und Extrahieren von Wissen aus Bildern beschrieben. Eine digitale Medienumgebung ist konfiguriert, ein Modell zu lernen und zu verwenden, um eine beschreibende Zusammenfassung eines eingegebenen Bildes automatisch und ohne Benutzereingriff zu berechnen. Es werden Trainingsdaten erhalten, um ein Modell unter Verwendung von maschinellem Lernen zu lernen, um eine strukturierte Bildrepräsentation zu erzeugen, die als die beschreibende Zusammenfassung eines eingegebenen Bildes dient. Die Bilder und der assoziierte Text werden verarbeitet, um strukturiertes semantisches Wissen aus dem Text zu extrahieren, welches dann mit den Bildern assoziiert wird. Das strukturierte semantische Wissen wird zusammen mit entsprechenden Bildern verarbeitet, um ein Modell unter Verwendung von maschinellem Lernen zu trainieren, so dass das Modell eine Beziehung zwischen Textmerkmalen in dem strukturierten semantischen Wissen beschreibt. Nachdem das Modell gelernt wurde, kann das Modell verwendet werden, um eingegebene Bilder zu verarbeiten, um eine strukturierte Bildrepräsentation des Bildes zu erzeugen.

Description

Verwandte Anmeldungen
Diese Anmeldung beansprucht die Priorität der provisionellen US Anmeldung Nr. 62/254,147, eingereicht am 11. November 2015, mit dem Titel „Structured Knowledge Modeling, Extraction and Localization from Images”, deren Offenbarung in Gänze hiermit durch Bezugnahme aufgenommen ist.
Hintergrund
Bildersuchen involvieren oft die Herausforderung, Text in einer Suchanfrage mit Text abzugleichen, der mit dem Bild assoziiert ist, beispielsweise Tags und so weiter. Beispielsweise mag ein berufstätig Kreativer ein Bild erfassen und Text aufweisende Tags assoziieren, die verwendet werden, um das Bild zu lokalisieren. Andererseits gibt ein Benutzer, der versucht, das Bild in einer Bildersuche aufzufinden, ein oder mehrere Schlüsselwörter ein. Dementsprechend erfordert dies, dass der berufstätig Kreative und die Benutzer zu einem Verständnis gelangen, wie das Bild mit Text zu beschreiben ist, so dass der Benutzer das Bild auffinden der berufstätig Kreative das Bild für Benutzer verfügbar machen kann, welche das Bild wünschen. Als solche können herkömmliche Tag- und Schlüsselwortsuchtechniken können anfällig für Fehler, Missverständnisse und unterschiedliche Interpretationen sein, so dass sie zu ungenauen Suchergebnissen führen.
Weiter unterstützen herkömmliche Bildersuchtechniken keine hochpräzisen semantischen Bildersuchen auf Grund von Beschränkungen des herkömmlichen Taggens und Suchens von Bildern. Dies aus dem Grund, dass herkömmlich Techniken lediglich Tags mit den Bildern assoziieren, aber weder Beziehungen zwischen den Tags, noch mit den Bildern selbst definieren. Als solche können herkömmliche Suchtechniken keine akkuraten Suchergebnisse für komplexe Suchabfragen erzielen, wie etwa ein „Mann, der ein Baby in einem Hochstuhl füttert, während das Baby ein Spielzeug hält”. Dementsprechend zwingen diese herkömmlichen Suchtechniken Benutzer dazu, durch einige zehn, hunderte und sogar tausende von Bildern zu navigieren, oftmals unter Verwendung mehrerer Suchanfragen, um ein gewünschtes Bild aufzufinden.
Zusammenfassung
Es werden Techniken und Systeme beschrieben zum Extrahieren und Modellieren von strukturiertem Wissen aus Bildern. In einer oder mehreren Implementierungen ist eine digitale Medienumgebung konfiguriert, ein Modell zu lernen und zu verwenden, um eine beschreibende Zusammenfassung eines eingegebenen Bildes automatisch und ohne Benutzereingriff zu berechnen. Es werden zuerst Trainingsdaten (zum Beispiel Bild und unstrukturierter Text wie etwa Bildbeschriftungen) erlangt, um ein Modell unter Verwendung von maschinellem Lernen zu trainieren, um eine strukturierte Bildrepräsentation zu erzeugen, welche als die beschreibende Zusammenfassung eines eingegebenen Bildes dient.
Die Bilder und assoziierter Text werden dann verarbeitet, um aus dem Text strukturiertes semantisches Wissen zu extrahieren, das dann mit den Bildern assoziiert wird. Strukturiertes semantisches Wissen kann eine Vielfalt von Formen annehmen, wie Tupel <Subjekt, Attribut> und Tupel <Subjekt, Prädikat, Objekt>, welche als ein Ausdruck fungieren, welcher das Subjekt über das Prädikat mit dem Objekt verknüpft. Dies kann eine Assoziation mit dem Bild als Ganzes und/oder mit Objekten in dem Bild beinhalten, mittels einem Prozess, der „Lokalisierung” genannt wird.
Das strukturierte semantische Wissen wird dann mit entsprechenden Bildern verarbeitet, um ein Modell zu trainieren unter Verwendung von maschinellem Lernen, so dass das Modell eine Beziehung zwischen Textmerkmalen innerhalb des strukturierten semantischen Wissens (zum Beispiel Subjekte und Objekte) und Bildmerkmalen von Bildern herstellt, zum Beispiel Teile des Bildes, die in begrenzenden Rechtecken definiert sind, welche die Subjekte oder Objekte enthalten.
Sobald das Modell gelernt ist, kann das Modell dann verwendet werden, um eingegebene Bilder zu verarbeiten, um eine strukturierte Bildrepräsentation des Bildes zu erzeugen. Die strukturierte Bildrepräsentation kann Text beinhalten, der auf eine Weise strukturiert ist, welche Beziehungen zwischen Objekten in dem Bild und dem Bild selbst beschreibt. Die strukturierte Bildrepräsentation kann verwendet werden, um eine Vielfalt von Funktionalitäten zu unterstützen, einschließlich Bildersuchen, automatische Erzeugung von Bildbeschriftungen und Metadaten, Objekt-Taggen und so weiter.
Diese Zusammenfassung führt eine Auswahl von Konzepten auf vereinfachte Weise ein, die nachfolgend in der detaillierten Beschreibung weiter beschrieben werden. Als solches ist diese Zusammenfassung nicht dazu gedacht, wesentliche Merkmale des beanspruchten Gegenstandes zu identifizieren, und ist auch nicht dazu gedacht, als eine Hilfe beim Bestimmen des Bereichs des beanspruchten Gegenstandes verwendet zu werden.
Kurze Beschreibung der Zeichnungen
Die detaillierte Beschreibung wird mit Bezug auf die beigefügten Figuren beschrieben. In den Figuren identifiziert bzw. identifizieren die am weitesten links stehende(n) Ziffer(n) die Figur, in welcher das Bezugszeichen zum ersten Mal erscheint. Die Verwendung desselben Bezugszeichens in unterschiedlichen Instanzen in der Beschreibung und den Figuren kann ähnliche oder identische Elemente anzeigen. Entitäten, die in den Figuren dargestellt sind, können für eine oder für mehrere Entitäten repräsentativ sein, und es mag sich daher in der Diskussion synonym auf Singularformen oder Pluralformen der Entitäten bezogen werden.
1 ist eine Darstellung einer Umgebung in einer beispielhaften Implementierung, die eingerichtet ist, Techniken zur Wissensextraktion aus Bildern wie hierin beschrieben anzuwenden.
2 zeigt ein weiteres Beispiel eines Bildes, aus dem Wissen extrahiert wird unter Verwendung eines Wissensextraktionssystems von 1.
3 zeigt ein System, welches das Wissensextraktionssystem von 1 in größerem Detail zeigt.
4 zeigt eine beispielhafte Implementierung, welche ein Extraktionsmodul von 3 in größerem Detail zeigt.
5 zeigt ein beispielhaftes System, in welchem ein Extraktionsmodul von 4 als eine Lokalisierungsfunktionalität als Teil der Wissensextraktion enthaltend dargestellt ist.
6 zeigt ein Beispiel der Lokalisierung von strukturiertem semantischem Wissen zu Teilen von Bildern.
7 zeigt eine beispielhafte Implementierung, welche ein Modelltrainingsmodul von 3 in größerem Detail als ein maschinelles Lernmodul enthaltend zeigt, um eine Beziehung zwischen dem strukturierten semantischen Wissen und Bildern zu modellieren.
8 zeigt eine beispielhafte Implementierung, welche das Trainieren eines Modells unter Verwendung eines maschinellen Lernsystems mit zwei Spalten zeigt.
9 ist ein Flussdiagramm, das eine Prozedur in einer beispielhaften Implementierung zeigt, in welcher eine digitale Medienumgebung verwendet wird, um Wissen aus einem eingegebenen Bild automatisch und ohne Benutzereingriff zu extrahieren.
10 ist ein Flussdiagramm, das eine Prozedur in einer beispielhaften Implementierung zeigt, in welcher eine digitale Medienumgebung verwendet wird, um Wissen zu extrahieren und Textmerkmale zu Bildmerkmalen eines eingegebenen Bildes zu lokalisieren.
11 zeigt ein System zur strukturierten Fakten-Bildeinbettung.
12 zeigt Modell 1 und Modell 2 als Teil von maschinellem Lernen.
13 zeigt ein beispielhaftes System, das verschiedene Komponenten einer beispielhaften Vorrichtung beinhaltet, die implementiert werden kann als eine Art von Rechnervorrichtung wie beschrieben und/oder verwendet mit Bezug auf 1–12, um Ausführungsformen der hierin beschriebenen Techniken zu implementieren.
Detaillierte Beschreibung
Übersicht
Es werden Techniken und Systeme beschrieben, welche Wissensextraktion aus einem Bild unterstützen, um eine beschreibende Zusammenfassung des Bildes zu erzeugen, welche dann verwendet werden kann, um Bildersuche, automatische Erstellung von Bildbeschriftungen und Metadaten für das Bild und eine Vielfalt von anderen Verwendungen zu unterstützen. Die beschreibende Zusammenfassung kann zum Beispiel Qualitäten des Bildes insgesamt beschreiben, sowie Attribute, Objekte und Interaktion der Objekte miteinander in dem Bild wie nachstehend weiter beschrieben. Auch wenn im Nachfolgenden Beispiele beschrieben werden, welche Bildersuchen beinhalten, sind diese Techniken dementsprechend gleichermaßen auf eine Vielfalt von anderen Beispielen anwendbar, wie etwa automatisiertes strukturiertes Bilder-Taggen, Erzeugung von Bildbeschriftungen und so weiter.
Es werden zuerst Trainingsdaten erlangt, um ein Modell unter Verwendung von maschinellem Lernen zu trainieren, um eine strukturierte Bildrepräsentation zu erzeugen. Es werden hierin Techniken beschrieben, in denen Trainingsdaten erhalten werden, welche Bilder und zugeordneten Text (zum Beispiel Beschriftungen der Bilder, welche jede Art von Textkonfiguration beinhalten, welche eine von dem Bild eingefangene Szene beschreibt) verwendet, welche aus eine Vielfalt von Quellen leicht erhalten werden können. Die Bilder und zugeordnete Text werden dann automatisch und ohne Benutzereingriff verarbeitet, um aus dem Text strukturiertes semantisches Wissen zu extrahieren, das dann mit den Bildern assoziiert wird. Dies kann eine Assoziation mit dem Bild als Ganzes und/oder mit Objekten in dem Bild durch einen im Folgenden „Lokalisierung” genannten Prozess beinhalten. Die Verwendung dieser Trainingsdaten unterscheidet sich von herkömmlichen Techniken, die auf Crowd Sourcing beruhen, wobei Menschen manuell Bilder beschriften, was teuer, fehlerträchtig und ineffizient sein kann.
In einem Beispiel wird strukturiertes semantisches Wissen aus dem Text extrahiert unter Verwendung einer Verarbeitung natürlicher Sprache. Strukturiertes semantisches Wissen kann eine Vielfalt von Formen annehmen, wie Tupel <Subjekt, Attribut> und <Subjekt, Prädikat, Objekt>, welche als eine Aussage fungieren, welche das Subjekt über das Prädikat mit dem Objekt verknüpft. Das strukturierte semantische Wissen wird dann mit den entsprechenden Bildern verarbeitet, um ein Modell unter Verwendung von maschinellem Lernen zu trainieren, so dass das Modell eine Beziehung zwischen Textmerkmalen in dem strukturierten semantischen Wissen (zum Beispiel Subjekte und Objekte) und Bildmerkmale von Bildern beschreibt, zum Beispiel Teile des Bildes, die in begrenzenden Rechtecken definiert sind, welche die Subjekte oder Objekte enthalten. In einem Beispiel ist das Modell ein gemeinsames probabilistisches Modell, das errichtet wird, ohne eine Reduktion eines großen Vokabulars einzelner Wörter zu einer kleinen vordefinierten Menge von Konzepten zu erfordern, und als solches kann das Modell direkt dieses große Vokabular adressieren, was unter Verwendung herkömmlicher Techniken nicht möglich ist.
Zum Beispiel können Lokalisierungstechniken verwendet werden, so dass das strukturierte semantische Wissen auf das entsprechende Objekt in einem Bild abgebildet wird. Ein Tupel <Baby, hält, Spielzeug> kann zum Beispiel das Subjekt „Baby” in einem Bild unter Verwendung des Prädikats „hält” auf das Objekt „Spielzeug” in dem Bild abbilden und stellt daher eine Struktur bereit, um zu beschreiben, was in dem Bild „vor sich geht”, was in herkömmlichen Techniken des unstrukturierten Taggens nicht möglich war. Die Verwendung von explizitem, strukturiertem Wissen, das von den hierin beschriebenen Techniken bereitgestellt wird, kann daher auf eine Weise verwendet werden, die von einer Rechnervorrichtung durchsucht werden kann.
Wenn man beispielsweise nach Bildern einer „roten Blume” sucht, betrachtet ein herkömmlicher Sack-von-Worten bzw. „Bag-of-Words” Ansatz „rot” und „Blume” getrennt, was Bilder von Blumen zurückliefern mag, die nicht rot sind, die aber rot an anderer Stelle in dem Bild enthalten. Die Verwendung der hierin beschriebenen Techniken weiß jedoch, dass ein Benutzer nach dem Konzept <Blume, rot> sucht von einer Struktur einer Suchanforderung, was dann verwendet wird, um Bilder aufzufinden, die eine entsprechende Struktur aufweisen. Auf diese Weise kann das Modell eine erhöhte Genauigkeit gegenüber Techniken aufweisen, die auf einer Beschreibung des Bildes als ein ganzes basieren, wie hiernach weiter beschrieben mit Bezug auf 5 und 6.
Diese Abbildung kann weiter einen gemeinsamen Vektorraum nutzen, der Differenzen pönalisiert, so dass ähnliche semantische Konzepte in diesem Raum einander nahe sind. Dies kann zum Beispiel ausgeführt werden für Merkmalsvektoren für Text, so dass „kurvige Straße” und „sich windende Straße” einander relativ nahe sind in dem Vektorraum. Ähnliche Techniken können verwendet werden, um ähnliche Konzepte für Bildvektoren zu begünstigen, sowie um die Bild- und Textvektoren aneinander anzupassen. Eine Vielfalt von Techniken des maschinellen Lernens können verwendet werden, um das Modell so zu trainieren, dass es diese Abbildung ausführt. In einem solchen Beispiel wird ein zweispaltiges tiefes Netzwerk verwendet, um die Korrelation zwischen der strukturierten semantischen Information und einem Bild oder einem Teil eines Bildes, zum Beispiel ein begrenzendes Rechteck, von dem ein Beispiel in 8 gezeigt ist, zu lernen.
Sobald das Modell gelernt wurde, kann das Modell dann verwendet werden, um eingegebene Bilder zu verarbeiten, um eine strukturierte Bildrepräsentation des Bildes zu erzeugen durch Berechnen eines Konfidenzwerts, um zu beschreiben, welcher Text am besten dem Bild entspricht. Das Modell kann zum Beispiel über begrenzende Rechtecke von Teilen des Bildes iterieren, um zu bestimmen, welcher strukturierte Text (zum Beispiel <Blume, rot>) wahrscheinlich den Teil des Bildes beschreibt, wie Objekte, Attribute und Beziehungen zwischen diesen, durch Berechnen von Wahrscheinlichkeiten (das heißt, die Konfidenzwerte), dass der strukturierte Text ein gleiches Konzept beschreibt wie die Bildmerkmale in dem Bild. Auf diese Weise stellt die strukturierte Bildrepräsentation eine beschreibende Zusammenfassung des Bildes bereit, die strukturierten Text verwendet, um die Bilder und Teile des Bildes zu beschreiben. Die strukturierte Bildrepräsentation kann daher für ein Bildberechnet werden, um Text zu enthalten, der auf eine Weise strukturiert ist, die Beziehungen zwischen Objekten in dem Bild (zum Beispiel Blume), Attribute des Objekts (zum Beispiel rot), Beziehungen dazwischen (zum Beispiel <Blume, rot> <Baby, hält, Spielzeug>) und das Bild selbst beschreibt, wie oben beschrieben. Die strukturierte Bildrepräsentation kann verwendet werden, um eine Vielfalt von Funktionalitäten zu unterstützen, einschließlich Bildersuchen, automatische Erstellung von Bildbeschriftungen und Metadaten, automatisiertes Taggen von Objekten und so weiter. Eine weitere Diskussion dieser und anderer Beispiele ist in den folgenden Abschnitten enthalten.
In der folgenden Diskussion wird zunächst eine beispielhafte Umgebung beschrieben, welche die hierin beschriebenen Wissensextraktionstechniken verwenden kann. Danach werden dann beispielhafte Prozeduren beschrieben, die in der beispielhaften Umgebung sowie anderen Umgebungen ausgeführt werden können. Dementsprechend ist das Ausführen der beispielhaften Prozeduren nicht auf die beispielhafte Umgebung beschränkt, und die beispielhafte Umgebung ist nicht auf das Ausführen der beispielhaften Prozeduren beschränkt.
Beispielhafte Umgebung
1 ist eine Darstellung einer Umgebung 100 in einer beispielhaften Implementierung, die eingerichtet ist, hierin beschriebene Wissensextraktionstechniken anzuwenden. Die dargestellte Umgebung 100 beinhaltet eine Rechnervorrichtung 102, die auf vielfältige Weise konfiguriert sein kann.
Die Rechnervorrichtung 102 kann zum Beispiel als ein Schreibtischcomputer, ein Laptopcomputer, eine Mobilvorrichtung (welche zum Beispiel eine handgehaltene Konfiguration annimmt, wie etwa wie dargestellt ein Tisch oder ein Mobiltelefon), tragbare Vorrichtungen und so weiter. Daher kann die Rechnervorrichtung 102 von Vorrichtungen mit vollständigen Ressourcen mit erheblichen Speicherressourcen und Prozessorressourcen (zum Beispiel PCs, Spielekonsolen) bis zu einer Vorrichtung mit geringen Ressourcen mit begrenzten Speicherressourcen und/oder Prozessorressourcen (zum Beispiel Mobilvorrichtungen) reichen. Zudem kann, auch wenn nur eine einzelne Rechnervorrichtung 102 gezeigt ist, die Rechnervorrichtung 102 für eine Vielzahl von unterschiedlichen Vorrichtungen repräsentativ sein, wie etwa mehrere Server, die von einem Unternehmen verwendet werden, um Operationen „über die Cloud” auszuführen, wie weiter Beschrieben mit Bezug auf 13.
Die Rechnervorrichtung 102 ist ein Wissensextraktionssystem 104 enthaltend dargestellt, das für eine Funktionalität repräsentativ ist, um aus einem Bild 108 eine strukturierte Bildrepräsentation 106 zu bilden, welche das Bild 108 beschreibend zusammenfasst. Die strukturierte Bildrepräsentation 106 kann verwendet werden, um eine Vielfalt von Funktionalitäten zu unterstützen, wie sie etwa von einem Bildersuchmodul 110 zu verwenden ist, um eine Datenbank 112 von Bildern 114 basierend auf entsprechenden strukturierten Bildrepräsentationen zu durchsuchen. Wie zuvor beschrieben sind auch andere Verwendungen der strukturierten Bildrepräsentation 106 angedacht, wie die automatische Erstellung von Bildbeschriftungen und Metadaten für Bilder, wie durch ein Bildbeschriftungserzeugungssystem 118 repräsentiert. Obwohl das Wissensextraktionssystem 104 und das Bildersuchmodul 110 und die Datenbank 112 als unter Verwendung der Rechnervorrichtung 102 implementiert gezeigt sind, kann diese Funktionalität auch weiter aufgeteilt sein „über die Cloud” über ein Netzwerk 116, wie weiter Beschrieben mit Bezug auf 13.
Die strukturierte Bildrepräsentation 106 stellt eine Menge von Konzepten mit einer Struktur bereit, welche eine Beziehung zwischen Entitäten, die in den Konzepten enthalten sind, beschreibt. Dadurch kann die strukturierte Bildrepräsentation als eine Intermediärrepräsentation des Bildes 108 unter Verwendung von Text fungieren, um nicht nur zu beschreiben, „was enthalten ist” in dem Bild 108, sondern auch eine Beziehung von Entitäten und Konzepten untereinander, die in dem Bild 108 enthalten sind. Dies kann verwendet werden, um einen höheren Grad an semantischer Präzision in einer Bildersuche zu unterstützen, der unter Verwendung herkömmlicher Techniken, die auf unstrukturierten Tags basieren, nicht möglich ist.
Eine hochpräzise semantische Bildersuche beinhaltet zum Beispiel das Auffinden von Bildern mit dem spezifischen Inhalt, der in einer textuellen Suchabfrage angefordert wird. Zum Beispiel kann ein Benutzer eine Suchabfrage in einen Bilderteildienst eingeben nach einem „Mann, der ein Baby in einem Hochstuhl füttert, während das Baby ein Spielzeug hält”, um ein Bild von Interesse aufzufinden, das zur Lizensierung verfügbar ist. Herkömmliche Techniken, die auf unstrukturierten Tags basieren, sind jedoch nicht in der Lage, diese Abfrage akkurat zu erfüllen. Aufgrund dieses Fehlens von Struktur erfüllen in der Praxis von herkömmlichen Bildersuchen bereitgestellte Bilder einige, aber nicht alle der Elemente in der Abfrage, wie etwa ein Mann, der ein Baby füttert, aber das Baby hält kein Spielzeug, ein Baby in einem Hochstuhl, aber es ist kein Mann im Bild, ein Bild einer Frau, die ein Baby füttert, das ein Spielzeug hält und so weiter.
Eine strukturierte Bildrepräsentation 106 stellt jedoch eine explizite Repräsentation davon bereit, was über ein Bild 108 bekannt ist. Dies unterstützt eine Fähigkeit, zu bestimmen, welche Konzepte in einer Suchabfrage in einem durchsuchten Datenbankbild fehlen, und verbessern daher die Genauigkeit der Suchergebnisse. Dementsprechend kann ein Maß der Ähnlichkeit zwischen der Suchabfrage und einem Bild 114 in einer Datenbank 112 berücksichtigen, welche und wie viele Konzepte fehlen. Darüber hinaus können, wenn es ein Bild gibt, das nahe kommt, die Abfrage zu erfüllen, dem aber ein Konzept fehlt, Techniken verwendet werden, um ein neues Bild zu synthetisieren unter Verwendung des nahekommenden Bildes und von Inhalt von einem anderen Bild, welches das fehlende Konzept enthält, wie im Folgenden weiter beschrieben.
Es sei ein Beispiel der Verwendung der strukturierten Bildrepräsentation 106 betrachtet, in welchem das extrahierte Wissen des Bildes 108 das folgende enthält:
{<Mann, lächelnd>, <Baby, lächelnd>, <Baby, hält, Spielzeug>,
<Mann, sitzt am, Tisch>, <Baby, sitzt in, Hochstuhl>,
<Mann, füttert, Baby>, <Baby, trägt, blaue Kleidung>}.
Das Bildbeschriftungserzeugungssystem 118 ist konfiguriert, dieses extrahierte Wissen zu verwenden, um eine Bildbeschriftung wie folgt zu erzeugen:
„Ein Mann füttert ein lächelndes Baby, während das Baby ein Spielzeug hält. Das Baby sitzt in einem Hochstuhl. Der Mann ist auch fröhlich. Es ist wahrscheinlich ein Vater, der seinen Sohn füttert. Der Vater und sein Sohn haben zusammen Spaß, während die Mutter weg ist”.
Die explizite Repräsentation von Wissen der strukturierten Bildrepräsentation 106 ermöglicht eine Beschreibung in mehreren Sätzen der Szene des Bildes 108 als eine Bildbeschriftung in diesem Beispiel, die automatisch und ohne Benutzereingriff gebildet wird. Die ersten zwei Sätze sind eine einfache Inklusion der Konzepte <Mann, füttert, Baby>, <Baby, hält, Spielzeug> und <Baby, sitzt in, Hochstuhl>. Der dritte Satz involviert ein Schlussfolgern basierend auf den Konzepten <Mann, lächelnd> und <Baby, lächelnd>, um durch das Bildbeschriftungserzeugungssystem 118 zu schlussfolgern, dass der Mann fröhlich ist, und um das „auch” hinzuzufügen, weil sowohl das Baby, als auch der Mann lächelt. Der vierte Satz verwendet ebenfalls ein Schlussfolgern basierend auf dem extrahierten Konzept, dass das Baby blau trägt, um zu schließen, dass das Baby ein Junge ist.
Das Bildbeschriftungserzeugungssystem 118 kann auch externes statistisches Wissen verwenden, zum Beispiel dass in den meisten Fällen, wenn ein Mann ein männliches Baby füttert, es ein Vater ist, der seinen Sohn füttert. Der obige vierte erzeuge Satz ist abgemildert mit „Es ist wahrscheinlich ...”, weil Statistiken ein zumutbares Maß an Unsicherheit in dieser Schlussfolgerung anzeigen können, dass das Baby ein Junge ist, weil das Baby blaue Kleidung trägt. Da die strukturierte Bildrepräsentation 106 verwendet werden kann, um alle relevante Informationen über die Szene zu extrahieren, kann die Abwesenheit von Information auch als Teil von Schlussfolgerungen verwendet werden, die von dem Bildbeschriftungserzeugungssystem 118 ausgeführt werden. In diesem Fall erwähnt die strukturierte Bildrepräsentation 106 keine Frau als im Bild 108 präsent. Daher kann das Bildbeschriftungserzeugungssystem 118 schlussfolgern, das die „Mutter weg” ist, und kombiniert mit den Konzepten, dass der Mann und das Baby lächeln, den Schlusssatz bilden „Der Vater und sein Sohn haben zusammen Spaß, während die Mutter weg ist”.
Es sei bemerkt, dass ein Bildbeschriftungserzeugungssystem 118 vermeiden kann, einige der extrahierten Informationen zu verwenden. In diesem Fall erwähnt die Bildbeschriftung nicht, dass der Mann am Tisch sitzt, weil das Bildbeschriftungserzeugungssystem 118 das Konzept als uninteressant oder unwichtig bewertet hat für das Beschreiben der Szene, oder dass es mit hoher Wahrscheinlichkeit aus einem anderen Konzept geschlussfolgert werden kann, wie etwa dass das Baby in einem Hochstuhl sitzt. Diese Schlussfolgerung wird ermöglicht durch Verwendung der strukturierten Bildrepräsentation 106 als eine Menge strukturierten Wissens, das als eine beschreibende Zusammenfassung des Bildes 106 unter Verwendung von Text fungiert.
Die strukturierte Bildrepräsentation 106 kann auch Part-of-Speech (POS) Tags verwenden, wie ein einzelnes Nomen, Adjektiv, Adverb, und so weiter, für die extrahierten Subjekte, Prädikate, Aktionen, Attribute und Objekte. Die Part-of-Speech Tags können als Teil des Schlussfolgerns wie oben beschrieben verwendet werden, sowie auch zum Positionsfüllen in einem grammatikbasierten Bildbeschriftungserzeugungsansatz, und um sicherzustellen, dass ein gültiger Satz erzeugt wird, wie nachstehend weiter beschrieben.
Darüber hinaus ermöglicht die explizite Extraktion von Wissen aus Bildern 108 auf der Ebene der Objekte in dem Bild 108 und entsprechenden Attributen und Interaktionen weitere Schlussfolgerungen über Szeneneigenschaften auf mittlerer und höherer Ebene. Die Schlussfolgerungen darüber, dass das Baby ein Junge ist, der Mann fröhlich ist und dass Vater und Sohn Spaß haben, während die Mutter weg ist, sind Beispiele.
2 zeigt ein weiteres Beispiel eines Bildes 200. In diesem Beispiel kann die strukturierte Bildrepräsentation 106 das folgende Wissen haben, das aus dem Bild 200 extrahiert ist:
{<Fußball>, <Person 1, trägt, blaues Hemd>,
<Person 2, trägt, rotes Hemd>, <Person 3, trägt, rotes Hemd>,
<Person 4, trägt, rotes Hemd>, <Person 5, trägt, blaues Hemd>,
<Person 6, trägt, blaues Hemd>, <Feld>, <Person 5, tritt, Fußball>,
<Person 6, rennt>, <Person 4, verfolgt, Person 5>, <Person 3, läuft>,
<Person 1, lauft>}.
Das Vorhandensein eines Fußballs zeigt an, dass die Leute Fußball spielen, was weiter durch das Wissen gestützt wird, dass einer der Leute den Fußball tritt. Dass es nur zwei Farben von Hemden gibt, zeigt an, dass zwei Mannschaften ein Spiel spielen. Dies wird durch das Wissen gestützt, dass eine Person in Rot tatsächlich eine Person in blau verfolgt, welche den Ball tritt, und dass andere Leute auf einem Feld rennen. Aus diesem extrahierten Wissen auf Objektebene können Szenenebeneneigenschaften von dem Bildbeschriftungserzeugungssystem 118 mit verbesserten Objektebenenbeschreibungen abgeleitet werden, wie etwa „Ein Fußballspiel zwischen einer Mannschaft in rot und einer Mannschaft in blau”.
Weiteres Schließen und Schlussfolgern über Szenen und deren konstituierender Objekte und Aktionen kann auch erzielt werden durch Errichten einer Wissensbasis über den Inhalt von Bildern, wo die Wissensbasis dann von einem Schlussfolgerungswerk verwendet wird. Die Errichtung einer Wissensbasis kann als Eingabe zum Beispiel strukturiertes Wissen nehmen, das Bilder beschreibt, wie etwa <Subjekt, Attribut, ->, <Subjekt, Prädikat, Objekt>, <Subjekt, -, ->, <-, Aktion, ->. Eingegebene Daten zum Errichten der Wissensbasis können aus bestehenden Bildbeschriftungsdatenbanken und aus Bildbeschriftungen und umgebendem Text in Dokumenten genommen werden. Die Fähigkeit der hierin beschriebenen Techniken, derartiges Wissen aus einem beliebigen Bild zu extrahieren, erlaubt es der Bildwissensbasis, viel mehr Daten aus nicht mit Bildbeschriftungen versehenen Bildern und nicht mit Tags versehenen Bildern aufzunehmen, wie es für die meisten Bilder der Fall ist. Die Bildwissensbasis und das entsprechende Schlussfolgerungswerk können Schlussfolgerungen treffen, wie diejenigen, die in dem obigen Beispiel des Mannes, der das Baby füttert, notwendig sind. Die Bildwissensbasis kann auch die Statistiken bereitstellen, um das probabilistische Schlussfolgern zu unterstützen, das in jenem Beispiel verwendet wird, die das Schlussfolgern, dass der Mann wahrscheinlich der Vater des Babys ist. Hätte das Beispiel ein Attribut wie <Mann, alt> enthalten, dann könnte eine wahrscheinlichere Schlussfolgerung beinhalten, dass der Mann wahrscheinlich der Großvater des Babys ist.
Nachdem Beispiele einer Umgebung beschrieben wurden, in denen eine strukturierte Bildrepräsentation 106 verwendet wird, um Bilder 114 beschreibend zusammenzufassen, ist im Folgenden eine eingehendere Diskussion von Operationen des Wissensextraktionssystems 104 zum Erzeugen und Verwenden eines Modells als Teil der Extraktion von Wissen aus Bildern enthalten.
3 zeigt ein System 300 einer beispielhaften Implementierung, welche das Wissensextraktionssystem 104 von 1 in größerem Detail zeigt. In diesem Beispiel verwendet das Wissensextraktionssystem 104 einen Ansatz des maschinellen Lernens, um die strukturierte Bildrepräsentation 106 zu erzeugen. Dementsprechend werden von dem Wissensextraktionssystem 110 zuerst Trainingsdaten 302 erhalten, die dazu zu verwenden sind, das Modell zu trainieren, das danach verwendet wird, um die strukturierte Bildrepräsentation 106 zu bilden. Herkömmliche Techniken, die verwendet werden, um Modelle in ähnlichen Szenarios zu trainieren (zum Beispiel Bildverständnisprobleme) basieren darauf, dass Benutzer die Bilder manuell taggen, um die Trainingsdaten 302 zu bilden, was ineffizient, teuer, zeitaufwändig und fehlerträchtig sein kann. In den hierin beschriebenen Techniken wird das Modell jedoch trainiert unter Verwendung von Techniken, die automatisch und ohne Benutzereingriff ausgeführt werden können.
In dem dargestellten Beispiel beinhalten die Trainingsdaten 302 Bilder 304 und assoziierten Text 306, wie Bildbeschriftungen oder Metadaten, die mit den Bildern 304 assoziiert sind. Ein Extraktionsmodul 308 wird dann verwendet, um strukturiertes semantisches Wissen 310 zu extrahieren, zum Beispiel „<Subjekt, Attribut>, Bild” und „<Subjekt, Prädikat, Objekt>, Bild”, unter Verwendung einer Verarbeitung natürlicher Sprache, wie mit Bezug auf 4 weiter beschrieben. Das Extrahieren kann auch eine Lokalisierung des strukturierten semantischen Wissens 310 zu Objekten in dem Bild beinhalten, wie mit Bezug auf 5 und 6 weiter beschrieben.
Die Bilder 304 und das entsprechende strukturierte semantische Wissen 310 werden dann an ein Modelltrainingsmodul 312 übergeben. Das Modelltrainingsmodul 312 ist als ein maschinelles Lernmodul 314 enthaltend dargestellt, das für eine Funktionalität repräsentativ ist, maschinelles Lernen (zum Beispiel neuronale Netzwerke, faltende neuronale Netzwerke bzw. convolutional neural networks und so weiter) zu verwenden, um das Modell 316 unter Verwendung der Bilder 304 und des strukturierten semantischen Wissens 310 zu trainieren. Das Modell 316 wird trainiert, eine Beziehung zwischen Textmerkmalen, die in dem strukturierten semantischen Wissen 310 enthalten sind, und Bildmerkmalen in den Bildern zu definieren, wie mit Bezug auf 7 weiter beschrieben.
Das Modell 316 wird dann von einem strukturierten Logikbestimmungsmodul 318 verwendet, um eine strukturierte Bildrepräsentation 106 für ein eingegebenes Bild 108 zu erzeugen. Die strukturierte Bildrepräsentation 106 kann zum Beispiel Text beinhalten, der so strukturiert ist, Konzepte des Bildes 108 zu definieren, selbst in Fällen, in denen das Bild 108 keinen Text aufweist. Vielmehr kann das Modell 316 verwendet werden, um diesen Text als Teil der strukturierten Bildrepräsentation 106 zu erzeugen, welcher dann von dem strukturierten Bildrepräsentationsverwendungsmodul 320 verwendet wird, um eine Vielfalt von Funktionalitäten automatisch und ohne Benutzereingriff zu steuern, zu regeln und/oder zu kontrollieren, wie Bildersuchen, Erzeugung von Bildbeschriftungen und Metadaten und so weiter. Nachdem beispielhafte Module und Funktionalitäten des Wissensextraktionssystems 110 allgemein beschrieben wurden, enthält das Folgende eine Beschreibung dieser Module in größerem Detail.
4 zeigt eine beispielhafte Implementierung 400, die das Extraktionsmodul 308 von 3 in größerem Detail zeigt. Das Extraktionsmodul 308 enthält ein Modul 402 zur Verarbeitung natürlicher Sprache, das repräsentativ ist für eine Funktionalität der Verwendung einer Verarbeitung natürlicher Sprache („natural language processing”, NLP) zur semantischen Wissensextraktion aus Freiform-(das heißt, unstrukturiertem)Text 306, der mit Bildern 304 in den Trainingsdaten 302 assoziiert ist. Solche Freiformbeschreibungen sind leicht verfügbar in bestehenden Bildbeschriftungsdatenbanken und in Dokumenten mit Bildern, wie Webseiten und PDF Dokumenten, und daher kann das Modul 402 zur Verarbeitung natürlicher Sprache sich diese Verfügbarkeit zu Nutze machen, was bei Verwendung herkömmlicher manueller Techniken nicht möglich ist. Es können jedoch auch manuelle Techniken verwendet werden, bei denen ein Arbeiter Bildbeschriftungstexte 306 für Bilder 304 erstellt, um die Bilder 304 zu beschreiben.
Das strukturierte semantische Wissen 310 kann auf vielfältige Weise konfiguriert werden, wie zuvor beschrieben, wie etwa Tupel „<Subjekt, Attribut>, Bild” 406 und/oder „<Subjekt, Prädikat, Objekt>, Bild” 408. Beispiele von Bildbeschriftungen und Tupeln strukturierten Wissens, wie sie durch das Extraktionsmodul 308 ausgeführt werden, beinhalten „Ein Junge streichelt einen Hund, während er Fernsehen sieht”, was dann extrahiert wird als „<Junge, streichelt, Hund>, <Junge, sieht, Fernseher>”. In einem anderen Beispiel wird eine Bildbeschriftung „Ein braunes Pferd frisst Gras in einem großen, grünen Feld” dann extrahiert als „<Pferd, braun>, <Feld, grün>, <Pferd, frisst, Gras>, <Pferd, im, Feld>”.
Eine Vielfalt von Tupelextraktionslösungen können von dem Modul 402 zur Verarbeitung natürlicher Sprache verwendet werden. Zudem können in einigen Fällen eine Vielzahl von Tupelextraktionstechniken auf dieselbe Bildbeschriftung angewandt werden, und ein Konsens unter den Techniken verwendet werden, um Fehler in Tupeln zu korrigieren, schlechte Tupel zu entfernen und Tupel hoher Konfidenz zu identifizieren oder um Tupeln Konfidenzen zuzuweisen. Eine ähnliche Technik kann verwendet werden, in der eine Extraktionstechnik verwendet wird, um Tupelextraktion gemeinsam auszuführen auf einer Menge von Bildbeschriftungen für dasselbe Bild, und um einen Konsens zu verwenden, um Fehler in Tupeln zu korrigieren, schlechte Tupel zu entfernen und um Tupel mit hoher Konfidenz zu identifizieren oder um Tupeln Konfidenzen zuzuweisen. Diese Daten sind leicht verfügbar aus bestehenden Datenbanken, da Bilder oftmals mehrere Bildbeschriftungen aufweisen. Zudem können Eingaben, die aus Crowdsourcing erhalten werden, ebenfalls verwendet werden, um gute Tupel zu bestätigen und um schlechte Tupel zu entfernen.
In einer oder in mehreren Implementierungen werden Techniken zur Repräsentation abstrakter Bedeutung („abstract meaning representation”, AMR) von dem Modul 402 zur Verarbeitung natürlicher Sprache verwendet, um die Tupelextraktion zu unterstützen. AMR zielt darauf ab, ein tieferes semantische Verständnis aus Freiformtext zu erhalten. Auch wenn es nicht explizit Wissenstupel der Form <Subjekt, Attribut> oder <Subjekt, Prädikat, Objekt> extrahiert, kann aus einer AMR Ausgabe eine Tupelrepräsentation extrahiert werden. Darüber hinaus können Wissenstupel aus einem Szenengraph (zum Beispiel einer Stanford Szenengraphdatenmenge) extrahiert werden, welcher eine Art der Bildrepräsentation zur Erfassung von Objektattributen und Beziehungen zur Verwendung in semantischem Bildabruf ist.
5 zeigt ein beispielhaftes System 500, in dem das Extraktionsmodul 308 von 4 als eine Lokalisierungsfunktionalität als Teil der Wissensextraktion enthaltend gezeigt ist. Zusätzlich zur Extraktion von strukturiertem semantischem Wissen 310, um ein Bild als Ganzes zu beschreiben als Teil der Trainingsdaten 302, kann das strukturierte semantische Wissen 310 auch in einem Bild lokalisiert werden, um effizientes und korrektes maschinelles Lernen zu fördern.
Wenn es zum Beispiel eine komplexe Szene gibt, beispielsweise mit einem Mann, der einen Hund Gassi führt, dann kann das strukturierte semantische Wissen 310 konfiguriert sein als „<Mann, Gassi führen, Hund>, Bilddaten”, wobei die Bilddaten sich auf einen Teil des Bildes 304 beziehen, welcher den Mann, der den Hund Gassi führt, enthält, was hiernach als ein begrenzendes Rechteck 504 bezeichnet wird. Daher können sich Tupel des strukturierten semantischen Wissens 310 auf Teile in dem Bild beziehen, von denen Beispiele repräsentiert sind als „<Subjekt, Attribut>, Teil” 506 und „<Subjekt, Prädikat, Objekt>, Teil” 508.
Dementsprechend kann dies die Genauigkeit beim Trainieren und nachfolgenden Verwenden für Bilder, die mehrere Entitäten und entsprechende Aktionen aufweisen, befördern. Wenn zum Beispiel eine Gesamtheit eines Bildes, das mit einer Bildbeschriftung versehen ist, die mehrere Konzepte enthält, zum Beispiel eine Frau, die joggt, oder ein Junge, der auf einen Baum klettert, dann wird jedes maschinelle Lernen, das ausgeführt wird, damit konfrontiert werden, zu bestimmen, welcher Teil des Bildes tatsächlich mit <Mann, Gassi führen, Hund> korreliert. Umso mehr das strukturierte semantische Wissen 310 lokalisiert ist, um so einfacher wird es daher sein, durch das Modelltrainingsmodul 312 ein hochqualitatives Modell anzupassen, das Bilder und strukturierten Text korreliert. Das Problem, Teile einer textlichen Beschreibung mit Teilen eines Bildes zu assoziieren, wird auch erden bzw. „grounding” genannt.
Das Erdungs- und Lokalisierungsmodul 502 kann eine Vielfalt von Techniken verwenden, um die Lokalisierung auszuführen. In einem Beispiel werden Objekterkennungs- und -klassifizierungsmodule verwendet, die konfiguriert sind, um bestimmte Objekte zu erkennen und/oder um Objekte zu klassifizieren, um Teile von Bildern 304 zu verarbeiten. Ein Bereichs-CNN (faltendes neuronales Netzwerk bzw. „convolutional neural network”) oder eine semantische Segmentierungstechnik können auch verwendet werden, um Objekte in einem Bild zu lokalisieren.
In einem anderen Beispiel werden Tupel strukturierten semantischen Wissens 310 wie <Subjekt, Attribut> und <Subjekt, Prädikat, Objekt> und lokalisierte Objekte identifiziert indem Fälle berücksichtigt werden, wie viele Klassenvorkommen lokalisiert wurden für die Subjekt- und Objektklassen, wie nachstehend weiter beschrieben. Dies kann auch das Identifizieren von Subjekten oder Objekten beinhalten, die anzeigen, dass der Tupel eine gesamte Szene beschreibt, in welchem Fall das gesamte Trainingsbild 304 mit dem Tupel des strukturierten semantischen Wissens 310 assoziiert wird. Zu diesem Zweck wird eine externe Liste von Szenentypen verwendet, beispielsweise Badezimmer.
Bevor das Erdungs- und Lokalisierungsmodul 502 die begrenzenden Rechtecke für eine Objektklasse, die in dem Subjekt oder Objekt eines Tupels genannt wird, nachsehen kann, wird der Text, der für das Subjekt oder Objekt verwendet wird, auf eine vordefinierte Untermenge von Datenbankobjekten abgebildet, da begrenzende Rechtecke typischer Weise gemäß diesen Klassenbezeichnern gespeichert werden. Das Abbildungsproblem kann beispielsweise gelöst werden vom Subjekt- oder Objekttext „Kerl” zu einer vordefinierten Klasse wie etwa „Mann” unter Verwendung einer Hierarchie, um das zuordnen auszuführen.
Sobald eine Menge von begrenzenden Rechtecken 504 in einem Bild 304 erhalten wurde für die Subjekt- und Objektklassen in einem Tripel <Subjekt, Prädikat, Objekt> oder von begrenzenden Rechtecken 504 für ein Dublett <Subjekt, Attribut>, werden dann von dem Erdungs- und Lokalisierungsmodul 502 Regeln und Heuristiken angewendet, um ein Tupel des strukturierten semantischen Wissens 310 in dem Trainingsbild 304 zu lokalisieren. In einem ersten solchen Beispiel wird für ein Tupel <Subjekt, Attribut>, wenn es nur ein einziges Vorkommen einer Subjektklasse in dem Bild 304 gibt (zum Beispiel nur ein Auto), der Tupel mit dem einzelnen begrenzenden Rechteck für diesen Tupel assoziiert, da das begrenzende Rechteck 504 das Subjekt enthält und das Attribut das Subjekt in diesem Rechteck beschreibt, zum Beispiel „<Automobil, glänzend>”.
Für ein Tupel <Subjekt, Prädikat, Objekt> mit nur einem einzigen Vorkommen der Subjektklasse und einem Vorkommen der Objektklasse wird der Tupel mit dem kleinsten rechteckigen Bildbereich assoziiert, der den kleinsten rechteckigen Bildbereich bedeckt, der das begrenzenden Rechteck für das Subjekt und das begrenzende Rechteck für das Objekt abdeckt, das heißt das begrenzende Rechteck der zwei begrenzenden Rechtecke. Wenn es zum Beispiel eine einzelne Person und einen einzelnen Hund in dem Bild gibt, dann wird <Person, Gassi führen, Hund> zu den die Person und den Hund begrenzenden Rechtecken lokalisiert. Dies enthält wahrscheinlich die Leine, welche die Person und den Hund verbindet. Allgemein ist die stillschweigende Annahme hier, dass das Prädikat, welches das Subjekt und das Objekt in Beziehung setzt, in der Nähe des Subjekts und des Objekts sichtbar ist.
Für einen Tupel <Subjekt, Prädikat, Objekt> mit einem einzelnen Subjekt und einem einzelnen Objekt („Automobil” nicht „Automobile”) und mehr als einem Vorkommen von entweder der Subjektklasse oder der Objektklasse wird das Folgende bestimmt. Wenn ein nächstes Paar von begrenzenden Rechtecken 504 mit einem von der Subjektklasse und einem von der Objektklasse innerhalb einem Schwellenwertabstand ist, dann wird dieser Tupel mit dem begrenzenden Rechteck des nächsten Paares von begrenzenden Rechtecken assoziiert. Die Annahme hier ist, dass die Beziehung zwischen einem Subjekt und einem Objekt visuell gut lokalisiert werden kann. Die Verteilung der Abstände zwischen jedem der Paare kann auch verwendet werden, um zu bestimmen, ob es eine Unsicherheit in dieser Auswahl gibt, wegen eines zweiten Paares oder dritten Paares, das ebenfalls einen kleinen Abstand hat.
Die obigen Heuristiken geben Beispiele von Arten an Information, die bei der Lokalisierung berücksichtigt werden. Es können auch weitere Techniken verwendet werden, um die Lokalisierung zu unterstützen, die von dem Erdungs- und Lokalisierungsmodul 502 ausgeführt wird. Ein Beispiel davon ist durch ein Textsemantikmodul 510 illustriert, das für eine Funktionalität repräsentativ ist, Textverständnis zu verwenden, um beim Erden von Subjekten und Objekten in dem Bild zu helfen. In einem Beispiel werden Positionsattribute, die mit einem Subjekt assoziiert sind, verwendet, um das richtige begrenzende Rechteck für das Subjekt auszuwählen oder die Auswahl einzugrenzen. Wenn in einer Szene zum Beispiel mehrere Automobile vorhanden sind, die Bildbeschriftung aber besagt „Ein Kind sitzt auf der Haube des am weitesten linken Automobils”, dann kann das Textsemantikmodul 510 dabei helfen, das begrenzende Rechteck mit der kleinsten horizontalen Koordinate zum Erden als das am weitesten linke Automobil in dieser Bildbeschriftung und in dem daraus extrahierten Tupel <Kind, sitzt auf, Automobil> auszuwählen. Anstelle in dem obigen Beispiel das begrenzende Rechteck aller begrenzenden Rechtecke für Automobile zu verwenden, mag nur das begrenzende Rechteck von allein dem geankerten Automobil, oder der Untermenge der Automobile, die das Kriterium „am weitesten links” erfüllen verwendet werden. Diese Bestimmung kann auf andere Kriterien verallgemeinert werden, die gemessen werden können, wie etwa Farbe.
Beim Erden eines Tupels reduziert das Erdungs- und Lokalisierungsmodul 502 zuerst eine Menge von begrenzenden Rechtecken für das Subjekt und das Objekt unter Verwendung deren Attribute, um begrenzende Rechtecke 504 auszufiltern, welche diese Attribute nicht erfüllen. Solche Attribute beinhalten Position, Farbe und Nähe zu anderen identifizierbaren Bereichen, zum Beispiel kann für „das Automobil auf dem Gras” der Grasbereich erkannt werden unter Verwendung eines semantischen Segmentationsalgorithmus.
Relative Positionsinformation wird ebenfalls verwendet, um das richtige Paar von Subjektklasse und Objektklasse begrenzenden Rechtecken für eine Positionsbeziehung auszuwählen. Wenn zum Beispiel die Bildbeschriftung „Ein Baby sitzt auf einem Tisch” ist, dann werden das Baby und der Tisch zu Rechtecken in dem Bild geerdet, wobei das Rechteck des Babys über dem Rechteck des Tischs ist. Als solches identifiziert dies eindeutig den Bildbereich, der mit diesem Tupel zu assoziieren ist, wenn es mehrere Babys und/oder mehrere Tische in der Szene gibt.
Für einen Tupel <Subjekt, Prädikat, Objekt>, bei dem das Subjekt und das Objekt in dem Bild geerdet sind, der Tupel mit einem kleinsten rechteckigen Bildbereich, welcher das begrenzende Rechteck für das Subjekt und das begrenzende Rechteck für das Objekt bedeckt. Eine Vielfalt von anderen Beispielen ist ebenfalls angedacht, wie etwa eine Menge von Kontext den begrenzenden Rechtecken hinzuzufügen, indem ein größerer Bereich eingeschlossen wird, als anderweitig in einem „engen” begrenzenden Rechteck enthalten wäre.
6 zeigt eine beispielhafte Implementierung 600 der Lokalisierung zwischen Teilen eines Bildes 108 und strukturiertem semantischem Wissen 310. Wie dargestellt, enthält ein begrenzendes Rechteck 602 für „<Mann, sitzt auf, Stuhl>” den Mann und den Stuhl. Ein begrenzendes Rechteck 604 für „<Mann, füttert, Baby>” enthält sowohl den Mann als auch das Baby. Ein begrenzendes Rechteck 606 für „<Baby, hält, Spielzeug>” enthält das Baby und das Spielzeug. Nachdem die Extraktion von strukturiertem semantischem Wissen 310 beschrieben wurde, wird im Folgenden die Verwendung dieses extrahierten, strukturierten semantischen Wissens 310 durch das Modelltrainingsmodul 312 zum Trainieren eines Modells 316 diskutiert.
7 zeigt eine beispielhafte Implementierung 700, welche das Modelltrainingsmodul 312 in größerem Detail als ein maschinelles Lernmodul 314 zum Modellieren einer Beziehung zwischen dem strukturierten semantischen Wissen 310, das aus dem Test 306 extrahiert wurde, und den Bildern 304, verwendet. In diesem Beispiel ist das maschinelle Lernmodul 314 konfiguriert, eine Beziehung 702 zwischen Textmerkmalen 704 des strukturierten semantischen Wissens 310 mit Bildmerkmalen des Bildes 304 der Trainingsdaten 302 zu modellieren, um das Modell 316 zu trainieren.
Ein multivariates Modell „P(<Subjekt, Attribut>, Bild I), P(<Subjekt, Prädikat, Objekt>, Bild I)” wird in diesem Beispiel so errichtet, eine Wahrscheinlichkeit auszugeben, dass das Bild „I” und der strukturierte Text <Subjekt, Attribut> oder <Subjekt, Prädikat, Objekt> dasselbe Konzept der realen Welt visuell und textuell repräsentieren. Das Modell 316 ist in diesem Beispiel konfiguriert, gut auf nicht gesehene oder selten zu sehende Kombinationen von Subjekten, Attributen, Prädikaten und Objekten zu verallgemeinern, und erfordert keine explizite Reduktion eines großen Vokabulars von einzelnen Worten auf eine kleine, vordefinierte Menge von Konzepten.
Eine textbasierte Bildersuche involviert beispielsweise ein Zuordnen einer Textabfrage (zum Beispiel repräsentiert als eine Menge von strukturiertem Wissen unter Verwendung eines natürlichen Sprache-Tupelextraktionstechnik) zu einem Bild. Dies wird durch ein gemeinsames Modell unterstützt, wie weiter beschrieben mit Bezug auf 8, indem eine Schleife über Bilder „I” durchlaufen und geprüft wird, welches eine hohe Wahrscheinlichkeit „P(strukturierter Text <S, P, O>, Bild I)” für ein gegebenes Konzept <S, P, O> liefert. Wissensextraktion/Taggen wird unterstützt, indem eine Schleife über mögliche Konzepte <S, P, O> durchlaufen und geprüft wird, welches eine hohe Wahrscheinlichkeit „P(strukturierter Text <S, P, O>, Bild I)” für ein gegebenes Bild oder einen gegebenen Bildabschnitt „I” liefert.
Für das Bilden des Modells gibt es zwei Teile: (1) eine Merkmalsrepräsentation für den strukturierten Text „<S, P, O>”, „<S, A, ->”, „<S, -, ->” (wobei „-” eine nicht verwendete Stelle anzeigt, um alle Konzepte als Tripel zu repräsentieren) und für Bilder, und (2) ein Modell, um das Textmerkmal „t” 704 mit dem Bildmerkmal „x: P(t, x)” 706 zu korrelieren.
Die Tupel „<S, P, O>” und „<S, A>” des strukturierten semantischen Wissens 310 sind so konfiguriert, dass ähnliche Konzepte des strukturierten Wissens in der Nähe liegende und verwandte Repräsentationen haben, zum Beispiel als Vektoren in einem Vektorraum. Dies unterstützt die Verallgemeinerung und Verwendung eines großen Vokabulars. Zum Beispiel sind Textmerkmals-704Repräsentationen von „<Straße, kurvig>” und „<Straße, sich windend>” so konfiguriert, dass sie ähnlich sind, und die Repräsentationen zwischen „<Hund, geht Gassi>” und „<Person, führt Gassi>” stehen miteinander in Beziehung durch die geteilte Aktion des Gassi Gehens bzw. Gassi Führens. Dies kann so ausgeführt werden, dass ähnliche Worte in dem Raum nahe beieinander sind und der Vektorraum einige Beziehungen zwischen Worten einfängt. Zum Beispiel vec(„Mann”) + (vec(„Königin”) – vec(„Frau”)) = vec(„König”).
Das Modelltrainingsmodul 312 kann auch so konfiguriert sein, auf semantischen Vektorrepräsentationen einzelner Wörter aufzubauen, um eine Vektorrepräsentation eines Wissenstupels zu entwickeln, welche die Beziehung zwischen zwei Konzepten „<S1, P1, O1>” und „<S2, P2, O2>” erfasst. Genauer wird ein Merkmalsvektor gebildet für ein Tripel „<S, P, O>” als eine Funktion von Einzelwortrepräsentationen „vec(S)”, „vec(P)” und „vec(O)”. Der „vec(<S, P, O>)” wird gebildet als eine Verkettung der einzelnen Wortvektoren „vec(<S, P, O>) = [vec(S)vec(P)vec(O)]”.
Wenn ein „<S, P, O>” Element fehlt, wie das Objekt „O”, wenn ein „<Subjekt, Attribut>” repräsentiert wird, oder sowohl ein Prädikat „P” als auch ein Objekt „O” fehlen, wenn ein „<Subjekt>” repräsentiert wird, wird bzw. werden die entsprechenden Vektorstellen mit Nullen gefüllt. Daher liegt die Vektorrepräsentation für ein alleiniges Subjekt entlang der „S” Achse im „S, P, O” Raum. Visuelle Attribute können als Modifikatoren für ein schmuckloses Subjekt adressiert werden, welche die Repräsentation von „<S, P>” in die „SP” Ebene des „S, P, O” Raums bewegen. Eine andere Option beinhaltet das Summieren der Vektorrepräsentationen der einzelnen Worte.
Für ein zusammengesetztes „S” oder „P” oder „O” wird die Vektorrepräsentation für jedes einzelne Wort in der Phrase gemittelt, um einen einzigen Vektor in eine Zielstelle in einer „[vec(S)vec(P)vec(O)]” Repräsentation einzusetzen. Zum Beispiel ist „vec(„rennt in Richtung zu”)” gleich „0,5·(vec(„rennt”) + vec(„in Richtung zu”))”. Es kann auch ein Mittelwert mit ungleichen Gewichtungen verwendet werden, wenn einige Wörter in der Phrase mehr Bedeutung tragen als andere. In einer Implementierung wird eine semantische Repräsentation (zum Beispiel Vektor oder Wahrscheinlichkeitsverteilung) für zusammengesetzte Phrasen wie „rennt in Richtung zu” oder „rennt weg von” direkt gelernt, indem diese Phrasen atomar als neue Vokabularelemente in einem existierenden semantischen Worteinbettungsmodell behandelt werden.
Es steht eine Vielfalt von Techniken zur Auswahl, die verwendet werden können, um Semantiken von Bildmerkmalen 706 zu erfassen. In einem derartigen Beispiel wird ein tiefes maschinelles Lernnetzwerk verwendet, das eine Vielzahl von Merkmalsebenen aufweist, die direkt aus den Daten gelernt werden. Insbesondere haben sich faltende neuronale Netzwerke („convolution neural networks”, CNNs) mit Faltungs-, Pooling- und Aktivierungsschichten (zum Beispiel „rectified linear units”, welche eine Aktivierungsschwelle bilden) für die Bildklassifikation bewährt. Beispiele beinhalten AlexNet, VGGNet und GoogLeNet.
Zudem wurde gezeigt, dass Klassifikationsmerkmale von tiefen Klassifikationsnetzwerken hochqualitative Ergebnisse für andere Aufgaben (zum Beispiel Segmentierung) geben, insbesondere nach Feintunen dieser Merkmale für die andere Aufgabe. Ausgehend von Merkmalen, die zur Klassifikation gelernt wurden, und mit nachfolgendem Feintunen dieser Merkmale für eine andere Aufgabe des Bildverständnisses, kann daher eine erhöhte Effizienz in Begriffen des Trainings zeigen, als wenn das Training von Grund auf für eine neue Aufgabe begonnen wird. Aus den obigen Gründen werden CNN Merkmale als feste Merkmale angenommen in einem linearen CCA Grundlagenmodell. Das maschinelle Lernmodul 314 führt dann ein Feintunen des Modells 316 von einem CNN in einem tiefen Netzwerk aus, um Text- und Bildmerkmale 704, 706 zu korrelieren.
Das maschinelle Lernmodul 316 ist konfiguriert, Textmerkmale „t” 704 und Bildmerkmale „x” 706 in einen gemeinsamen Vektorraum abzubilden und Differenzen in den abgebildeten Merkmalen zu pönalisieren, wenn dasselbe Konzept oder ähnliche Konzepte durch „t” und „x” repräsentiert werden.
Eine Technik, die zu diesem Zweck genutzt werden kann, beinhaltet eine lineare Abbildung, welche als kanonische Korrelationsanalyse bzw. Canonical Correlation Analysis (CCA) bezeichnet wird, die auf Text- und Bildmerkmale 704, 706 angewandt wird. In der CCA werden Matrizen „T” und „X” entdeckt, welche Merkmalsvektoren „t” und „x” jeweils in einen gemeinsamen Vektorraum „t' = Tt” und „x' = Xx” abbilden. Wenn die Abbildung in einen gemeinsamen Raum der Dimension „D” ausgeführt wird und „t” ein Vektor im „D_t-dimensionalen Raum” und „x” ein Vektor im „D_x-dimensionalen Raum” ist, dann ist „T” eine „(D mal D_t)” Matrix, „X” ist eine „(D mal D_x)” Matrix, und die abgebildeten Repräsentationen t' und x' sind D-dimensionale Vektoren.
Es können auch Verlustfunktionen verwendet werden zur Modellanpassung unter Verwendung von Trainingspaaren „(t, x)” basierend auf quadratischem Euklidischem Abstand „∥t' – x'∥_2^2”, oder einer Kosinusähnlichkeit „skalaprodukt(t', x')”, oder der „winkel_zwischen(t', x')”, welcher die Vektorlänge von dem Kosinusähnlichkeitsmaß entfernt. Wenn das Skalarprodukt verwendet wird, dann wird die CCA Korrelationsfunktion wie folgt ausgedrückt: f(t, x) = f_CCA_dp(t, x) = tr(Tt)·Xx = tr(t)·M·x = sum_{i, j}t_iM_{ij}x_j, wobei „tr” für Transponieren steht und „M = tr(T)·X ist (D_t um D_x)”, und Indizes Vektorkomponenten angeben. Diese Form unterstützt eine schnellere als erschöpfende Suche nach Bildern oder Text, wenn das andere gegeben ist. Zum Beispiel werden in einer textbasierten Bildersuche Bilder mit Merkmalsvektoren „x” derart gefunden, dass das „skalarprodukt(v, x)” groß ist, wobei „v = tr(t)·M”.
Für einen quadratischen Euklidischen Verlust kann die CCA Korrelationsfunktion wie folgt ausgedrückt werden: f(t, x) = f_CCA_E(t, x) = ∥Tt – Xx∥_2^2.
Die obige einfache geschlossene Form der Korrelationsfunktion mag wiederum eine schnellere als erschöpfende Suche nach Bildern oder Text unterstützen, wenn das andere gegeben ist. Zum Beispiel werden in einer textbasierten Bildersuche Bilder mit Merkmalsvektoren „x” derart gefunden, dass „f_CCA_E(t, x)” klein ist für einen gegebenen Textvektor „t”. Wenn „(T, X)” vom Anpassen des CCA Modells und die Abfrage „t” gegeben ist, liefert lineare Algebra eine Menge von Vektoren, welche „f(t, x)” minimieren, und es werden Bilder mit einem Merkmalsvektor „x” nahe dieser Menge gefunden.
8 zeigt ein Beispiel eines tiefen Netzwerks 800 zum Korrelieren von Text und Bildern als Teil von maschinellem Lernen. Das tiefe Netzwerk 800 beinhaltet eine maschinelle Textlernspalte 802 und eine maschinelle Bildlernspalte 804, die so konfiguriert sind, die Korrelation „f(<S, P, O>, I)” zwischen strukturiertem semantischem Wissen „<S, P, O>” einem Bild oder einem Bildteil „I” zu lernen durch nichtlineares Abbilden in einen gemeinsamen Raum.
Die maschinelle Textlernspalte 802 beginnt mit einer semantischen Textvektorrepräsentation „t”, welche vec(S) 806, vec(P) 808 und vec(O) 810 beinhaltet, die dann durch Mengen von vollständig verbundenen und Aktivierungsschichten 812 geführt wird, um eine nichtlineare Abbildung t->t' auszugeben als einen Merkmalsvektor für den Text 814.
Die maschinelle Bildlernspalte 804 ist als ein tiefes faltendes neuronales Netzwerk 814 konfiguriert (zum Beispiel als AlexNet oder VGGNet oder GoogLeNet, wobei die finalen Schichten, welche auf Klassenwahrscheinlichkeiten abbilden, entfernt sind), das von Bildpixeln des Bildes 816 ausgeht und einen Merkmalsvektor x' für das Bild 814 ausgibt. Die Bildspalte wird als das Trainingsergebnis eines existierenden CNN initialisiert, und die Bildmerkmale werden feingetuned, um Bilder mit strukturiertem Text zu korrelieren, wobei Bildattribute und Interaktionen erfasst werden, anstelle einer lediglichen Objektklassendiskriminierung, wie in dem bestehenden CNN.
Anpassschichten 822, 824 in den maschinellen Text- und Bildlernspalten, 804 passen die Repräsentationen gemäß einer nichtlinearen Funktion an, um diese in einen gemeinsamen Raum mit Bildmerkmalen, die dasselbe Konzept repräsentieren, abzubilden. Eine Verlustschicht 828 verbindet die Spalten und pönalisiert Differenzen in den Ausgaben t' und x' der maschinellen Text- und Bildlernspalten 802, 804, um eine Abbildung in einen gemeinsamen Raum für dasselbe Konzept zu fördern.
Eine diskriminierende Verlustfunktion, wie eine Ranking-Verlust-Funktion, kann verwendet werden, um sicherzustellen, dass falsch zugeordneter Text und Bilder eine kleinere Korrelation oder einen größeren Abstand haben als korrekt zugeordneter Text und Bilder. Zum Beispiel kann eine einfache Ranking-Verlust-Korrelationen erfordern „skalarprodukt(t_i', x_i') > skalarprodukt(t_j', x_i')” für ein Trainingsbeispiel „(t_i, x_i)” und wo der ursprüngliche Tupel zum Trainieren des Tupels t_j nicht zu dem Trainingsbild „x_i” passt. Eine Ranking-Verlust-Funktion kann auch eine semantische Textähnlichkeit oder eine externe Objekthierarchie verwenden, wie etwa ImageNet, um den Verlust zu formulieren, um unterschiedliche falsche Zuordnungen unterschiedlich zu pönalisieren.
Andere Verlust-Funktionen und Architekturen sind möglich, beispielsweise mit weniger oder mit mehr Anpassschichten zwischen der semantischen Textrepräsentation „t = [vec(S), vec(P), vec(O)]” und dem einbettenden Raum t' oder mit Verbindungen zwischen Text- und Bildschichten vor dem gemeinsamen einbettenden Raum. In einem Beispiel ist auch ein Platzhalter-Verlust möglich, der den Objektteil von Einbettungsvektoren für Fakten zweiter Ordnung <S, P> und den Prädikatteil und den Objektteil von Einbettungsvektoren für Fakten erster Ordnung <S> ignoriert.
Zurück zu 3 wird an diesem Punkt strukturiertes semantisches Wissen 310 durch das Modelltrainingsmodul 312 erhalten, um das Problem des Extrahierens eines Konzepts, das für einen Bildbereich relevant ist, zu lösen. Das obige Modellieren wird nun angewandt für „P(Konzept <S, P, O>, Bild I)”, um alle hochwahrscheinlichen Konzepte über einen Teil eines Bildes zu extrahieren. Dies kann ausgeführt werden, ohne das Konzept, das am wahrscheinlichsten ist, auszuwählen. Es sei zum Beispiel ein Bildbereich betrachtet, der einen lächelnden Mann enthält, der ein blaues Hemd trägt. Bildpixeldaten „I” für diesen Bereich werden eine höhere Korrelation sowohl mit „<Mann, lächelnd>” als auch mit „<Mann, trägt, blaues Hemd>” haben, und daher können beide diese Konzepte für denselben Bildbereich extrahiert werden.
Der Wissensextraktionstask kann gelöst werden durch Anwenden des obigen Modells mit Bildpixeldaten aus Bereichen, die durch einen Objektvorschlagsalgorithmus identifiziert werden, oder Objektbereichen, die von dem R-CNN Algorithmus identifiziert werden, oder sogar in einem Ansatz eines gleitenden Fensters, der Bildbereiche dichter abtastet. Um Objektinteraktionen zu erfassen, werden begrenzende Rechtecke aus Paaren von Objektvorschlägen oder Paaren von R-CNN Objektbereichen gebildet, Ein Ansatz ist es, alle Paare von Objektbereichen zu probieren, um auf mögliche Interaktionen zu testen. Ein anderer Ansatz ist es, einige Heuristiken anzuwenden, um selektiver zu sein, wie etwa, keine Paare zu untersuchen, die im Bild fern sind. Da das Modell angewandt werden kann, um kein, ein oder mehrere hochwahrscheinliche Konzepte über einen Bildbereich zu extrahieren, können die extrahierten <S, P, O> Konzepte zu Bildbereichen lokalisiert werden, welche die entsprechenden visuellen Daten bereitstellen.
Beispielhafte Prozeduren
Die folgende Diskussion beschreibt Wissensextraktionstechniken, die implementiert werden können unter Verwendung der zuvor beschriebenen Systeme und Vorrichtungen. Aspekte von jeder der Prozeduren können in Hardware, Firmware oder Software, oder einer Kombination davon, implementiert werden. Die Prozeduren sind als eine Menge von Blöcken gezeigt, die Operationen spezifizieren, die von einer oder von mehreren Vorrichtungen ausgeführt werden, und die nicht notwendiger Weise auf die dargestellten Reihenfolgen beschränkt sind, um die Operationen durch die jeweiligen Blöcke auszuführen. In Teilen der folgenden Diskussion wird sich auf 1–8 bezogen.
9 zeigt eine Prozedur 900 in einer beispielhaften Implementierung, in der eine digitale Medienumgebung verwendet wird, um Wissen aus einem eingegebenen Bild automatisch und ohne Benutzereingriff zu extrahieren. Eine digitale Medienumgebung wird beschrieben, um ein Modell zu lernen, das verwendet werden kann, um eine beschreibende Zusammenfassung eines eingegebenen Bildes automatisch und ohne Benutzereingriff zu berechnen. Es werden Trainingsdaten erhalten, die Bilder und assoziierten Text enthalten (Block 902). Die Trainingsdaten 320 können zum Beispiel Bilder 304 und unstrukturierten Text 306 enthalten, der mit den Bildern 304 assoziiert ist, zum Beispiel als Bildbeschriftungen, Metadaten und so weiter.
Strukturiertes semantisches Wissen wird aus dem assoziierten Text unter Verwendung einer Verarbeitung natürlicher Sprache durch die zumindest eine Rechnervorrichtung extrahiert, wobei das strukturierte semantische Wissen Textmerkmale beschreibt (Block 904). Das strukturierte semantische Wissen 310 kann zum Beispiel unter Verwendung der Verarbeitung natürlicher Sprache extrahiert werden, um Tupel zu erzeugen, wie etwa <Subjekt, Attribut>, <Subjekt, Prädikat, Objekt> und so weiter.
Ein Modell wird unter Verwendung des strukturierten semantischen Wissens und der Bilder als Teil von maschinellem Lernen trainiert (Block 906). Ein Modelltrainingsmodul 312 kann zum Beispiel ein neuronales Netzwerk unter Verwendung der Bilder 304 und des strukturierten semantischen Wissens 310 trainieren. Dieses Wissen kann auch lokalisiert werden, wie in größerem Detail in Bezug auf 10 beschrieben.
Das Modell wird verwendet, um eine strukturierte Bildrepräsentation des eingegebenen Bildes zu bilden, die explizit zumindest einen Teil der Textmerkmale mit Bildmerkmalen des eingegebenen Bildes korreliert, als die beschreibende Zusammenfassung des eingegebenen Bildes (Block 908). Die strukturierte Bildrepräsentation kann zum Beispiel Konzepte in dem Text mit Teilen der Bilder korrelieren, zusammen mit dem Adressieren einer Struktur des Wissens, um zu beschreiben, „was passiert” in den Bildern als eine Beschreibungszusammenfassung. Diese Beschreibungszusammenfassung kann auf vielfältige Weise verwendet werden, wie etwa um Bilder aufzufinden als Teil einer Bildersuche, eine automatische Erzeugung von Bildbeschriftungen auszuführen und so weiter.
10 zeigt eine Prozedur 1000 in einer beispielhaften Implementierung, in welcher eine digitale Medienumgebung verwendet wird, um Wissen zu extrahieren und um Textmerkmale zu Bildmerkmalen eines eingegebenen Bildes zu lokalisieren. Eine digitale Medienumgebung wird beschrieben, um ein Modell zu lernen, das verwendet werden kann, um eine beschreibende Zusammenfassung eines Objekts innerhalb eines eingegebenen Bildes automatisch und ohne Benutzereingriff zu berechnen. Strukturiertes semantisches Wissen wird aus Text, der mit Bildern assoziiert ist, extrahiert, wobei eine Verarbeitung unter Verwendung einer Verarbeitung natürlicher Sprache durch die zumindest eine Rechnervorrichtung (Block 1002). Bildmerkmale von Objekten in jeweiligen der Bilder wird lokalisiert als den Textmerkmalen des strukturierten semantischen Wissens entsprechend (Block 1004). Wie zuvor wird strukturiertes semantisches Wissen 310 extrahiert. In diesem Fall ist dieses Wissen jedoch auf bestimmte Teile des Bildes lokalisiert und kann daher die Genauigkeit von nachfolgendem Modellieren verbessern, indem potentiell zwischen mehreren Konzepten in einem Bild unterschieden wird, zum Beispiel das Baby, welches das Spielzeug hält, und der Mann, der das Baby füttert, wie in 1 gezeigt.
Ein Modell wird trainiert unter Verwendung der lokalisierten Bild- und Textmerkmale als Teil von maschinellem Lernen (Block 1006). Eine Vielfalt von unterschiedlichen Techniken kann verwendet werden, etwa um probabilistisches Modellieren auszuführen. Das Modell wird verwendet, um eine strukturierte Bildrepräsentation des eingegebenen Bildes zu bilden, die explizit zumindest einen Teil der Textmerkmale mit zumindest einem Bildmerkmal des Objekts, das in dem eingegebenen Bild enthalten ist, korreliert (Block 1008). Zum Beispiel kann das strukturierten Logikbestimmungsmodul 318 ein eingegebenes Bild 108 nehmen und eine strukturierte Bildrepräsentation 106 insbesondere in Fällen bilden, in denen das eingegebene Bild 108 keinen assoziierten Text umfasst. Weiter kann die strukturierte Bildrepräsentation 106 lokalisiert werden, um Konzepte, die in dem Text und dem Bild enthalten sind, miteinander zu korrelieren. Wie zuvor kann die strukturierte Bildrepräsentation 106 verwendet werden, um eine Vielfalt von Funktionalitäten zu unterstützen, wie etwa Bildersuchen, automatisierte Erzeugung von Bildbeschriftungen und so weiter.
Implementierungsbeispiel
11 zeigt ein beispielhaftes System 1100, das verwendet werden kann, um strukturierte Fakten-Bildeinbettung auszuführen. Dieses System 1100 unterstützt Eigenschaften wie eine Fähigkeit dazu (1) kann kontinuierlich mit neuen Fakten gefüttert werden, ohne die Architektur zu ändern, (2) ist in der Lage, mit Platzhaltern zu lernen, um alle Arten von Fakten zu unterstützen, (3) kann auf nicht gesehene oder anderweitig nicht direkt sichtbare Fakten verallgemeinern, und (4) erlaubt einen Zweiwegeabruf, wie etwa relevante Fakten in einer Sprachansicht abzurufen, wenn ein Bild gegeben ist, und relevante Bilder abzurufen, wenn ein Faktum in einer Sprachansicht gegeben ist. Dieses System 1100 zielt darauf ab, strukturiertes Wissen in Bildern als ein Problem zu modellieren, mit Ansichten in der visuellen Domäne V und in der Sprachdomäne L. Sei „f” ein strukturiertes „Faktum” (das heißt, Konzept) und „f_l ∊ L” bezeichnet die Ansicht von „f” in der Sprachdomäne. Beispielsweise würde ein annotiertes Faktum, mit Sprachansicht „f_l = <S:Mädchen, P:fährt, O:Fahrrad>” eine entsprechende visuelle Ansicht „f_v” als ein Bild haben, in der das Faktum auftritt, wie in 11 gezeigt.
Das System ist konfiguriert, eine Repräsentation zu lernen, welche Fakten erster Ordnung <S> (Objekte), Fakten zweiter Ordnung <S, P> (Aktionen und Attribute) und Fakten dritter Ordnung <S, P, O> (Interaktion und positionelle Fakten) abdeckt. Diese Arten von Fakten werden repräsentiert als ein Einbettungsproblem in einen „strukturierten Faktenraum”. Das strukturierte Faktum ist als eine lernende Repräsentation von drei Hyperdimensionen konfiguriert, die wie folgt bezeichnet sind:
Die Einbettungsfunktion von einer visuellen Ansicht eines Faktums „f_v” sind jeweils wie folgt bezeichnet: ϕ_S, ϕ_P und ϕ_O als ϕ V / S(f_v), ϕ V / P(f_v) und ϕ V / O(f_v)
Ähnlich ist die Einbettungsfunktion von einer Sprachenansicht eines Faktums „f_l”: ϕ_S, ϕ_P und ϕ_O bezeichnet als ein jeweiliges der Folgenden: ϕ L / S(f_l), ϕ L / P(f_l) und ϕ L / O(f_l)
Die Verkettung der Hyperdimensionen der visuellen Ansicht wird bezeichnet als: ϕ^v(f_v)
Die Verkettung der Einbettung der Hyperdimensionen der Sprachansicht wird bezeichnet als: ϕ^L(f_l) wobei die obigen die visuelle Einbettung bzw. die Spracheinbettung von „f” sind, wodurch gebildet wird: ϕ^v(f_v) = [ϕ V / S(f_v), ϕ V / P(f_v), ϕ V / O(f_v)], ϕ^L(f_l) = [ϕ L / S(f_l), ϕ L / P(f_l), ϕ L / O(f_l)]
Wie aus dem obigen ersichtlich ist, können somit die Fakten dritter Ordnung <S, P, O> direkt in den strukturierten Faktenraum eingebettet werden durch: ϕ^V(f_v) für die Bildansicht und: ϕ^L(f_l) für die Sprachansicht.
Fakten erster Ordnung sind Fakten, die ein Objekt anzeigen, wie <S: Person>. Fakten zweiter Ordnung sind spezifischer über das Subjekt, zum Beispiel <S: Person, P: spielt>. Fakten dritter Ordnung sind nochmals spezifischer, zum Beispiel <S: Person, P: spielt, O: Klavier). Im Folgenden werden Fakten höherer Ordnung als Fakten niedrigerer Ordnung definiert, auf die ein zusätzlicher Modifikator angewandt ist. Zum Beispiel konstruiert das Hinzufügen des Modifikators „P: isst” zu dem Faktum <S: Kind> das Faktum <S: Kind, P: isst>. Weiter konstruiert das Hinzufügen des Modifikators „O: Eiscreme” zu dem Faktum <S: Kind, P: isst> das Faktum <S: Kind, P: isst O: Eiscreme>. Ähnlich können Attribute adressiert werden als Modifikatoren für ein Subjekt, zum Beispiel konstruiert das Anwenden von „P: lächelt” auf das Faktum <S: Baby> das Faktum <S: Baby, P: lächelt>.
Basierend auf der oben beobachteten Faktenmodifikation, können sowohl Fakten erster Ordnung als auch Fakten zweiter Ordnung als Platzhalter repräsentiert werden, wie in den folgenden Gleichungen für Fakten erster Ordnung und Fakten zweiter Ordnung jeweils illustriert. ϕ^V(f_v) = [ϕ V / S(f_v), ϕ V / P(f_v) = *, ϕ V / O(f_v) = *], ϕ^L(f_l) = [ϕ L / S(f_l), ϕ L / P(f_l) = *, ϕ L / O(f_l) = *] ϕ^V(f_v) = [ϕ V / S(f_v), ϕ V / P(f_v), ϕ V / O(f_v) = *], ϕ^L(f_l) = [ϕ L / S(f_l), ϕ L / P(f_l), ϕ L / O(f_l) = *]
Das Setzen von „Φ_P” und „Φ_O” auf „*” für Fakten erster Ordnung wird interpretiert als zu bedeuten, dass die Modifikatoren „P” und „O” für Fakten erster Ordnung nicht von Interesse sind. Ähnlich zeigt das Setzen von „Φ_O” auf „*” für Fakten zweiter Ordnung an, dass der Modifikator „O” nicht von Interesse ist für Einzelbildaktionen und Attribute.
Fakten erster und zweiter Ordnung werden Platzhalterfakten genannt. Da das Modellieren von strukturierten Fakten in visuellen Daten potentiell ein logisches Schließen über Fakten aus Bildern ermöglicht, wird das beschriebene Problem im Folgenden auch als ein „Sherlock” Problem bezeichnet.
Um ein maschinelles Lernmodell zu trainieren, welches die strukturierte Fakten-Sprachenansicht in L mit deren visueller Ansicht in V verbindet, werden Daten in der Form von Paaren (f_v, f_l) gesammelt. Die Sammlung von Daten für Probleme in großem Maßstab wird zu einer zunehmenden Herausforderung, insbesondere in den nachfolgenden Beispielen, da das Modell auf einer lokalisierten Assoziation eines strukturierten Sprachfaktums „f_l” mit einem Bild „f_v” basiert, wenn solche Fakten auftreten. Insbesondere ist es eine komplexe Aufgabe, Annotationen insbesondere für Fakten zweiter Ordnung <S, P> und Fakten dritter Ordnung <S, P, O> zu sammeln. Auch können mehrere strukturierte Sprachfakten demselben Bild zugewiesen werden, zum Beispiel <S: Mann, P; lächelnd> und <S: Mann, P: trägt, O: Glas>. Wenn sich diese Fakten auf denselben Mann beziehen, könnte dasselbe Bildbeispiel verwendet werden, um beide Fakten zu lernen.
Wie zuvor beschrieben werden Techniken diskutiert, in denen Faktenannotationen automatisch aus Datenmengen gesammelt werden, welche in der Form von Paaren Bild/Bildbeschriftung vorliegen. Zum Beispiel kann eine große Menge von hochqualitativen Fakten erhalten werden aus Bildbeschriftungsdatenbanken unter Verwendung einer Verarbeitung natürlicher Sprache. Da das Schreiben von Bildbeschriftungen in freiform ist, sind diese typischer Weise leicht verfügbar, zum Beispiel von Sozialen Netzen, vorkonfigurierten Datenbanken und so weiter.
In dem folgenden Beispiel wird ein zweistufiger automatischer Annotationsprozess beschrieben (i) Faktenextraktion aus Bildbeschriftungen, welche beliebigen Text umfassen, der mit einem Bild assoziiert ist, der das Bild beschreibt; und (ii) Faktenlokalisierung in Bildern. Zuerst werden die mit dem gegebenen Bild assoziierten Bildbeschriftungen analysiert, um Mengen von Satzteilen bzw. Klauseln zu extrahieren, die als Kandidaten von Fakten <S, P> und <S, P, O> in dem Bild betrachtet werden. Klauseln bilden Fakten, sind aber nicht notwendiger Weise selbst Fakten.
Bildbeschriftungen können große Mengen an Information für Bildverständnissysteme bieten. Allerdings ist das Entwickeln von Systemen zur Verarbeitung natürlicher Sprache, um akkurat und vollständig strukturiertes Wissen aus Freiformtext zu extrahieren herausfordernd wegen (1) Fehlern in Rechtschreibung und Zeichensetzung; (2) Wortsinnzweideutigkeit innerhalb von Klauseln; und (3) Lexikon räumlicher Präpositionen, das hunderte von Begriffen enthalten mag, wie „daneben”, „auf”, sowie Sammelphrasenadjektive wie etwa „Gruppe von”, „Bündel von” und so weiter.
Der Prozess des Lokalisierens von Fakten in einem Bild ist beschränkt durch Information in der Datenmenge. Zum Beispiel mag eine Datenbank Objektannotationen für unterschiedliche Objekte enthalten durch Trainings- und Validierungsmengen. Dies ermöglicht, dass Fakten erster Ordnung lokalisiert werden für Objekte unter Verwendung von begrenzender Rechtecksinformation. Um Fakten höherer Ordnung in Bildern zu lokalisieren werden visuelle Entitäten definiert als jedes Nomen, das entweder ein Datenmengenobjekt oder ein Nomen in einer vordefinierten Ontologie ist, die ein unmittelbarer oder indirekter Oberbegriff eines der Objekte ist. Es wird erwartet, dass visuelle Entitäten entweder in dem S oder dem O Teil auftauchen, falls existent, für ein Kandidatenfaktum „f_l”, was die Lokalisierung von Fakten für Bilder ermöglicht. Für ein gegebenes Faktum dritter Ordnung wird zuerst versucht, jedes „S” und „O” einer der visuellen Entitäten zuzuweisen. Wenn „S” und „O” keine visuellen Entitäten sind, dann wird die Klausel ignoriert. Andernfalls werden die Klauseln durch verschiedene Heuristiken verarbeitet. Die Heuristiken können zum Beispiel berücksichtigen, ob das Subjekt oder das Objekt im Singular oder Plural ist oder eine Szene. Zum Beispiel können die hierin beschriebenen Techniken in dem Faktum <S: Männer, P: jagen, O: Fußball> identifizieren, dass „Männer” eine Vereinigung von mehreren begrenzenden Kandidatenrechtecken involvieren kann, während es für „Fußball” erwartet ist, dass es nur ein einzelnes begrenzendes Rechteck gibt.
Ein direkter Ansatz zum Modellieren von Fakten in Bildern ist es, für jedes separate Faktum einen Klassifikator zu lernen. Bei dieser Technik gibt es jedoch eine klare Begrenzung in der Skalierbarkeit, da die Anzahl von Fakten signifikant ist, zum Beispiel |S| × |P| × |O|, wobei |S|, |P| und |O| die Anzahl der Subjekte, Prädikate bzw. Objekte sind. Daher könnte diese Zahl Millionen für mögliche Fakten in der realen Welt erreichen. Zusätzlich zu diesen Skalierbarkeitsproblemen ignoriert diese Technik semantische Beziehungen zwischen Fakten, welche eine signifikante Eigenschaft sind, die eine Verallgemeinerung auf nicht gesehene Fakten oder Fakten mit wenigen Beispielen erlaubt. Beispielsweise mag es während des Trainings ein Faktum zweiter Ordnung wir <S: Junge, P: spielt> und ein Faktum erster Ordnung wie <S: Mädchen>, <S: Junge> geben. Zur Laufzeit versteht das unter Verwendung der hierin beschriebenen Techniken trainierte Modell ein Bild mit dem Faktum <Mädchen, spielt>, selbst wenn dieses Faktum während des Trainierens nicht gesehen wurde, was eindeutig nicht erfasst wird durch Lernen eines Modells für jedes Faktum in dem Trainieren.
Dementsprechend wird in diesem Beispiel ein Einbettungsproblem mit zwei Ansichten beschrieben, das verwendet wird, um strukturierte Fakten zu modellieren. Zum Beispiel kann ein strukturiertes Fakteneinbettungsmodell umfassen (1) Zweiwegeabruf (das heißt, relevante Fakten in Sprachansicht abzurufen, wenn ein Bild gegeben ist, und relevante Bilder abzurufen, wenn ein Faktum in einer Sprachansicht gegeben ist; und (2) Platzhalterfakten werden unterstützt, das heißt Fakten erster und zweiter Ordnung.
Die erste Eigenschaft wird in diesem Beispiel erfüllt durch Verwendung eines generativen Modells p(f_v, f_l), das die visuelle Ansicht und die Sprachansicht von „f” verbindet. Diese Technik modelliert zuerst das Folgende: p(f_v, f_l) ∝ s(ϕ^V(f_v), ϕ^L(f_l)) wobei „s(·, ·)” eine Ähnlichkeitsfunktion ist, die über den strukturierten Faktenraum definiert ist, der durch „S” bezeichnet ist, welcher ein diskriminierender Raum von Fakten ist. Dies wird so ausgeführt, dass zwei Ansichten desselben Faktums nahe beieinander eingebettet sind.
Um „Φ^V(f_v)” zu modellieren und zu trainieren, wird ein CNN Encoder verwendet, und um „Φ^L(f_l)” zu modellieren und zu trainieren, wird ein RNN Encoder verwendet. In einer beispielhaften Implementierung 1200 von 12 werden zwei Modelle vorgeschlagen, um Fakten zu lernen, die mit Modell 1 und Modell 2 bezeichnet sind. Die Modelle 1 und 2 haben dieselbe strukturierte Faktenspracheneinbettung und denselben -encoder, unterscheiden sich aber in dem strukturierten Fakten-Bild-Encoder.
Dieser Prozess beginnt mit Definieren eines Aktivierungsoperators „ψ(θ, α)”, wobei „α” eine Eingabe und „θ” eine Reihe von einer oder mehreren neuronalen Netzwerkschichten ist, welche unterschiedliche Schichttypen beinhalten mögen, wie vier Faltungsschichten, eine Poolingschicht, und eine weitere Faltungs- und Poolingschicht. Der Operator „ψ(θ, α)” wendet Parameter „θ” Schicht für Schicht an, um die Aktive von Unternetzwerk „θ” für ein gegebenes „α” zu berechnen. Ein Operator „ψ(·, ·)” wird verwendet, um strukturierte Fakten-Bild-Encoder Modell 1 und Modell 2 zu definieren.
In Modell 1 wird ein strukturiertes Faktum visuell codiert durch Teilen von Faltungsschichtparametern (bezeichnet durch θ v / c) und voll verbundene Schichtparameter (bezeichnet durch θ u / c). Dann werden Transformationsmatrizen „W v / S”, „W v / P” und „W v / O” angewandt, um „ϕ v / S(f_v), ϕ v / P(f_v), ϕ v / O(f_v)” wie folgt zu erzeugen: ϕ V / S(f_v) = W S / vψ(θ u / v, ψ(θ c / v, |f_v)), ϕ V / P(f_v) = W P / vψ(θ u / v, ψ(θ c / v, f_v)), ϕ V / O(f_v) = W O / vψ(θ u / v, ψ(θ c / v, f_v))
Im Kontrast zu Modell 1 werden im Modell 2 für „S” andere Faltungsschichten verwendet als für „P” und „O”, konsistent mit der obigen Diskussion, dass „P” und „O” Modifikatoren für „S” sind, wie zuvor beschrieben. Ausgehend von „f_v” gibt es eine gemeinsame Menge von Faltungsschichten, bezeichnet durch „θ c0 / v”, dann spaltet sich das Netzwerk auf in zwei Zweige, wobei zwei Mengen von Faltungsschichten „θ cs / v” und „θ cp0 / v” erzeugt werden, gefolgt von zwei voll verbundenen Schichten „θ us / v” und „θ uP0 / v” . Schließlich werden „ϕ v / S(f_v), ϕ v / P(f_v), ϕ v / O(f_v)” durch Transformationsmatrizen „W v / S”, „W v / P” und „W v / O”, wie folgt berechnet:
In beiden Modellen wird ein strukturiertes Sprachfaktum codiert unter Verwendung von RNN Spracheinbettungsvektoren für „S, P und O”. Daher, in dem Fall „ϕ L / S(f_L) = RNN_θL(f L / S), ϕ L / P(f_L) = RNN_θL(f P / S), ϕ L / O(f_L) = RNN_θL(f O / L), wobei „f L / S”, „f P / S” und „f O / L” der Subjekt-, Prädikat- und Objektteil von „f_L ∊ L” sind. Für jeden von diesen werden Literale fallengelassen, und wenn einer von „f L / S”, „f P / S” und „f O / L” mehrere Worte enthält, wird der durchschnittliche Vektor berechnet als die Repräsentation dieses Teils. Die RNN Sprachencoderparameter werden mit „θ^L” bezeichnet. In einer oder mehreren Implementierungen ist „θ^L” fixiert auf ein vortrainiertes Wortvektoreinbettungsmodell für „f L / S”, „f P / S” und „f O / L”.
Eine Weise, um „p(f_v, f_l)” für Modell 1 und Modell 2 zu trainieren, ist es anzunehmen, dass „p(f_v, f_l) ∞ = exp(–loss_w(f_v, f_l))” und den Abstandsverlust „loss_w(f_v, f_l)” zu minimieren, der wie folgt definiert ist: loss_w(f_v, f_l) = w f / S·∥ϕ V / S(f_v) – ϕ L / S(f_l)∥² + w f / P·∥ϕ V / P(f_v) – ϕ L / P(f_l)∥² + w f / O·∥ϕ V / O(f_v) – ϕ L / O(f_l)∥² was die Abstände zwischen der Einbettung der visuellen Ansicht und der Sprachansicht minimiert. Eine Lösung, um Platzhalterfakten zu pönalisieren ist es, die Platzhaltermodifikatoren in dem Verlust zu ignorieren durch die Verwendung eines gewichteten Euklidischen Abstands, wobei dessen Gewichtung drauf basiert, ob entsprechende Teile des Merkmalsvektors vorhanden sind, was ein „Platzhalter” Verlust genannt wird. Hier „w f / S = 1”, „w f / P = 1” und „w f / O = 1” für Fakten <S, P, O>, „w f / S = 1”, „w f / P = 1” und „w f / O = 0” Für Fakten <S, P> und „w f / S = 1”, „w f / P = 0” und „w f / O = 0” für Fakten <S>. Daher pönalisiert „loss_w” nicht den „O” Modifikator für die Fakten zweiter Ordnung oder die „P” und „O” Modifikatoren für Fakten erster Ordnung, was der obigen Definition eines Platzhaltermodifikators folgt.
Dementsprechend beschreibt dieses Beispiel ein Problem der Assoziation von visuellen und sprachlichen Fakten hoher Ordnung. Ein neuronaler Netzwerk Ansatz wird beschrieben, um visuelle Fakten und sprachliche Fakten in einen gemeinsamen, kontinuierlichen Raum strukturierter Fakten, der es ermöglicht, dass Fakten natürlicher Sprache mit einem Bild assoziiert werden, und Bilder mit strukturierten Beschreibungen natürlicher Sprache assoziiert werden.
Beispielhaftes System und Vorrichtung
13 zeigt ein beispielhaftes System allgemein bei 1300, das eine beispielhafte Rechnervorrichtung 1302 beinhaltet, die repräsentativ für ein oder mehrere Rechnervorrichtungen und/oder -vorrichtungen ist, die die verschiedenen hierin beschriebenen Techniken implementieren können. Dies ist dargestellt, indem das Wissensextraktionssystem 104 enthalten ist. Die Rechnervorrichtung 1302 kann zum Beispiel ein Server eines Diensteproviders, eine Vorrichtung, die mit einem Client assoziiert ist (zum Beispiel eine Clientvorrichtung), ein On-Chip System und/oder eine andere geeignete Rechnervorrichtung oder ein anderes geeignetes Rechnersystem sein.
Die dargestellte Rechnervorrichtung 1302 beinhaltet ein Verarbeitungssystem 1304, ein oder mehrere computerlesbare Medien 1306 und eine oder mehrere Eingabe-/Ausgabeschnittstellen 1308, die kommunikativ miteinander verbunden sind. Auch wenn nicht dargestellt, kann die Rechnervorrichtung 1302 weiter einen Systembus oder ein anderes Daten- und Befehlstransfersystem beinhalten, das die verschiedenen Komponenten miteinander verbindet. Ein Systembus kann eine beliebige oder eine Kombination unterschiedlicher Busstrukturen beinhalten, wie etwa einen Speicherbus oder einen Speichercontroller, einen Peripheriebus, einen USB Bus und/oder einen Prozessor- oder lokalen Bus, der eine beliebige einer Vielzahl von Busarchitekturen verwendet. Eine Vielfalt anderer Beispiele wird ebenfalls in Betracht gezogen, wie etwa Steuer- und Datenleitungen.
Das Verarbeitungssystem 1304 ist für eine Funktionalität zum Ausführen einer oder mehrerer Operationen unter Verwendung von Hardware repräsentativ. Dementsprechend ist das Verarbeitungssystem 1304 als ein Hardwareelement 1310 enthaltend dargestellt, welches als Prozessoren, funktionelle Blöcke und so weiter konfiguriert sein kann. Dies kann eine Hardwareimplementierung als eine anwendungsspezifische Schaltung oder als eine andere Logikvorrichtung beinhalten, die gebildet ist unter Verwendung von einem oder mehreren Halbleitern. Die Hardwareelemente 1310 sind nicht durch die Materialien, durch die sie gebildet werden, oder die darin verwendeten Verarbeitungsmechanismen beschränkt. So können Prozessoren beispielsweise Halbleiter und/oder Transistoren umfassen (zum Beispiel integrierte Schaltungen (ICs)). In einem derartigen Kontext können von einem Prozessor ausführbare Anweisungen elektronisch ausführbare Anweisungen sein.
Das computerlesbare Speichermedium 1306 ist mit einem Speicher 1312 dargestellt. Der Speicher 1312 repräsentiert eine Speicherkapazität, die mit einem oder mit mehreren computerlesbaren Medien assoziiert ist. Die Speicherkomponente 1312 kann volatile Medien (wie ein Speicher mit wahlfreiem Zugriff (RAM)) und/oder nichtvolatile Medien (wie ein Nur-Lese-Speicher (ROM), Flash-Speicher, optische Platten, magnetische Platten und so weiter) beinhalten. Die Speicherkomponente 1312 kann feste eingebaute Medien (zum Beispiel RAM, ROM, eine eingebaute Festplatte und so weiter) sowie auch entfernbare Medien (zum Beispiel Flash Speicher, eine entfernbare Festplatte, eine optische Platte und so weiter) beinhalten. Das computerlesbare Medium 1306 kann auf verschiedene andere Weisen konfiguriert sein, wie weiter nachstehend beschrieben.
Eingabe-/Ausgabeschnittstelle(n) ist bzw. sind für eine Funktionalität repräsentativ, die es einem Benutzer erlaubt, der Rechnervorrichtung 1302 Befehle und Information einzugeben, und es auch erlaubt, dass dem Benutzer und/oder anderen Komponenten oder Vorrichtungen unter Verwendung von Eingabe-/Ausgabevorrichtungen Information präsentiert wird. Beispiele von Eingabevorrichtungen beinhalten eine Tastatur, eine Cursor-Steuervorrichtung (zum Beispiel eine Maus), ein Mikrofon, ein Scanner, Berührungsfunktionalität (zum Beispiel kapazitive oder andere Sensoren, die konfiguriert sind, um eine physische Berührung zu erkennen), eine Kamera (welche zum Beispiel sichtbare oder nicht sichtbare Wellenlängen, wie Infrarotfrequenzen, verwenden kann, um Bewegung als Gesten zu erkennen, die keine Berührung beinhalten) und so weiter. Beispielhafte Ausgabevorrichtungen beinhalten eine Anzeigevorrichtung (zum Beispiel einen Monitor oder Projektor), Lautsprecher, einen Drucker, eine Netzwerkkarte, Vorrichtungen für taktile Rückmeldung und so weiter. Die Rechnervorrichtung 1302 kann daher auf verschiedene Weisen konfiguriert sein, wie nachfolgend weiter beschrieben, um Interaktionen zu unterstützen
Verschiedene Techniken mögen hierin im allgemeinen Kontext von Software, Hardwareelementen oder Programmodulen beschrieben sein. Im Allgemeinen beinhalten solche Module Routinen, Programme, Objekte, Elemente, Komponenten und so weiter, welche bestimmte Aufgaben ausführen oder bestimmte abstrakte Datentypen implementieren. Die Begriffe ”Modul”, ”Funktionalität” und ”Komponente” wie hierin verwendet repräsentieren allgemein Software, Firmware, Hardware oder eine Kombination dieser. Die Merkmale der hierin beschriebenen Techniken sind plattformunabhängig, was bedeutet, dass die Techniken auf einer Vielfalt von handelsüblichen Rechnerplattformen mit einer Vielfalt von Prozessoren implementiert werden können.
Eine Implementierung der beschriebenen Module und Techniken kann auf einer Form computerlesbarer Medien gespeichert oder übe diese übertragen werden. Die computerlesbaren Medien können eine Vielfalt von Medien umfassen, auf welche die Rechnervorrichtung 1302 zugreifen kann. Beispielhaft und nicht beschränkend können computerlesbare Medien ”computerlesbare Speichermedien” und ”computerlesbare Signalmedien” umfassen.
”Computerlesbare Speichermedien” können sich auf Medien und/oder Vorrichtungen beziehen, welche das persistente und/oder nicht vergängliche Speichern von Information ermöglichen, im Gegensatz zur reinen Signalübertragung, Trägerwellen oder Signalen als solchen. Computerlesbare Speichermedien beziehen sich daher auf Medien, die kein Signal tragen. Die computerlesbaren Speichermedien beinhalten Hardware, wie flüchtige und nichtflüchtige, entfernbare und nicht entfernbare Medien und/oder Speichervorrichtungen, die mit einem Verfahren oder einer Technologie implementiert sind, das bzw. die für das Speichern von Information, wie computerlesbare Anweisungen, Datenstrukturen, Programmodulen, logischen Elementen/Schaltungen oder anderen Daten geeignet sind. Beispiele computerlesbarer Speichermedien können, ohne hierauf beschränkt zu sein, RAM, ROM, EEPROM, Flash Speicher oder eine andere Speichertechnologie, CD-ROM, DVD anderen optischen Speicher, Festplatten, Magnetkassetten, Magnetbänder, magnetische Speicherplatten oder andere magnetische Speichervorrichtungen, oder eine andere Speichervorrichtung, greifbare Medien, oder einen anderen hergestellten Gegenstand, der geeignet ist, die gewünschte Inforation zu speichern und den Zugriff durch einen Computer zu erlauben, umfassen.
”Computerlesbare Signalmedien” mag sich auf ein ein Signal tragendes Medium beziehen, das konfiguriert ist, Anweisungen an die Hardware der Rechnervorrichtung 1302 zu übertragen, wie etwa über ein Netzwerk. Signalmedien können typischer Weise computerlesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal verkörpern, wie Trägerwellen, Datensignalen oder einem anderen Transportmechanismus. Signalmedien beinhalten auch alle Informationsliefermedien. Der Begriff „moduliertes Datensignal” bedeutet ein Signal, bei dem eine oder mehrere von dessen Charakteristiken auf solch eine Weise eingestellt oder geändert werden, um Information in dem Signal zu kodieren. Als Beispiel, und nicht als Beschränkung, beinhalten Kommunikationsmedien drahtgebundene Medien, wie ein drahtgebundenes Netzwerk oder eine direkt verdrahtete Verbindung, und drahtlose Medien wie akustische, Funk- und andere drahtlose Medien.
Wie zuvor ausgeführt sind die Hardwareelemente 1310 und computerlesbare Medien 1306 repräsentativ für Module, programmierbare Vorrichtungslogik und/oder feste Vorrichtungslogik, die in einer Hardwareform implementiert ist bzw. sind, die in einigen Ausführungsformen Verwendung finden können, um zumindest einige Aspekte der hierin beschriebenen Techniken zu implementieren, wie etwa um eine oder mehrere Anweisungen auszuführen. Hardware kann Komponenten einer integrierten Schaltung oder ein Ein-Chip-System, eine anwendungsspezifische Integrierte Schaltung (ASIC), feldprogrammierbare Gatterlogik (FPGA), eine komplexe programmierbare Logikvorrichtung (CPLD) und andere Implementierungen in Silizium oder anderer Hardware umfassen. In diesem Kontext kann Hardware als eine Verarbeitungsvorrichtung arbeiten, welche Programmaufgaben ausführt, die durch Anweisungen und/oder Logik, die von der Hardware verkörpert sind bzw. ist, sowie einer Hardware, die verwendet wird, um auszuführende Anweisungen zu speichern, wie zum Beispiel das vorstehend beschriebene computerlesbare Speichermedium.
Es können auch Kombinationen der vorstehend genannten verwendet werden, um verschiedene hierin beschriebene Techniken zu implementieren. Dementsprechend können Software-, Hardware- oder ausführbare Module als eine oder mehrere Anweisungen und/oder Logik implementiert sein, die auf einer Form eines computerlesbaren Speichermediums und/oder durch ein oder mehrere Hardwareelemente 1310 verkörpert sind. Die Rechnervorrichtung 1302 kann konfiguriert sein, um bestimmte Anweisungen und/oder Funktionen entsprechend den Software- und/oder Hardwaremodulen zu implementieren. Dementsprechend kann eine Implementierung eines Moduls, das durch die Rechnervorrichtung 1302 als Software ausgeführt werden kann, zumindest teilweise in Hardware erreicht werden, zum Beispiel durch die Verwendung von computerlesbare Speichermedien und/oder Hardwareelementen 1310 des Verarbeitungssystems 1304. Die Anweisungen und/oder Funktionen können ausführbar/betreibbar sein durch ein oder mehrere Erzeugnisse (zum Beispiel eine oder mehrere Rechnervorrichtungen 1302 und/oder Verarbeitungssysteme 1304), um hierin beschriebene Techniken, Module und Beispiele zu implementieren.
Die hierin beschriebenen Techniken können durch verschiedene Konfigurationen der Rechnervorrichtung 1302 unterstützt werden und sind nicht auf die spezifischen Beispiele der hierin beschriebenen Techniken beschränkt. Diese Funktionalität kann auch ganz oder teilweise implementiert sein durch die Verwendung eines verteilten Systems, wie etwa über eine „Cloud” 1314 über eine Plattform 1316 wie nachstehend beschrieben.
Die Cloud 1314 beinhaltet und/oder ist repräsentativ für eine Plattform 1316 für Ressourcen 1318. Die Plattform 1316 abstrahiert die zugrunde liegende Funktionalität von Hardwareressourcen (zum Beispiel Server) und Softwareressourcen der Cloud 1314. Die Ressourcen 1318 können Anwendungen und/oder Daten beinhalten, die verwendet werden können, während die Rechnerverarbeitung auf Servern ausgeführt wird, die der Rechnervorrichtung 1302 fern sind. Die Ressourcen 1318 können auch Dienste beinhalten, die über das Internet und/oder über Teilnehmernetzwerk bereitgestellt werden, wie ein Mobilfunknetzwerk oder ein WLan-Netzwerk.
Die Plattform 1316 kann Ressourcen und Funktionen abstrahieren, um die Rechnervorrichtung 1302 mit anderen Rechnervorrichtungen zu verbinden. Die Plattform 1316 kann auch dazu dienen, das Skalieren von Ressourcen zu abstrahieren, um ein entsprechendes Niveau der Skalierung auf begegneter Anforderung an die Ressourcen 1318 zu bieten, die über die Plattform 1316 implementiert sind. Dementsprechend kann in einer Umgebung von miteinander verbundenen Vorrichtungen die Implementierung von hierin beschriebener Funktionalität über das System 1300 hinweg verteilt sein. Beispielsweise kann die Funktionalität teilweise auf der Rechnervorrichtung 1302 sowie teilweise mittels der Plattform 1316 implementiert sein, welche die Funktionalität der Cloud 1314 abstrahiert.
Schlussfolgerung
Obwohl die Erfindung in einer Sprache beschrieben wurde, die für strukturelle Merkmale und/oder Verfahrensaktionen spezifisch ist, sei verstanden, dass die in den beigefügten Ansprühen definierte Erfindung nicht notwendiger Weise auf die beschriebenen spezifischen Merkmale oder Aktionen beschränkt ist. Vielmehr sind die spezifischen Merkmale und Aktionen als beispielhafte Formen der Implementierung der beanspruchten Erfindung offenbart.

Claims

In einer digitalen Medienumgebung zum Lernen eines Modells (316), das verwendet werden kann, um eine Korrelation von Text- (704) und Bildmerkmalen (706) eines eingegebenen Bildes (108) automatisch und ohne Benutzereingriff zu berechnen, ein System, welches von zumindest einer Rechnervorrichtung (102; 1302) implementiert ist, umfassend: ein Extraktionsmodul (308), welches zumindest teilweise in Hardware implementiert ist, zum Extrahieren von strukturiertem semantischen Wissen (310) aus Text (306), der mit Bildern (304) in Trainingsdaten (302) assoziiert ist, unter Verwendung einer Verarbeitung natürlicher Sprache; und ein Modelltrainingsmodul (312), welches zumindest teilweise in Hardware implementiert ist, zum Trainieren eines Modells (316) unter Verwendung des strukturierten semantischen Wissens (310) als Teil von maschinellem Lernen, um Text- (704) und Bildmerkmale (706) in den Trainingsdaten (302) zu korrelieren, so dass das Modell (316) transformiert wird, um Bildmerkmale (706) des eingegebenen Bildes (108) mit zumindest einem der Textmerkmale (704) zu korrelieren, wobei das Modelltrainingsmodell (316) verwendet: eine maschinelle Textlernspalte (802), die konfiguriert ist, einen Merkmalsvektor für den Text (306) zu lernen, der mit den Bildern (304) assoziiert ist; eine maschinelle Bildlernspalte (804), die konfiguriert ist, einen Merkmalsvektor für die Bilder (304) und die Objekte in den Bildern (304) zu lernen; und zumindest eine weitere Schicht, die konfiguriert ist, die Merkmalsvektoren für den Text (306) und die Bilder (304) in einen gemeinsamen Merkmalsraum anzupassen.
System nach Anspruch 1, wobei der Text (306), der mit den Bildern (304) assoziiert ist, in freiform und unstrukturiert ist.
System nach Anspruch 1, wobei das strukturierte semantische Wissen (310) in einer Form eines Tupels <Subjekt, Attribut> oder <Subjekt, Prädikat, Objekt> ist.
System nach Anspruch 1, wobei die zumindest eine zusätzliche Schicht eingerichtet ist, die Merkmalsvektoren für den Text (306) und die Bilder (304) in einen gemeinsamen Merkmalsraum anzupassen durch: Pönalisieren von Differenzen in den Merkmalsvektoren für den Text (306) und die Bilder (304), einer zum anderen, um eine Abbildung in einen gemeinsamen Raum für ein gemeinsames Konzept, das durch den Text (306) und die Bilder (304) repräsentiert wird, zu fördern; oder durch die Verwendung eines gewichteten Euklidischen Abstands, wobei dessen Gewichtung darauf basiert, ob die entsprechenden Teile der Merkmalsvektoren vorhanden sind.
In einer digitalen Medienumgebung zum Lernen eines Modells (316), das verwendet werden kann, um eine beschreibende Zusammenfassung von Objekten, Attributen und wie die Objekte miteinander interagieren in einem eingegebenen Bild (108) automatisch und ohne Benutzereingriff zu berechnen, ein Verfahren, das von zumindest einer Rechnervorrichtung (102; 1302) implementiert wird, umfassend Extrahieren von strukturiertem semantischem Wissen (310) aus Text (306), der mit Bildern (304) assoziiert ist, unter Verwendung einer Verarbeitung natürlicher Sprache durch die zumindest eine Rechnervorrichtung (102; 1302); Lokalisieren von Bildmerkmalen (706) in jeweiligen der Bilder (304), durch die zumindest eine Rechnervorrichtung (102; 1302), als einem der Textmerkmale (704) des strukturierten semantischen Wissens (310) entsprechend; und Trainieren eines Modells (316) unter Verwendung der lokalisierten Bild und Textmerkmale (704) als Teil von maschinellem Lernen durch die zumindest eine Rechnervorrichtung (102; 1302); und Verwenden des Modells (316), das konfiguriert ist, eine strukturierte Bildrepräsentation (106) des eingegebenen Bildes (108) zu bilden, welche explizit zumindest eines der Textmerkmale (704) mit zumindest einem Bildmerkmal (706) der Objekte, die in dem eingegebenen Bild (108) enthalten sind, korreliert.
Verfahren nach Anspruch 5, worin der Text (306), der mit den Bildern (304) assoziiert ist, in freiform und unstrukturiert ist.
Verfahren nach Anspruch 6, wobei der Text (306) eine Bildbeschriftung oder Metadaten eines jeweiligen Bilds (304) ist.
Verfahren nach Anspruch 5, wobei das strukturierte semantische Wissen (310) in Form eines Tupels <Subjekt, Attribut> oder <Subjekt, Prädikat, Objekt> ist.
Verfahren nach Anspruch 5, wobei das Lokalisieren beinhaltet Ausführen zumindest eines Objektdetektors auf Bildbereichen für Objektklassen, die in dem Text (306) erwähnt werden, der mit den Bildern (304) assoziiert ist.
Verfahren nach Anspruch 5, wobei das Lokalisieren vordefinierte Klassen von Subjekten und Objekten und assoziierte Bildbereiche der Bilder (304), welche die Subjekte bzw. Objekte enthalten, verwendet.
Verfahren nach Anspruch 10, wobei das Lokalisieren ausgeführt wird, Vorkommen der vordefinierten Klassen von Subjekten und Objekten, lokalisiert wurden, als anzeigend dafür zu betrachten, dass ein jeweiliges Element des strukturierten semantischen Wissens (310) eine Gesamtheit einer Szene beschreibt, die in einem jeweiligen Bild (304) enthalten ist.
Verfahren nach Anspruch 10, wobei wenn es ein einmaliges Vorkommen für eine jeweilige Subjektklasse für ein Subjekt und ein einmaliges Vorkommen für eine jeweilige Objektklasse für ein Objekt in zumindest einem der Bilder (304) gibt, dann wird ein entsprechendes Element des strukturierten semantischen Wissens (310) mit einem Bereich in dem zumindest einen Bild (304) assoziiert, der Teile des Bildes (304) beinhaltet, welche das Subjekt und das Objekt aufweisen.
Verfahren nach Anspruch 10, wobei wenn es mehr als ein Vorkommen der Subjektklasse oder der Objektklasse gibt, wenn ein nächstes Paar von Teilen des Bildes (304) von jeweils der Subjekt- und der Objektklasse innerhalb eines Schwellenwertabstands ist, dann wird das strukturierte semantische Wissen (310) mit dem Paar von Teilen assoziiert.
In einer digitalen Medienumgebung zum Lernen eines Modells (316), das verwendet werden kann, um eine beschreibende Zusammenfassung von Objekten, Attributen und wie die Objekte miteinander interagieren in einem eingegebenen Bild (108) automatisch und ohne Benutzereingriff zu berechnen, ein System, das durch zumindest eine Rechnervorrichtung (102; 1302) implementiert ist, umfassend: ein Extraktionsmodul (308), welches zumindest teilweise in Hardware implementiert ist, zum Extrahieren von strukturiertem semantischem Wissen (310) aus Text (306), der mit Bildern (304) in Trainingsdaten (302) assoziiert ist, unter Verwendung einer Verarbeitung natürlicher Sprache; ein Modelltrainingsmodul (312), welches zumindest teilweise in Hardware implementiert ist, zum Trainieren eines Modells (316) unter Verwendung des strukturierten semantischen Wissens (310) als Teil von maschinellem Lernen, um Textmerkmale (704) des strukturierten semantischen Wissens (310) mit Bildmerkmalen (706) von jeweiligen der Bilder (304) zu korrelieren; und ein strukturiertes Logikbestimmungsmodul (318), welches zumindest teilweise in Hardware implementiert ist, zur Verwendung des Modells (316) zum Bilden einer strukturierten Bildrepräsentation (106) des eingegebenen Bildes (108), die verwendet werden kann, um explizit die Objekte, Attribute und wie die Objekte miteinander interagieren in dem eingegebenen Bild (108) zu korrelieren.
System nach Anspruch 14, wobei die strukturierte Bildrepräsentation (106) gebildet wird unter Verwendung von strukturiertem Text (306).
System nach Anspruch 14, wobei das strukturierte semantische Wissen (310) in einer Form eines Tupels <Subjekt, Attribut> oder <Subjekt, Prädikat, Objekt> ist.
System nach Anspruch 14, wobei das Extraktionsmodul konfiguriert ist, das strukturierte semantische Wissen (310) zu extrahieren durch Lokalisieren zumindest eines Teils des strukturierten semantischen Wissens (310) als einem jeweiligen Objekt in einem jeweiligen Bild (304) entsprechend.
System nach Anspruch 14, wobei das strukturierte Logikbestimmungsmodul (318) konfiguriert ist, die strukturierte Bildrepräsentation (106) des eingegebenen Bildes (108) zu bilden, ohne Text (306) zu verwenden, der mit dem eingegebenen Bild (108) assoziiert ist.
System nach Anspruch 14, wobei die strukturierte Bildrepräsentation (106) verwendet werden kann, um eine Bildbeschriftung für das eingegebene Bild (108) zu bilden.
System nach Anspruch 14, wobei die strukturierte Bildrepräsentation (106) eine beschreibende Zusammenfassung des eingegebenen Bildes (108) ist.