DE112021000308T5

DE112021000308T5 - Graphenfaltungsnetze für video-grounding

Info

Publication number: DE112021000308T5
Application number: DE112021000308.9T
Authority: DE
Inventors: Chuang Gan; Sijia Liu; Subhro Das; Dakuo Wang; Yang Zhang
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-02-15
Filing date: 2021-02-11
Publication date: 2023-01-26
Also published as: CN114930317A; GB202213456D0; GB2608529A; WO2021161202A1; US20210256059A1; JP2023515359A; US11442986B2

Abstract

Verfahren und Vorrichtung, die umfassen: Empfangen einer Abfrage, die einen Aspekt in einem Video beschreibt, wobei das Video eine Mehrzahl von Rahmen enthält, Identifizieren mehrerer Vorschläge, die möglicherweise der Abfrage entsprechen, wobei jeder der Vorschläge einen Teilsatz der Mehrzahl von Rahmen enthält, Bewerten der Vorschläge unter Verwendung eines Graphenfaltungsnetzes, das Beziehungen zwischen den Vorschlägen identifiziert, und auf Grundlage des Bewertens erfolgendes Auswählen eines der Vorschläge als Videosegment, das mit der Abfrage korreliert.

Description

HINTERGRUND
Die vorliegende Erfindung betrifft Video-Grounding (Videoerschließung), bei dem eine Abfrage verarbeitet wird, um ein entsprechendes Segment in einem Video zu identifizieren, und insbesondere auf Berücksichtigen von Beziehungen zwischen verschiedenen Segmenten des Videos.
Beim Video-Grounding wird ein Video durchsucht, um ein Segment (z.B. eine Mehrzahl aufeinanderfolgender Videobilder im Video) zu identifizieren, das einer natürlichsprachlichen Abfrage entspricht. Zum Beispiel möchte ein Benutzer möglicherweise ein bestimmtes Segment in einem Video finden, in dem ein Kind auf einer Schaukel angeschoben wird. Der Benutzer kann eine Abfrage definieren, die „KIND AUF SCHAUKEL“ angibt. Beim Video-Grounding kann ein Algorithmus für maschinelles Lernen (ML) verwendet werden, um das Video zu parsen und verschiedene Segmente (vorliegend als Vorschläge bezeichnet) im Video zu identifizieren, die die in der Abfrage beschriebenen Informationen anzeigen können (z.B. ein Segment aus Rahmen, in denen ein Kind auf einem Spielgerät schaukelt). Video-Grounding bewertet die Vorschläge und wählt denjenigen mit der höchsten Bewertung als Antwort auf die Abfrage aus. Das heißt, derzeitige Video-Grounding-Methoden betrachten die Vorschläge bei deren Bewertung einzeln, um zu ermitteln, welcher Vorschlag am besten auf die natürlichsprachliche Abfrage passt.
KU RZDARSTELLU NG
Bei einer Ausführungsform der vorliegenden Erfindung handelt es sich um ein Verfahren, umfassend: Empfangen einer Abfrage, die einen Aspekt in einem Video beschreibt, wobei das Video eine Mehrzahl von Rahmen enthält, Identifizieren mehrerer Vorschläge, die möglicherweise der Abfrage entsprechen, wobei jeder der Vorschläge einen Teilsatz der Mehrzahl von Rahmen enthält, Bewerten der Vorschläge unter Verwendung eines Graphenfaltungsnetzes, das Beziehungen zwischen den Vorschlägen identifiziert, und auf Grundlage des Bewertens erfolgendes Auswählen eines der Vorschläge als Videosegment, das mit der Abfrage korreliert.
Bei einer weiteren Ausführungsform der vorliegenden Erfindung handelt es sich um ein System, das einen Prozessor und Speicher enthält. Der Speicher enthält ein Programm, das bei Ausführung durch den Prozessor eine Operation durchführt, wobei die Operation umfasst: Empfangen einer Abfrage, die einen Aspekt in einem Video beschreibt, wobei das Video eine Mehrzahl von Rahmen enthält, Identifizieren mehrerer Vorschläge, die möglicherweise der Abfrage entsprechen, wobei jeder der Vorschläge einen Teilsatz der Mehrzahl von Rahmen enthält, Bewerten der Vorschläge unter Verwendung eines Graphenfaltungsnetzes, das Beziehungen zwischen den Vorschlägen identifiziert, und auf Grundlage des Bewertens erfolgendes Auswählen eines der Vorschläge als Videosegment, das mit der Abfrage korreliert.
Bei einer weiteren Ausführungsform der vorliegenden Erfindung handelt es sich um ein Computerprogrammprodukt zum Identifizieren eines Videosegments, das mit einer Abfrage korreliert. Das Computerprogrammprodukt enthält ein durch einen Computer lesbares Speichermedium mit darauf enthaltenem, durch einen Computer lesbarem Programmcode, wobei der durch einen Computer lesbare Programmcode durch einen oder mehrere Computerprozessoren ausführbar ist, um eine Operation durchzuführen. Die Operation umfasst Empfangen einer Abfrage, wobei die Abfrage einen Aspekt in einem Video beschreibt, das eine Mehrzahl von Rahmen enthält, Identifizieren mehrerer Vorschläge, die möglicherweise der Abfrage entsprechen, wobei jeder der Vorschläge einen Teilsatz der Mehrzahl von Rahmen enthält, Bewerten der Vorschläge unter Verwendung eines Graphenfaltungsnetzes, das Beziehungen zwischen den Vorschlägen identifiziert, und auf Grundlage des Bewertens erfolgendes Auswählen eines der Vorschläge als Videosegment, das mit der Abfrage korreliert.
Figurenliste
Ausführungsformen der Erfindung werden nun lediglich beispielhaft unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben, wobei gilt:

1 veranschaulicht ein Video-Grounding-System, das ein Faltungsgraphennetz verwendet, gemäß einer Ausführungsform.
2 veranschaulicht einen Ablaufplan zum Durchführen von Video-Grounding gemäß einer Ausführungsform.
3 veranschaulicht das Identifizieren von Vorschlägen in Reaktion auf eine natürlichsprachliche Abfrage gemäß einer Ausführungsform.
4 veranschaulicht einen Ablaufplan zum Bewerten von Vorschlägen unter Verwendung eines Graphenfaltungsnetzes gemäß einer Ausführungsform.
5 veranschaulicht ein Maschinenlernsystem zum Bewerten von Vorschlägen gemäß einer Ausführungsform.

AUSFÜHRLICHE BESCHREIBUNG
Vorliegend enthaltene Ausführungsformen führen Video-Grounding durch, bei dem verschiedene Vorschläge (z.B. Videosegmente), die in Reaktion auf eine natürlichsprachliche Abfrage identifiziert wurden, unter Verwendung eines Graphenfaltungsnetzes (GCN, graph convolution network) bewertet werden, das Beziehungen zwischen den Vorschlägen identifiziert. Das heißt, im Gegensatz zu früheren Video-Grounding-Systemen, bei denen die Vorschläge unabhängig voneinander (oder einzeln) bewertet werden, konstruieren die vorliegenden Ausführungsformen einen Graphen und implementieren ein GCN, das zeitliche Beziehungen zwischen den Vorschlägen identifiziert. In einer Ausführungsform wird ein GCN entworfen, bei dem jeder Knoten im Netzwerk die Verschmelzung von visuellen Merkmalen (abgeleitet aus den Vorschlägen) und Abfragemerkmalen (abgeleitet aus der natürlichsprachlichen Abfrage) darstellt. Darüber hinaus können Kanten des Graphen gemäß der durch ein Ähnlichkeitsnetz gemessenen Beziehung zwischen Vorschlägen konstruiert werden. Durch ein Durchführen von Graphenfaltung kann das Video-Grounding-System die Interaktion zwischen zwei zeitlichen Segmenten sowie Beziehungen zwischen den Vorschlägen erfassen. Im Gegensatz zu früheren Arbeiten, in denen die Vorschläge einzeln und lokal verarbeitet werden, führen die vorliegend beschriebenen Methoden Video-Grounding vorteilhaft aus einer globalen und umfassenden Perspektive durch, und zwar durch explizites Modellieren von Beziehungen zwischen Vorschlägen, was die Genauigkeit erheblich steigert.
1 veranschaulicht ein Video-Grounding-System 100, das ein GCN 125 verwendet, gemäß einer Ausführungsform. Allgemein gestattet das Video-Grounding-System 100 es einer Benutzerin, eine Abfrage 110 zu stellen, um einen bestimmten Aspekt eines Videos 105 wie zum Beispiel eine Szene, eine Aktion oder ein Objekt in dem Video 105 zu identifizieren. Das Video 105 kann eine Mehrzahl von Rahmen enthalten, die mehrere verschiedene Szenen, Aktionen oder Objekte enthalten. Die Benutzerin sucht möglicherweise nach einer der Szenen, einer Aktionen, Objekte oder einem anderen Aspekt im Video 105. Zum Beispiel kann ein erstes Segment des Videos 105 (z.B. ein Teilsatz von aufeinanderfolgenden Bildern im Video 105) ein Kinderspielset zeigen, ein zweites Segment des Videos 105 kann nur ein bestimmtes Merkmal des Spielsets zeigen (z.B. einen eingebauten Sandkasten oder eine Rutsche), und ein drittes Segment des Videos 105 kann ein Kind zeigen, das mit dem Spielset interagiert (z.B. ein Kind, das auf einer Schaukel des Spielsets angeschoben wird oder eine Rutsche hinunterrutscht). Eine Benutzerin kann das Video-Grounding-System 100 verwenden, um das Video 105 zu durchsuchen und ein Segment zu identifizieren, das mit der Abfrage 110 korreliert (oder am besten passt). Zum Beispiel kann die Benutzerin dabei sein zu entscheiden, ob sie das Spielset kaufen möchte (wenn das Video 105 ein Werbevideo für das Spielset ist), und wünscht speziell ein Spielset mit einem eingebauten Sandkasten. Die Benutzerin kann eine Abfrage 110 stellen, die das Wort „SANDKASTEN“ enthält. Unter Verwendung der nachstehend im Einzelnen beschriebenen Methoden kann das Video-Grounding-System 100 das Video durchsuchen und das Segment des Videos identifizieren, das einen Sandkasten aufweist. Somit kann die Benutzerin das identifizierte Segment ansehen, um zu ermitteln, ob das Spielset ihre Kriterien erfüllt (d.h. einen eingebauten Sandkasten hat), anstatt das gesamte Video 105 ansehen zu müssen.
In einem anderen Beispiel möchte die Benutzerin möglicherweise ein Kind sehen, das mit dem Spielset interagiert, um sich ein besseres Bild über den Maßstab (bzw. die Größe) des Spielsets machen zu können. Die Benutzerin kann eine Abfrage 110 erzeugen, die lautet: „KIND, DAS DIE RUTSCHE BENUTZT“ oder „KIND, DAS AUF DER SCHAUKEL ANGESCHOBEN WIRD“, die das Video-Grounding-System 100 verwenden kann, um ein Segment zu identifizieren, das einen Aspekt des Videos (z.B. eine Szene, eine Aktion oder ein Objekt) zeigt, der durch die Abfrage 110 beschrieben wird.
Das Video-Grounding-System 100 enthält einen Vorschlagsgenerator 115, der das Video 105 und die Abfrage 110 als Eingaben empfängt. Der Vorschlagsgenerator 115 kann einen oder mehrere Maschinenlern- (ML-) Algorithmen und/oder Video-Parsing-Methoden verwenden, um Vorschläge zu identifizieren, die Kandidatensegmente im Video 105 darstellen, die eine Szene, eine Aktion oder ein Objekt, die/das durch die Abfrage 110 beschrieben wird, darstellen können. Das heißt, wenn die Abfrage 110 „SCHAUKELNDES KIND“ lautet, identifiziert der Vorschlagsgenerator 115 mehrere Kandidatenvorschläge (z.B. verschiedene Videosegmente), von denen der Generator 115 feststellt, dass sie ein schaukelndes Kind enthalten könnten.
Um die Vorschläge zu identifizieren, kann der Vorschlagsgenerator 115 eine beliebige Anzahl von Bildverarbeitungsmethoden, Methoden zur Verarbeitung natürlicher Sprache oder Textverarbeitungsmethoden (z.B. ML- oder andere) verwenden. In einer Ausführungsform wertet der Vorschlagsgenerator 115 die verschiedenen Rahmen aus, um eine Startzeit (oder einen Startrahmen) und eine Endzeit für jeden Vorschlag zu identifizieren. Die Vorschläge können sich überschneiden (d.h. zumindest einige Rahmen gemeinsam haben) oder sie können sich nicht überschneiden, wenn jeder Vorschlag einmalig vorhandene Rahmen hat. Die vorliegend beschriebenen Ausführungsformen sind nicht auf eine bestimmte Methode zum Erzeugen der Vorschläge beschränkt.
Das Video-Grounding-System 100 enthält ein ML-System 120 zum Auswählen, welcher der vom Vorschlagsgenerator 115 erzeugten Vorschläge höchstwahrscheinlich mit der Abfrage 110 am besten übereinstimmt (oder am stärksten korreliert). Wie in 1 gezeigt, empfängt das ML-System 120 die Vorschläge als Eingaben und gibt ein Segment 130 aus, das mit der Szene, der Aktion oder dem Objekt korreliert, die/das durch die Abfrage 110 beschrieben wird. Anders ausgedrückt: Das ML-System 120 wählt einen der Vorschläge als das Segment 130 aus, das am besten mit der Abfrage 110 übereinstimmt. Beispielsweise kann das ML-System 120 ein Segment 130 ausgeben, das durch eine Startzeit und eine Endzeit im Video 105 definiert ist. Das Segment 130 kann durch die aufeinanderfolgenden Rahmen definiert werden, die zwischen den vom ML-System 120 identifizierten Start- und Endzeiten liegen. In einer Ausführungsform wird das Segment 130 an die Benutzerin ausgegeben, so dass die Benutzerin das Segment 130 ansehen kann, um hoffentlich einen Inhalt zu sehen, an dem sie am meisten interessiert ist, ohne das Video 105 von Anfang an starten oder das Video 105 durch Auswählen zufälliger Stellen im Video 105 manuell durchsuchen zu müssen.
Das ML-System 120 enthält ein GCN 125. Wie nachstehend näher erläutert, ermöglicht das GCN 125 dem Video-Grounding-System 100, Beziehungen zwischen den vom Vorschlagsgenerator 115 ausgegebenen Vorschlägen zu identifizieren. Das heißt, anstatt die Vorschläge unabhängig voneinander zu behandeln, kann das Graphenfaltungsnetz 125 Ähnlichkeiten oder Beziehungen zwischen den Vorschlägen identifizieren, was die Genauigkeit des Video-Grounding-Systems 100 vorteilhaft verbessern kann, d.h. die Wahrscheinlichkeit erhöhen kann, dass das Grounding-System 100 ein Segment auswählt, das mit der Beschreibung einer Szene, einer Aktion oder eines Objekts, die in der Abfrage 110 definiert sind, korreliert (oder übereinstimmt). In einer Ausführungsform bewertet das Graphenfaltungsnetz 125 die Vorschläge auf Grundlage ihrer Beziehungen, was genauer sein kann, als die Vorschläge wie bisher unabhängig und einzeln zu bewerten.
Ferner können die vorliegenden Ausführungsformen mit einer Mehrzahl von Videos verwendet werden und nicht nur mit einem einzigen Video 105, wie gezeigt. So kann der Vorschlagsgenerator 115 beispielsweise mehrere Videos durchsuchen (entweder in derselben Datei oder in verschiedenen Dateien), um aus Segmenten dieser Videos gebildete Vorschläge zu identifizieren. Diese Vorschläge können dann an das ML-System 120 weitergeleitet werden, das Beziehungen zwischen den Vorschlägen identifiziert und die Vorschläge auf Grundlage dieser Beziehungen bewertet.
In einer Ausführungsform handelt es sich bei der Abfrage 110 um eine Abfrage in natürlicher Sprache, die von einem menschlichen Benutzer erzeugt wird, es kann sich aber auch um eine beliebige Abfrage handeln, die einen Aspekt des Videos 105 beschreibt. Grundsätzlich versucht das Video-Grounding-System 100, ein Segment 130 des Videos 105 zu finden, das am besten mit dem in der Abfrage 110 beschriebenen Aspekt übereinstimmt. Die Abfrage 110 kann als Text oder als in Text umgewandelte Sprache erfolgen.
2 veranschaulicht einen Ablaufplan eines Verfahrens 200 zum Durchführen von Video-Grounding gemäß einer Ausführungsform. In Block 205 empfängt das Video-Grounding-System eine natürlichsprachliche Abfrage, die eine Szene, eine Aktion, ein Objekt oder einen anderen Aspekt in einem Video (oder einer Reihe von Videos) beschreibt. In einem Beispiel gibt eine Benutzerin die Abfrage ein, um das Video-Grounding-System anzuweisen, ein Segment des Videos zu finden, das den durch die Abfrage definierten Aspekt enthält. Das Video-Grounding-System kann es der Benutzerin ermöglichen, ein relevantes Segment (oder Segmente) zu identifizieren oder das Video zu durchsuchen, ohne mittels Versuch und Irrtum vorgehen zu müssen oder das Video einfach von Anfang an abzuspielen.
In Block 210 identifiziert der Vorschlagsgenerator im Video-Grounding-System mehrere Vorschläge, die möglicherweise der Abfrage entsprechen. Anders ausgedrückt: Der Vorschlagsgenerator kann verschiedene Segmente (d.h. Teilsätze der Rahmen im Video) identifizieren, von denen er vorhersagt, dass sie der Abfrage entsprechen. Wenn die Abfrage beispielsweise „BELLENDER HUND“ lautet, versucht der Vorschlagsgenerator, ein oder mehrere Segmente im Video zu identifizieren, die einen bellenden Hund zeigen. Diese Segmente werden als Vorschläge ausgegeben. Wie vorstehend erörtert, sind die vorliegenden Ausführungsformen nicht auf eine bestimmte Methode zum Erzeugen der Vorschläge beschränkt. Der Vorschlagsgenerator kann Bildverarbeitungsmethoden und natürlichsprachliche Methoden (die mehrere ML-Algorithmen umfassen können) verwenden, um die Abfrage zu verstehen und die zugehörigen Segmente im Video zu identifizieren.
3 veranschaulicht das Identifizieren von Vorschlägen in Reaktion auf eine natürlichsprachliche Abfrage gemäß einer Ausführungsform. 3 veranschaulicht die Videorahmen 300 in einem Video (oder einer Reihe von Videos). In diesem Beispiel empfängt der Vorschlagsgenerator eine Abfrage und identifiziert drei Vorschläge 305A-C (oder Videosegmente), die den durch die Abfrage beschriebenen Aspekt des Videos enthalten können. Wie gezeigt, überschneiden sich die Vorschläge 305A-C, wobei mindestens einer der Rahmen in Vorschlag 305A auch in Vorschlag 305B enthalten ist und mindestens ein Rahmen in Vorschlag 305B auch in Vorschlag 305C enthalten ist. Diese sich überschneidenden Rahmen können eine Beziehung zwischen den Vorschlägen 305 herstellen (z.B. haben sie Rahmen 300 gemeinsam). Wie vorstehend beschrieben, können diese Beziehungen genutzt werden, um die Genauigkeit beim Identifizieren zu verbessern, welcher der drei Vorschläge 305 am besten mit der Abfrage übereinstimmen kann.
Die vorliegenden Ausführungsformen können jedoch auch verwendet werden, wenn die Vorschläge 305 keine sich überschneidenden Rahmen haben. Das heißt, das GCN kann zeitliche Beziehungen zwischen den Vorschlägen identifizieren, selbst wenn diese Vorschläge keine sich überschneidenden Rahmen haben, sondern Rahmen, die nahe beieinander liegen (z.B. aneinandergrenzend oder mehrere Rahmen voneinander entfernt). Durch ein Durchführen von Graphenfaltung kann das Video-Grounding-System die Interaktion zwischen zwei zeitlichen Segmenten sowie Beziehungen zwischen den Vorschlägen erfassen.
Zurück zum Verfahren 200: Angenommen, der Vorschlagsgenerator identifiziert mehrere Vorschläge, dann bewertet das ML-System in Block 215 die Vorschläge mithilfe eines Graphenfaltungsnetzes, das Beziehungen zwischen den Vorschlägen identifiziert. Das heißt, anstatt die Vorschläge (oder Segmente) unabhängig voneinander zu bewerten, berücksichtigt das ML-System in dieser Ausführungsform Beziehungen zwischen den Vorschlägen, was zu einer erheblich verbesserten Genauigkeit führen kann. Die Einzelheiten des Bewertens der Vorschläge sind in den nachstehenden 4 und 5 beschrieben.
In Block 220 wählt das ML-System den Vorschlag mit der höchsten Bewertung als das Segment aus, das mit der Abfrage korreliert. Das heißt, jedem Vorschlag wird zumindest teilweise auf Grundlage der Beziehungen zwischen den Rahmen ein Rangwert zugewiesen. Somit kann der Rangwert genauer sein als eine Bewertung, die durch einzelnes Auswerten der Vorschläge gebildet wird. Das Video-Grounding-System kann dem Nutzer den Vorschlag (oder das Segment) mit der höchsten Bewertung ausgeben.
4 veranschaulicht einen Ablaufplan eines Verfahrens 400 zum Bewerten von Vorschlägen unter Verwendung eines GCN gemäß einer Ausführungsform. Der Klarheit halber wird das Verfahren 400 in Verbindung mit 5 erörtert, die ein ML-System 120 zum Bewerten von Vorschlägen 205 veranschaulicht. Das ML-System 120 enthält einen Codierer 505 für visuelle Merkmale, der die Vorschläge 205 auswertet und für jeden der Vorschläge einen Merkmalsvektor erzeugt. Der Merkmalsvektor wird einem Graphenersteller 515 bereitgestellt, um einen Graphen zu erzeugen, der die Beziehungen zwischen den Vorschlägen identifiziert.
Das ML-System 120 empfängt zudem die Abfrage 110 (dieselbe Abfrage 110, die vom Vorschlagsgenerator (nicht gezeigt) zum Identifizieren der Vorschläge 205 verwendet wurde). Das heißt, die Abfrage 110 wird im Video-Grounding-System zweimal verwendet: einmal durch den Vorschlagsgenerator, um die Vorschläge 205 zu identifizieren, und dann erneut durch ein Bi-LTSM- (bidirectional long short-term memory, bidirektionales langes Kurzzeitgedächtnis) Modell 510, um Spracherkennung an der Abfrage 110 durchzuführen. Die Ausführungsformen sind jedoch nicht auf ein Bi-LTSM-Modell 510 beschränkt, sondern können auch von anderen Arten von rekurrenten neuronalen Netzen (RNNs) oder Deep-Learning-Netzen verwendet werden, die Spracherkennung an einer Abfrage 110 durchführen können.
Die Ausgabe des Bi-LTSM-Modells 510 wird an den Graphenersteller 515 weitergeleitet, der in Kombination mit der Ausgabe des Codierers 505 für visuelle Merkmale einen Graphen erzeugt. Durch Empfangen sowohl der visuellen Merkmale vom Codierer 505 als auch der Abfragemerkmale vom Bi-LTSM-Modell 510 können Knoten im Graphen vorteilhaft eine Verschmelzung der visuellen und der Abfragemerkmale darstellen. Darüber hinaus werden Kanten im Graphen gemäß den durch ein Ähnlichkeitsnetz gemessenen Beziehungen zwischen Vorschlägen konstruiert. In einer Ausführungsform misst das Ähnlichkeitsnetz beim Konstruieren der Kanten im Graphen einen L2-Abstand.
Der vom Graphenersteller 515 erzeugte Graph (bestehend aus Knoten und Kanten) wird dem GCN 125 zur Ausführung bereitgestellt. GCNs sind eine leistungsstarke neuronale Netzwerkarchitektur zum Durchführen von maschinellem Lernen an Graphen. Das heißt, die Eingabe eines GCN 125 ist ein Graph, der mehrere Knoten enthalten kann, die durch Kanten miteinander verbunden sind. Die Ausgabe des GCN 125 wird an ein Modul 520 für visuell-textuelle Verschmelzung weitergeleitet, das die Ergebnisse des GCN 125 mit den vom Bi-LTSM 510 erzeugten Abfragemerkmalen verschmelzt. In einer Ausführungsform führt das Modul 520 für visuell-textuelle Verschmelzung eine Merkmalsverkettung durch, um die vom GCN 125 und dem Bi-LSTM identifizierten Merkmale zu verschmelzen, d.h. die Bildmerkmale und die Text-/Abfragemerkmale. Die verschmolzenen Ergebnisse werden dann an eine vollständig verbundene (FC, fully connected) Schicht 525 weitergeleitet. Die FC-Schicht 525 empfängt ein Eingabevolumen vom Modul 520 für visuell-textuelle Verschmelzung und gibt einen N-dimensionalen Vektor aus, wobei N die Anzahl der Vorschläge ist. Ferner kann die Ausgabe einen Rangwert der Vorschläge enthalten.
Ferner kann das ML-System 120, auch wenn dies nicht gezeigt ist, eine beliebige Anzahl von Datenverarbeitungseinheiten enthalten, die jeweils eine beliebige Anzahl von Computerprozessoren (die eine beliebige Anzahl von Kernen haben können) und Speicher zum Ausführen der in 5 veranschaulichten Softwarekomponenten und -module (z.B. des Codierers 505 für visuelle Merkmale, des Bi-LSTM 510, des Graphenerstellers 515, des GCN 125 usw.) enthalten können.
Unter Bezugnahme auf das Verfahren 400 aktualisiert in Block 405 der Graphenersteller 515 Knotenmerkmale und berechnet Kantengewichtungen für einen Graphen. Das heißt, der Graphenersteller 515 verwendet die Ausgaben des Codierers 505 für visuelle Merkmale (d.h. die visuellen Merkmale der Vorschläge 205) und des Bi-LTSM 510 (d.h. die Abfragemerkmale), um die Knoten im Graphen zu erzeugen. Die Knoten im Graphen können eine Verschmelzung dieser visuellen und abfragespezifischen Merkmale sein.
In Block 410 aktualisiert der Graphenersteller 515 Kantenmerkmale des Graphen. In einer Ausführungsform berechnet der Graphenersteller 515 Kantengewichtungen für den Graphen. Das heißt, der Graphenersteller 515 verwendet die Ausgaben des Codierers 505 für visuelle Merkmale (d.h. die visuellen Merkmale der Vorschläge 205) und des Bi-LTSM 510 (d.h. die Abfragemerkmale), um Kanten im Graphen zu erzeugen. Die Kanten (und ihre entsprechenden Gewichtungen) werden auf Grundlage der Beziehungen zwischen den Vorschlägen zugewiesen.
In Block 415 führt das GCN 125 eine Knotenaggregation durch. Das heißt, das GCN 125 kann die Knoten des Graphen aggregieren, die er als Eingabe vom Graphenersteller 515 empfängt. Die vorliegenden Ausführungsformen sind nicht auf eine bestimmte Methode zum Erzeugen der Knotenaggregation beschränkt.
In Block 420 bewertet das ML-System 120 die Vorschläge 205. Das heißt, das GCN 125, das Modul 520 für visuell-textuelle Verschmelzung, die FC 525 oder Kombinationen aus diesen können Gewichtungen für die Vorschläge 205 erzeugen, die zum Bewerten der Vorschläge 205 verwendet werden können. Diese Gewichtungen werden auf Grundlage der Beziehungen zwischen den Vorschlägen erstellt.
Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung wurden für Zwecke der Veranschaulichung dargelegt, sind jedoch nicht als abschließend oder auf die Ausführungsformen beschränkt zu verstehen. Für den Fachmann sind viele Abwandlungen und Variationen ersichtlich, ohne vom Umfang und Grundgedanken der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendete Terminologie wurde gewählt, um bestmöglich die Grundgedanken der Ausführungsformen, der praktischen Anwendung oder technischen Verbesserung gegenüber den auf dem Markt erhältlichen Technologien zu erklären oder um dem Fachmann das Verständnis der hierin offenbarten Ausführungsformen zu ermöglichen.
Vorstehend wird auf in dieser Offenbarung vorgestellte Ausführungsformen Bezug genommen. Der Anwendungsbereich der vorliegenden Offenbarung ist jedoch nicht auf konkrete beschriebene Ausführungsformen beschränkt. Stattdessen kann jede Kombination von Merkmalen und Elementen, unabhängig davon, ob sie sich auf verschiedene Ausführungsformen beziehen oder nicht, in Betracht gezogen werden, um die in Betracht gezogenen Ausführungsformen zu implementieren und umzusetzen. Auch wenn ferner vorliegend offenbarte Ausführungsformen Vorteile gegenüber anderen möglichen Lösungen oder gegenüber dem Stand der Technik erzielen können, stellt die Frage, ob ein bestimmter Vorteil durch eine bestimmte Ausführungsform erreicht wird oder nicht, keine Einschränkung des Umfangs der vorliegenden Offenbarung dar. Somit sind die vorliegend erörterten Aspekte, Merkmale, Ausführungsformen und Vorteile lediglich veranschaulichend und werden nicht als Elemente oder Beschränkungen der beiliegenden Ansprüche betrachtet, es sei denn, sie werden in einem oder mehreren Ansprüchen ausdrücklich erwähnt. Ebenso ist eine Bezugnahme auf „die Erfindung“ nicht als Verallgemeinerung eines vorliegend offenbarten Erfindungsgegenstandes zu verstehen und gilt nicht als Element oder Einschränkung der beiliegenden Ansprüche, es sei denn, sie wird in einem oder mehreren Ansprüchen ausdrücklich erwähnt.
Aspekte der vorliegenden Erfindung können die Form einer ausschließlichen Hardware-Ausführungsform, einer ausschließlichen Software-Ausführungsform (einschließlich Firmware, systemeigener Software, Mikrocode etc.) oder einer Ausführungsform annehmen, die Software- und Hardwareaspekte kombiniert und die hierin ganz allgemein als eine „Schaltung, ein „Modul“ oder ein „System“ bezeichnet werden kann.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt handeln. Das Computerprogrammprodukt kann (ein) durch einen Computer lesbare(s) Speichermedium (oder -medien) umfassen, auf dem/denen durch einen Computer lesbare Programmanweisungen gespeichert ist/sind, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch eine Einheit zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder gehobene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. ein Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es versteht sich, dass jeder Block der Ablaufpläne und/oder der Blockschaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaubildern mittels durch einen Computer lesbarer Programmanweisungen ausgeführt werden können.
Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder angegebenen Funktion/Schritts umsetzen.
Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaubilder festgelegten Funktionen/Schritte umsetzen.
Die Ablaufpläne und die Blockschaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) aufweisen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
Während sich das Vorstehende auf Ausführungsformen der vorliegenden Erfindung bezieht, können andere und weitere Ausführungsformen der Erfindung ersonnen werden, ohne vom grundsätzlichen Umfang der Erfindung abzuweichen, und der Umfang der Erfindung wird durch die folgenden Ansprüche bestimmt.

Claims

Verfahren, umfassend: Empfangen einer Abfrage, die einen Aspekt in einem Video beschreibt, wobei das Video eine Mehrzahl von Rahmen enthält; Identifizieren mehrerer Vorschläge, die möglicherweise der Abfrage entsprechen, wobei jeder der Vorschläge einen Teilsatz der Mehrzahl von Rahmen enthält; Bewerten der Vorschläge unter Verwendung eines Graphenfaltungsnetzes (GCN, graph convolution network), das Beziehungen zwischen den Vorschlägen identifiziert; und auf Grundlage des Bewertens erfolgendes Auswählen eines der Vorschläge als Videosegment, das mit der Abfrage korreliert.
Verfahren nach Anspruch 1, wobei das Bewerten der Vorschläge Folgendes umfasst: Identifizieren visueller Merkmale in den Vorschlägen unter Verwendung eines Codierers für visuelle Merkmale; und Erzeugen von Abfragemerkmalen aus der Abfrage unter Verwendung eines rekurrenten neuronalen Netzes (RNN).
Verfahren nach Anspruch 2, wobei das Bewerten der Vorschläge Folgendes umfasst: Erzeugen eines Graphen, der Knoten und Kanten aufweist, auf Grundlage der visuellen Merkmale und der Abfragemerkmale; und Eingeben des Graphen in das GCN zur Verarbeitung.
Verfahren nach Anspruch 3, wobei das Bewerten der Vorschläge Folgendes umfasst: Aktualisieren von Knotenmerkmalen für die Knoten in dem Graphen; und Berechnen von Kantengewichtungen für die Kanten im Graphen.
Verfahren nach Anspruch 3, wobei das Bewerten der Vorschläge Folgendes umfasst: Durchführen einer Knotenaggregation; und Bewerten der Vorschläge auf Grundlage der Knotenaggregation und von Ergebnissen aus dem Verarbeiten des Graphen unter Verwendung des GCN.
Verfahren nach Anspruch 1, wobei mindestens zwei der Vorschläge sich überschneidende Rahmen aus der Mehrzahl von Rahmen im Video aufweisen.
Verfahren nach Anspruch 6, wobei mindestens zwei der Vorschläge Teilsätze der Mehrzahl von Rahmen aufweisen, die sich nicht überschneiden.
System, das Folgendes aufweist: einen Prozessor und Speicher, der ein Programm aufweist, das bei Ausführung durch den Prozessor eine Operation durchführt, wobei die Operation Folgendes umfasst: Empfangen einer Abfrage, die einen Aspekt in einem Video beschreibt, wobei das Video eine Mehrzahl von Rahmen enthält; Identifizieren mehrerer Vorschläge, die möglicherweise der Abfrage entsprechen, wobei jeder der Vorschläge einen Teilsatz der Mehrzahl von Rahmen enthält; Bewerten der Vorschläge unter Verwendung eines GCN, das Beziehungen zwischen den Vorschlägen identifiziert; und auf Grundlage des Bewertens erfolgendes Auswählen eines der Vorschläge als Videosegment, das mit der Abfrage korreliert.
System nach Anspruch 8, wobei das Bewerten der Vorschläge Folgendes umfasst: Identifizieren visueller Merkmale in den Vorschlägen unter Verwendung eines Codierers für visuelle Merkmale; und Erzeugen von Abfragemerkmalen aus der Abfrage unter Verwendung eines rekurrenten neuronalen Netzes (RNN).
System nach Anspruch 9, wobei das Bewerten der Vorschläge Folgendes umfasst: Erzeugen eines Graphen, der Knoten und Kanten aufweist, auf Grundlage der visuellen Merkmale und der Abfragemerkmale; und Eingeben des Graphen in das GCN zur Verarbeitung.
System nach Anspruch 10, wobei das Bewerten der Vorschläge Folgendes umfasst: Aktualisieren von Knotenmerkmalen für die Knoten in dem Graphen; und Berechnen von Kantengewichtungen für die Kanten im Graphen.
System nach Anspruch 10, wobei das Bewerten der Vorschläge Folgendes umfasst: Durchführen einer Knotenaggregation; und Bewerten der Vorschläge auf Grundlage der Knotenaggregation und von Ergebnissen aus dem Verarbeiten des Graphen unter Verwendung des GCN.
System nach Anspruch 8, wobei mindestens zwei der Vorschläge sich überschneidende Rahmen aus der Mehrzahl von Rahmen im Video aufweisen.
System nach Anspruch 13, wobei mindestens zwei der Vorschläge Teilsätze der Mehrzahl von Rahmen aufweisen, die sich nicht überschneiden.
Computerprogrammprodukt zum Identifizieren eines Videosegments, das mit einer Abfrage korreliert, wobei das Computerprogrammprodukt Folgendes aufweist: ein durch einen Computer lesbares Speichermedium mit darauf enthaltenem, durch einen Computer lesbarem Programmcode, wobei der durch einen Computer lesbare Programmcode durch einen oder mehrere Computerprozessoren ausführbar ist, um eine Operation durchzuführen, wobei die Operation Folgendes umfasst: Empfangen der Abfrage, wobei die Abfrage einen Aspekt in einem Video beschreibt, das eine Mehrzahl von Rahmen aufweist; Identifizieren mehrerer Vorschläge, die möglicherweise der Abfrage entsprechen, wobei jeder der Vorschläge einen Teilsatz der Mehrzahl von Rahmen enthält; Bewerten der Vorschläge unter Verwendung eines GCN, das Beziehungen zwischen den Vorschlägen identifiziert; und auf Grundlage des Bewertens erfolgendes Auswählen eines der Vorschläge als das Videosegment, das mit der Abfrage korreliert.
Computerprogrammprodukt nach Anspruch 15, wobei das Bewerten der Vorschläge Folgendes umfasst: Identifizieren visueller Merkmale in den Vorschlägen unter Verwendung eines Codierers für visuelle Merkmale; und Erzeugen von Abfragemerkmalen aus der Abfrage unter Verwendung eines rekurrenten neuronalen Netzes (RNN).
Computerprogrammprodukt nach Anspruch 16, wobei das Bewerten der Vorschläge Folgendes umfasst: Erzeugen eines Graphen, der Knoten und Kanten aufweist, auf Grundlage der visuellen Merkmale und der Abfragemerkmale; und Eingeben des Graphen in das GCN zur Verarbeitung.
Computerprogrammprodukt nach Anspruch 17, wobei das Bewerten der Vorschläge Folgendes umfasst: Aktualisieren von Knotenmerkmalen für die Knoten in dem Graphen; und Berechnen von Kantengewichtungen für die Kanten im Graphen.
Computerprogrammprodukt nach Anspruch 17, wobei das Bewerten der Vorschläge Folgendes umfasst: Durchführen einer Knotenaggregation; und Bewerten der Vorschläge auf Grundlage der Knotenaggregation und von Ergebnissen aus dem Verarbeiten des Graphen unter Verwendung des GCN.
Computerprogrammprodukt nach Anspruch 15, wobei mindestens zwei der Vorschläge sich überschneidende Rahmen aus der Mehrzahl von Rahmen im Video aufweisen.