JP2023515359A

JP2023515359A - ビデオ・グランディングのためのグラフ畳み込みネットワーク

Info

Publication number: JP2023515359A
Application number: JP2022548547A
Authority: JP
Inventors: ガン，チュアン; リウ，シジア; ダス，スブロ; ワン，ダクオ; チャン，ヤン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-02-15
Filing date: 2021-02-11
Publication date: 2023-04-13
Also published as: US20210256059A1; DE112021000308T5; CN114930317A; WO2021161202A1; GB2608529A; US11442986B2; GB202213456D0

Abstract

複数のフレームを含むビデオ中の側面を記述するクエリを受信することと、クエリに潜在的に対応する複数の提案を識別することであって、複数の提案の各々は、複数のフレームのサブセットを含む、識別することと、提案を、提案間の関係性を識別するグラフ畳み込みネットワーク（ＧＣＮ）を用いてランク付けすることと、ランク付けに基づいて、クエリに相関するビデオ・セグメントとして提案のうちの１つを選択することとを含む方法および装置が開示される。

Description

本発明は、クエリを処理してビデオ内の対応するセグメントを識別するビデオ・グランディングに関し、より詳細には、ビデオの異なるセグメント間の関係性を考慮することに関する。

ビデオ・グランディングは、ビデオを検索し、自然言語クエリに対応するセグメント（例えば、ビデオ内の連続する複数のビデオ・フレーム）を識別する。例えば、ユーザは、子供がブランコを押されるビデオの中の特定のセグメントを見つけることを望むかもしれない。ユーザは、「ブランコをこぐ子供（ＣＨＩＬＤＯＮＳＷＩＮＧ）」という質問を定義することができる。ビデオ・グランディングは、機械学習（ＭＬ）アルゴリズムを使用して、ビデオを解析し、クエリに記述された情報を表示している（例えば、遊具セット上で子供がブランコをこぐフレームのセグメント）可能性のある、ビデオ中の異なるセグメント（本明細書で提案と参照する）を識別することができる。ビデオ・グランディングは、提案をランク付けし、最も高いランク付けを有するものをクエリに対する回答として選択する。つまり、現在のビデオ・グランディング技術は、どの提案が自然言語クエリに最もよく一致するかを決定するためにそれらをランク付けするときに個別的に提案を考慮する。

本発明の一実施形態は、複数のフレームを含むビデオ中の側面を記述するクエリを受信するステップと、クエリに潜在的に対応する複数の提案を識別するステップであって、複数の提案の各々は、複数のフレームのサブセットを含む、識別するステップと、提案を、提案間の関係性を識別するグラフ畳み込みネットワーク（ＧＣＮ）を用いてランク付けするステップと、ランク付けに基づいて、クエリに相関するビデオ・セグメントとして提案のうちの１つを選択するステップとを含む、方法である。

本発明の別の実施形態は、プロセッサとメモリとを含むシステムである。メモリは、プロセッサにより実行されるとき、動作を実行するプログラムを含み、動作は、複数のフレームを含むビデオ中側面を記述するクエリを受信することと、クエリに潜在的に対応する複数の提案を識別することであって、複数の提案の各々は、複数のフレームのサブセットを含む、識別することと、提案を、提案間の関係性を識別するグラフ畳み込みネットワーク（ＧＣＮ）を用いてランク付けすることと、ランク付けに基づいて、クエリに相関するビデオ・セグメントとして提案のうちの１つを選択することとを含む。

本発明の別の実施形態は、クエリに対応するビデオ・セグメントを識別するためのコンピュータ・プログラム製品である。コンピュータ・プログラム製品は、そこに具現化されたコンピュータ可読プログラムコードを有するコンピュータ可読ストレージ媒体を含み、コンピュータ可読プログラムコードは、１または複数のコンピュータ・プロセッサによって実行されて、動作を実行する。動作は、複数のフレームを含むビデオ中の側面を記述するクエリを受信することと、クエリに潜在的に対応する複数の提案を識別することであって、複数の提案の各々は、複数のフレームのサブセットを含む、識別することと、提案を、提案間の関係性を識別するグラフ畳み込みネットワーク（ＧＣＮ）を用いてランク付けすることと、ランク付けに基づいて、クエリに相関するビデオ・セグメントとして提案のうちの１つを選択することとを含む。

単なる例として、以下の添付の図面を参照しながら、本発明の実施形態を以下説明する。

一実施形態によるグラフ畳み込みネットワークを用いたビデオ・グランディング・システムを示す。一実施形態によるビデオ・グランディングを実行するためのフローチャートを示す。一実施形態による、自然言語クエリに応答して提案を識別することを示す。一実施形態による、グラフ畳み込みネットワークを用いた提案をランク付けするためのフローチャートを示す図である。一実施形態による、提案をランク付けするための機械学習システムを示す。

本明細書における実施形態は、自然言語クエリに応答して識別された種々の提案（例えば、ビデオ・セグメント）が、提案間の関係性を識別するグラフ畳み込みネットワーク（ＧＣＮ）を使用してランク付けされる、ビデオ・グランディングを実行する。つまり、提案が独立して（あるいは個別的に）ランク付けされる従来のビデオ・グランディング・システムとは対照的に、本明細書における実施形態は、グラフを構築し、提案間の時間的な関係性を識別するＧＣＮを実装する。一実施形態においては、ＧＣＮは、ネットワーク内の各ノードが（提案から導出された）視覚的特徴と（自然言語クエリから導出された）クエリ特徴とのフュージョンを表すように設計される。さらに、グラフ内のエッジは、類似性ネットワークによって測定される提案間の関係性に従って構築されてもよい。グラフ畳み込みを実行することにより、ビデオ・グランディング・システムは、２つの時間セグメントの相互作用および提案間の関係性を捕捉することができる。有利なことに、提案を個別的にかつ局所的に処理する従来の研究とは異なり、本明細書で説明される技術は、提案の間の関係を明示的にモデル化することにより、全体的および包括的な観点からビデオ・グランディングを実行し、これによってその精度が有意に高められる。

図１は、一実施形態によるＧＣＮ１２５を用いたビデオ・グランディング・システム１００を示す。一般的には、ビデオ・グランディング・システム１００は、ユーザが、ビデオ１０５内のシーン、アクションまたはオブジェクトのようなビデオ１０５の特定の側面（aspect）を識別するためにクエリ１１０を送出することを可能にする。ビデオ１０５は、複数の異なるシーン、アクションまたはオブジェクトを包含する複数のフレームを含んでもよい。ユーザは、ビデオ１０５内のシーン、アクション、オブジェクトまたは任意の他の側面のうちの１つを探すことができる。例えば、ビデオ１０５の第１のセグメント（例えば、ビデオ１０５の連続するフレームのサブセット）は、子供の遊具セットを示すかもしれず、ビデオ１０５の第２のセグメントは、遊具セットの特定の特徴（例えば、砂場またはすべり台）を示すかもしれず、ビデオ１０５の第３のセグメントは、遊具セットとかかわる子供（例えば、遊具セットのブランコをこぐか、またはすべり台を滑るかする子供）を示すかもしれない。ユーザは、ビデオ・グランディング・システム１００を使用して、ビデオ１０５を検索し、クエリ１１０と相関（または最良の一致を）するセグメントを識別することができる。例えば、ユーザは、（ビデオ１０５が遊具セットのプロモーションビデオである場合）遊具セットを購入するかどうかを決定しているかもしれず、具体的に砂場を備える遊具セットを所望する。ユーザは、単語「砂場」を含むクエリ１１０を送出することができる。以下に詳細に議論する技術を使用して、ビデオ・グランディング・システム１００は、ビデオを検索し、砂場を有するビデオのセグメントを識別することができる。したがって、ユーザは、ビデオ１０５全体を視聴するのではなく、識別されたセグメントを視聴して、遊具セットが彼女の基準（すなわち、砂場を備える）を満足するかどうかを判断することができる。

別の例では、ユーザは、遊具セットにかかわる子供を見たい場合があり、その結果、彼女は、遊具セットのスケール（またはサイズ）のより良いアイデアを得ることができる。ユーザは、ビデオ・グランディング・システム１００が、クエリ１１０によって記述されているビデオの側面（例えば、シーン、アクションまたはオブジェクト）を表示するセグメントを識別するために使用することができる、「すべり台を使う子供」または「ブランコを押されている子供」を述べるクエリ１１０を生成してもよい。

ビデオ・グランディング・システム１００は、入力としてビデオ１０５およびクエリ１１０を受信する提案ジェネレータ１１５を含む。提案ジェネレータ１１５は、１または複数の機械学習（ＭＬ）アルゴリズムもしくはビデオ構文解析技術またはその両方を使用して、クエリ１１０によって記述されるシーン、アクションまたはオブジェクトを描写し得るビデオ１０５内の候補セグメントを表す提案を識別することができる。つまり、クエリ１１０が「ブランコをこぐ子供」を述べる場合、提案ジェネレータ１１５は、ジェネレータ１１５がブランコをこぐ子供を含んでいると判定するいくつかの候補提案（例えば、異なるビデオ・セグメント）を識別する。

提案を識別するために、提案ジェネレータ１１５は、任意の数の画像処理技術、自然言語処理技術またはテキスト処理技術（例えば、ＭＬまたはその他）を使用してもよい。一実施形態においては、提案ジェネレータ１１５は、種々のフレームを評価して、各提案について開始時刻（またはフレーム）および終了時刻を識別する。提案は、重複している（例えば、少なくともいくつかのフレームが共通する）（overlapping）場合もあり、各提案が独自のフレームを有し、重複を有さない（非重複：non-overlapping）場合もある。本明細書における実施形態は、提案を生成するための特定の技術に限定されない。

ビデオ・グランディング・システム１００は、提案ジェネレータ１１５によって生成された提案のうちいずれが、クエリ１１０に最良の一致している（または最も高く相関している）可能性が最も高いかを選択するＭＬシステム１２０を含む。図１に示すように、ＭＬシステム１２０は、入力として提案を受信し、クエリ１１０によって記述されたシーン、アクションまたはオブジェクトに相関するセグメント１３０を出力する。言い方を変えれば、ＭＬシステム１２０は、提案の１つを、クエリ１１０に最もよく一致するセグメント１３０として選択する。例えば、ＭＬシステム１２０は、ビデオ１０５中の開始時間および終了時間によって定義されるセグメント１３０を出力してもよい。セグメント１３０は、ＭＬシステム１２０によって識別される開始時間および終了時間の間にある連続するフレームによって定義されてもよい。一実施形態においては、ビデオ１０５を最初から開始することなく、あるいは、ビデオ１０５内のランダムな位置を選択することによってビデオ１０５を手動で検索することなく、ユーザがセグメント１３０を視聴してうまくいけば最も関心のあるコンテンツを視聴することができるようにセグメント１３０がユーザに出力される。

ＭＬシステム１２０は、ＧＣＮ１２５を含む。以下に詳細に議論するように、ＧＣＮ１２５は、ビデオ・グランディング・システム１００が、提案ジェネレータ１１５によって出力された提案の間の関係性を識別することを可能にする。つまり、提案を独立に取り扱うのではなく、グラフ畳み込みネットワーク１２５は、提案間の類似性または関係性を識別することができ、これは、ビデオ・グランディング・システム１００の精度を有利に向上させる、すなわち、ビデオ・グランディング・システム１００が、クエリ１１０に定義されるシーン、アクションまたはオブジェクトの説明に相関する（一致する）セグメントを選択する確率を増大させることができる。１つの実施形態においては、グラフ畳み込みネットワーク１２５は、それらの関係に基づいて提案をランク付けし、これは、以前に行われたように提案を独立してまたは個別的にランク付けするよりも正確である可能性がある。

さらに、本明細書における実施形態は、示されるように、単一のビデオ１０５ではなく、複数のビデオと共に使用することができる。例えば、提案ジェネレータ１１５は、複数のビデオ（同じファイルまたは異なるファイル内に存在するか否か）を通して検索し、これらのビデオのセグメントから形成された提案を識別することができる。これらの提案は、ＭＬシステム１２０に転送されてもよく、ＭＬシステムは、提案の間の関係性を識別し、これらの関係性に基づいて提案をランク付けする。

一実施形態においては、クエリ１１０は、人間のユーザによって生成された自然言語クエリであるが、ビデオ１０５の側面を記述する任意のクエリであってよい。一般的には、ビデオ・グランディング・システム１００は、クエリ１１０に記述される側面と最もよく一致するビデオ１０５のセグメント１３０を発見することを試みる。クエリ１１０は、テキスト、またはテキストに変換される音声であってもよい。

図２は、一実施形態によるビデオ・グランディングを実行するための方法２００のフローチャートを示す。ブロック２０５においては、ビデオ・グランディング・システムは、ビデオ（または一連のビデオ）におけるシーン、アクション、オブジェクトまたは任意の他の側面を記述する自然言語クエリを受信する。一例では、ユーザは、クエリを送出して、クエリによって定義された側面を含むビデオのセグメントを発見するようにビデオ・グランディング・システムに指示する。ビデオ・グランディング・システムは、ユーザが、試行錯誤に頼ることなく、または単純に最初からビデオを再生するにではなく、関連するセグメント（または複数のセグメント）を識別し、またはビデオを検索することを可能にする。

ブロック２１０においては、ビデオ・グランディング・システム内の提案ジェネレータは、クエリに潜在的に対応する複数の提案を識別する。別の言い方をすると、提案ジェネレータは、クエリに対応すると予測する、異なるセグメント（すなわち、ビデオ内のフレームのサブセット）を識別することができる。例えば、クエリが「吠える犬」である場合、提案ジェネレータは、犬が吠えていることを示すビデオ内の１または複数のセグメントを識別することを試みる。これらのセグメントは、提案として出力される。上述したように、本明細書における実施形態は、提案を生成するための特定の技術に限定されない。提案ジェネレータは、画像処理技術および自然言語技術（複数のＭＬアルゴリズムを含み得る）を使用して、クエリを理解し、ビデオ内の関連するセグメントを識別する。

図３は、１つの実施形態による、自然言語クエリに応答して提案を識別することを示す図である。図３は、ビデオ（または一連のビデオ）におけるビデオ・フレーム３００を示す。この例では、提案ジェネレータは、クエリを受信し、クエリによって記述されるビデオの側面を含み得る３つの提案３０５Ａ～３０５Ｃ（またはビデオ・セグメント）を識別する。図示されるように、提案３０５Ａ～３０５Ｃは、重複し、提案３０５Ａにおけるフレームの少なくとも１つが提案３０５Ｂにも含まれ、提案３０５Ｂの少なくとも１つのフレームが提案３０５Ｃにも含まれる。これらの重複するフレームは、提案３０５間の関係性を確立することができる（例えば、それらが共通のフレーム３００を有する）。上述したように、これらの関係性が利用されて、３つの提案３０５のうちのいずれがクエリに最も適合し得るかを識別する精度を向上させることができる。

しかしながら、本明細書における実施形態は、提案３０５が重複しているフレームを有していない場合にも使用することができる。つまり、ＧＣＮは、これらの提案が重複しているフレームを有していない場合であっても、互いに近接しているフレームを有する場合（例えば、隣接または数フレーム離れている）に、提案間の時間的関係を識別することができる。グラフ畳み込みを実行することにより、ビデオ・グランディング・システムは、２つの時間的セグメントの相互作用および提案間の関係性を捕捉することができる。

方法２００に戻ると、提案ジェネレータが複数の提案を識別すると仮定すると、ブロック２１５で、ＭＬシステムは、提案を、提案間の関係性を識別するグラフ畳み込みネットワークを用いてランク付けする。つまり、提案（またはセグメント）を互いに独立してランク付けするのではなく、この実施形態においては、ＭＬシステムは、提案間の関係を考慮し、これにより、大幅に改善された精度がもたらされ得る。提案のランク付けの詳細は、以下の図４および図５で説明される。

ブロック２２０において、ＭＬシステムは、クエリに相関するセグメントとして、最もランクが高い提案を選択する。つまり、フレーム間の関係性に少なくとも部分的に基づいて、各提案にランクが割り当てられる。よって、ランクは、提案を個別的に評価することによって形成されるランク付けよりも正確である可能性がある。ビデオ・グランディング・システムは、最も高いランク付けを有する提案（またはセグメント）をユーザに出力することができる。

図４は、一実施形態によるＧＣＮを用いて提案をランク付けするための方法４００のフローチャートを示す。明瞭化のために、提案２０５をランク付けするためのＭＬシステム１２０を示す図５と平行して方法４００が議論される。ＭＬシステム１２０は、視覚的特徴エンコーダ５０５を含み、視覚的特徴エンコーダは、提案２０５を評価し、提案各々について特徴ベクトルを生成する。特徴ベクトルは、提案間の関係性を識別するグラフを生成するためのグラフ・コンストラクタ５１５に提供される。

ＭＬシステム１２０は、また、クエリ１１０（提案２０５を識別するために提案ジェネレータ（図示せず）によって使用された同一のクエリ１１０である）も受信する。つまり、ビデオ・グランディング・システムにおいてクエリ１１０は２回使用され、１度は、提案ジェネレータによって提案２０５を識別し、再度は、双方向長期短期記憶（Ｂｉ－ＬＳＴＭ）モデル５１０によってクエリ１１０を用いて音声認識を実行する。しかしながら、実施形態は、Ｂｉ‐ＬＳＴＭモデル５１０に限定されるものではなく、クエリ１１０を用いて音声認識を行うことができる他のタイプのリカレント・ニューラル・ネットワーク（ＲＮＮ）または深層学習ネットワークによって使用されてもよい。

Ｂｉ‐ＬＳＴＭモデル５１０の出力は、グラフ・コンストラクタ５１５に提供され、グラフ・コンストラクタは、視覚的特徴エンコーダ５０５の出力と組み合わせて、グラフを生成する。有利には、エンコーダ５０５からの視覚的特徴およびＢｉ‐ＬＳＴＭモデル５１０からのクエリ特徴の両方を受信することによって、グラフ内のノードが、視覚的およびクエリ特徴のフュージョン（fusion，融合，統合）とすることができる。さらに、グラフ内のエッジは、類似性ネットワークによって測定される提案間の関係性に従って構築される。一実施形態においては、類似性ネットワークは、グラフ内のエッジを構築する際のＬ２距離を測定する。

グラフ・コンストラクタ５１５によって生成されるグラフ（ノードおよびエッジを含む）は、実行のためにＧＣＮ１２５に提供される。ＧＣＮは、グラフ上で機械学習を行うための強力なニューラル・ネットワーク・アーキテクチャである。つまり、ＧＣＮ１２５の入力は、エッジによって相互接続される複数のノードを含み得るグラフである。ＧＣＮ１２５の出力は、視覚‐文字フュージョン・モジュール５２０に提供され、視覚‐文字フュージョン・モジュールは、ＧＣＮ１２５の結果をＢｉ－ＬＳＴＭ５１０によって生成されるクエリ特徴とフュージョン（融合）する。一実施形態においては、視覚‐文字フュージョン・モジュール５２０は、ＧＣＮ１２５とＢｉ‐ＬＳＴＭによって識別された特徴、すなわち画像特徴と文字的／クエリ特徴とをフュージョンするために特徴連結を実行する。フュージョンされた結果は、全接続（ＦＣ）層５２５に提供される。ＦＣ層５２５は、視覚‐文字フュージョン・モジュール５２０からの入力ボリュームを受信し、Ｎ次元ベクトルを出力し、ここで、Ｎは提案の数である。さらに、出力は、提案のランクを含んでもよい。

さらに、図示されていないが、ＭＬシステム１２０は、それぞれが、図５に示したソフトウェア・コンポーネントおよびモジュール（例えば、視覚的特徴エンコーダ５０５、Ｂｉ‐ＬＳＴＭモデル５１０、グラフ・コンストラクタ５１５、ＧＣＮ１２５など）を実行するための任意の数のコンピュータ・プロセッサ（任意の数のコアを有してもよい）およびメモリを含む、任意の数のコンピューティング・デバイスを含んでもよい。

方法４００を参照すると、ブロック４０５においては、グラフ・コンストラクタ５１５は、ノード特徴を更新し、グラフに対してエッジ重みを計算する。つまり、グラフ・コンストラクタ５１５は、視覚的特徴エンコーダ５０５の出力（すなわち、提案２０５の視覚的特徴）およびＢｉ－ＬＳＴＭ５１０の出力（すなわち、クエリ特徴）を用いて、グラフ内のノードを生成する。グラフ内のノードは、これらの視覚的特徴およびクエリ特徴のフュージョンであってよい。

ブロック４１０においては、グラフ・コンストラクタ５１５は、グラフのエッジ特徴を更新する。一実施形態においては、グラフ・コンストラクタ５１５は、グラフに対するエッジ重みを計算する。つまり、グラフ・コンストラクタ５１５は、視覚的特徴エンコーダ５０５の出力（すなわち、提案２０５の視覚的特徴）およびＢｉ－ＬＳＴＭ５１０の出力（すなわち、クエリ特徴）を用いて、グラフにおけるエッジを生成する。エッジ（およびそれらの対応する重み）は、提案間の関係性に基づいて割り当てられる。

ブロック４１５においては、ＧＣＮ１２５は、ノード集約を実行する。すなわち、ＧＣＮ１２５は、グラフ・コンストラクタ５１５から入力として受信されるグラフのノードを集約することができる。本明細書における実施形態は、ノード集約を実行するための特定の技術に限定されない。

ブロック４２０においては、ＭＬシステム１２０は、提案２０５をランク付けする。つまり、ＧＣＮ１２５、視覚‐文字フュージョン・モジュール５２０、ＦＣ５２５またはそれらの組み合わせは、提案２０５をランク付けするために使用することができる、提案２０５に対する重みを生成してもよい。これらの重みは、提案間の関係性に基づいて生成される。

本発明の種々の実施形態について説明されているが、説明を目的としており、開示される実施形態を網羅または限定することを意図するものではない。多数の変更例および変形例が、説明する実施形態の範囲および精神を逸脱することなく、当業者にとって明白となるであろう。本明細書で使用される用語は、実施形態の原理、実際の応用、または、市場において見られる技術を超えた技術向上を最も良く説明し、または、他の当業者が本明細書に開示の実施形態を理解することができるように選ばれたものである。

上記においては、本開示において提示された実施形態に対して参照がなされている。しかしながら、本開示の範囲は、特定の実施形態に限定されるものではない。代わりに、異なる実施形態に関連するか否かにかかわらず、特徴および要素の任意の組み合わせが、企図された実施形態を実装および実践するために企図される。さらに、本明細書に開示された実施形態は、他の可能な解決策を超えて、または従来技術を超えて利点を達成し得るが、所与の実施形態によって特定の利点が達成されるか否かは、本開示の範囲を限定するものではない。よって、本明細書で議論される、側面、特徴、実施形態および利点は、単に例示的なものであり、請求項において明示的に記載されている場合を除き、付加された請求項の要素または制限であるとは考えない。同様に、「本発明」に対する参照は、本明細書に開示される本発明の主題の一般化として解釈されるべきではなく、請求項において明示的に述べている場合を除いて、付加する請求項の要素または制限であるとみなされるべきではない。

本発明の側面は、全体的にハードウェアの実施形態、全体的にソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む。）、またはソフトウェアおよびハードウェアの側面を組み合わせた実施形態の形態をとってもよく、これらはすべて、本明細書において一般的に「回路」、「モジュール」または「システム」と参照される。

本発明は、システム、方法もしくはコンピュータ・プログラム製品またはその組み合わせであってよい。コンピュータ・プログラム製品は、プロセッサに本発明の側面を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体を含んでもよい。

コンピュータ可読ストレージ媒体は、命令実行デバイスによって使用するための命令を保持し格納する有形のデバイスであってよい。コンピュータ可読ストレージ媒体は、例えば、これに限定されるものではないが、電子的ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイスまたは上記の任意の適切な組み合わせであってよい。コンピュータ可読ストレージ媒体のより具体的な例示の列挙としては、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリー・メモリ（ＲＯＭ）、消去可能プログラマブル・リード・オンリー・メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク・リード・オンリー・メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリースティック、フロッピー（登録商標）ディスク、パンチカードまたは記録された命令を有する溝内の***構造のような機械的エンコードされたデバイス、および上記の任意の適切な組み合わせが含まれる。コンピュータ可読ストレージ媒体は、本明細書で使用されるように、電波、自由伝搬する電磁波、導波路または他の伝送媒体を伝搬する電磁波（たとえば、ファイバ光ケーブルを通過する光パルス）または、ワイヤを通して伝送される電気信号のような、それ自体が一時的な信号として解釈されるものではない。

本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピュータ／処理デバイスに、または、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはこれらの組み合わせといったネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータもしくはエッジサーバまたはこれらの組み合わせを含んでもよい。各コンピュータ／処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読ストレージ媒体に格納するために転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データまたは、１以上のプログラミング言語の任意の組み合わせで書かれたソース・コードあるいはオブジェクト・コードであってよく、１以上のプログラミング言語は、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋またはこれらに類するもなどのオブジェクト指向言語、Ｃプログラミング言語または類似のプログラミング言語などの従来型の手続型言語を含む。コンピュータ可読プログラム命令は、全体としてユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンド・アローンのソフトウェア・パッケージとして、部分的にユーザのコンピュータ上でかつ部分的に遠隔のコンピュータ上で、または、完全に遠隔のコンピュータまたはサーバ上で、実行されてもよい。後者のシナリオでは、遠隔のコンピュータは、ユーザのコンピュータに、ローカル・エリア・ネットワーク（ＬＡＮ）またはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通じて接続されてもよく、あるいは接続は、（例えば、インターネット・サービス・プロバイダを用いてインターネットを通じて）外部コンピュータになされてもよい。いくつかの実施形態においては、電気的回路は、本発明の側面を実行するために、コンピュータ可読プログラム命令の状態情報を利用して、電気的回路を個別化することによって、コンピュータ可読プログラム命令を実行してもよく、この電気的回路は、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む。

本発明の側面は、本明細書において、本発明の実施形態に従った方法、装置（システム）およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方を参照しながら、説明される。フローチャート図もしくはブロック図またはその両方の各ブロック、および、フローチャート図もしくはブロック図またはその両方における複数のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装されてもよいことが理解されよう。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、特定目的コンピュータのプロセッサまたは他のプログラマブル・データ処理装置に提供され、コンピュータのプロセッサまたは他のプログラマブル・データ処理装置を介して実行される命令が、フローチャート図もしくはブロックまたはその両方のブロックまたは複数のブロックにおいて特定される機能／作用を実装するための手段を作成するように、マシンを生成する。これらのコンピュータ可読プログラム命令は、また、コンピュータ、プログラマブル・データ処理装置もしくは他のデバイスまたはこれらの組み合わせに特定のやり方で機能するよう指示できるコンピュータ可読ストレージ媒体に格納され、それに格納された命令を有するコンピュータ可読ストレージ媒体に、フローチャートもしくはブロックまたはその両方のブロックまたは複数のブロックで特定される機能／作用の側面を実装する命令を含む製品が含まれるようにする。

コンピュータ可読プログラム命令は、また、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラマブル・データ処理装置または他のデバイス上で一連の動作ステップを実行させて、コンピュータ、他のプログラマブル・データ処理装置または他のデバイス上で実行される命令が、フローチャートもしくはブロックまたはその両方のブロックまたは複数のブロックで特定される機能／作用の側面を実装するように、コンピュータ実装処理を生成することもできる。

図面におけるフローチャートおよびブロック図は、本発明の種々の実施形態に従ったシステム、方法およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能性および動作を示す。この点に関して、フローチャートまたはブロック図の各ブロックは、特定の論理機能を実装するための１以上の実行可能な命令を含む、モジュール、セグメントまたは命令の部分を表す可能性がある。いくつかの代替の実装では、ブロックにおいて言及された機能は、図面に示された順序から外れて生じる可能性がある。例えば、連続して示される２つのブロックは、実際には、実質的に同時に、あるいは、複数のブロックは、関与する機能性に応じて逆の順序で実行されてもよい。ブロック図もしくはフローチャート図またはその両方の各ブロックおよびブロック図もしくはフローチャート図またはその両方の複数のブロックの組み合わせが、特定の機能または作用を実行し、または、特別な目的のハードウェアおよびコンピュータ命令の組み合わせを実施する、特定目的ハードウェアベースのシステムによって実装されてもよいことに留意されたい。

上記は本発明の実施の形態を対象とするが、本発明の他のさらなる実施形態が、その基本的な範囲から逸脱することなく案出されてもよく、その範囲は、以下の特許請求の範囲によって定まる。

Claims

複数のフレームを含むビデオ中の側面を記述するクエリを受信するステップと、
前記クエリに潜在的に対応する複数の提案を識別するステップであって、前記複数の提案の各々は、前記複数のフレームのサブセットを含む、識別するステップと、
前記提案を、前記提案間の関係性を識別するグラフ畳み込みネットワーク（ＧＣＮ）を用いてランク付けするステップと、
前記ランク付けに基づいて、前記クエリに相関するビデオ・セグメントとして前記提案のうちの１つを選択するステップと
を含む方法。
前記提案を前記ランク付けするステップは、
視覚的特徴エンコーダを使用して前記提案の視覚的な特徴を識別するステップと、
リカレント・ニューラル・ネットワーク（ＲＮＮ）を用いて前記クエリからクエリ特徴を生成するステップと
を含む、請求項１に記載の方法。
前記提案をランク付けするステップは、
前記視覚的な特徴および前記クエリ特徴に基づいて、ノードおよびエッジを含むグラフを生成するステップと、
処理のために前記グラフを前記ＧＣＮに入力するステップと
を含む、請求項２に記載の方法。
前記提案をランク付けするステップは、
前記グラフ内の前記ノードについてノード特徴を更新するステップと、
前記グラフ内の前記エッジについてエッジ重みを計算するステップと
を含む、請求項３に記載の方法。
前記提案をランク付けするステップは、
ノード集約を実行するステップと、
前記ノード集約および前記ＧＣＮを用いて前記グラフを処理した結果に基づいて前記提案をランク付けするステップと
を含む、請求項３に記載の方法。
前記提案のうちの少なくとも２つは、前記ビデオ内の前記複数のフレームの重複するフレームを含む、請求項１に記載の方法。
前記提案のうちの少なくとも２つは、前記複数のフレームの重複しないサブセットを含む、請求項６に記載の方法。
プロセッサと、
プログラムを含むメモリと
を備えるシステムであって、前記プログラムは、前記プロセッサにより実行されるとき、動作を実行し、前記動作は、
複数のフレームを含むビデオ中側面を記述するクエリを受信することと、
前記クエリに潜在的に対応する複数の提案を識別することであって、前記複数の提案の各々は、前記複数のフレームのサブセットを含む、識別することと、
前記提案を、前記提案間の関係性を識別するグラフ畳み込みネットワーク（ＧＣＮ）を用いてランク付けすることと、
前記ランク付けに基づいて、前記クエリに相関するビデオ・セグメントとして前記提案のうちの１つを選択することと
を含む、システム。
前記提案を前記ランク付けすることは、
視覚的特徴エンコーダを使用して前記提案の視覚的な特徴を識別することと、
リカレント・ニューラル・ネットワーク（ＲＮＮ）を用いて前記クエリからクエリ特徴を生成することと
を含む、請求項８に記載のシステム。
前記提案をランク付けすることは、
前記視覚的な特徴および前記クエリ特徴に基づいて、ノードおよびエッジを含むグラフを生成することと、
処理のために前記グラフを前記ＧＣＮに入力することと
を含む、請求項９に記載のシステム。
前記提案をランク付けすることは、
前記グラフ内の前記ノードについてノード特徴を更新することと、
前記グラフ内の前記エッジについてエッジ重みを計算することと
を含む、請求項１０に記載のシステム。
前記提案をランク付けすることは、
ノード集約を実行することと、
前記ノード集約および前記ＧＣＮを用いて前記グラフを処理した結果に基づいて前記提案をランク付けすることと
を含む、請求項１０に記載のシステム。
前記提案のうちの少なくとも２つは、前記ビデオ内の前記複数のフレームの重複するフレームを含む、請求項８に記載のシステム。
前記提案のうちの少なくとも２つは、前記複数のフレームの重複しないサブセットを含む請求項１３に記載のシステム。
クエリに対応するビデオ・セグメントを識別するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品は、
そこに具現化されたコンピュータ可読プログラムコードを有するコンピュータ可読ストレージ媒体
を含み、前記コンピュータ可読プログラムコードは、１または複数のコンピュータ・プロセッサによって実行されて、動作を実行し、前記動作は、
複数のフレームを含むビデオ中の側面を記述するクエリを受信することと、
前記クエリに潜在的に対応する複数の提案を識別することであって、前記複数の提案の各々は、前記複数のフレームのサブセットを含む、識別することと、
前記提案を、前記提案間の関係性を識別するグラフ畳み込みネットワーク（ＧＣＮ）を用いてランク付けすることと、
前記ランク付けに基づいて、前記クエリに相関するビデオ・セグメントとして前記提案のうちの１つを選択することと
を含む、コンピュータ・プログラム製品。
前記提案を前記ランク付けすることは、
視覚的特徴エンコーダを使用して前記提案の視覚的な特徴を識別することと、
リカレント・ニューラル・ネットワーク（ＲＮＮ）を用いて前記クエリからクエリ特徴を生成することと
を含む、請求項１５に記載のコンピュータ・プログラム製品。
前記提案をランク付けすることは、
前記視覚的な特徴および前記クエリ特徴に基づいて、ノードおよびエッジを含むグラフを生成することと、
処理のために前記グラフを前記ＧＣＮに入力することと
を含む、請求項１６に記載のコンピュータ・プログラム製品。
前記提案をランク付けすることは、
前記グラフ内の前記ノードについてノード特徴を更新することと、
前記グラフ内の前記エッジについてエッジ重みを計算することと
を含む、請求項１７に記載のコンピュータ・プログラム製品。
前記提案をランク付けすることは、
ノード集約を実行することと、
前記ノード集約および前記ＧＣＮを用いて前記グラフを処理した結果に基づいて前記提案をランク付けすることと
を含む、請求項１７に記載のコンピュータ・プログラム製品。
前記提案のうちの少なくとも２つは、前記ビデオ内の前記複数のフレームの重複するフレームを含む、請求項１５に記載のコンピュータ・プログラム製品。