JP2023515359A - ビデオ・グランディングのためのグラフ畳み込みネットワーク - Google Patents

ビデオ・グランディングのためのグラフ畳み込みネットワーク Download PDF

Info

Publication number
JP2023515359A
JP2023515359A JP2022548547A JP2022548547A JP2023515359A JP 2023515359 A JP2023515359 A JP 2023515359A JP 2022548547 A JP2022548547 A JP 2022548547A JP 2022548547 A JP2022548547 A JP 2022548547A JP 2023515359 A JP2023515359 A JP 2023515359A
Authority
JP
Japan
Prior art keywords
suggestions
query
ranking
graph
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022548547A
Other languages
English (en)
Inventor
ガン,チュアン
リウ,シジア
ダス,スブロ
ワン,ダクオ
チャン,ヤン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2023515359A publication Critical patent/JP2023515359A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7335Graphical querying, e.g. query-by-region, query-by-sketch, query-by-trajectory, GUIs for designating a person/face/object as a query predicate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7784Active pattern-learning, e.g. online learning of image or video features based on feedback from supervisors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

複数のフレームを含むビデオ中の側面を記述するクエリを受信することと、クエリに潜在的に対応する複数の提案を識別することであって、複数の提案の各々は、複数のフレームのサブセットを含む、識別することと、提案を、提案間の関係性を識別するグラフ畳み込みネットワーク(GCN)を用いてランク付けすることと、ランク付けに基づいて、クエリに相関するビデオ・セグメントとして提案のうちの1つを選択することとを含む方法および装置が開示される。

Description

本発明は、クエリを処理してビデオ内の対応するセグメントを識別するビデオ・グランディングに関し、より詳細には、ビデオの異なるセグメント間の関係性を考慮することに関する。
ビデオ・グランディングは、ビデオを検索し、自然言語クエリに対応するセグメント(例えば、ビデオ内の連続する複数のビデオ・フレーム)を識別する。例えば、ユーザは、子供がブランコを押されるビデオの中の特定のセグメントを見つけることを望むかもしれない。ユーザは、「ブランコをこぐ子供(CHILD ON SWING)」という質問を定義することができる。ビデオ・グランディングは、機械学習(ML)アルゴリズムを使用して、ビデオを解析し、クエリに記述された情報を表示している(例えば、遊具セット上で子供がブランコをこぐフレームのセグメント)可能性のある、ビデオ中の異なるセグメント(本明細書で提案と参照する)を識別することができる。ビデオ・グランディングは、提案をランク付けし、最も高いランク付けを有するものをクエリに対する回答として選択する。つまり、現在のビデオ・グランディング技術は、どの提案が自然言語クエリに最もよく一致するかを決定するためにそれらをランク付けするときに個別的に提案を考慮する。
本発明の一実施形態は、複数のフレームを含むビデオ中の側面を記述するクエリを受信するステップと、クエリに潜在的に対応する複数の提案を識別するステップであって、複数の提案の各々は、複数のフレームのサブセットを含む、識別するステップと、提案を、提案間の関係性を識別するグラフ畳み込みネットワーク(GCN)を用いてランク付けするステップと、ランク付けに基づいて、クエリに相関するビデオ・セグメントとして提案のうちの1つを選択するステップとを含む、方法である。
本発明の別の実施形態は、プロセッサとメモリとを含むシステムである。メモリは、プロセッサにより実行されるとき、動作を実行するプログラムを含み、動作は、複数のフレームを含むビデオ中側面を記述するクエリを受信することと、クエリに潜在的に対応する複数の提案を識別することであって、複数の提案の各々は、複数のフレームのサブセットを含む、識別することと、提案を、提案間の関係性を識別するグラフ畳み込みネットワーク(GCN)を用いてランク付けすることと、ランク付けに基づいて、クエリに相関するビデオ・セグメントとして提案のうちの1つを選択することとを含む。
本発明の別の実施形態は、クエリに対応するビデオ・セグメントを識別するためのコンピュータ・プログラム製品である。コンピュータ・プログラム製品は、そこに具現化されたコンピュータ可読プログラムコードを有するコンピュータ可読ストレージ媒体を含み、コンピュータ可読プログラムコードは、1または複数のコンピュータ・プロセッサによって実行されて、動作を実行する。動作は、複数のフレームを含むビデオ中の側面を記述するクエリを受信することと、クエリに潜在的に対応する複数の提案を識別することであって、複数の提案の各々は、複数のフレームのサブセットを含む、識別することと、提案を、提案間の関係性を識別するグラフ畳み込みネットワーク(GCN)を用いてランク付けすることと、ランク付けに基づいて、クエリに相関するビデオ・セグメントとして提案のうちの1つを選択することとを含む。
単なる例として、以下の添付の図面を参照しながら、本発明の実施形態を以下説明する。
一実施形態によるグラフ畳み込みネットワークを用いたビデオ・グランディング・システムを示す。 一実施形態によるビデオ・グランディングを実行するためのフローチャートを示す。 一実施形態による、自然言語クエリに応答して提案を識別することを示す。 一実施形態による、グラフ畳み込みネットワークを用いた提案をランク付けするためのフローチャートを示す図である。 一実施形態による、提案をランク付けするための機械学習システムを示す。
本明細書における実施形態は、自然言語クエリに応答して識別された種々の提案(例えば、ビデオ・セグメント)が、提案間の関係性を識別するグラフ畳み込みネットワーク(GCN)を使用してランク付けされる、ビデオ・グランディングを実行する。つまり、提案が独立して(あるいは個別的に)ランク付けされる従来のビデオ・グランディング・システムとは対照的に、本明細書における実施形態は、グラフを構築し、提案間の時間的な関係性を識別するGCNを実装する。一実施形態においては、GCNは、ネットワーク内の各ノードが(提案から導出された)視覚的特徴と(自然言語クエリから導出された)クエリ特徴とのフュージョンを表すように設計される。さらに、グラフ内のエッジは、類似性ネットワークによって測定される提案間の関係性に従って構築されてもよい。グラフ畳み込みを実行することにより、ビデオ・グランディング・システムは、2つの時間セグメントの相互作用および提案間の関係性を捕捉することができる。有利なことに、提案を個別的にかつ局所的に処理する従来の研究とは異なり、本明細書で説明される技術は、提案の間の関係を明示的にモデル化することにより、全体的および包括的な観点からビデオ・グランディングを実行し、これによってその精度が有意に高められる。
図1は、一実施形態によるGCN125を用いたビデオ・グランディング・システム100を示す。一般的には、ビデオ・グランディング・システム100は、ユーザが、ビデオ105内のシーン、アクションまたはオブジェクトのようなビデオ105の特定の側面(aspect)を識別するためにクエリ110を送出することを可能にする。ビデオ105は、複数の異なるシーン、アクションまたはオブジェクトを包含する複数のフレームを含んでもよい。ユーザは、ビデオ105内のシーン、アクション、オブジェクトまたは任意の他の側面のうちの1つを探すことができる。例えば、ビデオ105の第1のセグメント(例えば、ビデオ105の連続するフレームのサブセット)は、子供の遊具セットを示すかもしれず、ビデオ105の第2のセグメントは、遊具セットの特定の特徴(例えば、砂場またはすべり台)を示すかもしれず、ビデオ105の第3のセグメントは、遊具セットとかかわる子供(例えば、遊具セットのブランコをこぐか、またはすべり台を滑るかする子供)を示すかもしれない。ユーザは、ビデオ・グランディング・システム100を使用して、ビデオ105を検索し、クエリ110と相関(または最良の一致を)するセグメントを識別することができる。例えば、ユーザは、(ビデオ105が遊具セットのプロモーションビデオである場合)遊具セットを購入するかどうかを決定しているかもしれず、具体的に砂場を備える遊具セットを所望する。ユーザは、単語「砂場」を含むクエリ110を送出することができる。以下に詳細に議論する技術を使用して、ビデオ・グランディング・システム100は、ビデオを検索し、砂場を有するビデオのセグメントを識別することができる。したがって、ユーザは、ビデオ105全体を視聴するのではなく、識別されたセグメントを視聴して、遊具セットが彼女の基準(すなわち、砂場を備える)を満足するかどうかを判断することができる。
別の例では、ユーザは、遊具セットにかかわる子供を見たい場合があり、その結果、彼女は、遊具セットのスケール(またはサイズ)のより良いアイデアを得ることができる。ユーザは、ビデオ・グランディング・システム100が、クエリ110によって記述されているビデオの側面(例えば、シーン、アクションまたはオブジェクト)を表示するセグメントを識別するために使用することができる、「すべり台を使う子供」または「ブランコを押されている子供」を述べるクエリ110を生成してもよい。
ビデオ・グランディング・システム100は、入力としてビデオ105およびクエリ110を受信する提案ジェネレータ115を含む。提案ジェネレータ115は、1または複数の機械学習(ML)アルゴリズムもしくはビデオ構文解析技術またはその両方を使用して、クエリ110によって記述されるシーン、アクションまたはオブジェクトを描写し得るビデオ105内の候補セグメントを表す提案を識別することができる。つまり、クエリ110が「ブランコをこぐ子供」を述べる場合、提案ジェネレータ115は、ジェネレータ115がブランコをこぐ子供を含んでいると判定するいくつかの候補提案(例えば、異なるビデオ・セグメント)を識別する。
提案を識別するために、提案ジェネレータ115は、任意の数の画像処理技術、自然言語処理技術またはテキスト処理技術(例えば、MLまたはその他)を使用してもよい。一実施形態においては、提案ジェネレータ115は、種々のフレームを評価して、各提案について開始時刻(またはフレーム)および終了時刻を識別する。提案は、重複している(例えば、少なくともいくつかのフレームが共通する)(overlapping)場合もあり、各提案が独自のフレームを有し、重複を有さない(非重複:non-overlapping)場合もある。本明細書における実施形態は、提案を生成するための特定の技術に限定されない。
ビデオ・グランディング・システム100は、提案ジェネレータ115によって生成された提案のうちいずれが、クエリ110に最良の一致している(または最も高く相関している)可能性が最も高いかを選択するMLシステム120を含む。図1に示すように、MLシステム120は、入力として提案を受信し、クエリ110によって記述されたシーン、アクションまたはオブジェクトに相関するセグメント130を出力する。言い方を変えれば、MLシステム120は、提案の1つを、クエリ110に最もよく一致するセグメント130として選択する。例えば、MLシステム120は、ビデオ105中の開始時間および終了時間によって定義されるセグメント130を出力してもよい。セグメント130は、MLシステム120によって識別される開始時間および終了時間の間にある連続するフレームによって定義されてもよい。一実施形態においては、ビデオ105を最初から開始することなく、あるいは、ビデオ105内のランダムな位置を選択することによってビデオ105を手動で検索することなく、ユーザがセグメント130を視聴してうまくいけば最も関心のあるコンテンツを視聴することができるようにセグメント130がユーザに出力される。
MLシステム120は、GCN125を含む。以下に詳細に議論するように、GCN125は、ビデオ・グランディング・システム100が、提案ジェネレータ115によって出力された提案の間の関係性を識別することを可能にする。つまり、提案を独立に取り扱うのではなく、グラフ畳み込みネットワーク125は、提案間の類似性または関係性を識別することができ、これは、ビデオ・グランディング・システム100の精度を有利に向上させる、すなわち、ビデオ・グランディング・システム100が、クエリ110に定義されるシーン、アクションまたはオブジェクトの説明に相関する(一致する)セグメントを選択する確率を増大させることができる。1つの実施形態においては、グラフ畳み込みネットワーク125は、それらの関係に基づいて提案をランク付けし、これは、以前に行われたように提案を独立してまたは個別的にランク付けするよりも正確である可能性がある。
さらに、本明細書における実施形態は、示されるように、単一のビデオ105ではなく、複数のビデオと共に使用することができる。例えば、提案ジェネレータ115は、複数のビデオ(同じファイルまたは異なるファイル内に存在するか否か)を通して検索し、これらのビデオのセグメントから形成された提案を識別することができる。これらの提案は、MLシステム120に転送されてもよく、MLシステムは、提案の間の関係性を識別し、これらの関係性に基づいて提案をランク付けする。
一実施形態においては、クエリ110は、人間のユーザによって生成された自然言語クエリであるが、ビデオ105の側面を記述する任意のクエリであってよい。一般的には、ビデオ・グランディング・システム100は、クエリ110に記述される側面と最もよく一致するビデオ105のセグメント130を発見することを試みる。クエリ110は、テキスト、またはテキストに変換される音声であってもよい。
図2は、一実施形態によるビデオ・グランディングを実行するための方法200のフローチャートを示す。ブロック205においては、ビデオ・グランディング・システムは、ビデオ(または一連のビデオ)におけるシーン、アクション、オブジェクトまたは任意の他の側面を記述する自然言語クエリを受信する。一例では、ユーザは、クエリを送出して、クエリによって定義された側面を含むビデオのセグメントを発見するようにビデオ・グランディング・システムに指示する。ビデオ・グランディング・システムは、ユーザが、試行錯誤に頼ることなく、または単純に最初からビデオを再生するにではなく、関連するセグメント(または複数のセグメント)を識別し、またはビデオを検索することを可能にする。
ブロック210においては、ビデオ・グランディング・システム内の提案ジェネレータは、クエリに潜在的に対応する複数の提案を識別する。別の言い方をすると、提案ジェネレータは、クエリに対応すると予測する、異なるセグメント(すなわち、ビデオ内のフレームのサブセット)を識別することができる。例えば、クエリが「吠える犬」である場合、提案ジェネレータは、犬が吠えていることを示すビデオ内の1または複数のセグメントを識別することを試みる。これらのセグメントは、提案として出力される。上述したように、本明細書における実施形態は、提案を生成するための特定の技術に限定されない。提案ジェネレータは、画像処理技術および自然言語技術(複数のMLアルゴリズムを含み得る)を使用して、クエリを理解し、ビデオ内の関連するセグメントを識別する。
図3は、1つの実施形態による、自然言語クエリに応答して提案を識別することを示す図である。図3は、ビデオ(または一連のビデオ)におけるビデオ・フレーム300を示す。この例では、提案ジェネレータは、クエリを受信し、クエリによって記述されるビデオの側面を含み得る3つの提案305A~305C(またはビデオ・セグメント)を識別する。図示されるように、提案305A~305Cは、重複し、提案305Aにおけるフレームの少なくとも1つが提案305Bにも含まれ、提案305Bの少なくとも1つのフレームが提案305Cにも含まれる。これらの重複するフレームは、提案305間の関係性を確立することができる(例えば、それらが共通のフレーム300を有する)。上述したように、これらの関係性が利用されて、3つの提案305のうちのいずれがクエリに最も適合し得るかを識別する精度を向上させることができる。
しかしながら、本明細書における実施形態は、提案305が重複しているフレームを有していない場合にも使用することができる。つまり、GCNは、これらの提案が重複しているフレームを有していない場合であっても、互いに近接しているフレームを有する場合(例えば、隣接または数フレーム離れている)に、提案間の時間的関係を識別することができる。グラフ畳み込みを実行することにより、ビデオ・グランディング・システムは、2つの時間的セグメントの相互作用および提案間の関係性を捕捉することができる。
方法200に戻ると、提案ジェネレータが複数の提案を識別すると仮定すると、ブロック215で、MLシステムは、提案を、提案間の関係性を識別するグラフ畳み込みネットワークを用いてランク付けする。つまり、提案(またはセグメント)を互いに独立してランク付けするのではなく、この実施形態においては、MLシステムは、提案間の関係を考慮し、これにより、大幅に改善された精度がもたらされ得る。提案のランク付けの詳細は、以下の図4および図5で説明される。
ブロック220において、MLシステムは、クエリに相関するセグメントとして、最もランクが高い提案を選択する。つまり、フレーム間の関係性に少なくとも部分的に基づいて、各提案にランクが割り当てられる。よって、ランクは、提案を個別的に評価することによって形成されるランク付けよりも正確である可能性がある。ビデオ・グランディング・システムは、最も高いランク付けを有する提案(またはセグメント)をユーザに出力することができる。
図4は、一実施形態によるGCNを用いて提案をランク付けするための方法400のフローチャートを示す。明瞭化のために、提案205をランク付けするためのMLシステム120を示す図5と平行して方法400が議論される。MLシステム120は、視覚的特徴エンコーダ505を含み、視覚的特徴エンコーダは、提案205を評価し、提案各々について特徴ベクトルを生成する。特徴ベクトルは、提案間の関係性を識別するグラフを生成するためのグラフ・コンストラクタ515に提供される。
MLシステム120は、また、クエリ110(提案205を識別するために提案ジェネレータ(図示せず)によって使用された同一のクエリ110である)も受信する。つまり、ビデオ・グランディング・システムにおいてクエリ110は2回使用され、1度は、提案ジェネレータによって提案205を識別し、再度は、双方向長期短期記憶(Bi-LSTM)モデル510によってクエリ110を用いて音声認識を実行する。しかしながら、実施形態は、Bi‐LSTMモデル510に限定されるものではなく、クエリ110を用いて音声認識を行うことができる他のタイプのリカレント・ニューラル・ネットワーク(RNN)または深層学習ネットワークによって使用されてもよい。
Bi‐LSTMモデル510の出力は、グラフ・コンストラクタ515に提供され、グラフ・コンストラクタは、視覚的特徴エンコーダ505の出力と組み合わせて、グラフを生成する。有利には、エンコーダ505からの視覚的特徴およびBi‐LSTMモデル510からのクエリ特徴の両方を受信することによって、グラフ内のノードが、視覚的およびクエリ特徴のフュージョン(fusion,融合,統合)とすることができる。さらに、グラフ内のエッジは、類似性ネットワークによって測定される提案間の関係性に従って構築される。一実施形態においては、類似性ネットワークは、グラフ内のエッジを構築する際のL2距離を測定する。
グラフ・コンストラクタ515によって生成されるグラフ(ノードおよびエッジを含む)は、実行のためにGCN125に提供される。GCNは、グラフ上で機械学習を行うための強力なニューラル・ネットワーク・アーキテクチャである。つまり、GCN125の入力は、エッジによって相互接続される複数のノードを含み得るグラフである。GCN125の出力は、視覚‐文字フュージョン・モジュール520に提供され、視覚‐文字フュージョン・モジュールは、GCN125の結果をBi-LSTM510によって生成されるクエリ特徴とフュージョン(融合)する。一実施形態においては、視覚‐文字フュージョン・モジュール520は、GCN125とBi‐LSTMによって識別された特徴、すなわち画像特徴と文字的/クエリ特徴とをフュージョンするために特徴連結を実行する。フュージョンされた結果は、全接続(FC)層525に提供される。FC層525は、視覚‐文字フュージョン・モジュール520からの入力ボリュームを受信し、N次元ベクトルを出力し、ここで、Nは提案の数である。さらに、出力は、提案のランクを含んでもよい。
さらに、図示されていないが、MLシステム120は、それぞれが、図5に示したソフトウェア・コンポーネントおよびモジュール(例えば、視覚的特徴エンコーダ505、Bi‐LSTMモデル510、グラフ・コンストラクタ515、GCN125など)を実行するための任意の数のコンピュータ・プロセッサ(任意の数のコアを有してもよい)およびメモリを含む、任意の数のコンピューティング・デバイスを含んでもよい。
方法400を参照すると、ブロック405においては、グラフ・コンストラクタ515は、ノード特徴を更新し、グラフに対してエッジ重みを計算する。つまり、グラフ・コンストラクタ515は、視覚的特徴エンコーダ505の出力(すなわち、提案205の視覚的特徴)およびBi-LSTM510の出力(すなわち、クエリ特徴)を用いて、グラフ内のノードを生成する。グラフ内のノードは、これらの視覚的特徴およびクエリ特徴のフュージョンであってよい。
ブロック410においては、グラフ・コンストラクタ515は、グラフのエッジ特徴を更新する。一実施形態においては、グラフ・コンストラクタ515は、グラフに対するエッジ重みを計算する。つまり、グラフ・コンストラクタ515は、視覚的特徴エンコーダ505の出力(すなわち、提案205の視覚的特徴)およびBi-LSTM510の出力(すなわち、クエリ特徴)を用いて、グラフにおけるエッジを生成する。エッジ(およびそれらの対応する重み)は、提案間の関係性に基づいて割り当てられる。
ブロック415においては、GCN125は、ノード集約を実行する。すなわち、GCN125は、グラフ・コンストラクタ515から入力として受信されるグラフのノードを集約することができる。本明細書における実施形態は、ノード集約を実行するための特定の技術に限定されない。
ブロック420においては、MLシステム120は、提案205をランク付けする。つまり、GCN125、視覚‐文字フュージョン・モジュール520、FC525またはそれらの組み合わせは、提案205をランク付けするために使用することができる、提案205に対する重みを生成してもよい。これらの重みは、提案間の関係性に基づいて生成される。
本発明の種々の実施形態について説明されているが、説明を目的としており、開示される実施形態を網羅または限定することを意図するものではない。多数の変更例および変形例が、説明する実施形態の範囲および精神を逸脱することなく、当業者にとって明白となるであろう。本明細書で使用される用語は、実施形態の原理、実際の応用、または、市場において見られる技術を超えた技術向上を最も良く説明し、または、他の当業者が本明細書に開示の実施形態を理解することができるように選ばれたものである。
上記においては、本開示において提示された実施形態に対して参照がなされている。しかしながら、本開示の範囲は、特定の実施形態に限定されるものではない。代わりに、異なる実施形態に関連するか否かにかかわらず、特徴および要素の任意の組み合わせが、企図された実施形態を実装および実践するために企図される。さらに、本明細書に開示された実施形態は、他の可能な解決策を超えて、または従来技術を超えて利点を達成し得るが、所与の実施形態によって特定の利点が達成されるか否かは、本開示の範囲を限定するものではない。よって、本明細書で議論される、側面、特徴、実施形態および利点は、単に例示的なものであり、請求項において明示的に記載されている場合を除き、付加された請求項の要素または制限であるとは考えない。同様に、「本発明」に対する参照は、本明細書に開示される本発明の主題の一般化として解釈されるべきではなく、請求項において明示的に述べている場合を除いて、付加する請求項の要素または制限であるとみなされるべきではない。
本発明の側面は、全体的にハードウェアの実施形態、全体的にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む。)、またはソフトウェアおよびハードウェアの側面を組み合わせた実施形態の形態をとってもよく、これらはすべて、本明細書において一般的に「回路」、「モジュール」または「システム」と参照される。
本発明は、システム、方法もしくはコンピュータ・プログラム製品またはその組み合わせであってよい。コンピュータ・プログラム製品は、プロセッサに本発明の側面を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体を含んでもよい。
コンピュータ可読ストレージ媒体は、命令実行デバイスによって使用するための命令を保持し格納する有形のデバイスであってよい。コンピュータ可読ストレージ媒体は、例えば、これに限定されるものではないが、電子的ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイスまたは上記の任意の適切な組み合わせであってよい。コンピュータ可読ストレージ媒体のより具体的な例示の列挙としては、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、消去可能プログラマブル・リード・オンリー・メモリ(EPROMまたはフラッシュメモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・オンリー・メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリースティック、フロッピー(登録商標)ディスク、パンチカードまたは記録された命令を有する溝内の***構造のような機械的エンコードされたデバイス、および上記の任意の適切な組み合わせが含まれる。コンピュータ可読ストレージ媒体は、本明細書で使用されるように、電波、自由伝搬する電磁波、導波路または他の伝送媒体を伝搬する電磁波(たとえば、ファイバ光ケーブルを通過する光パルス)または、ワイヤを通して伝送される電気信号のような、それ自体が一時的な信号として解釈されるものではない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピュータ/処理デバイスに、または、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはこれらの組み合わせといったネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータもしくはエッジサーバまたはこれらの組み合わせを含んでもよい。各コンピュータ/処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体に格納するために転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データまたは、1以上のプログラミング言語の任意の組み合わせで書かれたソース・コードあるいはオブジェクト・コードであってよく、1以上のプログラミング言語は、Smalltalk(登録商標)、C++またはこれらに類するもなどのオブジェクト指向言語、Cプログラミング言語または類似のプログラミング言語などの従来型の手続型言語を含む。コンピュータ可読プログラム命令は、全体としてユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンド・アローンのソフトウェア・パッケージとして、部分的にユーザのコンピュータ上でかつ部分的に遠隔のコンピュータ上で、または、完全に遠隔のコンピュータまたはサーバ上で、実行されてもよい。後者のシナリオでは、遠隔のコンピュータは、ユーザのコンピュータに、ローカル・エリア・ネットワーク(LAN)またはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを通じて接続されてもよく、あるいは接続は、(例えば、インターネット・サービス・プロバイダを用いてインターネットを通じて)外部コンピュータになされてもよい。いくつかの実施形態においては、電気的回路は、本発明の側面を実行するために、コンピュータ可読プログラム命令の状態情報を利用して、電気的回路を個別化することによって、コンピュータ可読プログラム命令を実行してもよく、この電気的回路は、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む。
本発明の側面は、本明細書において、本発明の実施形態に従った方法、装置(システム)およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方を参照しながら、説明される。フローチャート図もしくはブロック図またはその両方の各ブロック、および、フローチャート図もしくはブロック図またはその両方における複数のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装されてもよいことが理解されよう。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、特定目的コンピュータのプロセッサまたは他のプログラマブル・データ処理装置に提供され、コンピュータのプロセッサまたは他のプログラマブル・データ処理装置を介して実行される命令が、フローチャート図もしくはブロックまたはその両方のブロックまたは複数のブロックにおいて特定される機能/作用を実装するための手段を作成するように、マシンを生成する。これらのコンピュータ可読プログラム命令は、また、コンピュータ、プログラマブル・データ処理装置もしくは他のデバイスまたはこれらの組み合わせに特定のやり方で機能するよう指示できるコンピュータ可読ストレージ媒体に格納され、それに格納された命令を有するコンピュータ可読ストレージ媒体に、フローチャートもしくはブロックまたはその両方のブロックまたは複数のブロックで特定される機能/作用の側面を実装する命令を含む製品が含まれるようにする。
コンピュータ可読プログラム命令は、また、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラマブル・データ処理装置または他のデバイス上で一連の動作ステップを実行させて、コンピュータ、他のプログラマブル・データ処理装置または他のデバイス上で実行される命令が、フローチャートもしくはブロックまたはその両方のブロックまたは複数のブロックで特定される機能/作用の側面を実装するように、コンピュータ実装処理を生成することもできる。
図面におけるフローチャートおよびブロック図は、本発明の種々の実施形態に従ったシステム、方法およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能性および動作を示す。この点に関して、フローチャートまたはブロック図の各ブロックは、特定の論理機能を実装するための1以上の実行可能な命令を含む、モジュール、セグメントまたは命令の部分を表す可能性がある。いくつかの代替の実装では、ブロックにおいて言及された機能は、図面に示された順序から外れて生じる可能性がある。例えば、連続して示される2つのブロックは、実際には、実質的に同時に、あるいは、複数のブロックは、関与する機能性に応じて逆の順序で実行されてもよい。ブロック図もしくはフローチャート図またはその両方の各ブロックおよびブロック図もしくはフローチャート図またはその両方の複数のブロックの組み合わせが、特定の機能または作用を実行し、または、特別な目的のハードウェアおよびコンピュータ命令の組み合わせを実施する、特定目的ハードウェアベースのシステムによって実装されてもよいことに留意されたい。
上記は本発明の実施の形態を対象とするが、本発明の他のさらなる実施形態が、その基本的な範囲から逸脱することなく案出されてもよく、その範囲は、以下の特許請求の範囲によって定まる。

Claims (20)

  1. 複数のフレームを含むビデオ中の側面を記述するクエリを受信するステップと、
    前記クエリに潜在的に対応する複数の提案を識別するステップであって、前記複数の提案の各々は、前記複数のフレームのサブセットを含む、識別するステップと、
    前記提案を、前記提案間の関係性を識別するグラフ畳み込みネットワーク(GCN)を用いてランク付けするステップと、
    前記ランク付けに基づいて、前記クエリに相関するビデオ・セグメントとして前記提案のうちの1つを選択するステップと
    を含む方法。
  2. 前記提案を前記ランク付けするステップは、
    視覚的特徴エンコーダを使用して前記提案の視覚的な特徴を識別するステップと、
    リカレント・ニューラル・ネットワーク(RNN)を用いて前記クエリからクエリ特徴を生成するステップと
    を含む、請求項1に記載の方法。
  3. 前記提案をランク付けするステップは、
    前記視覚的な特徴および前記クエリ特徴に基づいて、ノードおよびエッジを含むグラフを生成するステップと、
    処理のために前記グラフを前記GCNに入力するステップと
    を含む、請求項2に記載の方法。
  4. 前記提案をランク付けするステップは、
    前記グラフ内の前記ノードについてノード特徴を更新するステップと、
    前記グラフ内の前記エッジについてエッジ重みを計算するステップと
    を含む、請求項3に記載の方法。
  5. 前記提案をランク付けするステップは、
    ノード集約を実行するステップと、
    前記ノード集約および前記GCNを用いて前記グラフを処理した結果に基づいて前記提案をランク付けするステップと
    を含む、請求項3に記載の方法。
  6. 前記提案のうちの少なくとも2つは、前記ビデオ内の前記複数のフレームの重複するフレームを含む、請求項1に記載の方法。
  7. 前記提案のうちの少なくとも2つは、前記複数のフレームの重複しないサブセットを含む、請求項6に記載の方法。
  8. プロセッサと、
    プログラムを含むメモリと
    を備えるシステムであって、前記プログラムは、前記プロセッサにより実行されるとき、動作を実行し、前記動作は、
    複数のフレームを含むビデオ中側面を記述するクエリを受信することと、
    前記クエリに潜在的に対応する複数の提案を識別することであって、前記複数の提案の各々は、前記複数のフレームのサブセットを含む、識別することと、
    前記提案を、前記提案間の関係性を識別するグラフ畳み込みネットワーク(GCN)を用いてランク付けすることと、
    前記ランク付けに基づいて、前記クエリに相関するビデオ・セグメントとして前記提案のうちの1つを選択することと
    を含む、システム。
  9. 前記提案を前記ランク付けすることは、
    視覚的特徴エンコーダを使用して前記提案の視覚的な特徴を識別することと、
    リカレント・ニューラル・ネットワーク(RNN)を用いて前記クエリからクエリ特徴を生成することと
    を含む、請求項8に記載のシステム。
  10. 前記提案をランク付けすることは、
    前記視覚的な特徴および前記クエリ特徴に基づいて、ノードおよびエッジを含むグラフを生成することと、
    処理のために前記グラフを前記GCNに入力することと
    を含む、請求項9に記載のシステム。
  11. 前記提案をランク付けすることは、
    前記グラフ内の前記ノードについてノード特徴を更新することと、
    前記グラフ内の前記エッジについてエッジ重みを計算することと
    を含む、請求項10に記載のシステム。
  12. 前記提案をランク付けすることは、
    ノード集約を実行することと、
    前記ノード集約および前記GCNを用いて前記グラフを処理した結果に基づいて前記提案をランク付けすることと
    を含む、請求項10に記載のシステム。
  13. 前記提案のうちの少なくとも2つは、前記ビデオ内の前記複数のフレームの重複するフレームを含む、請求項8に記載のシステム。
  14. 前記提案のうちの少なくとも2つは、前記複数のフレームの重複しないサブセットを含む請求項13に記載のシステム。
  15. クエリに対応するビデオ・セグメントを識別するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品は、
    そこに具現化されたコンピュータ可読プログラムコードを有するコンピュータ可読ストレージ媒体
    を含み、前記コンピュータ可読プログラムコードは、1または複数のコンピュータ・プロセッサによって実行されて、動作を実行し、前記動作は、
    複数のフレームを含むビデオ中の側面を記述するクエリを受信することと、
    前記クエリに潜在的に対応する複数の提案を識別することであって、前記複数の提案の各々は、前記複数のフレームのサブセットを含む、識別することと、
    前記提案を、前記提案間の関係性を識別するグラフ畳み込みネットワーク(GCN)を用いてランク付けすることと、
    前記ランク付けに基づいて、前記クエリに相関するビデオ・セグメントとして前記提案のうちの1つを選択することと
    を含む、コンピュータ・プログラム製品。
  16. 前記提案を前記ランク付けすることは、
    視覚的特徴エンコーダを使用して前記提案の視覚的な特徴を識別することと、
    リカレント・ニューラル・ネットワーク(RNN)を用いて前記クエリからクエリ特徴を生成することと
    を含む、請求項15に記載のコンピュータ・プログラム製品。
  17. 前記提案をランク付けすることは、
    前記視覚的な特徴および前記クエリ特徴に基づいて、ノードおよびエッジを含むグラフを生成することと、
    処理のために前記グラフを前記GCNに入力することと
    を含む、請求項16に記載のコンピュータ・プログラム製品。
  18. 前記提案をランク付けすることは、
    前記グラフ内の前記ノードについてノード特徴を更新することと、
    前記グラフ内の前記エッジについてエッジ重みを計算することと
    を含む、請求項17に記載のコンピュータ・プログラム製品。
  19. 前記提案をランク付けすることは、
    ノード集約を実行することと、
    前記ノード集約および前記GCNを用いて前記グラフを処理した結果に基づいて前記提案をランク付けすることと
    を含む、請求項17に記載のコンピュータ・プログラム製品。
  20. 前記提案のうちの少なくとも2つは、前記ビデオ内の前記複数のフレームの重複するフレームを含む、請求項15に記載のコンピュータ・プログラム製品。
JP2022548547A 2020-02-15 2021-02-11 ビデオ・グランディングのためのグラフ畳み込みネットワーク Pending JP2023515359A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/792,208 US11442986B2 (en) 2020-02-15 2020-02-15 Graph convolutional networks for video grounding
US16/792,208 2020-02-15
PCT/IB2021/051107 WO2021161202A1 (en) 2020-02-15 2021-02-11 Graph convolutional networks for video grounding

Publications (1)

Publication Number Publication Date
JP2023515359A true JP2023515359A (ja) 2023-04-13

Family

ID=77273640

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022548547A Pending JP2023515359A (ja) 2020-02-15 2021-02-11 ビデオ・グランディングのためのグラフ畳み込みネットワーク

Country Status (6)

Country Link
US (1) US11442986B2 (ja)
JP (1) JP2023515359A (ja)
CN (1) CN114930317A (ja)
DE (1) DE112021000308T5 (ja)
GB (1) GB2608529A (ja)
WO (1) WO2021161202A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111669515B (zh) * 2020-05-30 2021-08-20 华为技术有限公司 一种视频生成方法及相关装置
US11838567B2 (en) * 2021-07-23 2023-12-05 Torch Research, Llc Automated dynamic data extraction, distillation, and enhancement
US11698926B2 (en) * 2021-11-12 2023-07-11 Huawei Technologies Co., Ltd. Systems and methods for video retrieval and grounding

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102290082B (zh) 2011-07-05 2014-03-26 央视国际网络有限公司 视频精彩回放片段的处理方法及装置
CN102332031B (zh) 2011-10-18 2013-03-27 中国科学院自动化研究所 一种基于视频集合层级主题结构的检索结果聚类方法
US20140067349A1 (en) 2012-08-31 2014-03-06 Research In Motion Limited Clustering of personal electronically encoded items
US9336277B2 (en) 2013-05-31 2016-05-10 Google Inc. Query suggestions based on search data
US10776628B2 (en) 2017-10-06 2020-09-15 Qualcomm Incorporated Video action localization from proposal-attention
CN109903314A (zh) 2019-03-13 2019-06-18 腾讯科技(深圳)有限公司 一种图像区域定位的方法、模型训练的方法及相关装置
US11687588B2 (en) * 2019-05-21 2023-06-27 Salesforce.Com, Inc. Weakly supervised natural language localization networks for video proposal prediction based on a text query

Also Published As

Publication number Publication date
US20210256059A1 (en) 2021-08-19
DE112021000308T5 (de) 2023-01-26
CN114930317A (zh) 2022-08-19
WO2021161202A1 (en) 2021-08-19
GB2608529A (en) 2023-01-04
US11442986B2 (en) 2022-09-13
GB202213456D0 (en) 2022-10-26

Similar Documents

Publication Publication Date Title
Esposito Artificial communication: How algorithms produce social intelligence
JP2023515359A (ja) ビデオ・グランディングのためのグラフ畳み込みネットワーク
US11769528B2 (en) Systems and methods for automating video editing
WO2022063057A1 (en) Method and system for aspect-level sentiment classification by graph diffusion transformer
JP6446602B2 (ja) データのカテゴリ分類のための方法およびシステム
Pang et al. Deep multimodal learning for affective analysis and retrieval
US11238097B2 (en) Method and apparatus for recalling news based on artificial intelligence, device and storage medium
Liu et al. Learning domain representation for multi-domain sentiment classification
Chen et al. Commonsense knowledge aware concept selection for diverse and informative visual storytelling
Li et al. A deep reinforcement learning framework for Identifying funny scenes in movies
CN110225368B (zh) 一种视频定位方法、装置及电子设备
CN111506820A (zh) 推荐模型、方法、装置、设备及存储介质
Merabti et al. A virtual director using hidden markov models
Abdar et al. A review of deep learning for video captioning
Galanopoulos et al. Are all combinations equal? Combining textual and visual features with multiple space learning for text-based video retrieval
Yang et al. An interpretable neuro-symbolic reasoning framework for task-oriented dialogue generation
Sun et al. Ranking highlights in personal videos by analyzing edited videos
KR102492774B1 (ko) 인공지능 기반 음원 컨텐츠 라이센싱 플랫폼 서비스 제공 방법
US20220164680A1 (en) Environment augmentation based on individualized knowledge graphs
Dash et al. Open-Domain Long-Form Question–Answering Using Transformer-Based Pipeline
Liu Music Recommendation by Mapping Music and Descriptive Paragraph
Yang Improving Response Diversity for Dialogue Systems
Gabeur Multi-Modal Learning for Video Understanding
Zhu Video representation learning with deep neural networks
Ossandón et al. Bridging the Visual Semantic Gap in VLN via Semantically Richer Instructions

Legal Events

Date Code Title Description
RD16 Notification of change of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7436

Effective date: 20220907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220826

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230721