JP7325668B2 - シーンアウェア映像対話 - Google Patents

シーンアウェア映像対話 Download PDF

Info

Publication number
JP7325668B2
JP7325668B2 JP2022566754A JP2022566754A JP7325668B2 JP 7325668 B2 JP7325668 B2 JP 7325668B2 JP 2022566754 A JP2022566754 A JP 2022566754A JP 2022566754 A JP2022566754 A JP 2022566754A JP 7325668 B2 JP7325668 B2 JP 7325668B2
Authority
JP
Japan
Prior art keywords
sequence
neural network
video frames
objects
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022566754A
Other languages
English (en)
Other versions
JP2023510430A (ja
Inventor
ゴン,シジエ
ガオ,ペン
チェリアン,アノープ
智織 堀
ル・ルー,ジョナタン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2023510430A publication Critical patent/JP2023510430A/ja
Application granted granted Critical
Publication of JP7325668B2 publication Critical patent/JP7325668B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、一般に映像シーンアウェア認識に関し、より特定的には、映像対話システムにおいて映像のクエリに関連する応答を生成するための方法およびシステムに関する。
人間同士の日々のコミュニケーションは、周囲の物体および出来事についてのさまざまなモダリティの情報(ビジュアル情報およびオーディオ情報など)と密接に行われる。マシンがそれらの物体および出来事について人間と会話するためには、マルチモーダル推論が必要である。このようなマルチモーダル推論では、動的なオーディオビジュアルシーンの有効なモデルを生成する必要がある。マシンは、これらのモデルに基づいてそれらの物体および出来事について推論し、人間のクエリに対する応答を生成する。最近になって、このようなマルチモーダル推論問題がオーディオビジュアルシーンアウェア対話(AVSD)システムによって明確な形になってきた。AVSDシステムのいくつかの適用例は、エンドツーエンド対話、視覚質問応答(VQA)および映像キャプショニングを含む。AVSDシステムは、人間とマシンとの間の会話をサポートするのに使用される。会話をサポートするために、AVSDシステムは、マルチモダリティ(音声、映像、クエリおよびマルチターン対話履歴など)を一緒に使用してオーディオビジュアルシーンおよび以前の対話コンテキストをモデル化し、自由形式の自然言語で応答を生成することができる能力を必要とする。このようなAVSDタスクは、さまざまな情報(全てのモダリティに含まれる映像ダイナミクスなど)を取り込むことが難しいという理由から、難易度が高い。モダリティの中には補完的なものもあるが、互いに独立していたり、互いに対立していたりするものさえある。たとえば、自然言語および映像(または、音声)情報のようなモダリティがAVSDタスクに必要である。しかし、場合によっては、映像は、自然言語から独立している場合があり、および/または、自然言語情報と音声情報とは同様の情報を含んでいる場合がある。
一般に、ニューラルネットワークは、映像の符号化された時空間表現を介して映像ダイナミクスを取り込むように訓練される。しかし、このようなニューラルネットワークは、通常、人間行動認識のためだけに訓練され、対応する時空間表現には、映像内のシーンの理解に必要な、映像内の物体についての情報が無い。このような物体についての情報は、映像内のシーンにおける物体の動きまたは映像内のシーンにおける物体間の関係を含む。したがって、このようなシーンにおける物体に関連する情報は、重要であり、シーンを表現するのに必要である。さらに、映像のクエリに対する応答は、映像全体を処理することによって抽出される特徴に基づいて生成され得る。このような特徴は、映像内の行動を示すグローバルな特徴に相当する。しかし、未加工の形式の映像全体を処理および解析して、このようなグローバルな特徴を抽出して、応答を生成することは実際的でない。映像全体からいくつかの映像フレームをサンプリングして特徴を抽出する場合がある。しかし、このような特徴は、よりきめ細かな詳細をモデル化して映像内の物体および行動についてのより詳細な情報を学習することができない。詳細な情報が無いことにより、クエリに対する不正確な応答を生成することになり得る。
したがって、正確で自然な形式の言語でクエリに対する応答を生成するために映像の特徴を抽出する必要がある。より具体的には、ユーザからのクエリに対する応答を生成するために、映像内のシーン全体の表現を含む特徴を抽出する必要がある。
オーディオビジュアルシーンアウェア対話(AVSD)システムは、自然言語で会話を行って映像についてのクエリに対する回答を提供するという問題を解決するための視覚認識対話システムである。一般に、これらのクエリは、映像内で行われる行動に関連している。たとえば、ユーザは、映像に示されている人についてクエリを投げかけるかもしれない(たとえば、このクエリは、「映像の中の人は何をしていますか?」というものであり得る)。さらに、映像内のシーンは、時間レベル情報およびフレームレベル情報に関してさまざまである。映像の最初の10個のフレームにおけるシーンが5秒後に変化する場合、ユーザは、前のクエリの応答を得た後に再びフォローアップクエリを投げかける必要があるだろう。このようなとき、AVSDシステムは、後のクエリに関連する応答を生成する必要がある。
いくつかの実施形態の目的は、映像のクエリに対する応答を生成するためのシステムおよび方法を提供することである。さらにまたは代替的に、いくつかの実施形態の別の目的は、クエリに対する関連する応答を生成するのに最適な映像のシーンを表す特徴を抽出することである。クエリは、映像のシーン内の行動および物体について尋ね得る。さらにまたは代替的に、いくつかの実施形態の別の目的は、音声に関連付けられた映像およびこの映像についての以前の質問-回答を処理して、この映像についてのクエリに対する応答を自動的に生成することである。たとえば、クエリは、映像シーン内の本を持った男の子について尋ねる。別のクエリは、物体(その本など)について尋ねることができる。このような場合、このクエリに対する関連する回答は、その本について説明する応答である。いくつかの実施形態において、映像の特徴抽出のために、各映像フレームは、物体およびそれらの関係をシーンに取り込むように個々に表示され、映像フレームの集合体は、物体およびそれらの関係の時間的進化を表す。
その目的のために、いくつかの実施形態は、シーン理解に適合されたシーンの表現が、物体の特徴を、シーン、物体間の関係、ならびに、物体およびそれらの関係または行動の時間的進化に取り込んで、時空間推論を実行するという認識に基づく。物体およびそれらの関係の時間的進化は、映像の映像フレームの集合体またはシーケンスによって表される。いくつかの実施形態において、この時空間推論は、時空間シーングラフ表現(STSGR)に基づいて実行される。このSTSGRは、物体および物体間の関係を表す。STSGRは、物体表現をメモリに効率的に格納するための代替的なデータ構造も提供する。このような時空間特徴表現(すなわち、STSGR)を実現するために、いくつかの実施形態は、行動を映像に取り込むことに加えて、およびその代わりに、映像の各映像フレーム内の物体を検出して分類する。さらに、各映像フレーム内の物体は、映像フレーム内の他の物体と関係を有し得る。その目的のために、いくつかの実施形態は、分類された物体間の関係を求める。実施形態は、グラフニューラルネットワークのフレームワーク内のシーングラフを処理して、ニューラルメッセージパッシングによって時空間推論を実行し、このニューラルメッセージパッシングは、STSGRにおける物体と関係との間の情報フロー(映像キャプション、映像対話履歴、音声など)を可能にする。また、同時に、実施形態は、推論されたグラフラベルを使用して、STSGRにおけるクエリ、対話履歴、映像および音声間の情報フローを制御する。この推論されたグラフラベルは、予め訓練されたニューラルネットワーク(ノード分類のためのグラフベースのニューラルネットワークなど)によって計算された最も高い重みを有する、ラベル付けされたノードおよびラベル付けされたエッジに対応する。いくつかの実施形態は、さまざまなフレームレベルのシーングラフ表現がさまざまな数のノードを有するという認識に基づく。その目的のために、いくつかの実施形態は、グラフ平均値プーリングおよびグラフ最大値プーリングを採用してグラフ内推論を実行し、このグラフ内推論は、シーンの単一のグラフ内の分類された物体およびそれらの求められた関係のグラフ推論を実行することに対応する。グラフ内推論は、STSGRにおける映像フレームのビジュアルシーングラフおよびセマンティックシーングラフに対応する特徴を表すフレームメモリまたはグラフメモリを生成するように実行される。
さらにまたは代替的に、いくつかの実施形態の別の目的は、分類された物体および分類された物体間の求められた関係を表す特徴を抽出することである。その目的のために、各映像フレームからの抽出された特徴は、シーングラフ表現として表現され、このシーングラフ表現は、物体をノードとして表現し、物体の関係をエッジとして表現する。さらに、映像の映像フレームのシーケンスに対応するシーングラフ表現のシーケンスが生成される。いくつかの実施形態は、シーングラフ表現のシーケンスを生成するために映像からのキー映像フレームが抽出されるという認識に基づく。これらのキーフレームは、いくつかのキーフレーム抽出方法(クラスタベースのキーフレーム抽出、視覚ベースのキーフレーム抽出、モーション解析ベースのキーフレーム抽出など)を使用して抽出可能である。いくつかの実施形態は、AVSDアプリケーションのためのデータセット(たとえば、VisualGenomeデータセット)上で訓練されたモデルから抽出された特徴に基づいてキーフレームを抽出する。たとえば、サッカースポーツ映像におけるAVSDアプリケーションでは、キーフレームは、サッカー場にいる選手、選手のところにあるサッカーボールなどを含むデータセットから抽出された特徴に基づいて抽出される。いくつかの他の実施形態では、キーフレームは、映像の冗長な映像フレームを廃棄することによって抽出される。
その目的のために、映像について抽出された特徴は、AVSDシステムによって受け付けられたクエリのタイプと整合されて、AVSD応答の精度を向上させる。いくつかの実施形態は、映像を処理して応答を生成するのにニューラルネットワークを使用する。いくつかの実施形態において、このような応答を生成するように訓練されたニューラルネットワークが利用される。これらのニューラルネットワークは、アテンションベースのネットワーク構造に対応する。アテンションベースのニューラルネットワークは、入力された情報のさまざまなモダリティについてアテンション係数を計算する。このアテンション係数は、クエリに関連する応答を準備する際に、クエリに関連する映像フレームに対して重みを提供する。その目的のために、いくつかの実施形態は、各映像フレームの各特徴ベクトルに時間特徴を追加する。特徴ベクトルは、当該特徴ベクトルを中心とする複数の特徴ベクトルの集約である。このように、各特徴ベクトルは、対応する映像フレーム内の物体およびそれらの関係についての特徴、ならびに、隣接する映像フレーム内の物体およびそれらの関係についての同様の特徴を表す。このように、ニューラルネットワークは、映像の映像フレームのシーケンスについて特徴ベクトルのシーケンスを生成する。特徴ベクトルのシーケンスは、時間的進化の特徴と集約される。その目的のために、各映像フレームの各特徴ベクトルに時間特徴が追加される。さらに、いくつかの実施形態は、各々の個々の特徴ベクトルから隣接する特徴ベクトルに情報を行き渡らせる。このようなニューラルネットワークの例としては、アテンションベースのデコーダ、トランスフォーマなどを有するエンコーダ/デコーダニューラルネットワークが挙げられる。時空間特徴と他のマルチモダリティ特徴とを整合させた後に、関連する応答を生成するために、映像の動的な特徴を表す特徴ベクトルが抽出される。
いくつかの実施形態は、AVSDシステムの特定の目的に合わせて物体検出を調整することによってAVSDシステムのパフォーマンスをさらに向上させることができるという認識に基づく。たとえば、いくつかの実施形態において、物体検出は、特定の数の物体のみが検出されて分類されるのが一般的である。いくつかの実施形態において、物体は、物体分類子によって検出され、物体間の関係は、関係分類子によって求められる。一実現例において、物体分類子は、約2000個の物体クラスを検出するように訓練されたニューラルネットワークである。したがって、物体分類子は、映像フレーム内の物体全体を検出することはない。たとえば、ある映像フレームでは、上位36個の検出されたクラスが物体検出のために選択される。この実施形態は、AVSDシステムの汎用アプリケーションにとって有利である。
その目的のために、物体分類子および関係分類子は、ニューラルネットワークベースの分類子のセットから選択される。選択された分類子は、映像コンテキストに関係なく、さまざまなタイプの映像に使用することができる。いくつかの他の実施形態では、物体分類子は、コンテキスト情報に基づいて選択される。たとえば、このコンテキスト情報は、映像のタイプを示すキャプションを含み得て、AVSDシステムは、識別されたタイプの映像と一致する、または少なくとも識別されたタイプの映像に最も関連する物体分類子を選択する。さらにまたは代替的に、いくつかの実施形態において、AVSDシステムは、そのコンテキストに基づいて映像のタイプを判断する。さらにまたは代替的に、いくつかの実施形態において、AVSDシステムは、クエリのタイプに基づいて映像のタイプを判断する。たとえば、どのチームがこのサッカーの試合をしているかをクエリが尋ねると、AVSDシステムは、映像がおそらくサッカーの試合についてのものであると判断する。
さらにまたは代替的に、いくつかの実施形態は、さまざまなアプリケーションに合わせてさまざまな物体検出を変化させる。たとえば、車両をナビゲーションすることに関連するクエリに回答するように構成された運転アプリケーションのための物体検出は、スポーツイベントおよび/または映画のために構成された物体検出とは異なっているであろう。スポーツイベントのカテゴリの中でさえ、さまざまな物体およびさまざまな関係を認識するようにさまざまな試合(サッカーまたはバドミントンなど)を構成する必要がある。その目的のために、さまざまな実施形態は、さまざまなタイプの物体を検出して分類するように構成されたさまざまな物体検出モジュールを使用する。さらに、いくつかの実施形態は、クエリおよび/または映像のタイプに基づいてさまざまな物体検出モジュールを選択するように構成される。
したがって、一実施形態は、マルチモーダルクエリに対する応答を生成するためのシーンアウェア対話システムを開示しており、上記シーンアウェア対話システムは、映像フレームのシーケンス、コンテキスト情報およびクエリを受信するように構成された入力インターフェイスと、少なくとも1つのニューラルネットワークを格納するように構成されたメモリとを含み、上記少なくとも1つのニューラルネットワークは、上記ニューラルネットワークに提供された入力された映像フレームのシーケンスおよび上記入力されたコンテキスト情報のうちの1つまたは組み合わせを解析することによって、上記入力されたクエリに対する応答を生成するように訓練されたビジュアルシーンアウェア対話ニューラルネットワークを備え、上記シーンアウェア対話システムはさらに、プロセッサを含み、上記プロセッサは、上記映像フレームのシーケンスの各映像フレーム内の物体を検出して分類するように構成され、上記映像フレームのシーケンス内の物体の関心領域を統合して、上記各映像フレーム内の上記分類された物体間の関係を求めるように構成され、上記映像フレームのシーケンスの少なくとも1つの映像フレームは、少なくとも2つの分類された物体を含み、上記2つの分類された物体間の上記関係は、上記映像フレーム内に限定されるフレーム内物体関係であり、上記プロセッサはさらに、上記各映像フレームについて、上記分類された物体および上記求められた関係を表す特徴を抽出して、特徴ベクトルのシーケンスを生成するように構成され、1つの映像フレームには1つの特徴ベクトルがあり、上記プロセッサはさらに、上記特徴ベクトルのシーケンス、上記入力されたクエリおよび上記入力されたコンテキスト情報を上記ニューラルネットワークに送信して、上記入力されたクエリに対する応答を生成するように構成され、上記シーンアウェア対話システムはさらに、上記入力されたクエリに対する上記応答を提供するための出力インターフェイスを含む。
別の実施形態は、マルチモーダルクエリに対する応答を生成するための方法を開示しており、上記方法は、映像フレームのシーケンス、コンテキスト情報およびクエリを受信するステップと、上記映像フレームのシーケンスの各映像フレーム内の物体を検出して分類するステップと、上記映像フレームのシーケンス内の物体の関心領域を統合して、上記各映像フレーム内の上記分類された物体間の関係を求めるステップとを含み、上記映像フレームのシーケンスの少なくとも1つの映像フレームは、少なくとも2つの分類された物体を含み、上記2つの分類された物体間の上記関係は、上記映像フレーム内に限定されるフレーム内物体関係であり、上記方法はさらに、上記各映像フレームについて、上記分類された物体および上記求められた関係を表す特徴を抽出して、特徴ベクトルのシーケンスを生成するステップを含み、1つの映像フレームには1つの特徴ベクトルがあり、上記方法はさらに、上記特徴ベクトルのシーケンス、上記入力されたクエリおよび上記入力されたコンテキスト情報を少なくとも1つのニューラルネットワークに送信するステップを含み、上記少なくとも1つのニューラルネットワークは、入力された映像フレームのシーケンスおよび上記入力されたコンテキスト情報のうちの1つまたは組み合わせを解析することによって、上記入力されたクエリに対する応答を生成するように訓練されたビジュアルシーンアウェア対話ニューラルネットワークを備え、上記方法はさらに、上記入力されたクエリに対する上記応答を出力インターフェイスを介して提供するステップを含む。
いくつかの実施形態に係る、クエリに対する応答を生成するためのオーディオビジュアルシーンアウェア対話(AVSD)システムの概要を示す図である。 いくつかの実施形態に係る、映像の映像フレームのシーケンスを示す図である。 いくつかの実施形態に係る、映像フレームのシーケンスのためのシーングラフ表現のシーケンスを示す図である。 いくつかの実施形態に係る、各フレームについて生成されたグラフアテンションネットワークおよび関係グラフネットワークを示す図である。 いくつかの実施形態に係る、シーングラフ表現のシーケンスのビジュアルグラフメモリのシーケンスを示す図である。 いくつかの実施形態に係る、クエリに対する応答を生成するためのセマンティック制御トランスフォーマの概略図である。 いくつかの実施形態に係る、クエリに対する応答を生成するためのAVSDシステムの原理の概要概略を示す図である。 1つの例示的な実施形態に係る、AVSDシステムで実現されるデバイスを使用してクエリに対する応答を生成するための例示的なシナリオを示す図である。 いくつかの実施形態に係る、映像フレームのシーケンス、コンテキスト情報および入力されたクエリの情報を含むテーブルの概要を示す図である。 1つの例示的な実施形態に係る、入力されたクエリに対する応答を生成するための例示的なシナリオを示す図である。 別の例示的な実施形態に係る、入力されたクエリに対する応答を生成するための例示的なシナリオを示す図である。 別の例示的な実施形態に係る、入力されたクエリに対する応答を生成するための例示的なシナリオを示す図である。 いくつかの実施形態に係る、AVSDシステムによってクエリに対する応答を生成するための方法フロー図である。 いくつかの実施形態に係る、図1のAVSDシステムの構成要素に対するアブレーション解析を示すテーブルの図である。 いくつかの実施形態に係る、AVSDシステムと、対話システム技術チャレンジ7(DSTC7)におけるAVSDチャレンジのテストスプリットでのベースライン法との比較を示すテーブルの図である。 いくつかの実施形態に係る、AVSDシステムと、DSTC8におけるAVSDチャレンジのテストスプリットでのベースラインとの比較を示す図である。 いくつかの実施形態に係る、クエリに対する応答を生成するためのAVSDシステムの原理の詳細な概要概略を示す図である。
以下の記載には、本開示を完全に理解できるように多数の具体的詳細が説明の目的で記載されている。しかし、このような具体的詳細がなくても本開示を実施できるということは当業者に明らかであろう。他の例では、本開示を曖昧にすることを回避するために、装置および方法はブロック図の形式でのみ示されている。
本明細書および特許請求の範囲で使用されている「たとえば」、「例として」および「など」という語、ならびに、「備える」、「有する」、「含む」という動詞およびそれらの他の動詞の形は、1つもしくは複数の構成要素または他のアイテムの列挙とともに使用された場合、各々がオープンエンドであるように解釈されるべきであり、これは、列挙が他のさらなる構成要素またはアイテムを排除するものとして考えられるべきでないことを意味している。「基づく」という語は、少なくとも部分的に基づくことを意味している。さらに、本明細書において利用される表現および用語は、説明を目的としており、限定的であるように考えられるべきではない、ということが理解されるべきである。本明細書において利用されるいかなる見出しも、便宜上のものであるに過ぎず、法的効果または限定的効果を有するものではない。
システムの概略
図1は、いくつかの実施形態に係る、クエリに対する応答を生成するためのオーディオビジュアルシーンアウェア対話(AVSD)システム100の概要を示す図である。AVSDシステム100は、入力インターフェイス102と、プロセッサ104と、メモリ106と、ストレージデバイス114と、出力インターフェイス116とを含む。入力インターフェイス102は、映像の映像フレームのシーケンス、コンテキスト情報およびクエリを備える入力データ126を受信するように構成される。入力データ126は、マルチモーダル情報(音声、映像、テキストなど)に対応する。AVSDシステム100は、ネットワークインターフェイスコントローラ(NIC)122を使用してネットワーク124を介して入力データ126を受信する。いくつかの場合には、映像は、ネットワーク124を介して受信されるライブストリーム映像であってもよい。いくつかの他の場合には、映像は、オフライン映像ストリームまたは記録された映像であってもよく、オフライン映像ストリームは、ストレージデバイス114に格納され得る。ストレージデバイス114は、コンテキスト情報も格納するように構成され、コンテキスト情報は、入力された映像についてのオーディオ情報およびテキスト情報(映像キャプション、映像質問応答対話の履歴など)のうちの1つまたは組み合わせを含む。
プロセッサ104は、映像フレームのシーケンスの各映像フレーム内の物体を検出して分類するように構成される。プロセッサ104はさらに、イメージフレームのシーケンスの各映像フレーム内の物体間の関係を求めて、特徴ベクトルのシーケンスを生成するために、各映像フレーム内の物体およびそれらの関係を表す特徴を抽出するように構成される。特徴ベクトルのシーケンスの各特徴ベクトルは、映像フレームのシーケンスの対応する映像フレームに対応する。プロセッサ104はさらに、特徴ベクトルのシーケンス、クエリおよびコンテキスト情報を、メモリ106に格納された1つまたは複数のニューラルネットワークに送信して、クエリに対する応答を生成するように構成され、クエリは、入力された映像フレームのシーケンス内の物体、物体間の関係および物体の時間的進化のうちの1つまたは組み合わせに関係している。1つまたは複数のニューラルネットワークは、1つまたは複数のニューラルネットワークが、モダリティの情報を処理するように構成されたマルチモーダルニューラルネットワークであるように、入力された映像フレームのシーケンスおよび入力されたコンテキスト情報のうちの1つまたは組み合わせを解析することによって、クエリに対する応答を生成するように訓練される。1つまたは複数の訓練されたニューラルネットワークは、オーディオビジュアルシーンアウェアニューラルネットワーク108と、特徴抽出ニューラルネットワーク110と、集約ニューラルネットワーク112とを含む。
たとえば、オーディオビジュアルシーンアウェアニューラルネットワーク108は、映像フレームのシーケンスの各映像フレーム内のシーンを表す特徴(たとえば、シーングラフ表現)を処理して応答を生成するように訓練される。オーディオビジュアルシーンアウェアニューラルネットワーク108の例としては、高速領域ベース畳み込みニューラルネットワーク(高速RCNN)および三次元(3D)畳み込みニューラルネットワーク(CNN)のうちの1つまたは組み合わせが挙げられる。シーングラフ表現は、各映像フレーム内の物体および物体間の関係の特徴を含む各映像フレームの空間情報を提供する。プロセッサ104はさらに、この空間情報と各映像フレームの時間情報とを組み合わせて、時空間シーングラフ表現(STSGR)モデルを生成するように構成される。より具体的には、プロセッサ104は、統合された関心領域に基づいて映像フレームのシーケンスの各映像フレームについてSTSGRモデルを生成する。さらに、1つまたは複数のニューラルネットワークは、クエリに対する関連する応答が生成されるように、各STSGRモデルを利用して映像フレームのシーケンスの訓練STSGRモデルに対して時空間学習を実行するように訓練される。時空間推論は、ビジュアル情報フローおよびセマンティック情報フローを映像内に取り込むため、各STSGRモデルは、各々の対応する映像フレームを時空間ビジュアルグラフストリームおよびセマンティックグラフストリームとして表現する。これにより、映像についてのクエリに関連する応答を生成するための物体レベルのグラフ推論が可能になる。いくつかの実施形態において、1つまたは複数のニューラルネットワークは、物体レベルのグラフ推論を生成するためのマルチヘッドシャッフルトランスフォーマであり、これらのマルチヘッドシャッフルトランスフォーマは、特徴ベクトルのシーケンスのヘッドをシャッフルすることを可能にする。
いくつかの実施形態において、オーディオビジュアルシーンアウェアニューラルネットワーク108は、シーングラフ表現における各エッジについてアテンション係数を計算するアテンションベースのネットワークアーキテクチャに対応する。アテンション係数は、グラフ(STSGRなど)の2つの結び付けられたノード間の重要度を決定する値を提供する。アテンション係数は、時空間推論のために顕著な特徴(分類された物体および関係など)に選択的に注目するのに利用される。
さらに、プロセッサ104は、特徴抽出ニューラルネットワーク110を利用することによって、生成されたシーングラフ表現から特徴ベクトルを抽出するように構成される。特徴抽出ニューラルネットワーク124は、生成されたシーングラフ表現から特徴ベクトルを抽出して、映像フレームのシーケンスのシーングラフ表現のシーケンスに対応する特徴ベクトルのシーケンスを生成する、予め訓練されたニューラルネットワークに対応する。さらに、プロセッサ104は、特徴ベクトルのシーケンスの各特徴ベクトルの値を特徴ベクトルのシーケンス内の隣接する特徴ベクトルの加重値で修正するように構成される。
特に、特徴抽出ニューラルネットワーク110は、フレームレベルのグラフ内推論を実行して特徴ベクトルを抽出する。本明細書における特徴ベクトルは、シーングラフ表現のシーケンスのビジュアルグラフメモリに対応する。
一実現例において、グラフ内推論は、シーングラフ表現のノードベースの特徴(すなわち、物体特徴)を集約して、シーングラフ表現のエッジベースの特徴(すなわち、関係特徴)を集約することによって実行される。さらに、グラフ内推論は、アテンションベースのニューラルネットワークを使用して、一対の結び付けられたノードの重み値(すなわち、セルフアテンション値)を計算する。この重み値は、対になった一方のノードの、他方のノードに対する重要度を示す。同様に、他の対になったノードの重みも、アテンションベースのニューラルネットワークを使用して求められる。さらに、全ての重み値に基づいて、シーングラフ表現における隣接するノード(すなわち、隣接する物体)の加重合計が計算される。プロセッサ104は、この加重合計に基づいて、各々の対応するシーングラフ表現における各ノードの特徴を更新する。
さらに、プロセッサ104は、この加重合計を関係ニューラルネットワークへの入力として提供する。一実現例において、関係ニューラルネットワークは、更新されたシーングラフ表現の2つの接続されたノード特徴から関係特徴を生成するための多層完全接続ネットワークに対応する。したがって、更新されたシーングラフ表現は、特徴ベクトルのシーケンスを提供するビジュアルグラフメモリにプールされる。特徴ベクトルのシーケンスは、入力データ126の空間表現および時間表現を表す。さらに、特徴ベクトルのシーケンスの各特徴ベクトルを求めるために、集約ニューラルネットワーク110は、特徴ベクトルを中心とする窓に適合する複数の特徴ベクトルの値を集約する。特徴ベクトルのシーケンスのこのような特徴ベクトルは、当該特徴ベクトルを中心とする窓に適合する複数の特徴ベクトルの値の加重組み合わせである。これにより、隣接する映像フレーム内の物体およびそれらの関係についての同様の特徴の集約が可能になる。プロセッサ104は、特徴ベクトルのシーケンスの各特徴ベクトルを利用して、クエリに対する応答を生成するように構成される。さらに、クエリに対する生成された応答は、出力インターフェイス116を介して出力デバイス118に提供される。出力デバイス118は、コンピュータ、ラップトップ、タブレット、ファブレットまたは任意のディスプレイデバイスを含むが、これらに限定されるものではない。いくつかの実現例では、出力デバイス118は、応答を提供するためのアプリケーションインターフェイスを含み得る。
いくつかの実施形態において、AVSDシステム100の効率を向上させるために、プロセッサ104は、映像フレームのシーケンスからキーフレームのセットを抽出するように構成され得る。キーフレームのセットは、映像の映像フレームのシーケンス内の人または物体の動きの移り変わりを表す映像フレームを含む。プロセッサ104は、AVSDアプリケーションのための予め訓練されたモデル(たとえば、VisualGenome)に基づいてキーフレームのセットを抽出するように構成され得る。処理しなければならない映像フレームのシーケンスからの映像フレームの数が減少するので、キーフレームのセットの抽出は、プロセッサ104が映像フレーム(すなわち、キーフレームのセット)を効率的に処理して映像のクエリに対する応答を生成することを可能にする。したがって、キーフレームの利用は、効率的なAVSDシステム(すなわち、AVSDシステム100)を容易にして、映像についてのクエリに対する応答を生成する。
図2Aは、いくつかの実施形態に係る、映像フレーム(映像200Aの映像フレーム202a、映像フレーム202b、映像フレーム202cおよび映像フレーム202dなど)のシーケンスを示す図である。いくつかの実施形態において、映像200AがAVSDシステム100に提供されると、プロセッサ104は、映像フレーム202a~202dのシーケンスからキーフレームを検出する。いくつかの実施形態において、キーフレームは、シーケンスの全てのフレームである。いくつかの実施形態において、プロセッサ104は、データセット上で訓練されたモデルを使用してキーフレームを抽出する。さらにまたは代替的に、いくつかの実施形態は、等しい時間ストライドでキーフレームを選択する。さらにまたは代替的に、いくつかの実施形態は、時間アテンションモデルを介してキーフレームを選択する。さらにまたは代替的に、いくつかの他の実施形態では、プロセッサ104は、キーフレーム抽出技術(クラスタベースのキーフレーム抽出、視覚ベースのキーフレーム抽出、モーション解析ベースのキーフレーム抽出など)を使用してキーフレームを抽出する。映像200Aのキーフレームの抽出に基づいて、プロセッサ104は、映像200Aの映像フレームのシーケンス(すなわち、映像フレーム202a~202dのシーケンス)全体を処理する代わりに、キーフレームのみを処理することを求められる。これにより、AVSDシステム100の計算速度および効率が向上する。
いくつかの実施形態において、プロセッサ104はさらに、映像フレーム202a~202dのシーケンスの各映像フレーム内の物体を検出して分類する。オーディオビジュアルシーンアウェアニューラルネットワーク108は、物体検出技術(バウンディングボックス技術など)のための命令のセットを含み得る。プロセッサ104は、このような命令を実行して各映像フレーム内の物体を検出するように構成され得る。たとえば、映像フレーム202aでは、検出された物体は、バウンディングボックス(バウンディングボックス204aおよびバウンディングボックス204bなど)によって示される。検出された物体は、オーディオビジュアルシーンアウェアニューラルネットワーク108の物体分類子に基づいて分類される。物体分類子は、従来の物体分類技術に基づいて物体を分類するための命令のセットを含み得る。プロセッサ104は、各映像フレーム内の物体を分類するために、物体分類子の命令のセットを実行するように構成され得る。分類された物体は、ラベル付けされる(図2Aには図示せず)。たとえば、バウンディングボックス204aは、ポットとしてラベル付けされており、バウンディングボックス204bは、ストーブとしてラベル付けされている。同様に、映像フレーム202b~202dのシーケンスの残りの映像フレーム内の物体が検出されて分類される。さらに、プロセッサ104は、分類された物体間の関係を求めて、各映像フレーム(すなわち、映像フレーム202a、映像フレーム202b、映像フレーム202cおよび映像フレーム202d)についてシーングラフ表現を生成する。これについては、図2Bの説明でさらに説明する。代替的に、上記のように、プロセッサ104は、オーディオビジュアルシーンアウェアニューラルネットワーク108の利用に基づいて映像200Aのキーフレームから物体を検出して分類してもよい。
図2Bは、いくつかの実施形態に係る、シーングラフ表現のシーケンス200Bを示す図である。シーングラフ表現のシーケンス200Bは、映像フレーム202a~202dのシーケンスについてのシーングラフ表現206a、シーングラフ表現206b、シーングラフ表現206c、シーングラフ表現206dを含む。さらに、シーングラフ表現206a~206dのシーケンスは、分類された物体および求められた関係の特徴208a、特徴208b、特徴208cおよび特徴208dのシーケンスに対応する。プロセッサ104は、図1の説明に記載されているように、オーディオビジュアルシーンアウェアニューラルネットワーク108を利用してシーングラフ表現のシーケンスを生成するように構成される。シーングラフ表現206a~206dのシーケンスの各シーングラフ表現は、映像フレーム202a~202dのシーケンスの各映像フレーム内の分類された物体および物体間の関係を表す。シーングラフ表現206aでは、各ノードは、分類された物体を表し、2つのノードを接続する各エッジは、分類された物体間の関係を表す。たとえば、シーングラフ表現206aでは、主語ノード(たとえば、9冷凍庫)は、目的語ノード(たとえば、13キャビネット)に向けられる。さらに、これらのノードを接続するエッジは、物体間の関係が指定されるような方向性エッジである。シーングラフ表現は、G={(x,eij,x)|x,x∈V,eij∈ε}として表すことができ、式中、Vは、複数の個々の物体からなる頂点セットであり、εは、2つの物体を結び付ける関係からなるエッジセットであり、(x,eij,x)は、主語ノードxおよび目的語ノードxが、有向の関係エッジeijによって接続されることを示す。
いくつかの実施形態において、オーディオビジュアルシーンアウェアニューラルネットワーク108は、映像フレーム202a~202dのシーケンスの各映像フレーム内の物体のビジュアル特徴またはセマンティック特徴に基づいて物体の特徴を抽出するために分類子のセット(ニューラルネットワークベースの分類子のセットとしても知られている)を含む。分類子のセットは、物体分類子と、関係分類子とを含む。プロセッサ104は、入力された映像フレームのシーケンス、入力されたコンテキスト情報、入力されたクエリまたはそれらの組み合わせに基づいてニューラルネットワークベースの分類子のセットから物体分類子および関係分類子を選択するように構成される。たとえば、Iによって示される映像フレーム202a、Fによって示される物体特徴、Bによって示されるバウンディングボックス、およびSによって示されるセマンティクスは、ニューラルネットワークベースの物体分類子(高速回帰型畳み込みニューラルネットワーク(R-CNN)物体検出モデルなど)によって抽出することができる。
FI,BI,SI=RCNN(I) (1)
同様に、プロセッサ104は、映像フレーム202a~202dのシーケンスの各映像フレーム内の分類された物体間の関係を求めるための関係分類子を選択する。関係分類子は、映像フレーム202a~202dのシーケンス内の分類された物体間の視覚的関係を認識する。さらに、関係分類子は、最も高い信頼度を有する固定された数の関係提案Nを生成する。たとえば、Nは、固定された数100に設定される。いくつかの実現例において、各映像フレーム(すなわち、映像フレーム202a~202dの各々)における視覚的関係は、関係検出モデルを使用して求められ、この関係検出モデルは、識別機能もセマンティック類似性も保持されるベクトル空間に物体および関係を埋め込む。この関係検出モデルは、述語として示される150個の物体および50個の関係を含む映像データセット上で訓練される。関係検出モデルが映像フレーム202a~202dに適用されると、主語S、述語Pおよび目的語Oのセット(すなわち、<S,P,O>)が各映像フレームの出力として得られる。一実施形態において、映像データセット上で訓練された関係検出モデルの関係述語が限定されて固定されるので、元の述語セマンティクスPは廃棄される。したがって、関係提案は、物体の暗黙的な関係セマンティクスを学習するために使用される<S,O>対に基づく。ほとんどの場合、関係提案Nは、言及されていない物体を全て含まなくてもよい。言及されていない物体は、グラフプルーニングを行うことによって除去される。
さらに、プロセッサ104は、映像フレーム202a~202dのシーケンス内の物体の関心領域を統合して、分類された物体のうちの2つの物体間の関係を求める。より具体的には、求められた<S,O>対について、SおよびOのためのバウンディングボックス(たとえば、図2Aのバウンディングボックス204aおよび204b)の合体ボックスが、新たなシーングラフにおいて追加ノードとして使用される述語関心領域であるとみなされる。主語バウンディングボックスおよび目的語バウンディングボックスよりも多くの情報をカバーする合体ボックスは、2つの物体の各々の間の高次インタラクションを取り込む。
したがって、プロセッサ104は、特徴抽出ニューラルネットワーク110を使用してビジュアル情報およびセマンティック情報の両方の情報の特徴を含む特徴208a~208dのシーケンスを抽出する。さらに、プロセッサ104は、シーングラフ表現206a~206dを使用して映像フレーム202a~202dのビジュアルメモリを抽出する。これについては、図2Cの説明でさらに説明する。
図2Cは、いくつかの実施形態に係る、シーングラフを形成する206a~206dを表すためのグラフアテンションネットワーク210および関係グラフネットワーク212を示す表現200Cを示す図である。
いくつかの実施形態において、プロセッサ104は、分類された物体および求められた関係を集約して、映像フレーム202a~202dのシーケンスの各映像フレームについてビジュアルメモリを生成する。その目的のために、プロセッサ104は、メモリ106に格納されたグラフアテンションネットワーク210および関係グラフネットワーク212を利用する。グラフアテンションネットワーク210は、アテンション係数値を表すノード210aを含む。シーングラフ表現206a~206dのシーケンスの各シーングラフ表現は、グラフアテンションネットワーク210および関係グラフネットワーク212を使用してグラフ内推論を実行することによって集約される。プロセッサ104は、AVSDシステム100の特徴抽出ニューラルネットワーク110を利用して、シーングラフ表現206a~206dに対してフレームレベルのグラフ内推論を実行して、映像フレーム202a~202dのシーケンスの各映像フレームについてビジュアルグラフメモリまたはセマンティックグラフメモリを抽出する。
ビジュアルグラフメモリは、シーングラフ表現206a~206d内の各ノード(すなわち、物体)についてよりきめ細かな情報を表すより高いレベルの特徴を提供する。より高いレベルの特徴は、シーングラフ表現206a~206dのシーケンスの各シーングラフ表現内の各エッジについてのアテンション係数に基づいて抽出される。プロセッサ104は、グラフアテンションネットワーク210によってアテンション係数を求める。さらに、プロセッサ104は、アテンション係数に基づいてシーングラフ表現206a~206dのノード特徴を集約する。プロセッサ104は、関係グラフネットワーク212によってノード特徴に基づいて追加のエッジ特徴を計算する。さらに、プロセッサ104は、関係グラフネットワーク212ノード特徴が更新されるように追加のエッジ特徴を集約する。

式中、εは、ノードiを指し示すエッジのセットを示す。したがって、プロセッサ104は、グラフアテンションネットワーク210および関係グラフネットワーク212に基づいてシーングラフ表現206a~206dのシーケンス内のノード特徴を更新する。さらに、シーングラフ表現206a~206dの各ノードについてより高いレベルの特徴を得るために、更新されたグラフは、ビジュアルグラフメモリにプールされる。一実現例において、プロセッサ104は、グラフ平均値プーリング(GAP)およびグラフ最大値プーリング(GMP)に基づいてビジュアルグラフメモリのプーリングを実行するように構成される。GAPおよびGMPは、メモリ106に格納される。プロセッサ104は、GAPおよびGMPプーリングにアクセスして、特徴抽出ニューラルネットワーク110に提供して、ビジュアルグラフメモリを表す2つのグラフストリームを生成する。ビジュアルグラフメモリ(ビジュアルグラフメモリ214a、ビジュアルグラフメモリ214b、ビジュアルグラフメモリ214cおよびビジュアルグラフメモリ214dなど)については、図2Dで説明する。
映像フレーム202a~202dのシーケンスの中心映像フレーム(たとえば、映像フレーム202b)のビジュアルグラフメモリ(グラフメモリ216bなど)をスライドオーバーする窓216a~216cは、最終的なグラフメモリ218a,218b,218cおよび218dのシーケンスを提供する。最終的なグラフメモリ218a~218dのシーケンスは、V={v,v,...,v}として表すことができ、これは、映像フレーム202a~202dの空間情報も時間情報も集約する。最終的なグラフメモリ218a~218dは、セルフアテンションエンコーダおよびフィードフォワードネットワーク層220への入力として提供される。セルフアテンションエンコーダおよびフィードフォワードネットワーク層220は、特徴ベクトル220a,220b,220cおよび220dとして表される特徴を抽出する。特徴ベクトル220a,220b,220cおよび220dは、セマンティック制御トランスフォーマに送信されて、映像200Aのクエリに対する応答を生成する。セマンティック制御トランスフォーマは、コンテキスト情報を符号化する。これについては、図3でさらに説明する。
図3は、いくつかの実施形態に係る、クエリに対する応答を生成するためのセマンティック制御トランスフォーマ300の概略図である。セマンティック制御トランスフォーマ300は、マルチヘッドアテンション(MHA)ネットワーク層の2つの層(MHAネットワーク層308aおよびMHAネットワーク層308bなど)を含む。いくつかの実施形態において、メモリ106は、セマンティック制御トランスフォーマを格納するように構成され得て、セマンティック制御トランスフォーマ300は、特徴ベクトル220a,220b,220cおよび220dのコンテキスト情報を符号化して、クエリに対する応答を生成するための命令のセットを含み得る。セマンティック制御トランスフォーマ300を実行するために、プロセッサ104は、特徴ベクトル302、コンテキスト情報304およびクエリ306を入力として取得する。特徴ベクトル302は、特徴ベクトル220a~220dのシーケンスに対応し、(V×D)として表され、式中、Dは特徴次元である。コンテキスト情報304は、映像質問応答の履歴(H×D)に対応する。クエリ306は、(Q×D)として表される映像200Aの質問に対応する。
特に、特徴ベクトル302、コンテキスト情報304およびクエリ306は、MHAネットワーク層308aへの入力として提供される。MHAネットワーク層308aは、コンテキスト情報304に基づいてテキスト情報を符号化し、対話モデルを学習して、クエリ306に対する応答を生成する。さらに、MHAネットワーク層308aは、符号化された特徴ベクトル312、符号化されたコンテキスト情報314および符号化されたクエリ316を生成する。符号化された特徴ベクトル312、符号化されたコンテキスト情報314、符号化されたクエリ316、およびサブ回答310の特徴(A×D)は、別のMHAネットワーク層308bへの入力として提供されて、クエリ306に対する応答を生成する。この応答は、参考回答310、符号化された特徴ベクトル312、符号化されたコンテキスト情報314および符号化されたクエリ316のヘッドベクトルをそれぞれシャッフルすることによって生成された特徴ベクトル318a、特徴ベクトル318b、特徴ベクトル318cおよび特徴ベクトル318dを含む。ヘッドベクトルのシャッフルは、隠れた特徴も抽出されるので、セマンティック制御トランスフォーマ300のパフォーマンスを向上させる。図3に示されるように、応答は、反復的な態様で生成される。たとえば、回答は、一度に一単語生成され、それまでに生成された回答の一部は、符号化されて、入力として渡されて、参考回答324を形成するための次の単語を生成する。
特徴ベクトル318a~318dのヘッドベクトルは、フィードフォワードネットワーク(FFN)モジュール320に送り込まれて後に連結される前にシャッフルされる。FFNモジュール320は、ReLI関数を間に介在させた2つの完全接続層を含む。連結は、コンテキスト情報304の特徴と特徴ベクトル302のビジュアル特徴とを融合して、特徴ベクトル322を抽出する。損失関数(L)326は、特徴ベクトル322の予測確率分布Pと参考回答の特徴324のグラウンドトークン分布Gとの間で実行される。一実施形態において、損失関数326は、カルバック・ライブラーダイバージェンスに基づく。
各反復において、セマンティック制御トランスフォーマ300のコアテンショントランスフォーマを使用して、1つの単語が生成されて、応答のための次の単語が予測される。さらに、全ての次のトークン確率分布がバッチで収集されて、予測確率分布Pが得られる。同様に、グラウンドトークン分布Gは、グラウンドトゥルース回答またはクエリ306に対する応答から得られる。
したがって、セマンティック制御トランスフォーマ300は、対話モデルを学習して、クエリ306に対する応答を生成する。
図4は、いくつかの実施形態に係る、AVSDシステム100の原理の概要概略を示す図である。AVSDシステム100は、入力された映像フレームのシーケンスおよびコンテキスト情報304を受信する。プロセッサ104は、映像フレーム202a~202dのシーケンスについてシーングラフ表現404を生成する。図2Bの説明で説明したように、シーングラフ表現404は、シーングラフ表現206a~206dに対応する。シーングラフ表現404は、フレーム内のシーンのセマンティック表現である。図2Cの説明で説明したように、シーングラフ表現404から、グラフ内推論306によってビジュアルグラフメモリ(たとえば、ビジュアルグラフメモリ214a~214d)が生成される。プロセッサ104は、グラフ間情報集約408のためにビジュアルグラフメモリ214a~214dを利用して、最終的なグラフメモリ(すなわち、グラフメモリ218a~218d)を生成する。最終的なグラフメモリ218a~218dは、セマンティック制御トランスフォーマ300への入力として提供される。さらに、プロセッサ104は、セマンティック制御トランスフォーマ推論410を実行して、最終的なグラフメモリ218a~218d、コンテキスト情報304および入力されたクエリ412を符号化して、出力応答414を生成するように構成される。いくつかの実施形態において、入力されたクエリ412は、セマンティック制御トランスフォーマ300に提供されて、セマンティック制御トランスフォーマ推論410を実行する。
一般に、言語モデル化では、回答文の単語は語彙リポジトリから予測される。一実現例において、回答文の中の単語の次の単語の予測は、入力されたクエリ412に基づいて行われる。コンテキスト情報304は、ソース文(映像キャプション、対話履歴および参考回答310(すなわち、既に生成された回答))を含む。たとえば、対話履歴は、H={C,(Q,A),...,(Ql-1,Al-1)}であり、式中、Cは映像キャプションであり、Qはクエリであり、A inは参考回答である。セマンティック制御トランスフォーマ推論410は、出力応答414のための語彙の中の単語の全てのトークンについて単語の次のトークンの確率分布を生成する。セマンティック制御トランスフォーマ推論410の推論プロセスは、連結されたビジュアルグラフメモリ214a~214dおよび最終的なグラフメモリ218aから218dに基づいて制御される。
セマンティック制御トランスフォーマ推論410では、対話履歴(H)、映像キャプション(C)、クエリ(Q)および参考回答(A in)を含む文ソースは、トークン化および単語位置埋め込み層を使用して埋め込まれる。たとえば、テキストソース(H,C,Q,A in)は、e,e,e,eとしてトークン化される。一実現例において、テキストソースは、バイト対符号化(BPE)によってトークン化される。トークン化されたテキストソースは、単語位置埋め込み層によって、文の長さ(L)および単語埋め込み次元(W)に対応するLW次元ベクトルの表現に変換される。トークン化されたテキストソースの各単語は、位置埋め込み空間に符号化され、単語埋め込み層に追加される。同様に、ターゲット文も位置埋め込み空間に符号化される。セルフアテンションモジュールの入力におけるテキストソースの連続表現S∈RL×Cは、線形変換を使用してキー(k)、クエリ(q)および値(v)に変換される。セルフアテンションモジュールは、キーとクエリとの間のアテンション値を計算する。キーとクエリとの間のアテンション値は、テキストソースの中の各単語がセルフアテンションモジュールを使用して他の単語からの情報を集約することを可能にする。
さらに、次元2dのビジュアルグラフメモリ(すなわち、ビジュアルグラフメモリ214c~214d)は、d次元特徴であるeに変換され、このeは、テキストソースのLW次元と一致する。次に、トークン化された参考回答(すなわち、参考回答310)eは、セルフアテンションベースのマルチヘッドシャッフルトランスフォーマ(すなわち、MHAネットワーク層308a)を使用して符号化されて、符号化された隠れ表現(henc)を生成する。
henc=FFN(Attention(Wqea,Wkea,Wvea)) (9)
式中、W,W,Wは、それぞれクエリ(q)、キー(k)および値(v)の重み行列である。FFNは、活性化関数(すなわち、正規化線形ユニット(ReLu))を介在させた2つの完全接続層を含むフィードフォワードネットワークモジュールである。符号化された隠れ表現は、特徴ベクトル318a~318dに対応する。
値(v)を有する、キー(k)とクエリ(q)との間のアテンション係数は、以下のように定義されるアテンション関数に基づいて求められる。
入力されたクエリ412を符号化した後、マルチヘッドシャッフルトランスフォーマ(すなわち、MHAネットワーク層308b)の同一のトランスフォーマ構造を用いて、他の単語の各々についてのコアテンションおよび視覚的埋め込みe(j∈{h,c,q,v})が実行される。
h enc,j=FFN(Attention(Wqhenc,Wkej,Wvej) (11)
式中、h enc,jは、新たな符号化された特徴である。
文ソースの特徴とビジュアル特徴(すなわち、特徴ベクトル318a~318d)とを連結することによって、特徴ベクトルh enc,jが抽出される。各文ソース特徴(すなわち、符号化されたコンテキスト情報314および符号化されたクエリ316)および各ビジュアル特徴(すなわち、符号化された特徴ベクトル312)における各ヘッドベクトルは、マルチヘッドシャッフルトランスフォーマ(すなわち、MHAネットワーク層308b)によってシャッフルされる。マルチヘッドシャッフルは、符号化された特徴ベクトル312、符号化されたコンテキスト情報314および符号化されたクエリ316のヘッドベクトルが始めから終わりまで相互作用することを可能にし、これにより、セマンティック制御トランスフォーマ推論410のパフォーマンスが向上する。これらのヘッドベクトルは、後に連結されるFFNモジュール320の2つの完全接続層に送り込まれる前にシャッフルされる。連結は、テキストソースの特徴とビジュアル特徴とを融合して、最終的な符号化された特徴ベクトルh enc,jを抽出する。特徴ベクトルh enc,jは、語彙の中のトークンにわたる次のトークン確率分布(pvocab)を予測するのに使用される。次のトークン確率分布(pvocab)は、ソフトマックス関数を有するFFNを使用して予測される。
(pvocab)=softmax(FFN(h* enc)) (12)
テスト段階において、b個のビームによるビーム検索が実行されて、回答文を生成する。各ステップにおいて、上位b個の最も高い信頼度スコアを有するb個のトークンが選択される。回答は、文のトークンエンドである<eos>が生成されると、または、最大数のトークンに達すると完了する。したがって、プロセッサは、生成された回答に基づいて、出力応答414を入力されたクエリ412に出力する。
図5は、1つの例示的な実施形態に係る、AVSDシステム100で実現されるデバイス516を使用してクエリ506に対する応答520を生成するための例示的なシナリオ500を示す図である。デバイス516は、テレビ、ラップトップ、コンピュータ、スマートフォン、または任意のディスプレイデバイスであり得る。いくつかの実施形態において、デバイス516には、AVSDシステム100が埋め込まれており、デバイス516は、ユーザ502からのクエリ506を処理してクエリ506に対する応答を生成するように構成される。このような場合、デバイス516におけるAVSDシステム100は、マルチモーダル情報(映像の映像キャプション、映像の映像対話履歴および映像の音声のようなコンテキスト情報など)を符号化することによってクエリ506に関連する応答を生成する。図3で説明したように、マルチモーダル情報は、映像のビジュアル情報およびセマンティック情報に符号化される。ビジュアル情報およびシーン情報は、AVSDシステム100のプロセッサ104によって抽出され、これは図2Aおよび図2Bで説明されている。
代替的な実施形態において、AVSDシステム100は、ネットワーク(ネットワーク124など)のオンライン接続リンクを介してデバイス516とリモート結合されてもよい。さらに、ユーザ502は、デバイス516と通信することができる電子デバイス504に関連付けられる。電子デバイス504は、通信リンク(ブルートゥース接続、赤外線接続、Wi-Fi接続など)を介してデバイス516と通信し得る。代替的な実施形態において、AVSDシステム100は、クラウドネットワーク(図5には図示せず)を介してデバイス516に結合されてもよい。
さらに、デバイス516は、1つまたは複数の構成要素(カメラ508、表示画面510、マイクロフォン512、スピーカ514など)を含み得る。カメラ508は、カメラ508の視野518内にいるユーザ502を取り込む。さらにまたは代替的に、カメラ508は、ユーザ502のジェスチャ(映像内の物体を指し示すハンドジェスチャなど)を取り込む。したがって、デバイス516は、これらのジェスチャとともにクエリ506をAVSDシステム100に送信する。
たとえば、ユーザ502は、デバイス516の表示画面510上に表示されたスポーツの試合を見ており、ユーザ502は、そのスポーツの試合についてのクエリ506を電子デバイス504を介して提供する。クエリ506は、「何人のプレーヤがフィールドでプレイしていますか?」というものであり得る。ユーザ502は、そのスポーツの試合を指し示すハンドジェスチャとともにクエリ506を提供し得る。クエリ506は、電子デバイス504によって取り込まれて、ユーザ502が何について尋ねているかをシステム100が判断することを可能にする。電子デバイス504は、クエリ506をデバイス516に送信する。代替的に、ユーザ502は、デバイス516のマイクロフォン512を介してクエリ506を提供してもよい。マイクロフォン512は、クエリ506を受信して、デバイス516におけるAVSDシステム100に提供する。図2A~図2D、図3および図4の説明で上記したように、AVSDシステム100は、スポーツの試合の映像、入力されたクエリ506、およびストレージデバイス114に格納されたスポーツの試合のコンテキスト情報を処理して、クエリ506に対する応答520を生成する。したがって、デバイス516は、生成された応答520をスピーカを介して出力し、応答520は、「14人のプレーヤがフィールドでプレイしています」というものであり得る。したがって、AVSDシステム100で実現されるデバイス516は、ユーザ(たとえば、502)のクエリ(たとえば、506)に対する応答(たとえば、520)を容易にする。
図6は、いくつかの実施形態に係る、映像フレームのシーケンス、コンテキスト情報402および入力されたクエリ412の情報を含むテーブル600の例示的な図である。テーブル600は、列(映像602、映像キャプション604、対話履歴606、クエリ608、回答610および生成された回答612など)を含む。テーブル600は、映像、コンテキスト情報およびクエリに対応する情報を示す行614および616を含む。映像602の列は、映像200Aの映像フレーム(たとえば、映像フレーム202a~202d)のシーケンスを含む映像ファイルを示す。映像ファイルは、映像ファイルフォーマット(フラッシュ(.flvまたは.swf)、.mp4、オーディオビデオインターリーブ(.avi)など)で格納されることができる。映像キャプション604の列は、対応する映像ファイルの映像キャプションまたはサブタイトルの情報を示す。いくつかの実施形態において、キャプションは、映像全体の簡単な説明を生成する映像キャプショニングシステムからのものであり得る。対話履歴606の列は、映像質問応答対話の履歴を示す。いくつかの実現例において、テーブル600は、AVSDシステム100のストレージデバイス114に格納される。たとえば、入力されたクエリ(入力されたクエリ412など)がAVSDシステム100によって受信されると、入力されたクエリ412は、ストレージデバイス144のテーブル600の中のクエリ608の列に格納される。さらに、AVSDシステム100のプロセッサ104は、映像602、映像キャプション604および対話履歴606の情報を使用して特徴ベクトルを抽出して、出力応答314を生成する。一実施形態において、出力応答314は、参考回答、ならびに、参考回答610および生成された回答612の列に対応する生成された回答文にそれぞれ基づいて生成される。別の実施形態は、回答を生成するのに参考回答を使用しない。参考回答は、訓練中にのみ使用される。
さらに、行614では、生成された回答612の列の下に、入力されたクエリに対する1つまたは複数の回答が生成される。生成された回答612における各々の生成された回答は、信頼度スコアに関連付けられる。最も高い信頼度スコアを有する生成された回答は、出力応答(たとえば、図3の説明で説明した出力応答314)として選択される。同様に、生成された回答612に対応する行616では、最も高い信頼度スコアを有する回答が出力応答として生成される。映像602の列の下の映像(すなわち、映像-1および映像-2)については、図7Aおよび図7Bでさらに説明する。
図7Aは、1つの例示的な実施形態に係る、映像についての入力されたクエリ704に対する応答706を生成するための例示的なシナリオ700である。描写700は、映像フレーム(まとめて映像フレーム702と称される)のシーケンスを有する映像(たとえば、図6の映像-1)を示す。この映像は、デバイス(デバイス516など)で再生される。たとえば、この映像は、物体(掃除機、衣服、テーブル、洗濯機など)を含む部屋の中にいる人を示している。クエリ704(「これはどのような部屋だと思いますか?」など)がAVSDシステム100に提供されると、受信されたクエリ704に基づく応答708が生成される。
その目的のために、AVSDシステム100は、映像フレーム702を処理して、映像フレーム702からビジュアル情報およびセマンティック情報を抽出するプロセッサ104を含む。さらに、プロセッサ104は、ビジュアル情報およびセマンティック情報をコンテキスト情報(映像フレーム702の映像キャプション、映像対話履歴、および映像フレーム702の音声など)で符号化して、応答708を生成する。図6の説明で説明したように、応答708は、生成された回答612の中の最も高い信頼度スコアを有する生成された回答に基づいて生成される。たとえば、クエリ704に対する応答708は、「洗濯室のようです」であり得る。
図7Bは、別の例示的な実施形態に係る、映像についての入力されたクエリ714に対する応答716を示す例示的なシナリオ710である。ユーザ502は、デバイス516における映像を見ている。この映像は、映像フレーム(まとめて映像フレーム712と称される)のシーケンスを有する図6の映像-2に対応する。ユーザ502は、音声またはテキストフォーマットを介してクエリ714を提供する。デバイス516におけるAVSDシステム100は、映像フレーム712を処理して映像フレーム712のビジュアル特徴およびセマンティック特徴を抽出するプロセッサ104を含む。ビジュアル特徴およびセマンティック特徴はさらに、マルチモーダル入力データ(すなわち、映像キャプション、映像対話および音声(または、コンテキスト情報))で符号化されて、クエリ714に対する関連する応答を生成する。この関連する応答(応答716など)は、クエリ714について生成される。応答716は、図6のテーブル600に示されるように、最も高い信頼度スコアを有する生成された回答に対応する。
図7Cは、別の例示的な実施形態に係る、映像についての入力されたクエリ724に対する応答726を示す例示的なシナリオ720である。ユーザ502は、車両を運転しており、カメラ(たとえば、ダッシュボードカメラ)は、車両の正面の動的なシーン712の映像を取り込む。この実施形態では、ユーザ502は、車両を予め規定された目的地730にナビゲートするためのナビゲーションクエリ724を作成することができる。ユーザ502は、音声を介してクエリ724を提供する。別の実施形態では、クエリは、目的地730への予め計算されたナビゲーションルートから収集され得る。デバイス516におけるAVSDシステム100は、映像フレーム722を処理して映像フレーム722のビジュアル特徴およびセマンティック特徴を抽出するプロセッサ104を含む。ビジュアル特徴およびセマンティック特徴はさらに、マルチモーダル入力データ(すなわち、映像対話および音声(または、コンテキスト情報(GPS座標、深度マップなど)))で符号化されて、クエリ724に対する関連する応答を生成する。この関連する応答(応答726など)は、クエリ724について生成される。
この実施形態では、AVSDシステム100は、ナビゲーション命令を生成することに関連する物体およびそれらの関係を検出して分類するように構成された物体および関係分類子を使用することができる。たとえば、物体は、建物、自動車、歩行者、電柱、信号機、または運転者に関連するその他の物体を含み得る。関係の例としては、前方、後方、右側、左側などを含み得る。この実施形態では、AVSDシステム100は、目的地へのナビゲーションルートとともに分類された物体およびそれらの関係の説明を使用してナビゲーション命令を生成するように構成される。たとえば、AVSDシステム100は、ナビゲーション命令(「前方の自動車についていって、左前方の木の後で左折して下さい」など)を生成することができる。この例では、分類された物体は、自動車および木である。ナビゲーションされる車両とのそれらの関係は、自動車も木も車両の前方にあることを示す。目的地へのナビゲーションルートとのそれらの関係は、ナビゲーションルートを辿るために左折する必要があることを示す。
この実施形態は、車両の近傍における静的および動的な物体についてのリアルタイムのユニモーダルまたはマルチモーダル情報に基づいて、車両の運転者にルートガイダンスを提供する必要があるという認識に基づく。たとえば、いくつかの実施形態の目的は、「100フィート行って2つ目の通りを右折してジョンソンストリートに入って下さい」のようなGPSベースの命令に加えて、またはその代わりに、「茶色のれんが造りの建物の前で右折して下さい」または「白い自動車についていって下さい」のようなコンテキストベースの運転命令を提供することである。このようなコンテキストベースの運転命令は、車両の近傍におけるシーンのリアルタイム認識に基づいて生成され得る。その目的のために、本明細書では、コンテキストベースのナビゲーションは、さまざまな実施形態に係る対話システムを使用して実現可能なシーンアウェアナビゲーションと称される。
図8は、いくつかの実施形態に係る、AVSDシステム100によって入力されたクエリに対する応答を生成するための方法フロー図800を示す図である。ブロック802において、システム100は、映像フレームのシーケンス、コンテキスト情報およびクエリを受信する。映像フレームのシーケンスは、映像フレームのシーケンス(たとえば、図7Aおよび図7Bの映像フレーム702または712のシーケンス)に対応する。コンテキスト情報は、図6で説明した映像キャプション604、対話履歴606および参考回答608を含む。クエリは、図7の入力されたクエリ704または706に対応する。ブロック804において、システム100は、映像フレーム202a~202dのシーケンスの各映像フレーム内の物体を検出して分類する。ブロック806において、システム100は、映像フレーム202a~202dのシーケンスの各映像フレーム内の分類された物体間の関係を求める。各映像フレームは、少なくとも2つの分類された物体を含み、これら2つの分類された物体間の関係は、この映像フレーム内に限定されるフレーム内物体関係である。
ブロック808において、システムは、各映像フレームについて、分類された物体および求められた関係を表す特徴を抽出して、特徴ベクトルのシーケンス(すなわち、図4の特徴ベクトル418a~418dのシーケンス)を生成する。映像フレーム202a~202dのシーケンスの各映像フレームは、テキストソースおよびビジュアルソースの情報または特徴を符号化する1つの特徴ベクトル(すなわち、特徴h enc)を有する。ブロック810において、システム100は、特徴ベクトル418a~418dのシーケンス、入力されたクエリ412および入力されたコンテキスト情報をニューラルネットワーク(すなわち、セマンティック制御トランスフォーマ推論310)に送信して、入力されたクエリ412に対する応答(すなわち、出力応答314)を生成する。ブロック812において、システム100は、入力されたクエリ412に対する応答314を出力インターフェイス(出力インターフェイス116など)を介して提供する。
図9は、いくつかの実施形態に係る、システム100の構成要素に対するアブレーション解析を示すテーブル900の図である。アブレーション解析は、トランスフォーマ構造におけるシャッフルの使用、グラフアテンションネットワークを使用するか関係グラフネットワークを使用するか、ユニオンバウンディングボックスのための関心領域(ROI)再トリミングを行うか否か、ビジュアルグラフもセマンティックグラフも使用するか否か、時間情報集約を行うか否かなどに関して、AVSDシステム100の有効性を証明する。アブレーション解析は、従来の評価メトリクス(BLUE-1、BLUE-2、BLUE-3、BLUE-4、METEOR、ROUGE LおよびCIDErなど)を使用して研究される。さまざまな構成要素は、AVSDシステム100のトランスフォーマ構造におけるシャッフル、グラフニューラルネットワークタイプ、ユニオンバウンディングボックス、セマンティックラベル、および時間情報集約に対応する。
図9に示されるように、テーブル900は、アブレーション研究(フルモデル、シャッフルなし(w/o)、グラフアテンションネットワーク(GAT)なし、関係グラフネットワーク(たとえば、EdgeConv)なし、ユニオンボックス特徴なし、セマンティックグラフなし、および時間情報なし、など)を示す。フルモデルは、トランスフォーマ構造におけるシャッフル、グラフアテンションネットワーク、関係グラフネットワーク、ユニオンバウンディングボックス、ビジュアルグラフおよびセマンティックグラフの両方のグラフ、ならびに時間情報集約を使用する。行902において、フルモデルは、全てのキー構成要素が使用される場合に高精度の値を有する。たとえば、グラフアテンションネットワークは、近傍のノードからの情報を集約するのに非常に有用であるのに対して、関係グラフネットワーク(すなわち、EdgeConv)は、グラフアテンションネットワークに基づいてわずかな改良を提供することができる。さらに、マルチヘッドトランスフォーマ構造(図3のMHAネットワーク層308aおよび308b)におけるシャッフルの使用は、AVSDシステム100のパフォーマンスを向上させる。さらに、ユニオンバウンディングボックス、セマンティックラベルおよび時間情報集約は、応答を生成するための特徴ベクトル抽出のパフォーマンスを安定化させるのに寄与する。概して、これらの構成要素を採用することによって、フルモデルは、全てのアブレーションよりもパフォーマンスが優れる。
図10Aは、いくつかの実施形態に係る、AVSDシステム100と、対話システム技術チャレンジ7(DSTC7)におけるAVSDチャレンジのテストスプリットでのベースライン法との比較を示すテーブル1000Aである。テーブル1000には、DSTC7テストスプリットでの定量的結果が示されている。これらの結果は、AVSDシステム100が音声特徴(VGGish音声特徴または三次元(3D)畳み込みニューラルネットワーク(CNN)(インフレ-テッド3D ConvNet(I3D)など)特徴など)なしでも他の方法よりも優れたパフォーマンスを実現することを証明している。
客観的なメトリクスを用いてDSTC7におけるAVSDを評価することによって、AVSDシステム100のパフォーマンスと4つのベースライン法(ベースライン法、マルチモーダルアテンション法、単純法およびMTN法など)とを比較する。ベースライン法は、さまざまなモダリティについて特徴を抽出するDSTCチャレンジに基づく。さまざまなモダリティの抽出された特徴は、単純な連結または追加を使用して組み合わせられて、入力されたクエリに対する応答を生成する。マルチモーダルアテンション法は、応答生成のために顕著な特徴に選択的に注目するのにアテンションを利用するマルチモーダルアテンションを実行する。単純法は、応答生成のために画像特徴(VGG特徴など)および因子グラフアテンションを追加する。MTN法は、セルフアテンションおよびコアテンションを適用して、映像、音声およびマルチターン対話情報間の情報を集約する。さらに、パフォーマンスを向上させるために、回答自動符号化損失が適用された。
図10Bは、いくつかの実施形態に係る、AVSDシステム100と、対話システム技術チャレンジ8(DSTC8)におけるAVSDチャレンジのテストスプリットでのベースライン法との比較を示すテーブル1000Bの図である。テーブル1000Bには、追加の人間による評価を有するDSTC8テストスプリットでの定量的結果が示されている。これらの結果は、AVSDシステム100がシーングラフを利用して映像のビジュアル情報を表現することによって以前のベースラインを向上させることを示している。テーブル1000Bに示されるように、AVSDシステム100は、人間による評価を単純法よりも3.433に向上させ、これは、相対的に12%の増加である。
例示的な実施形態
図11は、いくつかの実施形態に係る、AVSDシステム100の原理の概要概略1100を示す図である。AVSDシステム100は、入力された映像フレーム1102a~1102cのシーケンスおよびコンテキスト情報1130,1132,1134を受信する。プロセッサ104は、映像フレーム1102a~1102cのシーケンスについてシーングラフ表現1104a~1104cを生成する。図2Bの説明で説明したように、シーングラフ表現1104a~1104cは、シーングラフ表現206a~206cに対応する。シーングラフ表現1104a~1104cは、フレーム内のシーンのセマンティック表現である。図2Cの説明で説明したように、シーングラフ表現1104a~1104cから、グラフ内推論306によって、ビジュアルグラフメモリ(たとえば、ビジュアルグラフメモリ1108a~1108c)が生成される。
プロセッサ104は、ビジュアルグラフメモリ1108a~1108cをグラフ間情報集約1112に利用して、最終的なグラフメモリ(すなわち、グラフメモリ1128a~1128c)を生成する。最終的なグラフメモリ1128a~1128cは、セマンティック制御トランスフォーマ1124への入力として提供される。さらに、プロセッサ104は、最終的なグラフメモリ1128a~1128c、コンテキスト情報304および入力されたクエリ1134を符号化して出力応答1140を生成するようにセマンティック制御トランスフォーマ推論1124を実行するように構成される。いくつかの実施形態において、入力されたクエリ1134は、セマンティック制御トランスフォーマ300に提供されて、セマンティック制御トランスフォーマ推論1124を実行する。セマンティック制御トランスフォーマ推論1124は、出力応答1140のための語彙の中の単語の全てのトークンについて単語の次のトークンの確率分布を生成する。セマンティック制御トランスフォーマ推論1140の推論プロセスは、連結されたビジュアルグラフメモリ214a~214dおよび最終的なグラフメモリ218a~218dに基づいて制御される。
以下の説明は、例示的な実施形態を提供しているに過ぎず、本開示の範囲、適用範囲または構成を限定するよう意図されたものではない。むしろ、例示的な実施形態の以下の説明は、1つまたは複数の例示的な実施形態を実現するための実施可能な程度の説明を当業者に提供するであろう。添付の特許請求の範囲に記載されている開示されている主題の精神および範囲から逸脱することなく要素の機能および配置の点でさまざまな変更がなされ得ると考えられる。
実施形態を十分に理解できるようにするために、以下の説明では具体的詳細が提供されている。しかし、これらの具体的詳細なしに実施形態を実施してもよいということが当業者によって理解される。たとえば、開示されている主題におけるシステム、プロセスおよび他の要素は、不必要な細部にわたって実施形態を曖昧にすることのないように、ブロック図の形式の構成要素として示されてもよい。他の例では、周知のプロセス、構造および技術は、実施形態を曖昧にすることを回避するために、不必要な詳細なしに示されてもよい。さらに、さまざまな図面における同様の参照番号および名称は、同様の要素を示す。
また、個々の実施形態は、フローチャート、フロー図、データフロー図、構造図またはブロック図として示されるプロセスとして説明されてもよい。フローチャートは、動作をシーケンシャルなプロセスとして記載し得るが、これらの動作の多くは、並行してまたは同時に実行することができる。また、動作の順序は、並べ替えられてもよい。プロセスは、その動作が完了すると終了され得るが、図面に記載されていないまたは図面に含まれていない追加のステップを有してもよい。さらに、いずれかの特定的に記載されているプロセスにおける全ての動作が全ての実施形態で行われるとは限らない。プロセスは、方法、関数、手順、サブルーチン、サブプログラムなどに対応し得る。プロセスが関数に対応する場合、関数の終了は、呼び出し関数またはメイン関数への関数の戻りに対応し得る。
さらに、開示されている主題の実施形態は、少なくとも一部が手動でまたは自動的に実現されてもよい。手動のまたは自動的な実現例は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、またはそれらの任意の組み合わせを使用することによって実行されてもよく、または少なくとも支援されてもよい。ソフトウェア、ファームウェア、ミドルウェアまたはマイクロコードで実現される場合、必要なタスクを実行するためのプログラムコードまたはコードセグメントは、機械読取可能媒体に格納されてもよい。プロセッサが必要なタスクを実行してもよい。
本明細書に記載されているさまざまな方法またはプロセスは、さまざまなオペレーティングシステムまたはプラットフォームのうちのいずれか1つを利用する1つまたは複数のプロセッサで実行可能なソフトウェアとしてコード化されてもよい。さらに、このようなソフトウェアは、いくつかの好適なプログラミング言語および/またはプログラミングもしくはスクリプティングツールのうちのいずれかを使用して書かれてもよく、また、フレームワークまたは仮想マシンで実行される実行可能な機械語コードまたは中間コードとしてコンパイルされてもよい。一般に、プログラムモジュールの機能は、さまざまな実施形態で求められるように組み合わせられたり、分散されたりし得る。
本開示の実施形態は、方法として具体化されてもよく、その一例が提供されている。方法の一部として実行される動作は、任意の好適な方法で順序付けられてもよい。したがって、実施形態は、示されている順序とは異なる順序で動作が実行されるように構築されてもよく、たとえ例示的な実施形態においてシーケンシャルな動作として示されていたとしても、いくつかの動作を同時に実行することを含み得る。さらに、特許請求の範囲において順序を表す語(「第1の」、「第2の」など)を使用してクレーム要素を修飾することは、それ自体が、1つのクレーム要素の、別のクレーム要素に対する優先順位、順位または順序を暗示するものではなく、方法の動作が実行される時間的順序を暗示するものでもなく、特定の名前を有する1つのクレーム要素を同一の名前を有する(が、順序を表す語の使用のための)別の要素から区別して、クレーム要素同士を区別するためのラベルとして使用されているに過ぎない。
特定の好ましい実施形態を参照して本開示を説明してきたが、本開示の精神および範囲内でさまざまな他の適合および変形がなされ得るということが理解されるべきである。したがって、全てのこのような変更および変形を本開示の真の精神および範囲内に包含することは、添付の特許請求の範囲の局面である。

Claims (17)

  1. シーンアウェア対話システムであって、
    映像フレームのシーケンス、コンテキスト情報およびクエリを受信するように構成された入力インターフェイスと、
    少なくとも1つのニューラルネットワークを格納するように構成されたメモリとを備え、前記少なくとも1つのニューラルネットワークは、前記ニューラルネットワークに提供された入力された映像フレームのシーケンスおよび前記入力されたコンテキスト情報のうちの1つまたは組み合わせを解析することによって、前記入力されたクエリに対する応答を生成するように訓練されたビジュアルシーンアウェア対話ニューラルネットワークを備え、前記シーンアウェア対話システムはさらに、
    プロセッサを備え、前記プロセッサは、
    前記映像フレームのシーケンスの各映像フレーム内の物体を検出して分類するように構成され、
    前記映像フレームのシーケンス内の物体の関心領域を統合して、前記各映像フレーム内の前記分類された物体間の関係を求めるように構成され、前記映像フレームのシーケンスの少なくとも1つの映像フレームは、少なくとも2つの分類された物体を含み、前記2つの分類された物体間の前記関係は、前記映像フレーム内に限定されるフレーム内物体関係であり、前記プロセッサはさらに、
    前記各映像フレームについて、前記分類された物体および前記求められた関係を表す特徴を抽出して、特徴ベクトルのシーケンスを生成するように構成され、1つの映像フレームには1つの特徴ベクトルがあり、前記プロセッサはさらに、
    前記特徴ベクトルのシーケンス、前記入力されたクエリおよび前記入力されたコンテキスト情報を前記ニューラルネットワークに送信して、前記入力されたクエリに対する応答を生成するように構成され、前記シーンアウェア対話システムはさらに、
    前記入力されたクエリに対する前記応答を提供するための出力インターフェイスを備える、シーンアウェア対話システム。
  2. 前記入力されたクエリは、前記入力された映像フレームのシーケンス内の物体、前記物体間の関係および前記物体の時間的進化のうちの1つまたは組み合わせに関係しており、前記ニューラルネットワークが、モダリティの情報を処理するように構成されたマルチモーダルニューラルネットワークであるように、前記コンテキスト情報は、前記入力された映像についてのオーディオ情報およびテキスト情報のうちの1つまたは組み合わせを含み、
    前記プロセッサはさらに、前記特徴ベクトルのシーケンスの各特徴ベクトルの値を前記特徴ベクトルのシーケンス内の隣接する特徴ベクトルの加重値で修正するように構成される、請求項1に記載のシーンアウェア対話システム。
  3. 前記各特徴ベクトルの前記値は、前記特徴ベクトルを中心とする窓に適合する複数の特徴ベクトルの値の加重組み合わせとして求められる、請求項2に記載のシーンアウェア対話システム。
  4. 前記メモリに格納された前記少なくとも1つのニューラルネットワークは、前記入力されたクエリに対する前記応答を準備するように訓練されたオーディオビジュアルシーンアウェア対話(AVSD)ニューラルネットワークと、前記映像フレームのシーケンス内の前記物体および前記物体間の関係を前記特徴ベクトルのシーケンスを用いて表現するように訓練された特徴抽出ニューラルネットワークと、前記特徴ベクトルのシーケンスの各特徴ベクトルの前記値を、前記特徴ベクトルを中心とする窓に適合する複数の特徴ベクトルの値の加重組み合わせとして求めるように訓練された集約ニューラルネットワークとを含み、
    前記AVSDニューラルネットワークは、アテンションベースのアーキテクチャに対応し、高速領域ベース畳み込みニューラルネットワーク(高速RCNN)および三次元(3D)畳み込みニューラルネットワーク(CNN)のうちの1つまたは組み合わせを含む、請求項2に記載のシーンアウェア対話システム。
  5. 前記メモリは、ニューラルネットワークベースの分類子のセットを格納しており、前記ニューラルネットワークベースの分類子のセットは、前記入力された映像フレームのシーケンス内の予め規定されたタイプの物体を検出して分類するように構成された物体分類子と、前記分類された物体間の関係を分類するための関係分類子とを備え、前記プロセッサは、ニューラルネットワークベースの分類子を選択し、前記選択されたニューラルネットワークベースの分類子を実行して、前記入力された映像フレームのシーケンスの各映像フレーム内の前記物体および前記分類された物体間の関係を検出して分類するように構成され、
    前記プロセッサはさらに、前記入力された映像フレームのシーケンス、前記入力されたコンテキスト情報、前記入力されたクエリまたはそれらの組み合わせに基づいて、前記ニューラルネットワークベースの分類子のセットから前記物体分類子および前記関係分類子を選択するように構成される、請求項1に記載のシーンアウェア対話システム。
  6. 前記メモリは、車両を運転するためのナビゲーション命令を生成することに関連する物体およびそれらの関係を検出して分類するように構成された物体分類子および関係分類子を格納しており、前記プロセッサは、前記車両の目的地までのナビゲーションルートに関係する説明および物体の関係を使用してナビゲーション命令を生成するように構成される、請求項1に記載のシーンアウェア対話システム。
  7. 前記プロセッサはさらに、統合された関心領域およびビジュアルメモリに基づいて前記映像フレームのシーケンスの各フレームについて時空間シーングラフ表現(STSGR)モデルを生成するように構成され、前記少なくとも1つのニューラルネットワークは、前記映像フレームのシーケンスの訓練STSGRモデルに対して時空間関係学習を実行して、訓練クエリに対する応答を生成するように訓練され、
    各STSGRモデルは、各々の対応する映像フレームを時空間ビジュアルグラフストリームおよびセマンティックグラフストリームとして表現し、前記少なくとも1つのニューラルネットワークは、物体レベルのグラフ推論を生成するためのマルチヘッドシャッフルトランスフォーマであり、前記マルチヘッドシャッフルトランスフォーマは、前記特徴ベクトルのシーケンスのヘッドをシャッフルすることを可能にする、請求項1に記載のシーンアウェア対話システム。
  8. 前記プロセッサはさらに、前記分類された物体および前記求められた関係を集約して、前記映像フレームのシーケンスの各映像フレームについて前記ビジュアルメモリを生成するように構成される、請求項に記載のシーンアウェア対話システム。
  9. シーンアウェア対話方法であって、前記方法は、前記方法を実現する格納された命令と結合されたプロセッサを使用し、前記命令は、前記プロセッサによって実行されると、前記方法のステップを実行し、前記ステップは、
    映像フレームのシーケンス、コンテキスト情報およびクエリを受信するステップと、
    前記映像フレームのシーケンスの各映像フレーム内の物体を検出して分類するステップと、
    前記映像フレームのシーケンス内の物体の関心領域を統合して、前記各映像フレーム内の前記分類された物体間の関係を求めるステップとを備え、前記映像フレームのシーケンスの少なくとも1つの映像フレームは、少なくとも2つの分類された物体を含み、前記2つの分類された物体間の前記関係は、前記映像フレーム内に限定されるフレーム内物体関係であり、前記ステップはさらに、
    前記各映像フレームについて、前記分類された物体および前記求められた関係を表す特徴を抽出して、特徴ベクトルのシーケンスを生成するステップを備え、1つの映像フレームには1つの特徴ベクトルがあり、前記ステップはさらに、
    前記特徴ベクトルのシーケンス、前記受信されたクエリおよび前記受信されたコンテキスト情報を少なくとも1つのニューラルネットワークに送信するステップを備え、前記少なくとも1つのニューラルネットワークは、受信された映像フレームのシーケンスおよび前記受信されたコンテキスト情報のうちの1つまたは組み合わせを解析することによって、前記受信されたクエリに対する応答を生成するように訓練されたビジュアルシーンアウェア対話ニューラルネットワークを備え、前記ステップはさらに、
    前記受信されたクエリに対する前記応答を出力インターフェイスを介して提供するステップを備える、方法。
  10. 前記受信されたクエリは、前記受信された映像フレームのシーケンス内の物体、前記物体間の関係および前記物体の時間的進化のうちの1つまたは組み合わせに関係しており、前記ニューラルネットワークが、さまざまなモダリティの情報を処理するように構成されたマルチモーダルニューラルネットワークであるように、前記コンテキスト情報は、前記受信された映像についてのオーディオ情報およびテキスト情報のうちの1つまたは組み合わせを含み、
    前記方法は、前記特徴ベクトルのシーケンスの各特徴ベクトルの値を前記特徴ベクトルのシーケンス内の隣接する特徴ベクトルの加重値で修正するステップをさらに備え、前記各特徴ベクトルの前記値は、前記特徴ベクトルを中心とする窓に適合する複数の特徴ベクトルの値の加重組み合わせとして求められ、
    前記少なくとも1つのニューラルネットワークは、前記受信されたクエリに対する前記応答を準備するように訓練されたオーディオビジュアルシーンアウェア対話(AVSD)ニューラルネットワークと、前記映像フレームのシーケンス内の前記物体および前記物体間の関係を前記特徴ベクトルのシーケンスを用いて表現するように訓練された特徴抽出ニューラルネットワークと、前記特徴ベクトルのシーケンスの各特徴ベクトルの値を、前記特徴ベクトルを中心とする前記窓に適合する複数の特徴ベクトルの値の加重組み合わせとして求めるように訓練された集約ニューラルネットワークとを含み、
    前記方法は、ニューラルネットワークベースの分類子のセットから物体分類子および関係分類子を選択して、前記受信された映像フレームのシーケンス内の予め規定されたタイプの物体を検出して分類するための前記選択された物体分類子と、前記分類された物体間の関係を分類するための前記関係分類子とを実行するステップをさらに備え、前記ニューラルネットワークベースの分類子の前記選択は、前記受信されたコンテキスト情報、前記受信された映像フレームのシーケンス、前記受信されたクエリまたはそれらの組み合わせに基づく、請求項9に記載の方法。
  11. 前記映像フレームのシーケンスの各フレームについて時空間シーングラフ表現(STSGR)モデルを生成するステップをさらに備え、各STSGRモデルは、各々の対応する映像フレームを時空間ビジュアルグラフストリームおよびセマンティックグラフストリームとして表現し、前記少なくとも1つのニューラルネットワークは、物体レベルのグラフ推論を生成するためのマルチヘッドシャッフルトランスフォーマであり、前記ニューラルネットワークは、前記映像フレームのシーケンスの訓練STSGRモデルに対して時空間関係学習を実行して、訓練クエリに対する応答を生成するように訓練され、
    前記分類された物体および前記求められた関係を集約して、前記映像フレームのシーケンスの各映像フレームについてビジュアルメモリを生成するステップをさらに備える、請求項9に記載の方法。
  12. シーンアウェア対話システムであって、
    映像フレームのシーケンス、コンテキスト情報およびクエリを受信するように構成された入力インターフェイスと、
    少なくとも1つのニューラルネットワークを格納するように構成されたメモリとを備え、前記少なくとも1つのニューラルネットワークは、前記ニューラルネットワークに提供された入力された映像フレームのシーケンスおよび前記入力されたコンテキスト情報のうちの1つまたは組み合わせを解析することによって、前記入力されたクエリに対する応答を生成するように訓練されたビジュアルシーンアウェア対話ニューラルネットワークを備え、前記入力されたクエリは、前記入力された映像フレームのシーケンス内の物体、前記物体間の関係および前記物体の時間的進化のうちの1つまたは組み合わせに関係しており、前記ニューラルネットワークが、モダリティの情報を処理するように構成されたマルチモーダルニューラルネットワークであるように、前記コンテキスト情報は、前記入力された映像についてのオーディオ情報およびテキスト情報のうちの1つまたは組み合わせを含み、前記シーンアウェア対話システムはさらに、
    プロセッサを備え、前記プロセッサは、
    前記映像フレームのシーケンスの各映像フレーム内の物体を検出して分類するように構成され、
    前記各映像フレーム内の前記分類された物体間の関係を求めるように構成され、前記映像フレームのシーケンスの少なくとも1つの映像フレームは、少なくとも2つの分類された物体を含み、前記2つの分類された物体間の前記関係は、前記映像フレーム内に限定されるフレーム内物体関係であり、前記プロセッサはさらに、
    前記各映像フレームについて、前記分類された物体および前記求められた関係を表す特徴を抽出して、特徴ベクトルのシーケンスを生成するように構成され、1つの映像フレームには1つの特徴ベクトルがあり、前記プロセッサはさらに、
    前記特徴ベクトルのシーケンスの各特徴ベクトルの値を前記特徴ベクトルのシーケンス内の隣接する特徴ベクトルの加重値で修正するように構成され、
    前記特徴ベクトルのシーケンス、前記入力されたクエリおよび前記入力されたコンテキスト情報を前記ニューラルネットワークに送信して、前記入力されたクエリに対する応答を生成するように構成され、前記シーンアウェア対話システムはさらに、
    前記入力されたクエリに対する前記応答を提供するための出力インターフェイスを備える、シーンアウェア対話システム。
  13. シーンアウェア対話システムであって、
    映像フレームのシーケンス、コンテキスト情報およびクエリを受信するように構成された入力インターフェイスと、
    メモリとを備え、前記メモリは、
    少なくとも1つのニューラルネットワークを格納するように構成され、前記少なくとも1つのニューラルネットワークは、前記ニューラルネットワークに提供された入力された映像フレームのシーケンスおよび前記入力されたコンテキスト情報のうちの1つまたは組み合わせを解析することによって、前記入力されたクエリに対する応答を生成するように訓練されたビジュアルシーンアウェア対話ニューラルネットワークを備え、前記メモリはさらに、
    ニューラルネットワークベースの分類子のセットを格納するように構成され、前記ニューラルネットワークベースの分類子のセットは、前記入力された映像フレームのシーケンス内の予め規定されたタイプの物体を検出して分類するように構成された物体分類子と、前記分類された物体間の関係を分類するための関係分類子とを備え、前記シーンアウェア対話システムはさらに、
    プロセッサを備え、前記プロセッサは、
    前記入力された映像フレームのシーケンス、前記入力されたコンテキスト情報、前記入力されたクエリまたはそれらの組み合わせに基づいて、前記ニューラルネットワークベースの分類子のセットから前記物体分類子および前記関係分類子を選択するように構成され、
    前記選択された物体分類子および関係分類子を実行して、前記入力された映像フレームのシーケンスの各映像フレーム内の物体および前記分類された物体間の関係を検出して分類し、前記各映像フレーム内の前記分類された物体間の関係を求めるように構成され、前記映像フレームのシーケンスの少なくとも1つの映像フレームは、少なくとも2つの分類された物体を含み、前記2つの分類された物体間の前記関係は、前記映像フレーム内に限定されるフレーム内物体関係であり、前記プロセッサはさらに、
    前記各映像フレームについて、前記分類された物体および前記求められた関係を表す特徴を抽出して、特徴ベクトルのシーケンスを生成するように構成され、1つの映像フレームには1つの特徴ベクトルがあり、前記プロセッサはさらに、
    前記特徴ベクトルのシーケンス、前記入力されたクエリおよび前記入力されたコンテキスト情報を前記ニューラルネットワークに送信して、前記入力されたクエリに対する応答を生成するように構成され、前記シーンアウェア対話システムはさらに、
    前記入力されたクエリに対する前記応答を提供するための出力インターフェイスを備える、シーンアウェア対話システム。
  14. シーンアウェア対話システムであって、
    映像フレームのシーケンス、コンテキスト情報およびクエリを受信するように構成された入力インターフェイスと、
    メモリとを備え、前記メモリは、
    少なくとも1つのニューラルネットワークを格納するように構成され、前記少なくとも1つのニューラルネットワークは、前記ニューラルネットワークに提供された入力された映像フレームのシーケンスおよび前記入力されたコンテキスト情報のうちの1つまたは組み合わせを解析することによって、前記入力されたクエリに対する応答を生成するように訓練されたビジュアルシーンアウェア対話ニューラルネットワークを備え、前記メモリはさらに、
    車両を運転するためのナビゲーション命令を生成することに関連する物体およびそれらの関係を検出して分類するように構成された物体分類子および関係分類子を格納するように構成され、前記シーンアウェア対話システムはさらに、
    プロセッサを備え、前記プロセッサは、
    前記映像フレームのシーケンスの各映像フレーム内の物体を検出して分類するように構成され、
    前記各映像フレーム内の前記分類された物体間の関係を求めるように構成され、前記映像フレームのシーケンスの少なくとも1つの映像フレームは、少なくとも2つの分類された物体を含み、前記2つの分類された物体間の前記関係は、前記映像フレーム内に限定されるフレーム内物体関係であり、前記プロセッサはさらに、
    前記各映像フレームについて、前記分類された物体および前記求められた関係を表す特徴を抽出して、特徴ベクトルのシーケンスを生成するように構成され、1つの映像フレームには1つの特徴ベクトルがあり、前記プロセッサはさらに、
    前記特徴ベクトルのシーケンス、前記入力されたクエリおよび前記入力されたコンテキスト情報を前記ニューラルネットワークに送信して、前記入力されたクエリに対する応答を生成するように構成され、前記シーンアウェア対話システムはさらに、
    前記入力されたクエリに対する前記応答を提供するための出力インターフェイスを備え、
    前記プロセッサはさらに、前記車両の目的地までのナビゲーションルートに関係する説明および物体の関係を使用してナビゲーション命令を生成するように構成される、シーンアウェア対話システム。
  15. シーンアウェア対話システムであって、
    映像フレームのシーケンス、コンテキスト情報およびクエリを受信するように構成された入力インターフェイスと、
    少なくとも1つのニューラルネットワークを格納するように構成されたメモリとを備え、前記少なくとも1つのニューラルネットワークは、前記ニューラルネットワークに提供された入力された映像フレームのシーケンスおよび前記入力されたコンテキスト情報のうちの1つまたは組み合わせを解析することによって、前記入力されたクエリに対する応答を生成するように訓練され、前記シーンアウェア対話システムはさらに、
    プロセッサを備え、前記プロセッサは、
    前記映像フレームのシーケンスの各映像フレーム内の物体を検出して分類するように構成され、
    前記各映像フレーム内の前記分類された物体間の関係を求めるように構成され、前記映像フレームのシーケンスの少なくとも1つの映像フレームは、少なくとも2つの分類された物体を含み、前記2つの分類された物体間の前記関係は、前記映像フレーム内に限定されるフレーム内物体関係であり、前記プロセッサはさらに、
    前記各映像フレームについて、前記分類された物体および前記求められた関係を表す特徴を抽出して、特徴ベクトルのシーケンスを生成するように構成され、1つの映像フレームには1つの特徴ベクトルがあり、前記プロセッサはさらに、
    前記特徴ベクトルのシーケンス、前記入力されたクエリおよび前記入力されたコンテキスト情報を前記ニューラルネットワークに送信して、前記入力されたクエリに対する応答を生成するように構成され、前記シーンアウェア対話システムはさらに、
    前記入力されたクエリに対する前記応答を提供するための出力インターフェイスを備え、
    前記プロセッサはさらに、統合された関心領域およびビジュアルメモリに基づいて前記映像フレームのシーケンスの各フレームについて時空間シーングラフ表現(STSGR)モデルを生成するように構成され、前記少なくとも1つのニューラルネットワークは、前記映像フレームのシーケンスの訓練STSGRモデルに対して時空間関係学習を実行して、訓練クエリに対する応答を生成するように訓練される、シーンアウェア対話システム。
  16. シーンアウェア対話方法であって、前記方法は、前記方法を実現する格納された命令と結合されたプロセッサを使用し、前記命令は、前記プロセッサによって実行されると、前記方法のステップを実行し、前記ステップは、
    映像フレームのシーケンス、コンテキスト情報およびクエリを受信するステップを備え、前記受信されたクエリは、前記受信された映像フレームのシーケンス内の物体、前記受信された映像フレームのシーケンス内の前記物体間の関係および前記受信された映像フレームのシーケンス内の前記物体の時間的進化のうちの1つまたは組み合わせに関係しており、前記コンテキスト情報は、前記受信された映像についてのオーディオ情報およびテキスト情報のうちの1つまたは組み合わせを含み、前記ステップはさらに、
    前記映像フレームのシーケンスの各映像フレーム内の物体を検出して分類するステップと、
    前記各映像フレーム内の前記分類された物体間の関係を求めるステップとを備え、前記映像フレームのシーケンスの少なくとも1つの映像フレームは、少なくとも2つの分類された物体を含み、前記2つの分類された物体間の前記関係は、前記映像フレーム内に限定されるフレーム内物体関係であり、前記ステップはさらに、
    前記各映像フレームについて、前記分類された物体および前記求められた関係を表す特徴を抽出して、特徴ベクトルのシーケンスを生成するステップを備え、1つの映像フレームには1つの特徴ベクトルがあり、前記ステップはさらに、
    前記特徴ベクトルのシーケンスの各特徴ベクトルの値を前記特徴ベクトルのシーケンス内の隣接する特徴ベクトルの加重値で修正するステップを備え、前記各特徴ベクトルの前記値は、前記特徴ベクトルを中心とする窓に適合する複数の特徴ベクトルの値の加重組み合わせとして求められ、前記ステップはさらに、
    前記特徴ベクトルのシーケンス、前記受信されたクエリおよび前記受信されたコンテキスト情報を少なくとも1つのニューラルネットワークに送信するステップを備え、前記少なくとも1つのニューラルネットワークは、受信された映像フレームのシーケンスおよび前記受信されたコンテキスト情報のうちの1つまたは組み合わせを解析することによって、前記受信されたクエリに対する応答を生成するように訓練されたビジュアルシーンアウェア対話ニューラルネットワークを備え、前記少なくとも1つのニューラルネットワークは、さまざまなモダリティの情報を処理するように構成されたマルチモーダルニューラルネットワークであり、前記ステップはさらに、
    前記受信されたクエリに対する前記応答を出力インターフェイスを介して提供するステップを備える、方法。
  17. シーンアウェア対話方法であって、前記方法は、前記方法を実現する格納された命令と結合されたプロセッサを使用し、前記命令は、前記プロセッサによって実行されると、前記方法のステップを実行し、前記ステップは、
    映像フレームのシーケンス、コンテキスト情報およびクエリを受信するステップと、
    前記映像フレームのシーケンスの各映像フレーム内の物体を検出して分類するステップと、
    前記各映像フレーム内の前記分類された物体間の関係を求めるステップとを備え、前記映像フレームのシーケンスの少なくとも1つの映像フレームは、少なくとも2つの分類された物体を含み、前記2つの分類された物体間の前記関係は、前記映像フレーム内に限定されるフレーム内物体関係であり、前記ステップはさらに、
    前記各映像フレームについて、前記分類された物体および前記求められた関係を表す特徴を抽出して、特徴ベクトルのシーケンスを生成するステップを備え、1つの映像フレームには1つの特徴ベクトルがあり、前記ステップはさらに、
    前記映像フレームのシーケンスの各フレームについて時空間シーングラフ表現(STSGR)モデルを生成するステップを備え、各STSGRモデルは、各々の対応する映像フレームを時空間ビジュアルグラフストリームおよびセマンティックグラフストリームとして表現し、前記ステップはさらに、
    前記特徴ベクトルのシーケンス、前記受信されたクエリおよび前記受信されたコンテキスト情報を少なくとも1つのニューラルネットワークに送信するステップを備え、前記少なくとも1つのニューラルネットワークは、受信された映像フレームのシーケンスおよび前記受信されたコンテキスト情報のうちの1つまたは組み合わせを解析することによって、前記受信されたクエリに対する応答を生成するように訓練されたビジュアルシーンアウェア対話ニューラルネットワークを備え、前記少なくとも1つのニューラルネットワークは、物体レベルのグラフ推論を生成するためのマルチヘッドシャッフルトランスフォーマであり、前記ニューラルネットワークは、前記映像フレームのシーケンスの訓練STSGRモデルに対して時空間関係学習を実行して、訓練クエリに対する応答を生成するように訓練され、前記ステップはさらに、
    前記受信されたクエリに対する前記応答を出力インターフェイスを介して提供するステップを備える、方法。
JP2022566754A 2020-02-06 2020-12-15 シーンアウェア映像対話 Active JP7325668B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/783,538 2020-02-06
US16/783,538 US11210523B2 (en) 2020-02-06 2020-02-06 Scene-aware video dialog
PCT/JP2020/048060 WO2021157234A1 (en) 2020-02-06 2020-12-15 Scene-aware video dialog

Publications (2)

Publication Number Publication Date
JP2023510430A JP2023510430A (ja) 2023-03-13
JP7325668B2 true JP7325668B2 (ja) 2023-08-14

Family

ID=74561963

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022566754A Active JP7325668B2 (ja) 2020-02-06 2020-12-15 シーンアウェア映像対話

Country Status (5)

Country Link
US (1) US11210523B2 (ja)
EP (1) EP3928252B1 (ja)
JP (1) JP7325668B2 (ja)
CN (1) CN115039141A (ja)
WO (1) WO2021157234A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782838B (zh) * 2020-06-30 2024-04-05 北京百度网讯科技有限公司 图像问答方法、装置、计算机设备和介质
CN114494087A (zh) * 2020-11-12 2022-05-13 安霸国际有限合伙企业 无监督的多尺度视差/光流融合
US11995111B2 (en) * 2020-11-13 2024-05-28 Tencent America LLC Efficient and compact text matching system for sentence pairs
US11769018B2 (en) * 2020-11-24 2023-09-26 Openstream Inc. System and method for temporal attention behavioral analysis of multi-modal conversations in a question and answer system
US20220198813A1 (en) * 2020-12-17 2022-06-23 Sri International System and method for efficient visual navigation
CN112541878A (zh) * 2020-12-24 2021-03-23 北京百度网讯科技有限公司 建立图像增强模型与图像增强的方法、装置
US20230020834A1 (en) * 2021-07-19 2023-01-19 Mitsubishi Electric Research Laboratories, Inc. Method and System for Scene-Aware Audio-Video Representation
US20230027713A1 (en) * 2021-07-21 2023-01-26 International Business Machines Corporation Neural-Symbolic Action Transformers for Video Question Answering
US20230055636A1 (en) * 2021-08-03 2023-02-23 Baidu Usa Llc Transformer-based temporal detection in video
KR20230032317A (ko) * 2021-08-30 2023-03-07 한국전자통신연구원 비디오 의미 구간 검출 방법 및 시스템
CN113868519B (zh) * 2021-09-18 2023-11-14 北京百度网讯科技有限公司 信息搜索方法、装置、电子设备和存储介质
WO2023050295A1 (zh) * 2021-09-30 2023-04-06 中远海运科技股份有限公司 一种基于多模态异质特征融合的视频密集事件描述方法
CN114168769B (zh) * 2021-11-16 2024-02-02 西安理工大学 基于gat关系推理的视觉问答方法
WO2023106007A1 (en) * 2021-12-10 2023-06-15 Mitsubishi Electric Corporation Scene-aware video encoder system and method
CN114374571B (zh) * 2021-12-29 2024-04-19 广州欢城文化传媒有限公司 基于虚拟地图的语聊房健康指数监控方法及装置
CN114863356B (zh) * 2022-03-10 2023-02-03 西南交通大学 一种基于残差聚合图网络的群体活动识别方法及***
CN115131655B (zh) * 2022-09-01 2022-11-22 浙江啄云智能科技有限公司 目标检测模型的训练方法、装置与目标检测方法
CN115908908B (zh) * 2022-11-14 2023-09-15 北京卫星信息工程研究所 基于图注意力网络的遥感图像聚集型目标识别方法及装置
CN116206265B (zh) * 2023-05-05 2023-07-18 昆明轨道交通四号线土建项目建设管理有限公司 用于轨道交通运营维护的防护报警装置及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160378861A1 (en) 2012-09-28 2016-12-29 Sri International Real-time human-machine collaboration using big data driven augmented reality technologies
US20170076222A1 (en) 2015-09-14 2017-03-16 International Business Machines Corporation System and method to cognitively process and answer questions regarding content in images
US20190019037A1 (en) 2017-07-14 2019-01-17 Nec Laboratories America, Inc. Spatio-temporal interaction network for learning object interactions
US20190370587A1 (en) 2018-05-29 2019-12-05 Sri International Attention-based explanations for artificial intelligence behavior

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007026162A2 (en) * 2005-09-01 2007-03-08 Astragroup As (A Norwegian Company) Post- recording data analysis and retrieval
US20090077471A1 (en) * 2007-07-27 2009-03-19 Lahr Nils B System and method for using a website containing video playlists as input to a download manager
US11210836B2 (en) * 2018-04-03 2021-12-28 Sri International Applying artificial intelligence to generate motion information

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160378861A1 (en) 2012-09-28 2016-12-29 Sri International Real-time human-machine collaboration using big data driven augmented reality technologies
US20170076222A1 (en) 2015-09-14 2017-03-16 International Business Machines Corporation System and method to cognitively process and answer questions regarding content in images
US20190019037A1 (en) 2017-07-14 2019-01-17 Nec Laboratories America, Inc. Spatio-temporal interaction network for learning object interactions
US20190370587A1 (en) 2018-05-29 2019-12-05 Sri International Attention-based explanations for artificial intelligence behavior

Also Published As

Publication number Publication date
WO2021157234A1 (en) 2021-08-12
EP3928252A1 (en) 2021-12-29
US20210248375A1 (en) 2021-08-12
CN115039141A (zh) 2022-09-09
US11210523B2 (en) 2021-12-28
JP2023510430A (ja) 2023-03-13
EP3928252B1 (en) 2022-12-21

Similar Documents

Publication Publication Date Title
JP7325668B2 (ja) シーンアウェア映像対話
Gao et al. Hierarchical LSTMs with adaptive attention for visual captioning
US11430171B2 (en) Explainable artificial intelligence
Jiang et al. Skeleton aware multi-modal sign language recognition
KR102211939B1 (ko) 질의 응답 장치 및 방법
US20230049135A1 (en) Deep learning-based video editing method, related device, and storage medium
CN102222431B (zh) 用于翻译手语的计算机实现的方法
KR20210031405A (ko) 암시적 포즈 표현을 이용한 행동 인식
Laraba et al. Dance performance evaluation using hidden Markov models
KR20200054613A (ko) 동영상 메타데이터 태깅 시스템 및 그 방법
TW201117114A (en) System, apparatus and method for message simulation
CN110874859A (zh) 一种生成动画的方法和设备
KR20180092778A (ko) 실감정보 제공 장치, 영상분석 서버 및 실감정보 제공 방법
Devo et al. Deep reinforcement learning for instruction following visual navigation in 3D maze-like environments
CN113658254B (zh) 一种处理多模态数据的方法及装置、机器人
CA2741461C (en) Automated cinematographic editing tool
Pavlakos et al. Kinect-based multimodal gesture recognition using a two-pass fusion scheme
Song et al. Hierarchical LSTMs with adaptive attention for visual captioning
CN116310975B (zh) 一种基于一致片段选择的视听事件定位方法
KR20200073967A (ko) 인터랙티브 입력에 기반하여 이미지에서 목표 오브젝트를 결정하는 방법 및 장치
KR20240013613A (ko) 영상만으로 ai 휴먼 3차원 모션을 생성하는 방법 및 그 기록매체
CN117156078B (zh) 一种视频数据处理方法、装置、电子设备及存储介质
Feng Connecting perception with cognition for deep representations learning
US20230111356A1 (en) Method and system for selecting marker for modifying a scene within an augmented reality based computing environment
CN118097490A (zh) 任务处理方法、商品分类方法及电商直播的商品分类方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220705

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230616

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230801

R150 Certificate of patent or registration of utility model

Ref document number: 7325668

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150