JP7101315B2

JP7101315B2 - 画像データを自然言語の説明に変換するためのシステム及び方法

Info

Publication number: JP7101315B2
Application number: JP2021530948A
Authority: JP
Inventors: ツェン、ジェン; チェン、ルーシン
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2018-11-30
Filing date: 2019-11-26
Publication date: 2022-07-14
Anticipated expiration: 2039-11-26
Also published as: US11281709B2; US20200175053A1; JP2022510282A; US20200372058A1; WO2020112808A1; CN113168523A; EP3888005A4; US10726062B2; EP3888005A1

Description

本出願は、一般に、コンピュータ技術に必然的に根ざしており、具体的な技術的改善をもたらす、技術的に創意工夫された非定型的な解決策に関する。

機械学習は、時として深層学習と称され、画像分類、光学式文字認識（ＯＣＲ）、オブジェクト認識、アクション認識、スピーチ認識及び感情認識を含む、データの理解、検出及び／または分類に関する多岐にわたる有用な用途に使用することができる。

特定のアプリケーションは、画像、画像内の被写体とオブジェクトとの両方、及びそれらが何をしているのかを説明するためのキャプションを生成している。確かに、シーンの理解は、今日のコンピュータビジョンの重要な目標である。人間は、短時間で視覚シーンを完全に把握する能力を持っている。シーン理解の目的は、機械が視覚シーンを人間として見て理解できるようにすることである。画像のキャプショニングでは、機械が所与の画像を自動的に理解し、自然言語の説明を生成する必要がある。このように、説明を視覚的または聴覚的に提示することにより、知覚の問題を有し得る人とそうでない人との両方を支援することができる。

画像のキャプショニングは、所与の画像の合理的な説明を生成するために、機械が、非構造化オブジェクトのセットを有する画像の主要な視覚的態様を獲得し、人間が理解できる自然言語でシーンを表現する必要があることから、困難な問題であった。ゲーム用の利用可能な画像キャプションデータセットが存在しないため、ゲーム画像のキャプショニングは特に困難である。

装置は、少なくとも１つのプロセッサと、一時的信号ではない少なくとも１つのコンピュータ記憶装置であって、画像を受信することと、畳み込みニューラルネットワーク（ＣＮＮ）を使用して画像を処理して特徴マップを生成することとを行うようにプロセッサによって実行可能な命令を順番に含む少なくとも１つのコンピュータ記憶装置とを含む。命令は、ニューラルネットワーク（ＮＮ）を使用して少なくとも特徴マップのうちの第１の特徴マップを処理して画像の少なくとも１つの特徴を表す少なくとも１つの注意ベクトルを生成することを行うように実行可能である。命令はさらに、注意ベクトルを第１の特徴マップと結合して出力特徴ベクトルをレンダリングすることと、出力特徴ベクトルを第１の特徴マップから導出されたプーリング済みの特徴ベクトルと結合して最終特徴ベクトルをレンダリングすることと、最終特徴ベクトルをキャプション生成ネットワークに入力して画像の自然言語のキャプションを生成することとを行うように実行可能である。

例示的な実施形態では、画像はビデオゲームからの画像である。

非限定的な実施態様では、ＮＮは多層パーセプトロン（ＭＬＰ）によって実装される。

いくつかの実施形態では、命令は、出力特徴ベクトルをレンダリングするために注意ベクトルとの第１の特徴マップ内の特徴ベクトルにわたる加重和を実行することによって注意ベクトルを第１の特徴マップと結合することを行うように実行可能であり得る。命令は、出力特徴ベクトルとプーリング済みの特徴ベクトルとの要素ごとの加算を実行することによって出力特徴ベクトルをプーリング済みの特徴ベクトルと結合することを行うように実行可能であり得る。いくつかの実施態様では、命令は、出力特徴ベクトルをプーリング済みの特徴ベクトルと連結することによって出力特徴ベクトルをプーリング済みの特徴ベクトルと結合することを行うように実行可能である。

別の態様では、装置は、一時的信号ではない少なくとも１つのコンピュータ記憶装置であって、少なくとも１つのプロセッサにより、少なくとも１つの畳み込みニューラルネットワーク（ＣＮＮ）を含む特徴生成モジュールを使用して画像を処理してボトムアップ機能情報を出力することを行うように実行可能な命令を順番に含む少なくとも１つのコンピュータ記憶装置を含む。ボトムアップ特徴情報は、画像を説明する自然言語のキャプションを出力するキャプション生成モジュールに入力される。モジュールの一方または両方は、注意ベクトルからの情報を特徴情報から導出された平均プーリングベクトルからの情報と結合する少なくとも１つの残差トップダウンネットワークを含むことができる。

この態様の例示的な実施態様では、特徴生成モジュールは、注意ベクトルからの情報を特徴ベクトルのソースから導出された平均プーリングベクトルからの情報と結合する残差トップダウンネットワークを含む。この態様の例示的な実施態様では、キャプション生成モジュールは、注意ベクトルからの情報を特徴情報に関連付けられた特徴ベクトルから導出された平均プーリングベクトルからの情報と結合する残差トップダウンネットワークを含む。

いくつかの実施形態では、特徴生成モジュールの残差トップダウンネットワークは、少なくともＣＮＮからの第１の特徴マップを処理して画像の少なくとも１つの特性を表す少なくとも１つの注意ベクトルを生成するための多層パーセプトロン（ＭＬＰ）などのニューラルネットワーク（ＮＮ）を含むことができる。注意ベクトルは、第１の特徴マップと結合されて出力特徴ベクトルをレンダリングし、出力特徴ベクトルは、第１の特徴マップから導出されたプーリング済みの特徴ベクトルと順番に結合されて、キャプション生成モジュールに入力するための最終特徴ベクトルをレンダリングする。

他方、キャプション生成モジュールは、特徴生成モジュールからの特徴ベクトルを処理するための第１のＮＮと、コンテキストベクトルを出力するための第２のＮＮと、第２のＮＮによって出力されたコンテキストベクトルを受信して入力をレンダリングするために第１のＮＮの出力と結合される出力を生成するための第３のＮＮと、入力を処理して注意ベクトルをレンダリングするための第４のＮＮとを含むことができる。第４のＮＮからの注意ベクトルは、コンテキストベクトルと結合されて結合ベクトルをレンダリングし得、この結合ベクトルは、自然言語の単語を入力から生成する長短期記憶（ＬＳＴＭ）モジュールなどのニューラルネットワークに入力するために平均プーリングベクトルと順番に結合される。

別の態様では、装置は、一時的信号ではない少なくとも１つのコンピュータ記憶装置であって、少なくとも１つのプロセッサにより、第１のニューラルネットワーク（ＮＮ）を使用して画像の特性を表す特徴ベクトルを処理することを行うように実行可能な命令を含む少なくとも１つのコンピュータ記憶装置を含む。命令は、第３のＮＮを使用して第２のＮＮによって出力されたコンテキストベクトルを処理することと、第１のＮＮの出力を第３のＮＮの出力と結合して入力をレンダリングすることとを行うように実行可能である。命令はさらに、第４のＮＮを使用して入力を処理してコンテキストベクトルと結合される注意ベクトルをレンダリングして結合ベクトルをレンダリングすることを行うように実行可能であり、この結合ベクトルは、特徴ベクトルから導出されたプーリング済みのベクトルと順番に結合されて注意ベクトルをレンダリングする。命令は、キャプショニングＮＮを使用して注意ベクトルを処理して画像を説明する少なくとも１つの単語を生成することを行うように実行可能である。

この最後の態様の非限定的な実施態様では、予測ベクトルは、長短期記憶（ＬＳＴＭ）ニューラルネットワークを使用して処理され、１つ以上のＮＮは、多層パーセプトロン（ＭＬＰ）によって実装され得る。例示的な実施形態では、第２のＮＮは、
（ａ）前のタイムステップにおいてキャプショニングＮＮによって予測された単語埋め込み、（ｂ）キャプショニングＮＮからの最後の隠れ状態、（ｃ）画像の平均プーリングされた特徴表現、及び（ｄ）特徴のセットの中からのグローバルに平均プーリングされたボトムアップ領域特徴のうちの少なくとも２つを含むことができる入力に基づいてコンテキストベクトルを出力する。

別の態様では、コンピュータメモリは、第１のニューラルネットワーク（ＮＮ）を使用して特徴ベクトルを処理することと、少なくとも１つのコンテキストベクトルを第２のＮＮに入力することと、第３のＮＮに入力するために第１及び第２のＮＮの出力を結合することとを行うようにプロセッサによって実行可能な命令を含む。第３のＮＮは注意情報を出力する。命令は、注意情報を第１のＮＮの出力と結合して、特徴ベクトルによって表現された画像のキャプションの単語を予測するのに有用なコンテキスト特徴ベクトルを出力することを行うように実行可能である。

本出願の詳細は、その構造と動作との両方について、同様の参照符号が同様の部分を指す添付図面を参照して最も良く理解することができる。

本原理と一致した例示的なシステムのブロック図である。例示的な論理全体を示すフローチャートである。コンピュータゲームシミュレーションもしくは他のコンピュータシミュレーションからのものであり得るか、または実世界のビデオからのものであり得る例示的な画像の概略図である。画像から特徴ベクトルを生成し、その特徴ベクトルを使用して、画像を説明する自然言語のキャプションを出力するための例示的な論理を示すフローチャートである。画像キャプショニングモデル全体のブロック図である。領域特徴ベクトルを抽出する特徴ベクトル生成モデルのブロック図である。図６の特徴ベクトル生成モデルで使用される残差トップダウン注意モジュールのブロック図である。図６及び図７の構成要素によって実行される例示的なロジックを示すフローチャートである。キャプション生成モデルのＬＳＴＭユニットのうちの１つのブロック図であり、キャプション生成ネットワークは、典型的には、複数のそのようなＬＳＴＭユニットで構成されていることが理解される。図９のキャプション生成モデルで使用される残差トップダウン注意モジュールのブロック図である。図９及び図１０の構成要素によって実行される例示的なロジックを示すフローチャートである。代替的なキャプション生成モデルのブロック図である。図１２のキャプション生成モデルで使用される残差トップダウン注意モジュールのブロック図である。

本明細書における特定の用語の理解を促進するために、トップダウン注意とは、画像に関連したコンテキスト情報を様々な方法で活用して空間的位置及び時間的特徴に対して注意を導くことを指す。トップダウン注意とは対照的に、ボトムアップ注意は、追加のコンテキスト情報を提供することなく自動的に画像内の複数の顕著な領域に選択的に注意を引き付ける。ボトムアップ注意ネットワークを使用して、入力画像内の顕著なオブジェクトを検出し、画像キャプショニングモデルへの入力として特徴を抽出することができる。本明細書で理解されるように、トップダウン注意は、情報を失うリスクの可能性があり、ボトムアップ注意は、検出された領域における空間的注意を無視する可能性がある。

この開示はまた、一般に、限定されることはないが、分散コンピュータゲームネットワーク、拡張現実（ＡＲ）ネットワーク、仮想現実（ＶＲ）ネットワーク、ビデオブロードキャスティング、コンテンツ配信ネットワーク、仮想マシン、ならびに人工ニューラルネットワーク及び機械学習アプリケーションなどの、家電（ＣＥ）デバイスネットワークの態様を含むコンピュータエコシステムに関する。

本明細書のシステムは、クライアントコンポーネントとサーバコンポーネントとの間でデータが交換され得るように、ネットワークを通じて接続されたサーバコンポーネント及びクライアントコンポーネントを含み得る。クライアントコンポーネントは、ＡＲヘッドセット、ＶＲヘッドセット、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）などのゲームコンソール及び関連マザーボード、ゲームコントローラ、ポータブルテレビ（例えば、スマートＴＶ、インターネット対応ＴＶ）、ラップトップ及びタブレットコンピュータなどのポータブルコンピュータ、ならびにスマートフォン及び以下で議論される追加の例を含む他のモバイルデバイスを含む１つ以上のコンピューティングデバイスを含み得る。これらのクライアントデバイスは、多岐にわたる動作環境で動作し得る。例えば、クライアントコンピュータのいくつかは、例として、ＯｒｂｉｓもしくはＬｉｎｕｘ（登録商標）オペレーティングシステム、ＭｉｃｒｏｓｏｆｔのオペレーティングシステムもしくはＵｎｉｘ（登録商標）オペレーティングシステム、またはＡｐｐｌｅ，Ｉｎｃ．もしくはＧｏｏｇｌｅによって制作されたオペレーティングシステムを採用し得る。これらの動作環境は、以下で議論されるインターネットサーバによってホスティングされたウェブサイトにアクセスすることができる、ＭｉｃｒｏｓｏｆｔもしくはＧｏｏｇｌｅもしくはＭｏｚｉｌｌａによって作られたブラウザ、または他のブラウザプログラムなどの、１つ以上のプログラム／アプリケーションを実行するために使用され得る。また、本原理に従った動作環境は、本原理を担う１つ以上のコンピュータゲームプログラム／アプリケーション及び他のプログラム／アプリケーションを実行するために使用され得る。

サーバ及び／またはゲートウェイは、インターネットなどのネットワークを通じてデータを受信及び送信するようにサーバを構成する命令を実行する１つ以上のプロセッサを含み得る。追加的または代替的に、クライアント及びサーバは、ローカルイントラネットまたは仮想プライベートネットワークを通じて接続することができる。サーバまたはコントローラは、ＳｏｎｙＰｌａｙＳｔａｔｉｏｎ（登録商標）、パーソナルコンピュータなどの、ゲームコンソール及び／またはその１つ以上のマザーボードよってインスタンス化され得る。

情報は、クライアントとサーバとの間でネットワークを通じて交換され得る。この目的のために、さらにはセキュリティのために、サーバ及び／またはクライアントは、ファイアウォール、ロードバランサ、一時的記憶装置、及びプロキシ、ならびに信頼性及びセキュリティのための他のネットワークインフラストラクチャを含むことができる。１つ以上のサーバは、オンラインソーシャルウェブサイトまたはビデオゲームウェブサイトなどのセキュアなコミュニティを本原理に従ってクラウドソーシングによってコミュニケーションするためにネットワークユーザに提供する方法を実施する装置を形成し得る。

本明細書で使用される場合、命令は、本システムにおいて情報を処理するためのコンピュータによって実施されるステップを指す。命令は、ソフトウェア、ファームウェア、またはハードウェアにおいて実施することができ、システムのコンポーネントが担ういずれかのタイプのプログラムされたステップを含むことができる。

プロセッサは、アドレスライン、データライン及び制御ラインなどの各種のライン、ならびにレジスタ及びシフトレジスタによって論理を実行することができる、いずれかの従来の汎用シングルチッププロセッサまたはマルチチッププロセッサであり得る。

本明細書でフローチャート及びユーザインタフェースによって説明されるソフトウェアモジュールは、各種のサブルーチン、手順などを含むことができる。本開示を限定することなく、特定のモジュールによって実行されるように規定された論理は、他のソフトウェアモジュールに再分配することができ、及び／または共に組み合わせて単一のモジュールにすることができ、及び／または共有可能ライブラリにおいて利用可能にすることができる。

上記で指示されたように、本明細書で説明される本原理は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの組み合わせとして実装することができる。したがって、例示的なコンポーネント、ブロック、モジュール、回路及びステップが、それらの機能性の観点から記載される。

さらに、上記で示唆されたものについて、以下で説明される論理ブロック、モジュール及び回路は、本明細書で説明される機能を実行するように設計された、汎用プロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、もしくは特定用途向け集積回路（ＡＳＩＣ）などの他のプログラマブルロジックデバイス、個別ゲートもしくはトランジスタロジック、個別ハードウェアコンポーネント、またはそれらの任意の組み合わせを用いて実装または実行することができる。プロセッサは、コントローラもしくはステートマシン、またはコンピューティングデバイスの組み合わせによって実装することができる。

以下で説明される機能及び方法は、ハードウェア回路またはソフトウェア回路で実装され得る。ソフトウェアで実装されるとき、機能及び方法は、限定されることはないが、Ｊａｖａ（登録商標）、Ｃ＃またはＣ＋＋などの適切な言語で書き込むことができ、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、電気的消去可能プログラマブルリードオンリーメモリ（ＥＥＰＲＯＭ）、コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）もしくはデジタル多用途ディスク（ＤＶＤ）などの他の光ディスク記憶装置、磁気ディスク記憶装置もしくは着脱可能なサムドライブを含む他の磁気記憶デバイスなどのコンピュータ可読記憶媒体上に記憶させることができるか、またはそのようなコンピュータ可読記憶媒体を通じて転送することができる。接続は、コンピュータ可読媒体を確立し得る。係る接続は、例として、光ファイバ及び同軸ワイヤ及びデジタル加入者回線（ＤＳＬ）及びツイストペアワイヤを含む有線ケーブルを含むことができる。係る接続は、赤外線及び無線を含む無線通信接続を含み得る。

一実施形態に含まれるコンポーネントは、他の実施形態では、いずれかの適切な組み合わせで使用することができる。例えば、本明細書で説明される、及び／または図で示される各種のコンポーネントのいずれかが、組み合わされ得、交換され得、または他の実施形態から排除され得る。

「Ａ、Ｂ及びＣのうちの少なくとも１つを有するシステム」（同様に「Ａ、ＢまたはＣのうちの少なくとも１つを有するシステム」及び「Ａ、Ｂ、Ｃのうちの少なくとも１つを有するシステム」）は、Ａ単独、Ｂ単独、Ｃ単独、Ａ及びＢを一緒に、Ａ及びＣを一緒に、Ｂ及びＣを一緒に、ならびに／またはＡ、Ｂ及びＣを一緒に有するシステムなどを含む。

ここで、具体的には図１を参照すると、上記で言及され、本原理に従って以下でさらに説明される例示的なデバイスのうちの１つ以上を含み得る例示的なシステム１０が示されている。システム１０に含まれる例示的なデバイスのうちの最初のものは、限定されることはないが、テレビチューナ（同様に、テレビを制御するセットトップボックス）を備えたインターネット対応テレビなどのオーディオビデオデバイス（ＡＶＤ）１２などの家電（ＣＥ）デバイスである。しかしながら、ＡＶＤ１２は、代替的に、例えば、コンピュータ化されたインターネット対応冷蔵庫、洗濯機または乾燥機といった、電気器具または家庭用品であり得る。代替的に、ＡＶＤ１２はまた、コンピュータ化されたインターネット対応（「スマート」）電話、タブレットコンピュータ、ノートブックコンピュータ、拡張現実（ＡＲ）ヘッドセット、仮想現実（ＶＲ）ヘッドセット、インターネット対応グラスまたは「スマート」グラス、コンピュータ化されたインターネット対応時計などの別のタイプのコンピュータ化されたウェアラブルデバイス、コンピュータ化されたインターネット対応ブレスレット、コンピュータ化されたインターネット対応ミュージックプレーヤー、コンピュータ化されたインターネット対応ヘッドフォン、埋め込み可能な皮膚用デバイスなどのコンピュータ化されたインターネット対応の埋め込み可能なデバイス、他のコンピュータ化されたインターネット対応デバイスなどであり得る。それにも関わらず、ＡＶＤ１２は、本原理を担う（例えば、本原理を担うように他の家電（ＣＥ）デバイスと通信し、本明細書で説明される論理を実行し、本明細書で説明されるいずれかの他の機能及び／または動作を実行する）ように構成されることが理解されよう。

したがって、係る原理を担うために、ＡＶＤ１２は、図１に示されるコンポーネントのいくつかまたは全てによって確立することができる。例えば、ＡＶＤ１２は、高解像度または超高解像度「４Ｋ」以上のフラットスクリーンによって実装され得、ディスプレイに対するタッチを介してユーザ入力信号を受信するためにタッチ対応であり得る１つ以上のディスプレイ１４を含むことができる。ＡＶＤ１２は、本原理に従ってオーディオを出力するための１つ以上のスピーカ１６、及び可聴コマンドをＡＶＤ１２に入力してＡＶＤ１２を制御するためのオーディオ受信機／マイクロホンなどの、少なくとも１つの追加入力デバイス１８を含み得る。例示的なＡＶＤ１２はまた、１つ以上のプロセッサの制御下で、インターネット、ＷＡＮ、ＬＡＮなどの、少なくとも１つのネットワーク２２を経由して通信するための１つ以上のネットワークインタフェース２０を含み得る。したがって、インタフェース２０は、限定されることはないが、Ｗｉ－Ｆｉ送受信機であり得、このＷｉ－Ｆｉ送受信機は、限定されることはないが、メッシュネットワーク送受信機などの無線コンピュータネットワークインタフェースの例である。さらに、ネットワークインタフェース２０は、例えば、有線もしくは無線のモデムもしくはルータ、または、例えば、無線テレフォニー送受信機もしくは上記で言及されたようなＷｉ－Ｆｉ送受信機などの他の適切なインタフェースであり得ることに留意されたい。

１つ以上のプロセッサは、ディスプレイ１４を制御して当該ディスプレイ上に画像を提示すること、及び当該ディスプレイから入力を受信することなどの、本明細書で説明されるＡＶＤ１２の他の要素を含む、本原理を担うようにＡＶＤ１２を制御することが理解されよう。１つ以上のプロセッサは、中央処理装置（ＣＰＵ）２４、及びグラフィックスカード２５Ａ上のグラフィックス処理装置（ＧＰＵ）２５を含み得る。

上記に加えて、ＡＶＤ１２はまた、例えば、別の家電（ＣＥ）デバイスに（例えば、有線接続を使用して）物理的に接続するための高解像度マルチメディアインタフェース（ＨＤＭＩ（登録商標））ポートもしくはＵＳＢポート、及び／またはヘッドフォンを通じてＡＶＤ１２からユーザにオーディオを提供するためにＡＶＤ１２にヘッドフォンを接続するためのヘッドフォンポートなどの、１つ以上の入力ポート２６を含み得る。例えば、入力ポート２６は、ケーブルまたはオーディオビデオコンテンツのサテライトソース２６ａに有線または無線を介して接続され得る。したがって、ソース２６ａは、例えば、分離もしくは統合されたセットトップボックス、またはサテライト受信機であり得る。または、ソース２６ａは、チャネル割り当て目的でユーザによって好みとみなされ得るコンテンツを含むゲームコンソールまたはディスクプレーヤーであり得る。ソース２６ａは、ゲームコンソールとして実装されるとき、ＣＥデバイス４４に関連して以下で説明されるコンポーネントのいくつかまたは全てを含み得、本明細書で説明される論理のいくつかまたは全てを実装し得る。

ＡＶＤ１２はさらに、いくつかの場合には、スタンドアロンデバイスとして、もしくはパーソナルビデオレコーディングデバイス（ＰＶＲ）としてＡＶＤのシャーシ内で具現化され、またはＡＶプログラムを再生するためにＡＶＤのシャーシの内部もしくは外部のいずれかでビデオディスクプレーヤーとして具現化され、または着脱可能なメモリ媒体として具現化された、一時的信号ではないディスクベースの記憶装置またはソリッドステート記憶装置などの１つ以上のコンピュータメモリ２８を含み得る。また、いくつかの実施形態では、ＡＶＤ１２は、限定されることはないが、例えば、少なくとも１つのサテライト基地局もしくは携帯電話基地局から地理的位置情報を受信し、情報をプロセッサ２４に提供し、及び／またはＡＶＤ１２がプロセッサ２４と共に配置される高度を判定するように構成された、携帯電話受信機、ＧＰＳ受信機及び／または高度計３０などの位置受信機または場所受信機を含むことができる。しかしながら、例えば、全ての３つの次元において、ＡＶＤ１２の場所を判定するために、携帯電話受信機、ＧＰＳ受信機及び／または高度計以外の別の適切な位置受信機が本原理に従って使用され得ることが理解されよう。

ＡＶＤ１２の説明を続けると、いくつかの実施形態では、ＡＶＤ１２は、１つ以上のカメラ３２を含み得る。このカメラは、例えば、サーマルイメージングカメラ、ウェブカメラなどのデジタルカメラ、赤外線（ＩＲ）カメラ、ならびに／またはＡＶＤ１２に統合され、本原理に従って写真／画像及び／もしくはビデオを生成するようにプロセッサ２４によって制御可能であるカメラであり得る。また、ＡＶＤ１２に含まれるのは、Ｂｌｕｅｔｏｏｔｈ（登録商標）及び／または近距離無線通信（ＮＦＣ）技術をそれぞれ使用して他のデバイスと通信するためのＢｌｕｅｔｏｏｔｈ（登録商標）送受信機３４及び他のＮＦＣ要素３６であり得る。例示的なＮＦＣ要素は、無線周波数識別（ＲＦＩＤ）要素とすることができる。

さらにまた、ＡＶＤ１２は、プロセッサ２４に入力を提供する１つ以上の補助センサ３７（例えば、加速度計、ジャイロスコープ、サイクロメータなどのモーションセンサ、または磁気センサ、赤外線（ＩＲ）センサ、光学センサ、速度センサ及び／またはケイデンスセンサ、（例えば、ジェスチャコマンドを検出するための）ジェスチャセンサなど）を含み得る。ＡＶＤ１２は、プロセッサ２４に入力を提供する無線経由ＴＶ放送を受信するためのＯＴＡテレビ放送ポート３８を含み得る。上記に加えて、ＡＶＤ１２はまた、赤外線データアソシエーション（ＩＲＤＡ）デバイスなどの赤外線（ＩＲ）送信機及び／またはＩＲ受信機及び／またはＩＲ送受信機４２を含み得ることに留意されたい。ＡＶＤ１２に給電するためにバッテリ（図示せず）が提供され得る。

さらに図１を参照すると、ＡＶＤ１２に加えて、システム１０は、１つ以上の他の家電（ＣＥ）デバイスタイプを含み得る。一例では、第１のＣＥデバイス４４は、ＡＶＤ１２に直接送られるコマンドを介して、及び／または以下で説明されるサーバを通じてコンピュータゲームのオーディオ及びビデオをＡＶＤ１２に送るために使用され得る一方、第２のＣＥデバイス４６は、第１のＣＥデバイス４４と同様のコンポーネントを含み得る。示される例では、第２のＣＥデバイス４６は、示されるようにユーザ４７によって装着されたＡＲまたはＶＲヘッドセットとして構成され得る。示される例では、２つのＣＥデバイス４４、４６のみが示されているが、より少ない、またはより多いデバイスも本原理に従って使用され得ることを理解されたい。

示される例では、３つのデバイス１２、４４、４６は全て、安全なもしくは暗号化されたネットワーク、エンターテインメントネットワーク、もしくは例えば家庭内のＷｉ－Ｆｉ（登録商標）などのネットワークのメンバであるか、または、少なくとも特定の場所で互いに近接して存在し、本明細書で説明されるように互いに、及びサーバと通信可能であると仮定される。しかしながら、本原理は、他に明確に主張されない限り、特定の場所またはネットワークに限定されない。

例示的な限定されない第１のＣＥデバイス４４は、上記で言及されたデバイス、例えば、スマートフォン、デジタルアシスタント、ポータブル無線ラップトップコンピュータもしくはノートブックコンピュータまたはゲームコントローラ（「コンソール」とも称される）のうちのいずれか１つによって確立され得、したがって、以下で説明されるコンポーネントのうちの１つ以上を有し得る。限定されない第２のＣＥデバイス４６は、ＡＲヘッドセット、ＶＲヘッドセット、「スマート」インターネット対応グラス、またはさらにはＢｌｕ－ｒａｙ（登録商標）プレーヤー、ゲームコンソールなどのビデオディスクプレーヤーなどによって確立され得る。またさらに、いくつかの実施形態では、第１のＣＥデバイス４４は、例えば、ＡＶＤ１２にＡＶ再生及び一時停止コマンドを発行するためのリモート制御（ＲＣ）であり得、または、この第１のＣＥデバイスは、有線もしくは無線リンクを介して図１に示されたデバイスのうちの別の１つによって実装されたゲームコンソールと通信し、ＡＶＤ１２、パーソナルコンピュータ、無線電話などに対するビデオゲームの提示を制御するタブレットコンピュータ、ゲームコントローラなどの、より洗練されたデバイスであり得る。

したがって、第１のＣＥデバイス４４は、１つ以上のディスプレイ５０を含み得、このディスプレイは、ディスプレイ５０に対するタッチを介してユーザ入力信号を受信するためのタッチ対応であり得る。追加的または代替的に、ディスプレイ５０（複数可）は、ＡＲヘッドセットディスプレイまたは「スマート」グラスディスプレイまたは「ヘッドアップ」ディスプレイ、ならびにＶＲヘッドセットディスプレイ、またはＡＲ及び／もしくはＶＲ画像を提示するように構成された他のディスプレイなどの、少なくとも部分的に透明なディスプレイであり得る。

第１のＣＥデバイス４４は、本原理に従ってオーディオを出力するための１つ以上のスピーカ５２、及びデバイス４４を制御するために可聴コマンドを第１のＣＥデバイス４４に入力するための、例えば、オーディオ受信機／マイクロホンなどの、少なくとも１つの追加入力デバイス５４を含み得る。例示的な第１のＣＥデバイス４４はさらに、１つ以上のＣＥデバイスプロセッサ５８の制御下で、ネットワーク２２を経由して通信するための１つ以上のネットワークインタフェース５６を含み得る。したがって、インタフェース５６は、限定されることはないが、Ｗｉ－Ｆｉ送受信機であり得る。このＷｉ－Ｆｉ送受信機は、メッシュネットワークインタフェースを含む無線コンピュータネットワークインタフェースの例である。プロセッサ５８は、例えば、ディスプレイ５０を制御して当該ディスプレイ上に画像を提示すること、及び当該ディスプレイから入力を受信することなどの、本明細書で説明される第１のＣＥデバイス４４の他の要素を含む、本原理を担うように第１のＣＥデバイス４４を制御することが理解されよう。さらに、ネットワークインタフェース５６は、例えば、有線もしくは無線のモデムもしくはルータ、または無線テレフォニー送受信機もしくは上記で言及されたようなＷｉ－Ｆｉ送受信機などの他の適切なインタフェースなどであり得ることに留意されたい。

またさらに、プロセッサ（複数可）５８に加えて、第１のＣＥデバイス４４はまた、グラフィックスカード５５Ａ上にグラフィックス処理ユニット（ＧＰＵ）５５を含み得ることに留意されたい。グラフィックス処理ユニット５５は、とりわけ、ディスプレイ５０上にＡＲ及び／またはＶＲ画像を提示するように構成され得る。

上記に加えて、第１のＣＥデバイス４４はまた、例えば、別のＣＥデバイスに（例えば、有線接続を使用して）物理的に接続するためのＨＤＭＩ（登録商標）ポートもしくはＵＳＢポート、及び／またはヘッドフォンを通じて第１のＣＥデバイス４４からユーザにオーディオを提示するために第１のＣＥデバイス４４にヘッドフォンを接続するためのヘッドフォンポートなどの、１つ以上の入力ポート６０を含み得る。第１のＣＥデバイス４４はさらに、ディスクベースの記憶装置またはソリッドステート記憶装置などの、１つ以上の有形コンピュータ可読記憶媒体６２を含み得る。また、いくつかの実施形態では、第１のＣＥデバイス４４は、限定されることはないが、例えば、三角測量を使用して、少なくとも１つのサテライト基地局及び／または携帯電話基地局から地理的位置情報を受信し、ＣＥデバイスプロセッサ５８に情報を提供し、及び／または第１のＣＥデバイス４４がＣＥデバイスプロセッサ５８と共に配置される高度を判定するように構成された携帯電話及び／またはＧＰＳ受信機及び／または高度計６４などの位置受信機または場所受信機を含むことができる。しかしながら、例えば、全ての３つの次元において第１のＣＥデバイス４４の場所を判定するために、携帯電話及び／またはＧＰＳ受信機及び／または高度計以外の別の適切な位置受信機が本原理に従って使用され得ることが理解されよう。

第１のＣＥデバイス４４の説明を続けると、いくつかの実施形態では、第１のＣＥデバイス４４は、１つ以上のカメラ６６を含み得る。このカメラは、例えば、サーマルイメージングカメラ、ＩＲカメラ、ウェブカメラなどのデジタルカメラ、ならびに／または第１のＣＥデバイス４４に統合され、本原理に従って写真／画像及び／もしくはビデオを生成するようＣＥデバイスプロセッサ５８によって制御可能である別のタイプのカメラであり得る。また、第１のＣＥデバイス４４に含まれるのは、Ｂｌｕｅｔｏｏｔｈ（登録商標）及び／または近距離無線通信（ＮＦＣ）技術をそれぞれ使用して他のデバイスと通信するためのＢｌｕｅｔｏｏｔｈ（登録商標）送受信機６８及び他のＮＦＣ要素７０であり得る。例示的なＮＦＣ要素は、無線周波数識別（ＲＦＩＤ）要素とすることができる。

さらにまた、第１のＣＥデバイス４４は、ＣＥデバイスプロセッサ５８に入力を提供する１つ以上の補助センサ７２（例えば、加速度計、ジャイロスコープ、サイクロメータなどのモーションセンサ、または磁気センサ、赤外線（ＩＲ）センサ、光学センサ、速度及び／またはケイデンスセンサ、（例えば、ジェスチャコマンドを検知するための）ジェスチャセンサなど）を含み得る。第１のＣＥデバイス４４は、例えば、ＣＥデバイスプロセッサ５８に入力を提供する１つ以上の気候センサ７４（例えば、気圧計、湿度センサ、風力センサ、光センサ、温度センサなど）及び／または１つ以上の生体センサ７６などの、さらに他のセンサを含み得る。上記に加えて、いくつかの実施形態では、第１のＣＥデバイス４４はまた、赤外線（ＩＲ）データアソシエーション（ＩＲＤＡ）デバイスなどのＩＲ送信機及び／またはＩＲ受信機及び／またはＩＲ送受信機７８を含み得ることに留意されたい。第１のＣＥデバイス４４に給電するためにバッテリ（図示せず）が提供され得る。ＣＥデバイス４４は、上記で説明された通信モード及び関連コンポーネントのいずれかを通じてＡＶＤ１２と通信し得る。

第２のＣＥデバイス４６は、ＣＥデバイス４４に関して示されたコンポーネントのいくつかまたは全てを含み得る。いずれか１つまたは両方のＣＥデバイスは、１つ以上のバッテリによって給電され得る。

ここで、先に言及された少なくとも１つのサーバ８０を参照すると、このサーバは、少なくとも１つのサーバプロセッサ８２、ディスクベースの記憶装置またはソリッドステート記憶装置などの、少なくとも１つの有形コンピュータ可読記憶媒体８４を含む。実施態様では、媒体８４は、１つ以上のソリッドステート記憶ドライブ（ＳＳＤ）を含む。サーバはまた、ネットワーク２２を経由した図１の他のデバイスとの通信を可能にし、実際には、本原理に従ってサーバとクライアントデバイスとの間の通信を容易化し得る少なくとも１つのネットワークインタフェース８６を含む。ネットワークインタフェース８６は、例えば、有線もしくは無線のモデムもしくはルータ、Ｗｉ－Ｆｉ送受信機、または無線テレフォニー送受信機などの他の適切なインタフェースであり得ることに留意されたい。ネットワークインタフェース８６は、サーバプロセッサ８２を通過することなく、いわゆる「ファブリック」などのネットワークに媒体８４を直接接続するリモートダイレクトメモリアクセス（ＲＤＭＡ）インタフェースであり得る。ネットワークは、イーサネット（登録商標）ネットワーク及び／またはファイバチャネルネットワーク及び／またはインフィニバンドネットワークを含み得る。典型的には、サーバ８０は、物理サーバ「スタック」に配列され得る「ブレード」と称される複数のコンピュータにおいて複数のプロセッサを含む。

したがって、いくつかの実施形態では、サーバ８０は、インターネットサーバまたは「サーバファーム」全体であり得、「クラウド」機能を含み得、「クラウド」機能を実行し得、それにより、システム１０のデバイスは、例えば、本明細書に開示されるようなドメイン適応のための例示的な実施形態ではサーバ８０を介して「クラウド」環境にアクセスし得る。追加的または代替的に、サーバ８０は、１つ以上のゲームコンソール、または図１に示された他のデバイスと同じ部屋もしくはその近くにある他のコンピュータによって実装され得る。

以下で実施態様の詳細を説明するのに先立って本原理を簡潔に要約するために、マルチレベルの残差注意ベースの画像キャプショニングモデルでボトムアップ注意がトップダウン注意と結合される。図及び他の場所でＲｅｓＴＤ注意ネットワークと称される残差トップダウン注意モデルは、典型的な視覚的注意ネットワークにおける情報損失を防ぐ。図及び他の場所でＲｅｓＴＤ＿ＢＰネットワークと称されるボトムアップ注意ネットワークは、本明細書で注意プーリングを備えたＲｅｓＴＤ＿１と称される残差トップダウン注意モジュールを使用する。このように、各空間的位置の異なる重要性を考慮に入れることにより、検出された各領域について改善された特徴表現が学習される。

さらに、本明細書でＲｅｓＴＤ＿２と称される、新しい残差トップダウン注意ネットワークが画像キャプショニングモデル内に実装されて、入力されたボトムアップ領域特徴ベクトル間の注意分布を学習するため、予測される次の単語により関連性のある領域情報が選択される。さらに、本原理は、本明細書でＲｅｓＴＤ＿ＬＳＴＭと称される、複数の残差トップダウン注意ベースの長短期記憶（ＬＳＴＭ）ユニットを含むキャプション生成ネットワークを提供する。各ＲｅｓＴＤ＿ＬＳＴＭユニットでは、入力されたボトムアップ領域特徴ベクトルに加えて、４つのコンテキストベクトルが結合され、例えば、連結され、多層パーセプトロン（ＭＬＰ）モジュールに入力されて、注意分布学習用のコンテキスト情報を提供するために、ＲｅｓＴＤ＿２（キャプション生成器内の残差トップダウン注意ネットワーク）への入力としてコンテキストベクトル全体を学習する。また、キャプション生成ネットワークでは、タイムステップｔ－１での出力単語をコンテキストベクトルとして扱い、タイムステップｔで次のＲｅｓＴＤ＿ＬＳＴＭユニットに入力することができる。

本原理の潜在的なアプリケーションには、限定されることはないが、コンピュータゲームにおけるオンデマンドアクセシビリティが含まれる。例えば、一部のゲームプレイヤーには視覚障害があり、画像のキャプショニングを使用することにより、シーンの説明を生成し、ＴＴＳ（テキスト・トゥ・スピーチ）技術の助けを借りてスピーチに変換することができる。加えて、ゲームプレイヤーが、ゲームの途中で邪魔される恐れがあり、ゲームを続行することを望む場合があるが、そのとき、ゲームプレイヤーは、画像のキャプショニングの助けを借りて、コンピュータまたはゲームコンソールから離れたまま進行中のゲームを聞くことができる。他のアプリケーションは、ゲームオブジェクトの検出を含み、それにより、所与の画像について各領域内の空間的位置を考慮することにより、より良い画像表現を学習させることができる。本原理はまた、例えば、顔、目、鼻、唇などの、人間の顔の異なる部分を検出することによって顔の感情認識を改善するために使用され得る。検出された顔の部分に対して残差トップダウン注意を実施することにより、特定の感情により関連性のある部分に選択的に注意が向けられる。さらに、本原理は、実世界のビデオの説明における使用に適合させることができる。

上記を念頭に置き、ここで本原理を全体的に理解するために図２に目を向けると、以下でさらに議論されるニューラルネットワークモデルが、ブロック２００で訓練データセットを使用して訓練される。一旦訓練されると、それらのモデルは、以下の議論に従ってブロック２０２で１つ以上の画像に対して実行される。結果は、ブロック２０４で評価される。

ゲーム画像のキャプチャリングに対し、ブロック２００での例示的な訓練は、Ｋｒｉｓｎａｅｔａｌ．，「ＶｉｓｕａｌＧｅｎｏｍｅ：ＣｏｎｎｅｃｔｉｎｇＬａｎｇｕａｇｅａｎｄＶｉｓｉｏｎＵｓｉｎｇＣｒｏｗｄｓｏｕｒｃｅｄＤｅｎｓｅＩｍａｇｅＡｎｎｏｔａｔｉｏｎｓ」，Ｉｎｔ'ｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，１２３（１）：３２－７３（２０１７）において議論された視覚的ゲノムデータセットを使用し得る。加えて、ゲーム画像データセットは、領域提案生成及び画像特徴抽出のために、以下で説明される１つ以上の畳み込みニューラルネットワーク（ＣＮＮ）、例えば、ＦａｓｔｅｒＲ－ＣＮＮを訓練するために使用され得る。画像のキャプショニングに対し、いくつかの例では、コンテキスト内の視覚的共通オブジェクト（Ｖ－ＣＯＣＯ）データセット及びゲームデータセットを含む２つのデータセットが使用され得る。Ｖ－ＣＯＣＯデータセットは、Ｌｉｎｅｔａｌ．，ｉｎ「ＣｏｍｍｏｎＯｂｊｅｃｔｓｉｎＣｏｎｔｅｘｔ」、ＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ、７４０～７５５ページ、Ｓｐｒｉｎｇｅｒ、２０１４において説明されたＭｉｃｒｏｓｏｆｔＣＯＣＯデータセットのサブセットである。

加えて、ネットワークを訓練するために、ゲーム画像のキャプショニング用にゲームデータセットが生成され得る。データセット名が示すように、多数のゲームビデオ（例えば、数百）から多数の画像（例えば、数千）が収集され得、それらの画像には、領域の説明、境界ボックス及び関連付けられたオブジェクト名を用いて注釈が付けられ得る。ゲームデータセットは、３つの部分、すなわち訓練用、検証用及びテスト用のそれぞれに分割することができる。

ブロック２０４での評価について、いくつかの例では、例えば、ＰｌａｙＳｔａｔｉｏｎ（登録商標）画像に対する、以下でさらに説明される注意ベースの画像キャプショニングネットワークのパフォーマンスを評価するために、ゲーム画像（上記で説明されたゲームデータセットのテスト分割）のみがモデルの評価に使用され得る。ＲｅｓＮｅｔ－１０１は、特徴埋め込み学習に使用され得る。ゲームのキャプショニングの結果を評価するために、ＣＩＤＥｒ、ＭＥＴＥＯＲ、ＲＯＵＧＥ、ＢＬＥＵ及びＳＩＭ＿ＵＳＥを含む、様々なメトリックのセットが展開され得る。

図３は、斧を上げながら走る行動をとっている女性３０２のゲーム画像が示された例示的な画像３００を示す。

図４は、ブロック４００で始まる論理全体を示す。このブロックでは、（例えば）画像３００が１つ以上のＣＮＮを使用して処理されて、例えば、画像内の色、画像内のオブジェクト境界、画像内のオブジェクトのタイプなどの、画像の特性を説明する情報を含むボトムアップ特徴ベクトル（ＦＶ）を生成する。以下でさらに議論されるように、例示的な実施形態では、注意ベースのＦａｓｔｅｒＲ－畳み込みニューラルネットワーク（ＣＮＮ）を使用して領域特徴ベクトルが抽出され、それにより、各画像について、画像内の異なる領域について多数の特徴ベクトルが抽出される。以下でもさらに議論されるように、注意を伴うボトムアップ特徴ベクトルは、ＦａｓｔｅｒＲ－ＣＮＮネットワーク（このネットワークはオブジェクト検出用である）、及びＦａｓｔｅｒＲ－ＣＮＮネットワークの一部としてのＲｅｓＮｅｔ－１０１サーバに基づいて抽出される。

特徴ベクトルは、ブロック４０４で画像の自然言語のキャプションを生成するために、ブロック４０２で、以下でさらに説明される残差トップダウンネットワークに入力される。直後により一層詳細に説明されるように、残差トップダウンネットワークは、注意ベクトルを、特徴ベクトルから導出された平均プーリングベクトルと結合することができる。キャプションは、ブロック４０６で、ビデオディスプレイ、オーディオスピーカ、ブザーなどの１つ以上の出力デバイス上に人間が知覚できる形式で、例えば、視覚的に、及び／または聴覚的に、及び／または触覚的に提示され得る。

図５は、主として２つの部分、すなわち、画像３００及び出力領域特徴５０２からボトムアップ領域特徴を抽出するためのＲｅｓＴＤ＿ＢＰニューラルネットワーク５００、ならびに抽出された領域特徴を受信して、複数のモジュール５０６を連続的に使用して、画像３００（示された例では、「ａｗｏｍａｎｒｕｎｎｉｎｇｗｉｔｈａｘｅ（斧を持って走っている女性）」）を説明する自然言語での単語単位のキャプション５０８を予測するキャプション生成ネットワーク５０４で構成された例示的なモデル全体を示す。ＲｅｓＴＤ＿ＢＰニューラルネットワーク５００のボトムアップ注意モデルは、領域特徴を、画像３００内のその顕著性に基づいて抽出するためのＦａｓｔｅｒＲ－ＣＮＮネットワークを含み得る。しかしながら、ＲｏＩプーリング層から出力された特徴マップに対するグローバル平均プーリングを通じて領域特徴を抽出する代わりに、以下でさらに説明されるようにトップダウン注意がＦａｓｔｅｒＲ－ＣＮＮベースのボトムアップ注意ネットワークに導入され、各領域内のいくつかのエリアに選択的に注意を向けることによって領域の特徴表現を学習するように残差トップダウン注意ネットワーク（ＲｅｓＴＤ＿１）によって残差注意プーリングが実装される。

したがって、ＲｅｓＴＤ＿ＢＰネットワーク５００の例示的な実施態様の詳細な理解のために、ここで図６及び図７に目を向けると、ＲｅｓＮｅｔ－１０１ニューラルネットワークなどの深層畳み込みニューラルネットワーク６００を通じて画像３００が入力及び処理されて、所与の各画像３００についてボトムアップ領域特徴６０２のセットを抽出する。次いで、領域提案ネットワークが中間特徴マップに対して適用されて複数の領域提案を予測し、それらの中から、非最大抑制及びＩｏＵ閾値を適用することによってサブセットのみが選択され得る。次いで、関心領域（ＲｏＩ）プーリングが展開されて、選択された各領域について典型的には固定されたサイズの特徴マップ６０４を抽出する。図６の「Ｘ」６０６によって示されるように、グローバル平均プーリングを適用する代わりに、残差トップダウン注意ネットワーク６０８を使用して領域特徴マップを注意深くプーリングすることができる。ＲｅｓＴＤ＿ＢＰネットワークの出力は、領域特徴ベクトル６１０のセットであり、これらは、図５に示され、図９～１１を参照してさらに説明されるキャプション生成ネットワーク５０４に入力される。

図７は、ボトムアップ注意ネットワーク（「ＲｅｓＴＤ＿ＢＰ」）内の残差トップダウン注意ネットワーク６０８（図では「ＲｅｓＴＤ－１」と称される）の詳細を示す。示されるように、ＲｏＩプーリング後の特定の領域の特徴マップ６０４は、示された例ではそれぞれ７ｘ７ｘ２０４８の次元を有し、ニューラルネットワークに入力される。示された例では、ニューラルネットワークは、フィードフォワード人工ニューラルネットワークとすることができ、特定の実施態様では多層パーセプトロン（ＭＬＰ）７００とすることができる。この多層パーセプトロンは、１×Ｎの形状を有する注意ベクトル７０２によって表現され得る、領域特徴のＮ個（示された例では、Ｎ＝４９）の空間的位置にわたる注意分布を学習するためにソフトマックス活性化関数に関連付けることができる。注意ベクトル７０２は、７０４で特徴６０４と結合され得、例えば、注意深いプーリングが、学習された注意ベクトル７０２とのＮ個の場所の特徴ベクトルにわたる加重和を実施することによって実行されて、１×２０４８の次元を有し得る注意深くプーリングされたグローバル特徴ベクトル７０５が生じ得る。

トップダウン注意を導くためにボトムアップ注意ネットワークに追加のコンテキスト情報が導入されていないことを認めて、注意深いプーリングから重要な情報が失われるのを防ぐために残差モジュールがトップダウン注意ネットワーク内に実装される。より具体的には、注意深くプーリングされた特徴ベクトル７０５は、例えば、要素ごとの加算を使用して、７０６で、テスト中の領域の平均プーリングされたグローバル特徴ベクトル６１０Ａと結合されて、その領域の最終特徴ベクトル７０８を出力する。

図８は、プログラミングの制限という意図ではなく、説明を容易にするためのフローチャート形式で、図７及び８のシステムで具現化されるロジックを示す。ブロック８００から始まって、畳み込みニューラルネットワーク（ＣＮＮ）は、ＣＮＮに入力される画像から特徴マップを生成する。ブロック８０２に移動すると、少なくとも特徴マップのうちの第１の特徴マップが、多層パーセプトロン（ＭＬＰ）などのニューラルネットワークを使用して処理されて、画像の少なくとも１つの特徴を表す、注意深くプーリングされたグローバル特徴ベクトルを生成する。ブロック８０４に進むと、注意ベクトルは、第１の特徴マップと結合されて出力特徴ベクトルをレンダリングし、この出力特徴ベクトルは、ブロック８０６で、第１の特徴マップから導出された平均プーリングされた特徴ベクトルなどのプーリング済みの特徴ベクトルと結合されて最終特徴ベクトルをレンダリングする。最終特徴ベクトルは、キャプション生成ネットワークに到達して、画像の自然言語のキャプションを生成することができる。

ここで、図５に示されたキャプション生成ネットワーク５０４（本明細書では残差トップダウン注意ＬＳＴＭ（ＲｅｓＴＤ＿ＬＳＴＭ）モジュールと称され、明確にするために複数のモジュール５０６のうちの１つのみを示す）を理解するために図９～１１に目を向けると、図５のネットワーク５００からの領域特徴ベクトル５０２のセットは、各タイムステップでキャプションを単語単位で予測するための入力である。残差トップダウン注意を適用することにより、各タイムステップで、キャプション生成ＬＳＴＭは、選択的な領域に注意を向け、キャプション単語を注意深く生成することが可能である。

示されたように、例示的なＲｅｓＴＤ＿ＬＳＴＭは、残差トップダウン注意モデル及び長短期記憶（ＬＳＴＭ）ベースのキャプション予測モデルを含む、２つの部分を含むことができる。時間ステップｔでのＲｅｓＴＤ＿ＬＳＴＭの多層パーセプトロン（ＭＬＰ）９００などのニューラルネットワークへの入力は、前の時間ステップから予測された単語埋め込み９０６（図９でＷ_ｅ＊Ｅ_ｙｔ－１と指定されている）、キャプション生成ＬＳＴＭからの最後の隠れ状態９０２（ｈ_ｔ－１と指定されている）、全体画像の平均プーリングされた特徴表現７０８ｘ_０、ならびに特徴のセット（以下の図１０でＸ_ｂと指定されている）の中からのグローバルに平均プーリングされたボトムアップ領域特徴９０４Ａ（ｘ_ｂと指定されている）を含む、コンテキスト情報を含む。図５のボトムアップ特徴ベクトル５０２は、図９でＸ_ｂと指定されたものと同じであることに留意されたい。

コンテキスト情報は、例えば、連結または加算により、２つのグローバルな画像表現と結合され、ＭＬＰ９００に供給されて、学習された汎用コンテキストベクトル９０８（ｘ_ｃｔ－１と指定されている）を、ＲｅｓＴＤ＿２と指定され、図１０で詳細に示される第２の残差トップダウン注意ネットワーク９１０を導くための入力として出力する。コンテキストベクトル９０８（ｘ_ｃｔ－１）、及びボトムアップ特徴ベクトル５０２のセットを入力として受け取って、ＲｅｓＴＤ＿２モデル９１０は、入力されたボトムアップ領域特徴ベクトルにおける注意分布を学習し、予測される単語により関連性のある特定の領域に選択的に注意を向ける。汎用特徴ベクトル９１２は、モジュール９１０によって出力され、９１４でコンテキストベクトル９０８ｘ_ｃｔ－１と結合される。状態９１４からの結合は、図９においてｙ_ｔと指定されたキャプションの次の単語９１８を予測するために共にＬＳＴＭモジュール９１６に入力される。ＬＳＴＭ９１６はまた、最後の隠れ状態９０２（ｈ_ｔ－１）を入力として受け取り、次の入力段で使用するために現在の隠れ状態９２０（ｈ_ｔ）を出力することに留意されたい。

図１０は、図９に示されたＲｅｓＴＤ＿２モジュール９１０の詳細を示す。先に説明された図７のＲｅｓＴＤ＿１モジュールと同様に、図９のＲｅｓＴＤ＿２は、予測される次の単語により関連する特定の領域を選択するのに役立つ残差トップダウン注意ネットワークであることに留意されたい。しかしながら、図１０のモジュールは、図７のモジュールとは対照的に、ＭＬＰによって実装され得る第１のニューラルネットワーク１０００で、入力特徴ベクトルＸ_ｂのセット５０２を受信することに加えて、ＭＬＰによって実装され得る第２のニューラルネットワーク１００２で、入力されたボトムアップ領域特徴ベクトルのセットにおける注意分布を学習するのに役立つようにコンテキストベクトル９０８（ｘ_ｃｔ－１）をも受信する。ニューラルネットワーク１０００、１００２の出力は、（例えば、加算を使用して）１００４で結合され、第３のニューラルネットワーク１００６に入力される。この第３のニューラルネットワークもＭＬＰによって実装され得る。

第３のＮＮ１００６は、別の注意ベクトル１００８を出力し、この注意ベクトルは、１０１０で（例えば、乗算などによって）入力特徴ベクトルＸ_ｂのセット５０２と結合されて、一実施形態では注意深くプーリングされたグローバル特徴ベクトルである積１０１２を生成する。次に、積１０１２は、１０１４で、グローバルに平均プーリングされたボトムアップ領域特徴９０４Ａ（ｘ_ｂと指定されている）と（例えば、加算によって）結合されて、汎用特徴ベクトル９１２を出力として生成する。したがって、重要な特徴情報の漏洩を防ぐために、キャプション生成モジュール内にも残差モジュールが実装される。

図１１は、プログラミングの制限という目的ではなく、説明を容易にするためのフローチャート形式で、図９及び１０のシステムで具現化された論理を示す。ブロック１１００で始まって、画像の特性を表す特徴ベクトルが、第１のニューラルネットワーク（ＮＮ）（図１０のネットワーク１０００など）を使用して処理される。ブロック１１０２に移動すると、第２のＮＮ（図９の最初のＮＮ９００など）によって出力されたコンテキストベクトルが、第３のＮＮ（図１０に示されたＮＮ１００２など）を使用して処理される。ブロック１１０４で、第１のＮＮの出力が（図１０の１００４などで）第３のＮＮの出力と結合されて第４のＮＮ（ＮＮ１００６など）への入力をレンダリングして、ブロック１１０６で注意ベクトル１００８をレンダリングする。本質的に、一実施形態では、ブロック１１０６で、結合された特徴ベクトルは、注意ベクトルを生成するために第３のＭＬＰに埋め込まれる。

ブロック１１０８に移動すると、注意ベクトルは、（１０１０などで）特徴ベクトルのうちの１つ以上と結合されて、結合ベクトル（注意深くプーリングされた特徴ベクトルであり得る積１０１２など）をレンダリングする。ブロック１１０８で、入力された領域特徴ベクトルを注意ベクトルと融合させて／プーリングして、簡略的に「結合ベクトル」と称される、注意深くプーリングされたグローバル特徴ベクトルを出力することができる。

ブロック１１１０に進むと、注意深くプーリングされた特徴ベクトルは、特徴ベクトルから導出されたプーリング済みのベクトル（グローバルに平均プーリングされたボトムアップ領域特徴９０４Ａなど）と結合されて、注意ベクトル（注意特徴ベクトル９１２など）をレンダリングする。ブロック１１１２で、注意ベクトルは、画像を説明する少なくとも１つの単語を生成するためにＬＳＴＭによって処理される。

図１２及び１３は、代替的なキャプション生成ネットワーク１２００（ＲｅｓＴＤ＿ＬＳＴＭとラベル付けされている）を示す。代替的なキャプション生成ネットワーク１２００は、第１のＬＳＴＭセル１２０２によって実装され得る第１のニューラルネットワークを含む。第１のＬＳＴＭセル１２０２は、画像特徴情報をコンテキスト情報と結合する。一例では、第１のＬＳＴＭセル１２０２は、これらの２つの情報を連結して、図１２でｈ^１ _ｔとラベル付けされた汎用コンテキストベクトルを形成する。コンテキストベクトルは、注意分布の学習を支援するためのガイダンスとして、ＲｅｓＴＤ＿２と指定され、図１３で詳細に示される残差トップダウン注意ネットワーク１２０４に転送されるために送られる。

より一層具体的には、Ｘ_ｒｂ（図５からの領域特徴ベクトル５０２のセット）にわたる平均プーリングが取得されて、第１のＬＳＴＭ１２０２に入力される平均プーリングされたグローバルボトムアップ特徴ベクトル１２０６（ｘ_ｒｂとラベル付けされている）が得られる。領域特徴ベクトルのセットＸ_ｒｂは、Ｎ個の異なる領域の特徴表現のみをカバーしていることを認めると、全体画像のいくつかの特徴を欠いている。データ損失の問題を解決するために、全体画像のグローバル特徴ベクトル１２０８（図１２で上に平均線が付いたＸとラベル付けされている）が第１のＬＳＴＭ１２０２に入力される。このグローバル特徴ベクトルは、セットＸにわたってグローバル平均プーリングを行うことによって取得することができる。

加えて、第１のＬＳＴＭ１２０２は、入力として、コンテキスト情報の２つの構成要素１２１０、１２１２、具体的には、前の時間ステップから予測された単語埋め込み（図１２でＷ_ｅｅ_ｗｔ－１とラベル付けされている）、及び図１２でＬＳＴＭ＿２とラベル付けされた第２のＬＳＴＭセルによって実装され得るキャプション生成ニューラルネットワーク１２１４の前のタイムステップにおいて取得された隠れ状態（ｈ_ｔ－１ ^２とラベル付けされている）を受信する。ｈ^１ _ｔとラベル付けされた第１のＬＳＴＭ１２０２の出力１２１６は、ニューラルネットワーク１２０４に送られる汎用コンテキストベクトルである。

汎用コンテキストベクトルは、以下のように計算され得ることに留意されたい。

ｈ^１ _ｔ＝ＬＳＴＭ（［ｈ^２ _ｔ－１；ｘ；ｘ_ｒｂ；Ｗ_ｅ１_ｗｔ－１］；ｈ^１ _ｔ－１）；式中、Ｗ_ｅ１_ｗｔ－１は、単語ｗ_ｔ－１のワンホット埋め込みであり、Ｗ_ｅ∈Ｒ^ＭｘＶであり、Ｖは画像キャプションの語彙のサイズである。

図１２に示されるように、グローバルコンテキストベクトルｈ^１ _ｔ及び図５からの領域特徴ベクトルのセットＸ_ｒｂは、第２の残差トップダウン注意ネットワーク１２０４（ＲｅｓＴＤ＿２）に入力されて、Ｎ個の領域にわたる注意分布を学習し、それらを融合させることにより、第２のニューラルネットワーク１２１４に入力される出力コンテキストベクトル１２１８（ｘ_ｒｃｔとラベル付けされている）を取得する。第２のニューラルネットワーク１２１４はまた、入力として、前の時間ステップからの隠れ状態１２１２（ｈ^２ _ｔ－１）、及び第１のニューラルネットワーク１２０２からの汎用コンテキストベクトル１２１６（ｈ^１ _ｔ）を受信する。第２のニューラルネットワーク１２１４の出力１２２０は、現在の隠れ状態ｈ^２ _ｔである。この隠れ状態が、次のタイムステップにおいて隠れ状態１２１２としての第１のニューラルネットワーク１２０２と単層パーセプトロン１２２２との両方に入力され、次の単語ｗｔを予測するためのソフトマックス関数１２２４が続く。具体的には、タイムステップｔでの次の可能な単語の分布は、
ｐ_θ（ｗ_ｔ｜ｗ_１，．．．ｗ_ｔ－１）＝σ（Ｗ_ｗｈ^２ _ｔ）であり、式中、Ｗ_Ｗ∈Ｒ^ＨｘＶ及びθはモデルパラメータである。タイムステップｔ－１で予測される単語は、
ｗ_ｔ＝ａｒｇｍａｘ（ｗ）ｐ_０（ｗ｜ｗ_１，．．．ｗ_ｔ－１）である。

例では、一連のグラウンドトゥルースの単語ｗ^＊＝（ｗ^＊ _１，．．．ｗ^＊ _Ｔ）が与えられ、クロスエントロピー損失を最小化することによって画像キャプショニングネットワークを訓練することができる。一例では、クロスエントロピー損失Ｌ（θ）は、ｌｏｇｐ_θ（ｗ^＊ _ｔ｜ｗ^＊ _１，．．．ｗ^＊ _ｔ－１）のｔ＝１からＴにわたる合計である。

ここで、図１２に示されたＲｅｓＴＤ＿２ネットワーク１２０４の理解のために図１３に目を向けると、この残差トップダウン注意ネットワークは、予測される次の単語により関連性のある特定の領域に選択的に注意を向ける。図１３に示されるように、領域特徴ベクトルＸ_ｒｂは、単層パーセプトロンによって実装され得る第１のニューラルネットワーク１３００に送られる一方、コンテキストベクトル１２１６（ｈ^１ _ｔ）は、第２のニューラルネットワーク１３０２に入力される。この第２のニューラルネットワークも単層パーセプトロンによって実装され得る。第１及び第２のＮＮ１３００、１３０２の出力は、一例では要素ごとに合計することなどによって１３０４で結合されて、ｘ_ｓｔとラベル付けされた結合出力１３０６を生成し、この出力は次に、第３のＮＮ１３０８に入力される。この第３のＮＮも、２層パーセプトロンなどのＭＬＰによって実装され得る。第３のＮＮ１３０８によって学習される出力１３１０は、Ｎ個の領域特徴ベクトルの注意分布である。具体的には、
ｘ_ｓｔ＝σ（Ｗ_ｈｈ^１ _ｔ[+]σ（Ｗ_ｒＸ_ｒｂ））；（ここで[+]は直和を示す）及び
β_ｔ＝σ（Ｗ_ｓ２σ（Ｗ_ｓ１ｘ_ｓｔ））であり、式中、Ｗ_ｒ∈Ｒ^ＫｘＤ、Ｗ_ｈ∈Ｒ^ＫｘＭ、Ｗ_ｓ１∈Ｒ^ＰｘＫ、及びＷ_ｓ２∈Ｒ^Ｋである。入力された領域特徴ベクトルβ_ｔにわたる注意分布が与えられると、１３１２で、Ｎ個の異なる領域特徴を第１のＮＮ１３００の出力と結合して（例えば、融合させて）、β_ｉｘ_ｒｂｉのｉ＝１～Ｎにわたる合計に等しいコンテキスト特徴ベクトル１３１４（ｘ_ｃｔとラベル付けされている）を出力することができる。

１３１６で、注意深いプーリングにおける情報損失を防ぐために、コンテキスト特徴ベクトル１３１４（ｘ_ｃｔとラベル付けされている）は、グローバル特徴ベクトル１２０６と（例えば、連結などによって）結合され得る。このグローバル特徴ベクトルは、Ｘ_ｒｂにわたる平均プーリングを使用して取得され、再現され得る。これにより、汎用コンテキスト特徴ベクトル１２１８（図１２でｘ_ｒｃｔとラベル付けされている）＝ｘ_ｃｔ[+]ｘ_ｒｂ（ここで[+]は直和を示す）が得られる。

ここで、ゲームシーンを理解するためのマルチレベルの残差注意ベースの画像キャプショニングモデルが、ボトムアップ注意をトップダウン注意と統合することによって提供されることが認識され得る。最初に、トップダウン注意からの学習済みの注意の重みとの特徴融合の過程で重要な情報が失われる問題を解決するために、失われた情報を補償するのに役立つ新規の残差注意ネットワークが提供される。キャプション予測に残差注意を適用するために、新規の残差トップダウン注意ベースのＬＳＴＭユニットが提供される。加えて、残差トップダウン注意ネットワークがボトムアップ注意ネットワーク内に実装されて、より良い領域特徴表現をさらに学習する。ゲームシーンを理解するためのパフォーマンスを検証するために、ゲーム画像のキャプショニングデータセットへのアクセスがなされる。

上記で説明された注意メカニズムをさらに示すために、異なるタイムステップに対応する学習済みの注意マップが視覚化され得る。具体的には、各特徴ベクトルについての学習済みの注意の重みを、再形成し、サイズ変更し、ゲーム画像上にオーバーレイすることができる。加えて、赤い境界ボックスで囲まれ得る領域は、画像上で最も重要なエリア（最大の注意の重みに対応する）を示す。

いくつかの例示的な実施形態を参照して本原理が説明されてきたが、これらは限定することを意図しておらず、各種の代替的な配置が本明細書で特許請求される主題を実装するために使用され得ることが認識されよう。

Claims

少なくとも１つのプロセッサと、
一時的信号ではない少なくとも１つのコンピュータ記憶装置であって、前記少なくとも１つのプロセッサにより、
画像を受信することと、
畳み込みニューラルネットワーク（ＣＮＮ）を使用して前記画像を処理して特徴マップを生成することと、
ニューラルネットワーク（ＮＮ）を使用して少なくとも前記特徴マップのうちの第１の特徴マップを処理して前記画像の少なくとも１つの特性を表す少なくとも１つの注意ベクトルを生成することと、
前記注意ベクトルを前記第１の特徴マップと結合して出力特徴ベクトルをレンダリングすることと、
前記出力特徴ベクトルを前記第１の特徴マップから導出されたプーリング済みの特徴ベクトルと結合して最終特徴ベクトルをレンダリングすることと、
少なくとも前記最終特徴ベクトルをキャプション生成ネットワークに入力して前記画像の自然言語のキャプションを生成することとを行うように実行可能な命令を含む前記少なくとも１つのコンピュータ記憶装置とを含む、装置。
前記命令を実行する前記少なくとも１つのプロセッサと、人間が知覚できる形式で前記キャプションを提示するための少なくとも１つの出力デバイスとを含む、請求項１に記載の装置。
前記画像がビデオゲームからの画像である、請求項１に記載の装置。
前記ＮＮが多層パーセプトロン（ＭＬＰ）を含む、請求項１に記載の装置。
前記命令が、前記出力特徴ベクトルをレンダリングするために前記注意ベクトルとの前記第１の特徴マップ内の特徴ベクトルにわたる加重和を実行することによって前記注意ベクトルを前記第１の特徴マップと結合することを行うように実行可能である、請求項１に記載の装置。
前記命令が、前記出力特徴ベクトルと前記プーリング済みの特徴ベクトルとの要素ごとの加算を実行することによって前記出力特徴ベクトルを前記プーリング済みの特徴ベクトルと結合することを行うように実行可能である、請求項１に記載の装置。
前記命令が、前記出力特徴ベクトルを前記プーリング済みの特徴ベクトルと連結することによって前記出力特徴ベクトルを前記プーリング済みの特徴ベクトルと結合することを行うように実行可能である、請求項１に記載の装置。
一時的信号ではない少なくとも１つのコンピュータ記憶装置であって、少なくとも１つのプロセッサにより、
少なくとも１つの畳み込みニューラルネットワーク（ＣＮＮ）を含む特徴生成モジュールを使用して画像を処理してボトムアップ特徴情報を出力することと、
前記ボトムアップ特徴情報を、前記画像を説明する自然言語のキャプションを出力するキャプション生成モジュールに入力することとを行うように実行可能な命令を含む前記少なくとも１つのコンピュータ記憶装置を含み、
前記特徴生成モジュール及び／または前記キャプション生成モジュールが、注意ベクトルからの情報を前記特徴情報から導出された平均プーリングベクトルからの情報と結合する少なくとも１つの残差トップダウンネットワークを含む、装置。
前記特徴生成モジュールが、注意ベクトルからの情報を特徴ベクトルのソースから導出された平均プーリングベクトルからの情報と結合する少なくとも１つの残差トップダウンネットワークを含む、請求項８に記載の装置。
前記キャプション生成モジュールが、注意ベクトルからの情報を前記特徴情報に関連付けられた特徴ベクトルから導出された平均プーリングベクトルからの情報と結合する少なくとも１つの残差トップダウンネットワークを含む、請求項８に記載の装置。
前記特徴生成モジュールの前記残差トップダウンネットワークが、
少なくとも前記ＣＮＮからの第１の特徴マップを処理して前記画像の少なくとも１つの特性を表す少なくとも１つの注意ベクトルを生成するためのニューラルネットワーク（ＮＮ）を含み、
前記注意ベクトルが、前記第１の特徴マップと結合されて出力特徴ベクトルをレンダリングし、前記出力特徴ベクトルが、前記第１の特徴マップから導出されたプーリング済みの特徴ベクトルと結合されて前記キャプション生成モジュールに入力するための最終特徴ベクトルをレンダリングする、請求項９に記載の装置。
前記ＮＮが多層パーセプトロン（ＭＬＰ）を含む、請求項１１に記載の装置。
前記キャプション生成モジュールが、
前記特徴生成モジュールからの特徴ベクトルを処理するための第１のＮＮと、
コンテキストベクトルを出力するための第２のＮＮと、
前記第１及び第２のＮＮによる出力を受信して、前記第１のＮＮの出力と結合される出力を生成することにより、１つ以上のベクトルと結合するための入力をレンダリングして結果をレンダリングするための第３のＮＮとを含む、請求項１０に記載の装置。
注意ベクトルを使用して前記特徴ベクトルを注意深くプーリングすることにより、注意深くプーリングされた特徴ベクトルを生成する、請求項１３に記載の装置。
前記注意深くプーリングされた特徴ベクトルが、入力から自然言語の単語を生成するニューラルネットワークに入力するために前記平均プーリングベクトルと結合される、請求項１４に記載の装置。
入力から自然言語の単語を生成する前記ニューラルネットワークが長短期記憶（ＬＳＴＭ）モジュールを含む、請求項１５に記載の装置。
一時的信号ではない少なくとも１つのコンピュータ記憶装置であって、少なくとも１つのプロセッサにより、
第１のニューラルネットワーク（ＮＮ）を使用して画像の特性を表す特徴ベクトルを処理することと、
第３のＮＮを使用して第２のＮＮによって出力されたコンテキストベクトルを処理することと、
前記第１のＮＮの出力を前記第３のＮＮの出力と結合して入力をレンダリングすることと、
第４のＮＮを使用して前記入力を処理して注意ベクトルをレンダリングすることと、
前記注意ベクトルを前記コンテキストベクトルと結合して結合ベクトルをレンダリングすることと、
前記結合ベクトルを前記特徴ベクトルから導出されたプーリング済みのベクトルと結合して最終特徴ベクトルをレンダリングすることと、
キャプショニングＮＮを使用して前記最終特徴ベクトルを処理して、前記画像を説明する少なくとも１つの単語を生成することとを行うように実行可能な命令を含む前記少なくとも１つのコンピュータ記憶装置を含む、装置。
前記最終特徴ベクトルを処理する動作が、少なくとも部分的に長短期記憶（ＬＳＴＭ）ニューラルネットワークを使用して実行される、請求項１７に記載の装置。
前記第２のＮＮが、
前のタイムステップにおいて前記キャプショニングＮＮによって予測された単語埋め込み、
前記キャプショニングＮＮからの最後の隠れ状態、
前記画像の平均プーリングされた特徴表現、
領域特徴ベクトルのセットの中からのグローバルに平均プーリングされたボトムアップ領域特徴から選択された２つ以上の入力を含む入力に基づいて前記コンテキストベクトルを出力する、請求項１７に記載の装置。
一時的信号ではない少なくとも１つのコンピュータ記憶装置であって、少なくとも１つのプロセッサにより、
第１のニューラルネットワーク（ＮＮ）を使用して特徴ベクトルを処理することと、
少なくとも１つのコンテキストベクトルを第２のＮＮに入力することと、
第３のＮＮであって、注意情報を出力する前記第３のＮＮに入力するために前記第１及び第２のＮＮの出力を結合することと、
前記注意情報を前記第１のＮＮの出力と結合して、前記特徴ベクトルによって表現された画像のキャプションの単語を予測するのに有用なコンテキスト特徴ベクトルを出力することとを行うように実行可能な命令を含む前記少なくとも１つのコンピュータ記憶装置を含む、装置。