JP6921022B2

JP6921022B2 - 傾聴、インタラクト、及びトーク：インタラクションを介するスピーキング学習

Info

Publication number: JP6921022B2
Application number: JP2018049699A
Authority: JP
Inventors: ハイチャオザン; ハオナンユー; ウェイシュー
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2017-05-25
Filing date: 2018-03-16
Publication date: 2021-08-18
Anticipated expiration: 2038-03-16
Also published as: US11417235B2; CN108932549A; EP3407264A1; US20180342174A1; EP3407264B1; CN108932549B; JP2019023717A

Description

（関連出願の相互参照）
本願は、米国特許法第１１９条（ｅ）の下で、２０１７年５月２５日に提出された、ＨａｉｃｈａｏＺｈａｎｇ、ＨａｏｎａｎＹｕ、及びＷｅｉＸｕが発明者とする「Ｌｉｓｔｅｎ，Ｉｎｔｅｒａｃｔ，ａｎｄＴａｌｋ：ＬｅａｒｎｉｎｇｔｏＳｐｅａｋｖｉａＩｎｔｅｒａｃｔｉｏｎ」を名称とする米国仮特許出願第６２／５１１，２９５号（整理番号２８８８８−２１４９Ｐ）の優先権を主張する。前記特許書類は、参照によりその全体を本願に取り込む。

本願開示は、全体として、改善されたコンピュータの性能、特性、及び使用を提供できるコンピュータ学習のためのシステム及び方法に関する。

自然言語は、人間の最も自然なコミュニケーションの形式の1つであり、そのため、知的エージェントも自然言語を人間と交流するチャネルとして利用可能であることは、大きな価値がある。自然言語学習の最近の進展は、主として大規模な訓練データを使用する教師あり訓練に依存し、前記教師あり訓練は、通常注釈を付けるために大量な労力を必要とする。ラベリングの労力に関係なく、有望な性能はすでに多くの特定のアプリケーションにおいて実現されているが、人間がどのように学習するかとはかなり異なる。人間は、世界に行動し、それらの行動の結果から学習する。移動のような機械的な行動に関しては、結果が主として幾何学的及び機械的原理に従うが、言語に関しては、人間が話すことにより行動し、その結果が通常、会話パートナーの言葉及びその他の行為によるフィードバック（例えば、頷き）のような応答で表現される。このフィードバックは、通常、どのようにその後の会話で言語スキルを向上させるかに関する情報シグナルを含み、人間の言語習得プロセスにおいて重要な役割を果たす。

人工知能の長期的目標の1つは、人間と自然言語で知的に交流することができるエージェントを構築することにある。自然言語学習に関する大多数の従来仕事は、注釈つきラベルのある事前に収集されたデータセットによる訓練に強く依存し、実質的に固定の外部訓練データの統計データを取得するエージェントになるように導かれている。訓練データは、実質的に注釈者からの知識の静的なスナップショット表現であるため、このように訓練されたエージェントは、その行為の適応性及び一般化に限界がある。また、これは、トーキング（talking）により言語行動（speaking action）し、言語行動の結果から学習することにより、コミュニケーションの過程で言語を習得する人間の言語学習とは大きく異なる。

そこで、機械学習のためのコンピューティング装置の機能を向上させ、インタラクティブ（interactive）の設定でグラウンディングされた自然言語学習（grounded natural language learning）をするためのシステム及び方法が必要である。

本願は、傾聴、インタラクト（interact）、及びトーク（talk）：インタラクション（interaction）を介するスピーキング学習に関する。本願に係る一の実施形態によれば、インタラクションに基づく言語学習のためのコンピュータによって実現される方法であって、符号化ネットワークにおいて、視覚画像に関する１つ又は複数の単語を含む自然言語入力と初期状態とを、一の時間ステップで状態ベクトルに符号化することと、前記状態ベクトルに基づき、制御ネットワークで、出力制御ベクトルを作成する（producing）ことと、前記出力制御ベクトルに基づき、行動ネットワークで、前記自然言語入力への応答を生成することと、前記自然言語入力と生成された前記応答に基づいて、生成される教師によりフィードバックを生成することと、を含む、コンピュータによって実現する方法を提供する。

本願に係る一の実施形態において、インタラクティブの設定でグラウンディングされた自然言語学習のためのコンピュータによって実現される方法であって、視覚画像に関する1つ又は複数の単語を含む自然言語入力を、一の時間ステップで受信することと、少なくとも前記視覚画像に基づき、視覚特徴ベクトルを生成することと、符号化再帰型ニューラルネットワークにより、少なくとも前記自然言語入力に基づき、前記時間ステップに対応する状態ベクトルを生成することと、コントローラネットワークにより、少なくとも前記状態ベクトルに基づき、出力制御ベクトルを生成することと、行動再帰型ニューラルネットワークで、前記行動再帰型ニューラルネットワークの初期状態として用いられる前記出力制御ベクトルにより、前記自然言語入力への応答を生成することと、前記自然言語入力と生成された応答に基づいて、次の時間ステップにおける他の自然言語入力と、スカラー値のリワードとを含む教師によりフィードバックを生成することと、生成された前記フィードバックにより、前記符号化再帰型ニューラルネットワークと前記行動再帰型ニューラルネットワークの少なくとも1つを訓練することと、を含む、コンピュータによって実現される方法を提供する。

本願の1つの実施形態において、インタラクティブ型言語学習のためのコンピュータによって実現される方法であって、階層再帰型ニューラルネットワーク（ＲＮＮ）モデルにより、視覚画像に関する1つ又は複数の単語を含む自然言語入力を、一の時間ステップで受信することと、前記階層再帰型ニューラルネットワークモデルにより、前記自然言語入力への応答を生成することと、前記自然言語入力と生成された前記応答に基づいて、他の自然言語入力と、スカラー値のリワード（reward）とを含むフィードバックを受信することと、を含み、前記階層再帰型ニューラルネットワークモデルは、少なくとも前記自然言語入力と前記視覚画像から抽出された視覚特徴ベクトルに基づき、前記時間ステップに対応する状態ベクトルを生成するための、符号化再帰型ニューラルネットワークと、少なくとも前記状態ベクトルに基づき、出力制御ベクトルを生成するための、コントローラネットワークと、行動再帰型ニューラルネットワークの初期状態として用いられる前記出力制御ベクトルで、前記自然言語入力への応答を生成するための、行動再帰型ニューラルネットワークと、を含む、コンピュータによって実現される方法を提供する。

本発明の実施形態を参照し、その実施例を図面で示されることができる。これらの図面は限定的なものではなく、説明に用いられることを意図する。本発明は全体的にこれらの実施形態について述べるが、本発明の範囲がそれらの具体的な実施形態に限定される意図ではないと理解すべきである。図面におけるものは、比例になっていない場合がある。
本願開示の実施形態による複数のインタラクティブ型言語学習の例を示す。本願開示の実施形態による階層ＲＮＮに基づくモデルのネットワーク構造を示す。本願開示の実施形態による階層ＲＮＮに基づくモデルにおける視覚エンコーダネットワークを示す。本願開示の実施形態による階層ＲＮＮに基づくモデルにおけるコントローラネットワークを示す。本願開示の実施形態によるインタラクションに基づく言語学習のための方法を示す。本願開示の実施形態による視覚エンコーダで視覚特徴ベクトルを生成するための方法を示す。本願開示の実施形態によるコントローラネットワークで制御ベクトルを生成するための方法を示す。本願開示の実施形態による言語学習評価の一部の結果を示す。本願開示の実施形態による生成された注意力マップに伴う一部の視覚化の例を示す。本願開示の実施形態による生成された注意力マップに伴う一部の視覚化の例を示す。本願開示の実施形態による生成された注意力マップに伴う一部の視覚化の例を示す。本願開示の実施形態による生成された注意力マップに伴う一部の視覚化の例を示す。本書類の実施形態によるコンピューティング装置／情報処理システムの概略ブロック図を示す。

以下の説明において、説明を目的として、本発明の理解を提供するために、具体的な詳細が記述される。しかしながら、本発明はこれらの詳細があるか否かにかかわらず実施することができることは当業者に対して自明である。さらに、当業者は、以下に記載された本発明の実施形態が、プロセス、装置、システム、デバイス、又は方法のような様々な形式で、有形的なコンピュータ読み取り可能な媒体によって実現することができると認識する。

図表に示される要素又はモジュールは、本発明の例示的実施形態の説明のためのものであり、本発明がぼやけることを回避することを意図する。また、本明細書の全体を通して理解すべきこととして、要素がサブユニットを含むことができる分立機能ユニット（separate functional units）として記載することができるが、当業者は、各種の要素又はその一部が、分立する要素に分割してもよく、又は一つのシステム又は一つの要素に集積することを含む一体化することができることを認識している。なお、本明細書で論述される機能又は動作は、要素として実装することができる。要素は、ソフトウェア、ハードウェア、又はそれらの組み合わせにより実現することができる。

さらに、図面における要素又はシステムの間の接続は、直接接続に限定することを意図するものではない。むしろ、これらの要素の間のデータは、中間要素により変更し、再フォーマットし、又はその他の方法で改変することができる。また、追加の又はより少ない接続も用いることができる。なお、「連結」、「接続」、又は「通信可能に接続」は、直接的に接続され、1つ又は複数の中間装置を通じて間接的接続され、及び無線による接続を含むものと理解すべきである。

明細書における「一実施形態」、「好ましい実施形態」、「実施形態」又は「複数の実施形態」への言及は、当該実施形態との関係で記載されている特定の特性、構造、特徴、又は機能が、本発明の少なくとも1つの実施形態に含まれ、1つ以上の実施形態に含まれることができることを意味する。また、明細書における多くの箇所で現れる前記フレーズは、必ずしも全て同じ実施形態を指すものとは限らない。

明細書における多くの箇所における特定の用語の使用は、説明のために用いられるものであり、限定的に解釈されるべきではない。サービス、機能、又はリソースは、単一のサービス、機能、又はリソースに限定することなく、これらの用語の使用は、分散式でも集合式であってもよい関連のサービス、機能、又はリソースの群を指すことがある。注意すべきこととして、「センテンス」への言及、形式的に適切かつ完全なセンテンスを形成するか否かにかかわらず、1つ又は複数の単語の任意のセットを意味すると理解すべきであり、本明細書で用いられる「センテンス」は、大文字による表記及び／又は句読法が正しいでなければならないことを求めない。

「含む」（include）、「含み」（including）、「含有する」（comprise）、及び「含有」（comprising）という用語は、開放式用語であり、次のいずれにリストされるのは例示であり、挙げられた内容に限定する意味ではないと理解すべきである。本明細書で用いられたタイトルは、構造的な目的のみに使用され、明細書又は請求項の範囲を限定するために用いられるものではない。本特許開示に言及したそれぞれの文献は、その全体を引用することにより本明細書に取り組まれる。

さらに、当業者は（１）特定のステップの実行が任意的であるとすることができる。（２）特定のステップが本明細書で記述される具体的な順序に限定されなくてもよい。（３）特定のステップが異なる順序で実行することができる。及び（４）特定のステップが同時に実行することができることを認識すべきである。

なお、注意すべきこととして、本明細書で記載のいずれの実験及び結果は、例示的に提供され、具体的な1つ又は複数の実施形態を使用して、具体的な条件の下で実行されるものである。よって、含まれる実験又はそれらの結果は、現在の特許文献の開示の範囲を限定するために使用されるものではない。
Ａ．序言

自然言語は、人間の最も自然なコミュニケーションの形式の1つであり、そのため、知的エージェントも自然言語を人間と交流するチャネルとして利用できることは大きな価値がある。最近の自然言語学習の進展は、主として膨大な訓練データを使用する教師あり訓練に依存し、前記教師あり訓練は、通常注釈を付けるために大量な労力を必要とする。ラベリングの労力に関係なく、有望な性能はすでに多くの特定のアプリケーションにおいて実現されているが、人間がどのように学習するかとはかなり異なる。人間は、世界に行動し、それらの行動の結果から学習する。移動のような機械的な行動に関しては、結果が主として幾何学的及び機械的原則に従うが、言語に関しては、人間が話すことにより行動し、その結果が通常会話パートナーの言葉及びその他の行為によるフィードバック（例えば、頷き）のような応答である。このフィードバックは、通常、どのようにその後の会話で言語スキルを向上させるかに関する情報シグナルを含み、人間の言語習得プロセスにおいて重要な役割を果たす。

乳児の言語習得プロセスは、人間の知性の表現として印象が付けられると共に、コンピュータによる言語学習に対して、新しい設定及びアルゴリズムの設計に示唆を与える。例えば、乳児は、人とインタラクトして、真似及びフィードバックにより学習する。スピーキング学習に関して、乳児は、最初的に彼の会話パートナー（例えば、親）を真似することにより言葉行動を実行し、単語（センテンス）を生成するスキルを身につける。親がりんご又はその画像を指して「これはりんごだ」と言う際に、彼は視覚画像から単語との関連性を取得することもできる。その後、物体を指しながら、乳児に「これはなんだ？」のような質問をすることができ、初期段階でよくみられるように、乳児が応答しない又は応答が不正確の場合は、正確な回答を提供する。同時に、彼が正確に回答した場合は、リワードフィードバックとして、頷き／微笑み／キス／抱擁と共に言語確認（例えば、「はい／いいえ」）をさらに提供することができる。乳児の視点から、言語を学習する方法は、親に言葉を語り、親からの訂正／確認／激励に基づいて、その言語行為を調整することである。

この例から、言語学習プロセスは本質的にインタラクティブであり、前記インタラクティブに対して、従来の教師あり学習設定に使用されたような静的データセットにより取得することが潜在的に困難な特性があることが明らかになる。乳児の言語学習プロセスにより示唆を得て、グラウンディングされた自然言語学習に関して、図１に示されるように、教師と学習者が自然言語で互いにインタラクトすることができる、新しいインタラクティブ設定の実施形態が提案される。

図１（ａ）は、訓練の間で、教師が自然言語で、物体について学習者とインタラクトすることを示す。インタラクションの態様として、（１）質問−回答−フィードバック、（２）陳述−復唱−フィードバック、又は（３）学習者からの陳述及びその後の教師からのフィードバックである。複数の実施形態において、訓練の間で、特定の物体−方向の組み合わせ又は物体のセット（インアクティブ組み合わせ／物体と称する）に対して、特定のインタラクションの態様を排除することがある。例えば、｛アボカド，東｝の組み合わせは、質問−回答セッションに現れていない。物体であるオレンジは、質問−回答セッションに現れることなく、陳述−復唱セッションのみに現れている。教師は、センテンスのフィードバック及びリワードシグナル（reward signal）（図において、［＋］と［−］として表記される）の両者を提供する。図１（ｂ）は、テストの間で、教師が周りの物体について質問することができ、前記質問は、例えば、｛アボカド、東｝の組み合わせについての質問と、オレンジについての質問のような、以前質問をしたことのないインアクティブ組み合わせ／物体に関する質問をも含む。このテストの設定は、組み合わせ一般化と知識伝達設定を含み、提案されたアプローチを評価するために用いられる（セクションＤ参照）。

この設定において、教師あり学習設定の場合のような学習者の行為を監督するための直接な指導がない。代わりに、学習者は、学習するために行動しなければならず、即ち、現在習得されたスピーキングスキルで会話に参加することにより、会話スキルのさらなる向上のための学習シグナルが提供される対話パートナーからのフィードバックを取得する。

学習のフィードバックを利用するために、教師を直接的に（例えば、言語モデルを使用して）真似することが魅力的である。どのように話すかを学習する実行可能なアプローチであるが、単純な模倣により訓練されたエージェントは、強化シグナルが無視されているため、必ずしも文脈において適応的に会話することができるわけではない。例として、真似することだけ得意なよく訓練されたオウムとうまく会話をすることは困難である。その原因として、学習者が第三者視点から、会話する教師を真似するところにあり、視点が教師から学習者に変更したため、「はい／いいえ」及び「あなた／わたし」のような教師のセンテンスにおける特定の単語を、除去／変更する必要の場合があるからである。これは、模倣だけでは実現できない。一方、模倣せずに、単純に強化シグナルを使用して適切な会話的行動を生成することもチャレンジ的である。その根本的な原因はスピーキング能力がないことにあり、それによって、ランダムに発言することにより意味が通じるセンテンスを生成する確率が低く、まして適切なものを生成することが難しいことは言うまでもない。これは、乳児が、言語関連の模倣について最も重要なチャンネルの1つである傾聴力がない場合に、それらの言語能力を発展させることがまったくない事実による例示である。

本明細書において、これらの限界の両方ともに克服し、インタラクティブ言語学習のための共同模倣及び強化モデルの実施形態が開示される。開示されたモデルが、共同学習のために、教師からの言葉とリワードフィードバックを利用することにより、模倣又は強化の単独の一方だけで遭遇する困難を克服する。本発明の一部の貢献は、次のようにまとめられる。

− 新しい人間らしいインタラクションに基づくグラウンディングされた言語学習設定を提案する。当該設定で、言語は、自然言語で環境（教師）とインタラクトすることにより学習する。

− インタラクションの間で、教師からのフィードバックを利用することにより、インタラクティブの設定で、共同模倣及び強化によってグラウンディングされた自然言語学習アプローチを提案する。

複数の実施形態において、模倣及び強化は、インタラクティブの設定で、グラウンディングされた自然言語学習のために共有される。

本明細書は、次のように構成される。セクションＢは、自然言語学習に関する一部の関連技術の概要を簡単に述べる。セクションＣは、インタラクションに基づく自然言語学習の課題の公式（formulation）を紹介し、その後、実施形態に対する詳細な説明を紹介する。セクションＤは、複数の詳細な実験を開示して、インタラクティブの設定で提案するアプローチの言語学習能力を示す。セクションＥは、一部の結論を挙げる。
Ｂ．関連仕事

ネットワークに基づくディープ言語学習は、近来大きく成功しており、既に、例えば、機械翻訳、画像字幕（image captioning）／視覚質問応答、及び対話応答の生成（dialogue response generation）のような様々なアプリケーションに適用されるようになっている。訓練については、ソース−ターゲットペア（source-target pairs）を含む大量な訓練データが必要で、通常、かなり努力して収集することが必要である。この設定は、本質的に、訓練データの統計資料を取得するもので、言語学習のインタラクティブ性質が配慮されていないため、人間の学習方法とは大きく異なる。

従来の言語モデルは教師ありの方式で訓練されたが、近来、訓練に強化学習を用いる研究がいくつか行われている。このような研究は、主に、微分不可能な特定のリワード関数に基づいて、教師ありの方法で予め訓練された言語モデルの性能を調整する課題の解決を目的とし、前記リワード関数は、そのまま標準のＢＬＥＵコアのような評価指標、手動的に設計された関数、又は対抗的設定（adversarial setting）で学習された指標であり、強化学習の使用につながる。これらと異なり、本明細書における主としての焦点の1つとして、特定な評価指標に向けて具体的なモデル出力を最適化することではなく、インタラクティブ設定及びモデル設計における言語学習の可能性にある。

交流する学習と言語の出現にはいくつかの研究がある。出現した言語は、後処理を介して解釈されることが必要である。それと異なり、本開示における実施形態は、エージェントの言語行動が何らかの後処理をすることなく容易に理解できるように、理解と生成（即ち、スピーキング）の視点から自然言語の学習を実現することを目的とする。また、推測者が回答者への質問で追加情報を収集することにより、最終的な目標（例えば、分類／ローカライゼーション）を実現しようとする推測者／回答者設定を用いる対話学習に関する研究もある。これらの研究は、推測者に最終的な推測目標の実現を助けるために、質問される質問を最適化しようとする。そのため、その注目するところが、本明細書における複数の実施形態のように、教師とのインタラクションによる言語学習の目標とは大きく異なる。

本明細書における一態様は、モデルの実施形態が自然言語空間（natural language space）で行動を出力するという意味で、強化学習に基づく自然言語行動空間における制御にも関連する。複数の実施形態において、テキスト対話による言語学習は既に検討される。複数の関連技術において、候補シーケンスのセットが提供され、所要の行動は候補セットから1つを選択することであるため、本質的には離散制御の問題になる。それに対して、本開示の実施形態は、全ての可能なシーケンスを含む潜在的に無限のサイズの行動空間で、連続的空間における制御によるセンテンスの生成を実現する。
Ｃ．インタラクションに基づく言語学習の実施形態

このセクションにおいて、提案したインタラクションに基づく自然言語学習アプローチの実施形態を紹介する。1つの目標は、バーチャル教師でも人間でもよい教師とインタラクトすることにより会話を学習することができる、学習エージェントを設計することにある（「エージェント」という用語は、本明細書における文脈により、「学習者」と互換して用いることができる。）（図１−２参照）。時間ステップｔで、教師は、視覚画像ｖにより、センテンスｗ^tを生成し、前記センテンスは、質問（例えば、「東に何がある」、「りんごはどこ」）、陳述（例えば、「バナナは北にある」）、又は空白センテンス（「。」と表記する）であってもよい。学習者は、教師のセンテンスｗ^tと視覚内容ｖを受信し、教師へのセンテンスの応答ａ^tを生成する。その後、教師は、その応答により、センテンスｗ^t+1及びリワードｒ^t+1の形式で、学習者にフィードバックする。センテンスｗ^t+1は、教師からの言語フィードバック（例えば、「はい、東にはチェリーがある」、「いいえ、りんごが東にある」）を表し、ｒ^t+1は、インタラクションの間でも自然に表す頷き／微笑み／キス／抱擁のような非言葉的確認フィードバックをモデル化する。そのため、問題は、教師のセンテンス及びリワードフィードバックからグラウンディングされた自然言語を学習することができるモデルを設計することにある。積極的なリワードのみで教師からのセンテンスのサブセットより学習することによる教師あり訓練として、問題を公式化（Formulation）することは有望に見えるが、このアプローチについては、前記のように、視点の変更による問題のため、機能しない。問題の公式化と実施形態の詳細は、以下に示す。
１．問題の公式化

複数の実施形態において、エージェントからの応答は、可能な出力シーケンスにわたって確率分布からのサンプルとしてモデル化することができる。具体的には、1つの場面に対して、時間ステップｔまでに教師から視覚入力ｖ及びテキスト入力ｗ^1:tを与え、エージェントからの応答ａ^ｔは、言語行動の方策分布（policy distribution）

からサンプリングすることにより生成することができる。

複数の実施形態において、エージェントは、発言ａ^tを出力し、時間ステップｔ+1で教師からのフィードバックを

として受信することにより、教師とインタラクトする。ｗ^t+1は、半分の確率で接頭語（はい／いいえ）を加えるように、ｗ^tとａ^tに応じた言語確認／訂正を表すセンテンスの形式であってもよい（図１−２参照）。リワードｒ^t+1は、エージェント発言ａ^tの正確さにより、正値が激励を表し、負値が激励しないを表すスカラー値フィードバックであってもよい。インタラクションに基づく言語学習のタスクは、教師と会話し、教師のフィードバックFから向上することによる学習と称することができる。数学的に、当該問題は、下記コスト関数の最小化として公式化することができる。

ここで、

は教師から生成されるすべてのセンテンスのシーケンスSにわたる期待値であり、ｒ^t+1は時間ステップｔで方策

に従って言語行動をとってから、時間ステップｔ+1で受信される中間リワードであり、γがリワード割引因子（reward discount factor）である。[γ]^tは、上付き添字で区別付けるように、γに対する冪乗と示すことができる。両方の要素に対して、訓練シグナルは教師とのインタラクションを介して取得することができ、当該タスクは、インタラクションに基づく言語学習と呼ばれる。模倣部に対して、本質的に教師の言語応答ｗ^t+1から学習し、その言語行動の結果としてのみ取得することができる。強化部に対して、教師のリワードシグナルｒ^t+1から学習し、同じように、言語行動をとってから取得し、次の時間ステップで受信する。提案するインタラクティブ言語学習の公式は、２つの構成を集約し、会話によるインタラクションの間で自然的に出現するフィードバックを充分に利用することができる。

− 複数の実施形態において、模倣は、学習者自身との会話の間で教師の行為を観察することによりグラウンディングされた言語モデルを学習する役割を果たす。これは、学習者に文脈内において話すという基本能力を持たせることを可能にする。複数の実施形態において、ここでの訓練データは、明示的なグラウンドトルス（ground-truth）のラベリングがされていない、教師からのセンテンスであり、予想される正解とその他のものが混在している。訓練の一の態様は、未来を予測することにより行われる。より具体的には、複数の実施形態において、モデルは、単語レベルで次の未来の単語を予測し、センテンスレベルで次の言語入力（例えば、次のセンテンス）を予測する。別の重要なポイントとして、学習者が、教師と会話する他の専門家の学生ではなく、彼と会話する教師を模倣するため、上記実施形態は実質的に第三者模倣である。

− 複数の実施形態において、強化（本明細書全体にわたって、強化は、強化／リワードシグナルから学習するモジュールの実施形態を表し、文献に出現するような強化アルゴリズムとは区別すべきである）は、行動方策分布を調整することにより適切に会話することを学習するように、教師からの確認フィードバックを利用する。学習者に習得したスピーキング能力を利用して、フィードバックにより適応させることを可能にする。ここで、学習シグナルは、リワードの形式で提示する。これは、親との試行錯誤により習得した言語スキルを利用して、リワードフィードバックにより改善を図る乳児の言語学習プロセスに類似する。

なお、模倣及び強化は、式（２）において２つの別々の要素として示しているが、両方の訓練シグナル形式を充分に利用するために、それらは共有パラメータを介して結びつくことができる。セクションＤにおける実験で実証されるように、この共同学習の態様は、模倣又は強化のみによるあまり効果的でないアプローチに比較して、成功な言語学習の実現にとって重要である。
２．アプローチ

図２は、複数のセンテンスを跨って及びセンテンスにおける順次構造を取り込むために用いられる階層再帰型ニューラルネットワーク（ＲＮＮ）モデルの実施形態２００を示す。複数の実施形態において、階層ＲＮＮモデルの実施形態２００は、符号化ＲＮＮ２２０と、行動ＲＮＮ２４０と、コントローラ２５０とを含む。図３は、階層ＲＮＮに基づくモデルにおける例示的な視覚エンコーダネットワークの実施形態３００を示す。図４は、階層ＲＮＮに基づくモデルにおける例示的なコントローラネットワークの実施形態４００を示す。図２に示される様々なアルゴリズムアイコンに対応する注釈は、図３及び図４にも適用可能である。

図５は、本願開示の実施形態によるインタラクションに基づく言語学習のための方法を示す。時間ステップｔで、符号化ＲＮＮ２２０は、教師からの視覚画像２０２に関する１つ又は複数の単語を含む自然言語入力ｗ^ｔと履歴情報（又は初期状態）とを、状態ベクトル

に符号化する（５０５）。複数の実施形態において、自然言語入力は自然言語センテンスである。複数の実施形態において、符号化ＲＮＮ２２０は、状態ベクトル

を生成するために、視覚エンコーダ２１０から、視覚特徴ベクトルの出力をさらに受信する。視覚エンコーダの追加の詳細は、図３に記載される。

ステップ５１５で、制御ベクトルｋ^ｔは、教師のセンテンスへの応答ａ^ｔを生成するための行動ＲＮＮに入力される。複数の実施形態において、行動ＲＮＮ２４０は、さらに、応答ａ^ｔを生成するために、視覚エンコーダ２１２からの出力を受信する。視覚エンコーダ２１０及び２１２の両方は、同一の視覚画像２０２に対して視覚符号化動作を実施する。複数の実施形態において、視覚エンコーダ２１０及び２１２は、パラメータを共有する。ステップ５２０で、教師は、ｗ^ｔ及びａ^ｔの両方により、フィードバック

を生成する。ステップ５２５で、行動コントローラへの入力として用いられることに加え、状態ベクトルは、次の時間ステップに伝送され、ｗ^ｔ＋１から学習するための次のステップ

における符号化ＲＮＮの初期状態として用いることにより、時間ステップのスケールでもう１つの繰り返しレベルを形成する。

時間ステップｔで、符号化ＲＮＮは、教師のセンテンス（「りんごはどこ」）と、視覚エンコーダ

からの視覚特徴ベクトルとを入力とすることにより、時間ステップｔで符号化ＲＮＮの最後の状態に対応する

応答生成のための行動ＲＮＮに伝送される。複数の実施形態において、パラメータは、符号化ＲＮＮと行動ＲＮＮとの間で共有される。訓練の間で、ＲＮＮは、次の単語と次のセンテンスを予測することにより訓練される。訓練の後、符号化ＲＮＮと行動ＲＮＮのパラメータは、固定のものとすることができる。

図４に戻って参照し、図４は階層ＲＮＮに基づくモデルにおける例示的なコントローラネットワークの実施形態４００を示す。複数の実施形態において、コントローラネットワークは、残差制御モジュール４０５（例えば、全結合層（fully connected layer））と、次にガウス方策モジュール４１０とを含む。コントローラネットワーク４００の更なる詳細は、セクション２．２に記載される。
２．１階層ＲＮＮに基づく言語モデル化を用いる模倣の実施形態

複数の実施形態において、教師のスピーキング方法は、学習者に真似させるためのソースを提供する。この情報ソースから学習する1つの方法は、予測的模倣である。具体的には、特定の場面に対して、前の言語入力（例えば、前のセンテンス）ｗ^1:tと現在の画像ｖを条件とする次の言語入力（例えば、次のセンテンス）ｗ^1+tの確率は、以下で表すことができる。

ここで、

は、時間ステップｔにおける前のＲＮＮの最後の状態をｗ^1:t（図２参照）のまとまり（summarization）とし、ｉはセンテンスにおける単語を指す。ＲＮＮを用いて第ｔ+1番目のセンテンスにおける第i番目の単語をモデル化することも自然であり、ここで、条件とするｔまでのセンテンスと第ｔ+1番目のセンテンスにおけるｉまでの単語は、固定長の隠れ状態ベクトルにより、

として取得され、それにより、

ここで、Ｗ_h、W_vとｂは、それぞれ変換重みとバイアスパラメータを示す。

図６は、本願開示の実施形態による視覚エンコーダ３００で視覚特徴ベクトルを生成するための方法を示す。視覚エンコーダ３００は、図２における視覚エンコーダ２１０又は２１２とすることができる。ステップ６０５で、視覚画像３０２は、まず、視覚特徴マップを取得するように、畳み込みニューラルネットワーク（ＣＮＮ）３０４により符号化される（図３におけるキューブ３０５）。

複数の実施形態において、視覚特徴マップは、縦続特徴マップ（concatenated feature map）（図３におけるキューブ３１０と縦続されるキューブ３０５）を生成するように、方向的情報を符号化するための学習可能なパラメータを備える他のマップのセット（図３におけるキューブ３１０）が（ステップ６１０で）付加される。学習可能なマップのセット（図３におけるキューブ３１０）は、初期化され全ての値がゼロになる視覚特徴マップ（キューブ３０５）と同じサイズのキューブを確立することにより生成され、訓練の間で、学習アルゴリズムにより変更することができる。

ステップ６１５で、注意マップ３０８は、初期ＲＮＮ状態

から生成された空間的フィルタ３０６を用いて、縦続特徴マップを畳み込むことにより取得される。ステップ６２０で、空間的加重（spatial summation）は、空間集約ベクトル（spatially aggregated vector）（図３における３２０と縦続される３１５）を生成するように、注意マップと縦続特徴マップの間で実施される。ステップ６２５で、

から生成された視覚的又は方向的特徴を強調するための注意マスク３１６は、最終視覚特徴ベクトル（図３における３４０と縦続される３３５）を作成するように、空間集約ベクトル（spatially aggregated vector）（図３における３２０と縦続される３１５）に応用される。最終視覚特徴ベクトルは、符号化ＲＮＮ２２０又は行動ＲＮＮ２４０への出力３５０として用いられる。複数の実施形態において、最終視覚特徴ベクトルは、バイナリー注意マスク３１６と空間集約ベクトル３１５の間のアダマール積（Hadamard product）を実施することにより作成される。符号化ＲＮＮの初期状態は、前のＲＮＮの最後の状態であり、即ち、

このように訓練された言語モデルは、入力を条件とするセンテンスを作成する基本能力を有する。そのため、符号化ＲＮＮと行動ＲＮＮを直接的に接続し、即ち、前の符号化ＲＮＮからの最後の状態ベクトルを初期状態として行動ＲＮＮへ入力する場合、学習者は、パラメータが共有されるので、教師の話し方を真似することにより、センテンスを生成するための能力を有する。しかしながら、このスピーキングの基本能力は、学習者を教師と適切的に会話させるのに不十分である場合があり、それは、次のセクションに記載するような強化シグナルの取り組みが必要である。
２．２シーケンス行動に対する強化を介する学習の実施形態

複数の実施形態において、エージェントは、

を介して変調された条件シグナルを用いて生成されてもよい（図２と図４参照）。

変調のためにコントローラ

を取り込む理由として、基本言語モデルが学習者にセンテンスを生成する能力を与えるが、必ずしも正確に応答し、又は教師からの質問を適切に回答する能力を与えるわけではないためである。いずれの追加モジュールがない場合、エージェントの行為は、パラメータが共有されるため、教師からの行動と同じになるため、エージェントは、教師からのフィードバックを利用することにより適応的に正確に話すことを学習することができない。

図７は、本願開示の実施形態によるコントローラネットワークで制御ベクトルを生成するための方法を説明する。複数の実施形態において、

を変換するための残差構造ネットワーク４０５と；（２）探索の形式として、残差制御ネットワークからの変換された符号化ベクトルを条件とするガウス分布から、制御ベクトルを生成するためのガウス方策モジュール４１０と、２つの要素を有する複合ネットワークである。複数の実施形態において、勾配停止層（gradient-stopping layer）（図４に図示せず）は、コントローラ内全ての変調能力をカプセル化するために、コントローラとその入力の間に取り込むことができる。

残差制御。複数の実施形態において、行動コントローラは、入力ベクトルの内容を変更することができない場合、入力ベクトルを未変更の次のモジュールに渡すことができる性質を有する。ステップ７０５で、残差構造ネットワークは、下記のように、コンテンツ変更ベクトルを初期入力状態ベクトルに加える（即ち、スキップコネクション）。

ガウス方策。複数の実施形態において、ガウス方策ネットワークは、入力ベクトルを条件とするガウス分布として出力ベクトルをモデル化する。ステップ７１０で、ガウス方策モジュールは、生成された制御ベクトルｃを入力として受信し、行動ＲＮＮの初期状態として用いられる（７１５）出力制御ベクトルｋを作成する。ガウス方策は、下記のようにモデル化される。

ここで、

は標準偏差ベクトルを推定するためのサブネットワークであり、ＲｅＬＵ活性を有する全結合層を用いて実現することができる。

ガウス方策の取り込みは、ネットワークに確率的ユニット（stochastic unit）を導入し、それにより、誤差逆伝播法（backpropagation）を直接的に適用することができない。そのため、方策勾配アルゴリズムは、最適化のために用いることができる。複数の実施形態において、小さい値（０．０１）は、最小限の標準偏差の制約としてγ(c)に加えられる。その後、コントローラから生成されたベクトルｋは、行動ＲＮＮの初期状態として用いられ、センテンスの出力は、ビームサーチを用いて生成される（図２参照）。複数の実施形態において、

２．３訓練の実施形態

訓練は、教師のフィードバックFを訓練シグナルとして用いることにより確率的方策を最適化し、式（２）に示されるように模倣と強化を共同して考慮することにより最適化されたパラメータのセットを取得することを含む。確率的勾配降下法は、ネットワークを訓練するために用いられる。模倣モジュールからのＬ^Iに対して、その勾配は下記のように取得することができる。

方策勾配定理を用いて、下記強化モジュールに対する勾配が下記の通り取得することができる。

ここで、δは、

のように定義されたＴＤ誤差である。複数の実施形態において、ネットワークは、１６のバッチサイズと、１×１０^−５の学習レートで、Ａｄａｇｒａｄにより訓練される。γ=０．９９の割引因子を用いることができる。複数の実施形態において、経験再生（Experience Replay）は、実践に用いられる。
Ｄ．様々な実験結果

本明細書で提案されるアプローチの実施形態の性能は、そのインタラクティブ言語学習の能力を示すために、複数の異なる設定で評価した。訓練効率について、図１に示されるように、言語学習のため模擬環境が構築された。四つの異なる対象は、それぞれの方向（Ｓ、Ｎ、Ｅ、Ｗ）に学習者の周りにあると考えられ、それぞれのセッションについての対象のセットからランダムにサンプリングされる。当該環境において、教師は、３つの異なる形式で周りの対象についてエージェントとインタラクトする：（１）「南になにがあるか」、「りんごはどこ」のように質問をし、エージェントが前記質問を回答する。（２）「りんごは東にある」のように周りの対象を述べ、エージェントが前記陳述を繰り返す。（３）何も言わずに（「。」）、その後、エージェントが周りの対象を述べ、教師からのフィードバックを取得する。エージェントは、正しく動作する（教師からの質問に対して正しい回答を生成するか、又は教師が何も言わない場合に正しい陳述を作成する）場合、ポジティブなリワード（例えば、ｒ＝＋１を受信し、その他の場合、ネガティブなリワード（例えば、ｒ＝−１）を受信する。リワードは、激励として、頷きのような教師の非言語フィードバックを表すために用いられる。リワードフィードバックに加え、教師は、「Ｘは東にある」又は「東にはＸがある」の形式で、半分の確率で接頭語（はい／いいえ）を加えるように、所望の回答を含む言語フィードバックをさらに提供した。エージェントが上記形式の1つで、所望の回答とピッタリ一致するセンテンスを出力する場合、エージェントの言語行動は正しい。学習者が教師の知識を超える新しい正しいセンテンスを生成する可能性がある。

言語学習の評価：提案されるアプローチの基本言語学習能力は、まず、インタラクティブ言語学習設定の下で検証される。当該設定において、教師は、まず、学習者に対してセンテンスを生成し、その後、学習者は応答し、教師はセンテンスとリワードに基づいてフィードバックを提供する。複数の実施形態において、実施形態は、２つのベースラインアプローチと比較される。

− 教師のリワードフィードバックからの学習の強化を直接的に用いる強化及び、

− 教師の行為を真似することにより学習する模倣である。

実験結果は、図８に示される。注意（注目）に値することは、リワードフィードバックのみからの直接的な学習（強化）８０５は、成功な言語習得につながらなかった。主な理由として、ランダム探索により適切なセンテンスを生成する可能性が低く、正しいセンテンスを生成する可能性はさらに低くなるため、受信されたリワードは−１に止まる可能性があるためである。一方、模倣アプローチ８１０は、真似することによりスピーキング能力を得ることができるため、強化の場合よりも優れた能力を発揮した。実施形態８１５は、学習するための会話の間で自然に現れるフィードバックシグナルを充分に利用することができる共同公式の効果のため、比較された両方のアプローチよりも高いリワードを実現した。これは、インタラクティブ設定の下で、言語学習のために提案されたアプローチの有効性を示している。

同じような動作が、既にテストの間で観察された。さらに、複数の例は、生成された注意マップと共に図９ａ〜９ｄに示されるように視覚化される。図９ａと９ｂは「なに」との質問に対応し、図９ｃは「どこ」との質問に対応し、図９ｄは、教師が何も言わず（「。」）、かつエージェントが陳述を作成することが予期される状況に対応する。それぞれの例に対して、視覚画像が、教師と学習者の間の会話の対話（dialogue）、及び教師への応答を作成する際に学習者から生成された注意マップ（ａｔｔ．ｍａｐ）（右上に重ねて表示）と共に示される。注意マップは、ヒートマップとして表示され、注釈付き参照番号（９０５（ａ）−９０５（ｄ））は大きな値を示し、非注釈領域は小さい値を示す。グリッド線は、視覚化する目的で、注意マップの上に重ねられる。学習者の位置は、十字で注意マップにおいて示される（Ｔ／Ｌ：教師／学習者、［＋／−］：ポジティブ／ネガティブリワード）。

結果から観察できるように、テストされた実施形態は、「なに」と「どこ」質問両方に対して、正しい注意マップを成功に生成することができた。教師が何も言わない場合（「。」）、エージェントは、周りの対象を述べる陳述を正しく生成することができた。

ゼロショット対話（zero-shot dialogue）。複数の実施形態において、知的エージェントは、一般化する能力を有することが期待される。複数の実施形態において、ゼロショット対話は、アプローチの言語学習能力を評価する方法として用いられる。実験は、下記２つの設定の下で行われた。

（１）組み合わせの一般化（Compositional generalization）：学習者が、訓練の間で周りの対象について教師とインタラクトするが、特定の位置にある特定の対象（インアクティブ物体と称する）と何らかのインタラクションをせず、テストにおいて、教師はその位置に関係なく、対象について質問することができる。期待されることとして、優れた学習者が、対象と位置について学んだ概念、及び習得された会話スキルを一般化することをでき、以前に経験したことのない新しい{対象、位置}の組み合わせについて、教師と自然言語でうまくインタラクトすることができる。

（２）知識の伝達：教師が周りの対象について学習者に質問する。特定の対象に対して、教師が、訓練の間で質問することなく説明のみを提供するが、テストにおいて、教師がシーンに存在するいずれの対象について質問することができる。学習者は、教師の説明から学んだ知識を伝達し、これらの対象に関する教師の質問に対する回答を生成することができることが期待される。実験は、二つの設定（configuration）（混合とホールドアウト）に対して、これら二つの設定で行われ、実験結果は、それぞれ表１と表２にまとめた。混合設定は、訓練の間で、対象がアクティブ又はインアクティブであるにかかわらず、全ての対象とのインタラクションの混合の場合を示す。ホールドアウト設定は、訓練の間で、インアクティブ対象のみとのインタラクションを含む場合を示す。

結果から、強化アプローチが、前記セクションに言及したように、基本の言語関連の能力が欠如するため、両方の設定において十分に機能されていないことが示された。模倣アプローチは、主としてその真似による言語スピーキング能力のため、強化より優れている。なお、ホールドアウト設定は、新しい対象／組み合わせのみを含む混合設定のサブセットであるため、混合の場合よりも困難である。興味深く注意すべきこととして、試験された実施形態は、より困難なホールドアウト設定で一致した行為を維持し、両方の設定で他の２つのアプローチより優れ、インタラクティブ言語学習における有効性を証明した。

Ｅ．様々な結論

本明細書では、グラウンディングされた自然言語学習のためのインタラクティブ設定の実施形態で、共同模倣と強化によりインタラクションの間で自然に現れるフィードバックを充分に利用することにより、効果的なインタラクティブ自然言語学習を実現する実施形態を開示した。実験結果から、各実施形態が、インタラクティブの設定で自然言語学習のための効果的な方法を提供し、複数の異なる場面で満足のできる一般化及び伝達能力を示している。注意すべきこととして、実施形態は、新しい概念に関して学習した知識及び高速学習の明示的なモデル化、並びに本開示に提案された言語学習タスクとナビゲーションのような他の異種タスクと接続することを含む又は取り込むことができる。
Ｆ．システムの実施形態

複数の実施形態において、本開示の態様は、1つ又は複数の情報処理システム／コンピュータシステムに向け、実装され、又はそれを利用することができる。本開示の目的として、コンピュータシステムは、ビジネス、科学、制御又は他の目的でいずれの情報、知恵、又はデータをコンピュート、計算、決定、分類、処理、送信、受信、検索、発生、ルーティング、切替、格納、表示、通信、出現、検出、記録、再生、運用、又は利用するための、操作可能ないずれの手段又は手段の集合を含むことができる。例えば、コンピュータシステムは、パーソナルコンピュータ（例えば、ラップトップ）、タブレットコンピュータ、ファブレット、パーソナルデジタルアシスタント（ＰＤＡ）、スマートフォン、スマートウォッチ、スマートパッケージ、サーバ（例えば、ブレードサーバ又はラックサーバ）、ネットワーク記憶装置、又は他のいずれの適切な装置であってもよく、サイズ、形、性能、機能、及び価格で変動することができる。コンピュータシステムは、ランダムアクセスメモリ（ＲＡＭ）、中央処理装置（ＣＰＵ）もしくはハードウェア又はソフトウェア制御論理回路のような1つ又は複数のプロセッシングリソース、ＲＯＭ、及び／又は他のタイプのメモリを含むことができる。コンピュータシステムの他の要素は、1つ又は複数のディスクドライブ、外部装置と通信するための1つ又は複数のネットワークポート、並びにキーボード、マウス、タッチスクリーン、及び／又はビデオディスプレイのような様々な入力と出力（Ｉ／Ｏ）装置を含むことができる。コンピュータシステムは、様々なハードウェア要素の間で通信を伝送するように操作可能な1つ又は複数のバスをさらに含むことができる。

図１０は、本願開示の実施形態によるコンピュータ装置／情報処理システム（又はコンピュータシステム）の簡略ブロック図を示す。システム１０００に対して示される機能は、様々な情報処理システムの実施形態をサポートするように動作することができることを理解されるべきであり、情報処理システムは異なる構成を有し、異なる要素を含むことを理解されるべきものである。

図１０に示されるように、システム１０００は、コンピュータリソースを提供し、コンピュータを制御する1つ又は複数の中央処理装置（ＣＰＵ）１００１を含む。ＣＰＵ１００１は、マイクロプロセッサなどによって実現することができ、数学的計算のために、1つ又は複数のグラフィックスプロセッシングユニット（ＧＰＵ）１０１７及び／又は浮動小数点演算コプロセッサーをさらに含むことができる。システム１０００は、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、又は両方としてのシステムメモリ１００２をさらに含むことができる。

図１０に示されるように、さらに、複数のコントローラ及び周辺装置を提供することができる。入力コントローラ１００３は、キーボード、マウス、又はスタイラスのような様々な入力装置１００４へのインターフェースを表す。スキャナー１００６と通信するスキャナーコントローラ１００５もさらに含むことができる。システム１０００は、1つ又は複数の記憶装置１００８とインターフェースで接続するための記憶コントローラ１００７をさらに含むことができ、前記記憶装置１００８のそれぞれは、磁気テープ又はディスク、もしくは光学媒体のような記憶媒体を含むことができ、システム、ユーティリティ及びアプリケーションを操作するための命令のプログラムを記録するために用いることができ、前記プログラムは、本発明の様々の態様を実現するプログラムの実施形態を含むことができる。記憶装置１００８は、本発明による処理されたデータ又は処理しようとするデータを格納するためにも用いることができる。システム１０００は、ディスプレイ装置１０１１へのインターフェースを提供するためのディスプレイコントローラ１００９を含むことができ、前記ディスプレイ装置１０１１は、ブラウン管（ＣＲＴ）、薄膜トランジスタ（ＴＦＴ）ディスプレイ、又は他のタイプのディスプレイであってもよい。コンピュータシステム１０００は、プリンタ１０１３と通信するためのプリンタコントローラ１０１２をさらに含むことができる。通信コントローラ１０１４は、1つ又は複数の通信装置１０１５とインターフェースで接続することにより、前記通信装置１０１５は、インターネット、クラウドリソース（例えば、イーサネット（登録商標）クラウド、ファイバーチャネルオーバーイーサネット（登録商標）（ＦＣｏＥ）／データセンターブリッジング（ＤＣＢ）クラウドなど）、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、ストレージエリアネットワーク（ＳＡＮ）を含む様々なネットワークのいずれかを通じて、又は赤外線シグナルを含むいずれの適切な電磁キャリアシグナルを通じて、システム１０００をリモート装置と接続ことを可能にする。

示されたシステムにおいて、全ての主要システム要素は、バス１０１６に接続することができ、前記バス１０１６は、1つ以上の物理的バスを表すことができるが、複数のシステム要素は、互いに物理的に隣接することができるが、そうしなくてもよい。例えば、入力データ及び／又は出力データは、遠隔的に1つの物理的位置から他の物理的位置に発信することができる。また、本発明の様々な態様を実現するプログラムは、ネットワークをわたってリモート位置（例えば、サーバ）からアクセスすることができる。このようなデータ及び／又はプログラムは、様々な機械読みとり可能な媒体のいずれかを通じて搬送することができ、前記機械読みとり可能な媒体は、ハードディスク、フロッピーディスク、及び磁気テープのような磁気媒体、ＣＤ-ＲＯＭとホログラフィック装置のような光学媒体、光磁気媒体、並びに、特定用途向けの集積回路（ＡＳＩＣ）、プログラマブルロジックデバイス（ＰＬＤ）、フラッシュメモリ装置、及びＲＯＭとＲＡＭ装置のような、プログラムコードを格納し、又は格納して実行するように特別に設定されるハードウェア装置を含むが、それらに限定することがない。

本発明の実施形態は、1つ又は複数のプロセッサ又はプロセッシングユニットを実施しようとするステップを引き起こすための命令を有する1つ又は複数の非一時的なコンピュータ−読み取り可能な媒体で符号化することができる。注意すべきこととして、1つ又は複数の非一時的なコンピュータ−可読媒体は、揮発性及び不揮発性メモリを含むべきである。注意すべきこととして、ハードウェアの実装又はソフトウェア／ハードウェアの実装を含む代替的な実装も可能である。ハードウェアに実装された機能は、ＡＳＩＣ、プログラマブルアレイ、デジタルシグナルプロセッシング回路などを用いて実現することができる。それに応じて、いずれの請求項における「手段」という用語は、ソフトウェアの実装とハードウェアの実装の両方をカバーすることを意図する。同じように、ここで用いられる「コンピュータ−読み取り可能な媒体」という用語は、具現化された命令のプログラムを有するハードウェア及び／又はソフトウェア、もしくはそれらの組み合わせを含む。これらの実装の代替案を考慮して、理解されるべきこととして、図面と付随の説明は、当業者が、必要なプロセッシングを実施するように、プログラムコード（即ち、ソフトウェア）を書き込むために、及び／又は回路（即ち、ハードウェア）を製造するために必要な機能的情報を提供する。

注意すべきこととして、本発明の実施形態は、さらに、様々なコンピュータへの実装による動作を実行するためのコンピュータコードを有する非一時的（non-transitory）有形コンピュータ読み取り可能な媒体を備えるコンピュータ製品に関する。この媒体及びコンピュータコードは、本発明の目的のために特別に設計及び構築されたものであってもよく、または、関連する技術分野における当業者に対して公知又は入手できるものであってもよい。有形コンピュータ読み取り可能な媒体の例としては、ハードディスク、フロッピーディスク、及び磁気テープのような磁気媒体、ＣＤ-ＲＯＭとホログラフィック装置のような光学媒体、光磁気媒体、並びに、特定用途向け集積回路（ＡＳＩＣ）、プログラマブルロジックデバイス（ＰＬＤ）、フラッシュメモリ装置、及びＲＯＭとＲＡＭ装置など、プログラムコードを格納し、又は格納して実行するように特別に設定されたハードウェア装置を含むが、それらに限定することがない。コンピュータコードの例には、コンパイラにより作成された機械コードと、インタープリターを使用してコンピュータにより実行される高水準コードを含むファイルとを含む。本発明の実施形態は、処理装置により実行されるプログラムモジュールにあてもよい機械実行可能な命令として、全体又は部分的に実装することができる。プログラムモジュールの例は、ライブラリー、プログラム、ルーチン、対象、要素、及びデータ構造を含む。分散型コンピューティング環境において、プログラムモジュールは、ローカル、リモート、又は両方である設定で物理的に配置されでもよい。

当業者は、コンピューティングシステム又はプログラミング言語は本発明の実施に対して、いずれも重要ではないと認識する。当業者であれば、さらに、前記複数の要素が、物理的及び／又は機能的にサブモジュールに分離されるか、又は一緒に組み合わせることができることは認識するであろう。

当業者にして、前記例と実施形態は例示的であり、本願開示の範囲を限定するものではないことは理解されるべきである。当業者が本明細書を読み、図面を検討することにより自明なすべての並び替え、強化、均等物、組み合わせ、及び改善は、本願開示の真の精神及び範囲に含まれることを意図する。さらに、特許請求の範囲の要素は、マルチ従属、設定、及び組み合わせを含む異なる方法で配置することができることを留意すべきである。

Claims

インタラクションに基づく言語学習のためのコンピュータによって実現される方法であって、
一の時間ステップにおいて、階層再帰型ニューラルネットワーク（ＲＮＮ）モデルにおける符号化ＲＮＮで、視覚画像に関する１つ又は複数の単語を含む教師からの自然言語入力と初期状態とを、状態ベクトルに符号化することであって、前記階層ＲＮＮモデルは、前記符号化ＲＮＮ、コントローラネットワーク、行動ＲＮＮを含むものであり、前記教師は、自然言語で会話可能なバーチャル教師又は人間であることと、
コントローラネットワークで、前記状態ベクトルに基づいて、所定の方策に従って状態ベクトルの内容を変換して、変換された状態ベクトルに基づいて出力制御ベクトルを生成することと、
行動ＲＮＮで、前記出力制御ベクトルに基づいて、前記自然言語入力への応答を生成することと、
前記自然言語入力と生成された前記応答とに基づいて、前記教師から、前記応答に対するフィードバックを生成することと
を含み、
前記教師からの前記フィードバックは、次の時間ステップにおける次の自然言語入力と、現在の時間ステップに生成された前記応答に対するリワードとを含み、
前記方策は、前記教師からのフィードバックによって調整される、コンピュータによって実現される方法。
次の時間ステップにおける符号化処理のために、前記状態ベクトルを次の時間ステップにおける初期状態として用いることをさらに含む請求項１に記載のコンピュータによって実現される方法。
前記リワードは、前記応答の正確さにより、正値を激励とし、負値を激励しないとする前記教師からのスカラー値のフィードバックである請求項１に記載のコンピュータによって実現される方法。
前記符号化ＲＮＮは、視覚エンコーダから出力した視覚特徴ベクトルをさらに受信し、前記符号化は、前記自然言語入力及び前記視覚特徴ベクトルに基づいて行われる請求項１に記載のコンピュータによって実現される方法。
前記視覚エンコーダから前記視覚特徴ベクトルを出力することは、
前記視覚エンコーダにおける畳み込みニューラルネットワーク（ＣＮＮ）により、視覚入力を符号化することにより視覚特徴マップを得ることと、
前記視覚特徴マップに、学習可能なパラメータを備えるマップのセットを付加することにより、縦続特徴マップを生成することと、
前記初期状態から生成された空間的フィルタで前記縦続特徴マップを畳み込むことにより、注意マップを得ることと、
前記注意マップと前記視覚特徴マップとの間で空間的加重を実施することにより、空間集約ベクトルを生成することと、
前記初期状態から生成された注意マスクと前記空間集約ベクトルとのアダマール積を実施することにより、前記視覚特徴ベクトルを生成することと
を含む請求項４に記載のコンピュータによって実現される方法。
前記階層ＲＮＮモデルは、環境とのインタラクション及び教師からのフィードバックに応じて行動を調整するための学習可能なパラメータを含むトランスフォーマーネットワークを更に含み、
前記コントローラネットワークは、残差構造ネットワーク及びガウス方策モジュールをさらに含み、
前記状態ベクトルに基づいて前記出力制御ベクトルを生成することは、
前記残差構造ネットワークにおいて、前記トランスフォーマーネットワークを前記状態ベクトルに加えることにより、制御ベクトルを生成することと、
前記ガウス方策モジュールにおいて、生成された前記制御ベクトルを条件とするガウス分布により、生成された前記制御ベクトルに基づいて前記出力制御ベクトルを生成することと
を含む請求項１に記載のコンピュータによって実現される方法。
前記出力制御ベクトルを、行動ＲＮＮのための初期状態として用いることをさらに含む請求項６に記載のコンピュータによって実現される方法。
コンピュータによって、基本的な自然言語学習用のインタラクティブ環境を実現する方法であって、
一の時間ステップにおいて、視覚画像に関する１つ又は複数の単語を含む教師からの自然言語入力を受信することであって、前記教師は、自然言語で会話可能なバーチャル教師又は人間であることと、
少なくとも前記視覚画像に基づいて、視覚特徴ベクトルを生成することと、
階層再帰型ニューラルネットワーク（ＲＮＮ）モデルにおける符号化ＲＮＮにより、前記自然言語入力と前記生成された視覚特徴ベクトルとに基づいて、前記時間ステップに対応する状態ベクトルを生成することであって、前記階層ＲＮＮモデルは、前記符号化ＲＮＮ、コントローラネットワーク、行動ＲＮＮを含むことと、
少なくとも前記状態ベクトルに基づいて、コントローラネットワークにより、所定の方策に従って前記状態ベクトルの内容を変換して、変換された状態ベクトルに基づいて、出力制御ベクトルを生成することと、
前記行動ＲＮＮにおいて、前記行動ＲＮＮの初期状態として用いられる前記出力制御ベクトルにより、前記自然言語入力への応答を生成することと、
前記自然言語入力及び生成された応答に基づいて、前記応答に対するフィードバックを前記教師から生成することであって、前記フィードバックは、次の時間ステップにおける他の自然言語入力と、現在の時間ステップに生成された前記応答に対するスカラー値のリワードとを含むことと、
生成された前記フィードバックにより、前記符号化ＲＮＮ及び前記行動ＲＮＮの少なくとも１つを訓練することと、
を含む、方法。
前記時間ステップに対応する前記状態ベクトルを生成することは、さらに前記時間ステップにおける前記符号化ＲＮＮの初期状態に基づいて行い、前記初期状態は、前の時間ステップで取得した状態ベクトルである請求項８に記載の方法。
前記スカラー値のリワードは、前記応答の正確さにより、激励とする正値、激励しないとする負値を有する請求項８に記載のコンピュータによって実現される方法。
前記教師からの、前記他の自然言語入力を含むフィードバックに基づいて、前記符号化ＲＮＮを訓練するために確率的勾配降下法を使用し、前記コントローラネットワークは、前記教師からの、前記スカラー値のリワードを含むフィードバックに基づいて、強化学習を用いて訓練される請求項８に記載の方法。
前記階層ＲＮＮモデルは、環境とのインタラクション及び教師からのフィードバックに応じて行動を調整するための学習可能なパラメータを含むトランスフォーマーネットワークを更に含み、
前記状態ベクトルに基づいて前記出力制御ベクトルを生成することは、
前記状態ベクトルに対し前記トランスフォーマーネットワークを加えることにより、変換された状態ベクトルを生成することと、
変換された前記状態ベクトルを条件とするガウス分布により前記出力制御ベクトルを生成することと
を含む請求項８に記載の方法。
前記トランスフォーマーネットワークは、ＲｅＬＵ活性を有する１つ又は複数の全結合層として実装される請求項１２に記載の方法。
前記トランスフォーマーネットワークは、前記フィードバックとのインタラクションを調整するための学習可能なパラメータを含む請求項１２に記載の方法。
インタラクティブ言語学習のためのコンピュータによって実現される方法であって、
階層再帰型ニューラルネットワーク（ＲＮＮ）モデルにより、一の時間ステップにおいて、視覚画像に関する１つ又は複数の単語を含む自然言語入力を受信することと、
前記階層ＲＮＮモデルにより、前記自然言語入力への応答を生成することと、
前記自然言語入力と前記生成された応答に応じた、他の自然言語入力と、スカラー値のリワードとを含むフィードバックを受信することと
を含み、
前記階層ＲＮＮモデルは、
少なくとも前記自然言語入力と前記視覚画像から抽出された視覚特徴ベクトルとに基づいて、前記時間ステップに対応する状態ベクトルを生成するための符号化ＲＮＮと、
少なくとも前記状態ベクトルに基づいて、所定の方策に従って前記状態ベクトルの内容を変換して、変換された状態ベクトルに基づいて出力制御ベクトルを生成するためのコントローラネットワークと、
前記出力制御ベクトルが初期状態として用いられる行動ＲＮＮであって、前記自然言語入力への応答を生成するための行動ＲＮＮと
を含み、
前記方策は、前記フィードバックによって調整される、コンピュータによって実現される方法。
前記階層ＲＮＮモデルは、環境とのインタラクション及び教師からのフィードバックに応じて行動を調整するための学習可能なパラメータを含むトランスフォーマーネットワークを更に含み、
前記コントローラネットワークは、
前記状態ベクトルに対してトランスフォーマーネットワークを加えることにより変換された状態ベクトルを生成するように構成され、
変換された前記状態ベクトルを条件とするガウス分布により前記出力制御ベクトルを生成するように構成される請求項１５に記載のコンピュータによって実現される方法。