JP6921022B2 - 傾聴、インタラクト、及びトーク:インタラクションを介するスピーキング学習 - Google Patents

傾聴、インタラクト、及びトーク:インタラクションを介するスピーキング学習 Download PDF

Info

Publication number
JP6921022B2
JP6921022B2 JP2018049699A JP2018049699A JP6921022B2 JP 6921022 B2 JP6921022 B2 JP 6921022B2 JP 2018049699 A JP2018049699 A JP 2018049699A JP 2018049699 A JP2018049699 A JP 2018049699A JP 6921022 B2 JP6921022 B2 JP 6921022B2
Authority
JP
Japan
Prior art keywords
rnn
vector
teacher
natural language
feedback
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018049699A
Other languages
English (en)
Other versions
JP2019023717A (ja
Inventor
ハイチャオ ザン
ハイチャオ ザン
ハオナン ユー
ハオナン ユー
ウェイ シュー
ウェイ シュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu USA LLC
Original Assignee
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu USA LLC filed Critical Baidu USA LLC
Publication of JP2019023717A publication Critical patent/JP2019023717A/ja
Application granted granted Critical
Publication of JP6921022B2 publication Critical patent/JP6921022B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/08Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations
    • G09B5/12Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations different stations being capable of presenting different information simultaneously
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/08Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations
    • G09B5/12Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations different stations being capable of presenting different information simultaneously
    • G09B5/125Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations different stations being capable of presenting different information simultaneously the stations being mobile
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/08Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations
    • G09B5/14Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations with provision for individual teacher-student communication
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • G09B7/02Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
    • G09B7/04Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student characterised by modifying the teaching programme in response to a wrong answer, e.g. repeating the question, supplying a further explanation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Probability & Statistics with Applications (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

(関連出願の相互参照)
本願は、米国特許法第119条(e)の下で、2017年5月25日に提出された、Haichao Zhang、Haonan Yu、及びWei Xuが発明者とする「Listen,Interact,and Talk:Learning to Speak via Interaction」を名称とする米国仮特許出願第62/511,295号(整理番号28888−2149P)の優先権を主張する。前記特許書類は、参照によりその全体を本願に取り込む。
本願開示は、全体として、改善されたコンピュータの性能、特性、及び使用を提供できるコンピュータ学習のためのシステム及び方法に関する。
自然言語は、人間の最も自然なコミュニケーションの形式の1つであり、そのため、知的エージェントも自然言語を人間と交流するチャネルとして利用可能であることは、大きな価値がある。自然言語学習の最近の進展は、主として大規模な訓練データを使用する教師あり訓練に依存し、前記教師あり訓練は、通常注釈を付けるために大量な労力を必要とする。ラベリングの労力に関係なく、有望な性能はすでに多くの特定のアプリケーションにおいて実現されているが、人間がどのように学習するかとはかなり異なる。人間は、世界に行動し、それらの行動の結果から学習する。移動のような機械的な行動に関しては、結果が主として幾何学的及び機械的原理に従うが、言語に関しては、人間が話すことにより行動し、その結果が通常、会話パートナーの言葉及びその他の行為によるフィードバック(例えば、頷き)のような応答で表現される。このフィードバックは、通常、どのようにその後の会話で言語スキルを向上させるかに関する情報シグナルを含み、人間の言語習得プロセスにおいて重要な役割を果たす。
人工知能の長期的目標の1つは、人間と自然言語で知的に交流することができるエージェントを構築することにある。自然言語学習に関する大多数の従来仕事は、注釈つきラベルのある事前に収集されたデータセットによる訓練に強く依存し、実質的に固定の外部訓練データの統計データを取得するエージェントになるように導かれている。訓練データは、実質的に注釈者からの知識の静的なスナップショット表現であるため、このように訓練されたエージェントは、その行為の適応性及び一般化に限界がある。また、これは、トーキング(talking)により言語行動(speaking action)し、言語行動の結果から学習することにより、コミュニケーションの過程で言語を習得する人間の言語学習とは大きく異なる。
そこで、機械学習のためのコンピューティング装置の機能を向上させ、インタラクティブ(interactive)の設定でグラウンディングされた自然言語学習(grounded natural language learning)をするためのシステム及び方法が必要である。
本願は、傾聴、インタラクト(interact)、及びトーク(talk):インタラクション(interaction)を介するスピーキング学習に関する。本願に係る一の実施形態によれば、インタラクションに基づく言語学習のためのコンピュータによって実現される方法であって、符号化ネットワークにおいて、視覚画像に関する1つ又は複数の単語を含む自然言語入力と初期状態とを、一の時間ステップで状態ベクトルに符号化することと、前記状態ベクトルに基づき、制御ネットワークで、出力制御ベクトルを作成する(producing)ことと、前記出力制御ベクトルに基づき、行動ネットワークで、前記自然言語入力への応答を生成することと、前記自然言語入力と生成された前記応答に基づいて、生成される教師によりフィードバックを生成することと、を含む、コンピュータによって実現する方法を提供する。
本願に係る一の実施形態において、インタラクティブの設定でグラウンディングされた自然言語学習のためのコンピュータによって実現される方法であって、視覚画像に関する1つ又は複数の単語を含む自然言語入力を、一の時間ステップで受信することと、少なくとも前記視覚画像に基づき、視覚特徴ベクトルを生成することと、符号化再帰型ニューラルネットワークにより、少なくとも前記自然言語入力に基づき、前記時間ステップに対応する状態ベクトルを生成することと、コントローラネットワークにより、少なくとも前記状態ベクトルに基づき、出力制御ベクトルを生成することと、行動再帰型ニューラルネットワークで、前記行動再帰型ニューラルネットワークの初期状態として用いられる前記出力制御ベクトルにより、前記自然言語入力への応答を生成することと、前記自然言語入力と生成された応答に基づいて、次の時間ステップにおける他の自然言語入力と、スカラー値のリワードとを含む教師によりフィードバックを生成することと、生成された前記フィードバックにより、前記符号化再帰型ニューラルネットワークと前記行動再帰型ニューラルネットワークの少なくとも1つを訓練することと、を含む、コンピュータによって実現される方法を提供する。
本願の1つの実施形態において、インタラクティブ型言語学習のためのコンピュータによって実現される方法であって、階層再帰型ニューラルネットワーク(RNN)モデルにより、視覚画像に関する1つ又は複数の単語を含む自然言語入力を、一の時間ステップで受信することと、前記階層再帰型ニューラルネットワークモデルにより、前記自然言語入力への応答を生成することと、前記自然言語入力と生成された前記応答に基づいて、他の自然言語入力と、スカラー値のリワード(reward)とを含むフィードバックを受信することと、を含み、前記階層再帰型ニューラルネットワークモデルは、少なくとも前記自然言語入力と前記視覚画像から抽出された視覚特徴ベクトルに基づき、前記時間ステップに対応する状態ベクトルを生成するための、符号化再帰型ニューラルネットワークと、少なくとも前記状態ベクトルに基づき、出力制御ベクトルを生成するための、コントローラネットワークと、行動再帰型ニューラルネットワークの初期状態として用いられる前記出力制御ベクトルで、前記自然言語入力への応答を生成するための、行動再帰型ニューラルネットワークと、を含む、コンピュータによって実現される方法を提供する。
本発明の実施形態を参照し、その実施例を図面で示されることができる。これらの図面は限定的なものではなく、説明に用いられることを意図する。本発明は全体的にこれらの実施形態について述べるが、本発明の範囲がそれらの具体的な実施形態に限定される意図ではないと理解すべきである。図面におけるものは、比例になっていない場合がある。
本願開示の実施形態による複数のインタラクティブ型言語学習の例を示す。 本願開示の実施形態による階層RNNに基づくモデルのネットワーク構造を示す。 本願開示の実施形態による階層RNNに基づくモデルにおける視覚エンコーダネットワークを示す。 本願開示の実施形態による階層RNNに基づくモデルにおけるコントローラネットワークを示す。 本願開示の実施形態によるインタラクションに基づく言語学習のための方法を示す。 本願開示の実施形態による視覚エンコーダで視覚特徴ベクトルを生成するための方法を示す。 本願開示の実施形態によるコントローラネットワークで制御ベクトルを生成するための方法を示す。 本願開示の実施形態による言語学習評価の一部の結果を示す。 本願開示の実施形態による生成された注意力マップに伴う一部の視覚化の例を示す。 本願開示の実施形態による生成された注意力マップに伴う一部の視覚化の例を示す。 本願開示の実施形態による生成された注意力マップに伴う一部の視覚化の例を示す。 本願開示の実施形態による生成された注意力マップに伴う一部の視覚化の例を示す。 本書類の実施形態によるコンピューティング装置/情報処理システムの概略ブロック図を示す。
以下の説明において、説明を目的として、本発明の理解を提供するために、具体的な詳細が記述される。しかしながら、本発明はこれらの詳細があるか否かにかかわらず実施することができることは当業者に対して自明である。さらに、当業者は、以下に記載された本発明の実施形態が、プロセス、装置、システム、デバイス、又は方法のような様々な形式で、有形的なコンピュータ読み取り可能な媒体によって実現することができると認識する。
図表に示される要素又はモジュールは、本発明の例示的実施形態の説明のためのものであり、本発明がぼやけることを回避することを意図する。また、本明細書の全体を通して理解すべきこととして、要素がサブユニットを含むことができる分立機能ユニット(separate functional units)として記載することができるが、当業者は、各種の要素又はその一部が、分立する要素に分割してもよく、又は一つのシステム又は一つの要素に集積することを含む一体化することができることを認識している。なお、本明細書で論述される機能又は動作は、要素として実装することができる。要素は、ソフトウェア、ハードウェア、又はそれらの組み合わせにより実現することができる。
さらに、図面における要素又はシステムの間の接続は、直接接続に限定することを意図するものではない。むしろ、これらの要素の間のデータは、中間要素により変更し、再フォーマットし、又はその他の方法で改変することができる。また、追加の又はより少ない接続も用いることができる。なお、「連結」、「接続」、又は「通信可能に接続」は、直接的に接続され、1つ又は複数の中間装置を通じて間接的接続され、及び無線による接続を含むものと理解すべきである。
明細書における「一実施形態」、「好ましい実施形態」、「実施形態」又は「複数の実施形態」への言及は、当該実施形態との関係で記載されている特定の特性、構造、特徴、又は機能が、本発明の少なくとも1つの実施形態に含まれ、1つ以上の実施形態に含まれることができることを意味する。また、明細書における多くの箇所で現れる前記フレーズは、必ずしも全て同じ実施形態を指すものとは限らない。
明細書における多くの箇所における特定の用語の使用は、説明のために用いられるものであり、限定的に解釈されるべきではない。サービス、機能、又はリソースは、単一のサービス、機能、又はリソースに限定することなく、これらの用語の使用は、分散式でも集合式であってもよい関連のサービス、機能、又はリソースの群を指すことがある。注意すべきこととして、「センテンス」への言及、形式的に適切かつ完全なセンテンスを形成するか否かにかかわらず、1つ又は複数の単語の任意のセットを意味すると理解すべきであり、本明細書で用いられる「センテンス」は、大文字による表記及び/又は句読法が正しいでなければならないことを求めない。
「含む」(include)、「含み」(including)、「含有する」(comprise)、及び「含有」(comprising)という用語は、開放式用語であり、次のいずれにリストされるのは例示であり、挙げられた内容に限定する意味ではないと理解すべきである。本明細書で用いられたタイトルは、構造的な目的のみに使用され、明細書又は請求項の範囲を限定するために用いられるものではない。本特許開示に言及したそれぞれの文献は、その全体を引用することにより本明細書に取り組まれる。
さらに、当業者は(1)特定のステップの実行が任意的であるとすることができる。(2)特定のステップが本明細書で記述される具体的な順序に限定されなくてもよい。(3)特定のステップが異なる順序で実行することができる。及び(4)特定のステップが同時に実行することができることを認識すべきである。
なお、注意すべきこととして、本明細書で記載のいずれの実験及び結果は、例示的に提供され、具体的な1つ又は複数の実施形態を使用して、具体的な条件の下で実行されるものである。よって、含まれる実験又はそれらの結果は、現在の特許文献の開示の範囲を限定するために使用されるものではない。
A.序言
自然言語は、人間の最も自然なコミュニケーションの形式の1つであり、そのため、知的エージェントも自然言語を人間と交流するチャネルとして利用できることは大きな価値がある。最近の自然言語学習の進展は、主として膨大な訓練データを使用する教師あり訓練に依存し、前記教師あり訓練は、通常注釈を付けるために大量な労力を必要とする。ラベリングの労力に関係なく、有望な性能はすでに多くの特定のアプリケーションにおいて実現されているが、人間がどのように学習するかとはかなり異なる。人間は、世界に行動し、それらの行動の結果から学習する。移動のような機械的な行動に関しては、結果が主として幾何学的及び機械的原則に従うが、言語に関しては、人間が話すことにより行動し、その結果が通常会話パートナーの言葉及びその他の行為によるフィードバック(例えば、頷き)のような応答である。このフィードバックは、通常、どのようにその後の会話で言語スキルを向上させるかに関する情報シグナルを含み、人間の言語習得プロセスにおいて重要な役割を果たす。
乳児の言語習得プロセスは、人間の知性の表現として印象が付けられると共に、コンピュータによる言語学習に対して、新しい設定及びアルゴリズムの設計に示唆を与える。例えば、乳児は、人とインタラクトして、真似及びフィードバックにより学習する。スピーキング学習に関して、乳児は、最初的に彼の会話パートナー(例えば、親)を真似することにより言葉行動を実行し、単語(センテンス)を生成するスキルを身につける。親がりんご又はその画像を指して「これはりんごだ」と言う際に、彼は視覚画像から単語との関連性を取得することもできる。その後、物体を指しながら、乳児に「これはなんだ?」のような質問をすることができ、初期段階でよくみられるように、乳児が応答しない又は応答が不正確の場合は、正確な回答を提供する。同時に、彼が正確に回答した場合は、リワードフィードバックとして、頷き/微笑み/キス/抱擁と共に言語確認(例えば、「はい/いいえ」)をさらに提供することができる。乳児の視点から、言語を学習する方法は、親に言葉を語り、親からの訂正/確認/激励に基づいて、その言語行為を調整することである。
この例から、言語学習プロセスは本質的にインタラクティブであり、前記インタラクティブに対して、従来の教師あり学習設定に使用されたような静的データセットにより取得することが潜在的に困難な特性があることが明らかになる。乳児の言語学習プロセスにより示唆を得て、グラウンディングされた自然言語学習に関して、図1に示されるように、教師と学習者が自然言語で互いにインタラクトすることができる、新しいインタラクティブ設定の実施形態が提案される。
図1(a)は、訓練の間で、教師が自然言語で、物体について学習者とインタラクトすることを示す。インタラクションの態様として、(1)質問−回答−フィードバック、(2)陳述−復唱−フィードバック、又は(3)学習者からの陳述及びその後の教師からのフィードバックである。複数の実施形態において、訓練の間で、特定の物体−方向の組み合わせ又は物体のセット(インアクティブ組み合わせ/物体と称する)に対して、特定のインタラクションの態様を排除することがある。例えば、{アボカド,東}の組み合わせは、質問−回答セッションに現れていない。物体であるオレンジは、質問−回答セッションに現れることなく、陳述−復唱セッションのみに現れている。教師は、センテンスのフィードバック及びリワードシグナル(reward signal)(図において、[+]と[−]として表記される)の両者を提供する。図1(b)は、テストの間で、教師が周りの物体について質問することができ、前記質問は、例えば、{アボカド、東}の組み合わせについての質問と、オレンジについての質問のような、以前質問をしたことのないインアクティブ組み合わせ/物体に関する質問をも含む。このテストの設定は、組み合わせ一般化と知識伝達設定を含み、提案されたアプローチを評価するために用いられる(セクションD参照)。
この設定において、教師あり学習設定の場合のような学習者の行為を監督するための直接な指導がない。代わりに、学習者は、学習するために行動しなければならず、即ち、現在習得されたスピーキングスキルで会話に参加することにより、会話スキルのさらなる向上のための学習シグナルが提供される対話パートナーからのフィードバックを取得する。
学習のフィードバックを利用するために、教師を直接的に(例えば、言語モデルを使用して)真似することが魅力的である。どのように話すかを学習する実行可能なアプローチであるが、単純な模倣により訓練されたエージェントは、強化シグナルが無視されているため、必ずしも文脈において適応的に会話することができるわけではない。例として、真似することだけ得意なよく訓練されたオウムとうまく会話をすることは困難である。その原因として、学習者が第三者視点から、会話する教師を真似するところにあり、視点が教師から学習者に変更したため、「はい/いいえ」及び「あなた/わたし」のような教師のセンテンスにおける特定の単語を、除去/変更する必要の場合があるからである。これは、模倣だけでは実現できない。一方、模倣せずに、単純に強化シグナルを使用して適切な会話的行動を生成することもチャレンジ的である。その根本的な原因はスピーキング能力がないことにあり、それによって、ランダムに発言することにより意味が通じるセンテンスを生成する確率が低く、まして適切なものを生成することが難しいことは言うまでもない。これは、乳児が、言語関連の模倣について最も重要なチャンネルの1つである傾聴力がない場合に、それらの言語能力を発展させることがまったくない事実による例示である。
本明細書において、これらの限界の両方ともに克服し、インタラクティブ言語学習のための共同模倣及び強化モデルの実施形態が開示される。開示されたモデルが、共同学習のために、教師からの言葉とリワードフィードバックを利用することにより、模倣又は強化の単独の一方だけで遭遇する困難を克服する。本発明の一部の貢献は、次のようにまとめられる。
− 新しい人間らしいインタラクションに基づくグラウンディングされた言語学習設定を提案する。当該設定で、言語は、自然言語で環境(教師)とインタラクトすることにより学習する。
− インタラクションの間で、教師からのフィードバックを利用することにより、インタラクティブの設定で、共同模倣及び強化によってグラウンディングされた自然言語学習アプローチを提案する。
複数の実施形態において、模倣及び強化は、インタラクティブの設定で、グラウンディングされた自然言語学習のために共有される。
本明細書は、次のように構成される。セクションBは、自然言語学習に関する一部の関連技術の概要を簡単に述べる。セクションCは、インタラクションに基づく自然言語学習の課題の公式(formulation)を紹介し、その後、実施形態に対する詳細な説明を紹介する。セクションDは、複数の詳細な実験を開示して、インタラクティブの設定で提案するアプローチの言語学習能力を示す。セクションEは、一部の結論を挙げる。
B.関連仕事
ネットワークに基づくディープ言語学習は、近来大きく成功しており、既に、例えば、機械翻訳、画像字幕(image captioning)/視覚質問応答、及び対話応答の生成(dialogue response generation)のような様々なアプリケーションに適用されるようになっている。訓練については、ソース−ターゲットペア(source-target pairs)を含む大量な訓練データが必要で、通常、かなり努力して収集することが必要である。この設定は、本質的に、訓練データの統計資料を取得するもので、言語学習のインタラクティブ性質が配慮されていないため、人間の学習方法とは大きく異なる。
従来の言語モデルは教師ありの方式で訓練されたが、近来、訓練に強化学習を用いる研究がいくつか行われている。このような研究は、主に、微分不可能な特定のリワード関数に基づいて、教師ありの方法で予め訓練された言語モデルの性能を調整する課題の解決を目的とし、前記リワード関数は、そのまま標準のBLEUコアのような評価指標、手動的に設計された関数、又は対抗的設定(adversarial setting)で学習された指標であり、強化学習の使用につながる。これらと異なり、本明細書における主としての焦点の1つとして、特定な評価指標に向けて具体的なモデル出力を最適化することではなく、インタラクティブ設定及びモデル設計における言語学習の可能性にある。
交流する学習と言語の出現にはいくつかの研究がある。出現した言語は、後処理を介して解釈されることが必要である。それと異なり、本開示における実施形態は、エージェントの言語行動が何らかの後処理をすることなく容易に理解できるように、理解と生成(即ち、スピーキング)の視点から自然言語の学習を実現することを目的とする。また、推測者が回答者への質問で追加情報を収集することにより、最終的な目標(例えば、分類/ローカライゼーション)を実現しようとする推測者/回答者設定を用いる対話学習に関する研究もある。これらの研究は、推測者に最終的な推測目標の実現を助けるために、質問される質問を最適化しようとする。そのため、その注目するところが、本明細書における複数の実施形態のように、教師とのインタラクションによる言語学習の目標とは大きく異なる。
本明細書における一態様は、モデルの実施形態が自然言語空間(natural language space)で行動を出力するという意味で、強化学習に基づく自然言語行動空間における制御にも関連する。複数の実施形態において、テキスト対話による言語学習は既に検討される。複数の関連技術において、候補シーケンスのセットが提供され、所要の行動は候補セットから1つを選択することであるため、本質的には離散制御の問題になる。それに対して、本開示の実施形態は、全ての可能なシーケンスを含む潜在的に無限のサイズの行動空間で、連続的空間における制御によるセンテンスの生成を実現する。
C.インタラクションに基づく言語学習の実施形態
このセクションにおいて、提案したインタラクションに基づく自然言語学習アプローチの実施形態を紹介する。1つの目標は、バーチャル教師でも人間でもよい教師とインタラクトすることにより会話を学習することができる、学習エージェントを設計することにある(「エージェント」という用語は、本明細書における文脈により、「学習者」と互換して用いることができる。)(図1−2参照)。時間ステップtで、教師は、視覚画像vにより、センテンスwtを生成し、前記センテンスは、質問(例えば、「東に何がある」、「りんごはどこ」)、陳述(例えば、「バナナは北にある」)、又は空白センテンス(「。」と表記する)であってもよい。学習者は、教師のセンテンスwtと視覚内容vを受信し、教師へのセンテンスの応答atを生成する。その後、教師は、その応答により、センテンスwt+1及びリワードrt+1の形式で、学習者にフィードバックする。センテンスwt+1は、教師からの言語フィードバック(例えば、「はい、東にはチェリーがある」、「いいえ、りんごが東にある」)を表し、rt+1は、インタラクションの間でも自然に表す頷き/微笑み/キス/抱擁のような非言葉的確認フィードバックをモデル化する。そのため、問題は、教師のセンテンス及びリワードフィードバックからグラウンディングされた自然言語を学習することができるモデルを設計することにある。積極的なリワードのみで教師からのセンテンスのサブセットより学習することによる教師あり訓練として、問題を公式化(Formulation)することは有望に見えるが、このアプローチについては、前記のように、視点の変更による問題のため、機能しない。問題の公式化と実施形態の詳細は、以下に示す。
1.問題の公式化
複数の実施形態において、エージェントからの応答は、可能な出力シーケンスにわたって確率分布からのサンプルとしてモデル化することができる。具体的には、1つの場面に対して、時間ステップtまでに教師から視覚入力v及びテキスト入力w1:tを与え、エージェントからの応答aは、言語行動の方策分布(policy distribution)
Figure 0006921022
からサンプリングすることにより生成することができる。
Figure 0006921022
複数の実施形態において、エージェントは、発言atを出力し、時間ステップt+1で教師からのフィードバックを
Figure 0006921022
として受信することにより、教師とインタラクトする。wt+1は、半分の確率で接頭語(はい/いいえ)を加えるように、wtとatに応じた言語確認/訂正を表すセンテンスの形式であってもよい(図1−2参照)。リワードrt+1は、エージェント発言atの正確さにより、正値が激励を表し、負値が激励しないを表すスカラー値フィードバックであってもよい。インタラクションに基づく言語学習のタスクは、教師と会話し、教師のフィードバックFから向上することによる学習と称することができる。数学的に、当該問題は、下記コスト関数の最小化として公式化することができる。
Figure 0006921022
ここで、
Figure 0006921022
は教師から生成されるすべてのセンテンスのシーケンスSにわたる期待値であり、rt+1は時間ステップtで方策
Figure 0006921022
に従って言語行動をとってから、時間ステップt+1で受信される中間リワードであり、γがリワード割引因子(reward discount factor)である。[γ]tは、上付き添字で区別付けるように、γに対する冪乗と示すことができる。両方の要素に対して、訓練シグナルは教師とのインタラクションを介して取得することができ、当該タスクは、インタラクションに基づく言語学習と呼ばれる。模倣部に対して、本質的に教師の言語応答wt+1から学習し、その言語行動の結果としてのみ取得することができる。強化部に対して、教師のリワードシグナルrt+1から学習し、同じように、言語行動をとってから取得し、次の時間ステップで受信する。提案するインタラクティブ言語学習の公式は、2つの構成を集約し、会話によるインタラクションの間で自然的に出現するフィードバックを充分に利用することができる。
− 複数の実施形態において、模倣は、学習者自身との会話の間で教師の行為を観察することによりグラウンディングされた言語モデルを学習する役割を果たす。これは、学習者に文脈内において話すという基本能力を持たせることを可能にする。複数の実施形態において、ここでの訓練データは、明示的なグラウンドトルス(ground-truth)のラベリングがされていない、教師からのセンテンスであり、予想される正解とその他のものが混在している。訓練の一の態様は、未来を予測することにより行われる。より具体的には、複数の実施形態において、モデルは、単語レベルで次の未来の単語を予測し、センテンスレベルで次の言語入力(例えば、次のセンテンス)を予測する。別の重要なポイントとして、学習者が、教師と会話する他の専門家の学生ではなく、彼と会話する教師を模倣するため、上記実施形態は実質的に第三者模倣である。
− 複数の実施形態において、強化(本明細書全体にわたって、強化は、強化/リワードシグナルから学習するモジュールの実施形態を表し、文献に出現するような強化アルゴリズムとは区別すべきである)は、行動方策分布を調整することにより適切に会話することを学習するように、教師からの確認フィードバックを利用する。学習者に習得したスピーキング能力を利用して、フィードバックにより適応させることを可能にする。ここで、学習シグナルは、リワードの形式で提示する。これは、親との試行錯誤により習得した言語スキルを利用して、リワードフィードバックにより改善を図る乳児の言語学習プロセスに類似する。
なお、模倣及び強化は、式(2)において2つの別々の要素として示しているが、両方の訓練シグナル形式を充分に利用するために、それらは共有パラメータを介して結びつくことができる。セクションDにおける実験で実証されるように、この共同学習の態様は、模倣又は強化のみによるあまり効果的でないアプローチに比較して、成功な言語学習の実現にとって重要である。
2.アプローチ
図2は、複数のセンテンスを跨って及びセンテンスにおける順次構造を取り込むために用いられる階層再帰型ニューラルネットワーク(RNN)モデルの実施形態200を示す。複数の実施形態において、階層RNNモデルの実施形態200は、符号化RNN220と、行動RNN240と、コントローラ250とを含む。図3は、階層RNNに基づくモデルにおける例示的な視覚エンコーダネットワークの実施形態300を示す。図4は、階層RNNに基づくモデルにおける例示的なコントローラネットワークの実施形態400を示す。図2に示される様々なアルゴリズムアイコンに対応する注釈は、図3及び図4にも適用可能である。
図5は、本願開示の実施形態によるインタラクションに基づく言語学習のための方法を示す。時間ステップtで、符号化RNN220は、教師からの視覚画像202に関する1つ又は複数の単語を含む自然言語入力w と履歴情報(又は初期状態)とを、状態ベクトル
Figure 0006921022

に符号化する(505)。複数の実施形態において、自然言語入力は自然言語センテンスである。複数の実施形態において、符号化RNN220は、状態ベクトル
Figure 0006921022

を生成するために、視覚エンコーダ210から、視覚特徴ベクトルの出力をさらに受信する。視覚エンコーダの追加の詳細は、図3に記載される。
Figure 0006921022
ステップ515で、制御ベクトルkは、教師のセンテンスへの応答aを生成するための行動RNNに入力される。複数の実施形態において、行動RNN240は、さらに、応答aを生成するために、視覚エンコーダ212からの出力を受信する。視覚エンコーダ210及び212の両方は、同一の視覚画像202に対して視覚符号化動作を実施する。複数の実施形態において、視覚エンコーダ210及び212は、パラメータを共有する。ステップ520で、教師は、w及びaの両方により、フィードバック
Figure 0006921022

を生成する。ステップ525で、行動コントローラへの入力として用いられることに加え、状態ベクトルは、次の時間ステップに伝送され、wt+1から学習するための次のステップ
Figure 0006921022

における符号化RNNの初期状態として用いることにより、時間ステップのスケールでもう1つの繰り返しレベルを形成する。
時間ステップtで、符号化RNNは、教師のセンテンス(「りんごはどこ」)と、視覚エンコーダ
Figure 0006921022
からの視覚特徴ベクトルとを入力とすることにより、時間ステップtで符号化RNNの最後の状態に対応する
Figure 0006921022
応答生成のための行動RNNに伝送される。複数の実施形態において、パラメータは、符号化RNNと行動RNNとの間で共有される。訓練の間で、RNNは、次の単語と次のセンテンスを予測することにより訓練される。訓練の後、符号化RNNと行動RNNのパラメータは、固定のものとすることができる。
図4に戻って参照し、図4は階層RNNに基づくモデルにおける例示的なコントローラネットワークの実施形態400を示す。複数の実施形態において、コントローラネットワークは、残差制御モジュール405(例えば、全結合層(fully connected layer))と、次にガウス方策モジュール410とを含む。コントローラネットワーク400の更なる詳細は、セクション2.2に記載される。
2.1 階層RNNに基づく言語モデル化を用いる模倣の実施形態
複数の実施形態において、教師のスピーキング方法は、学習者に真似させるためのソースを提供する。この情報ソースから学習する1つの方法は、予測的模倣である。具体的には、特定の場面に対して、前の言語入力(例えば、前のセンテンス)w1:tと現在の画像vを条件とする次の言語入力(例えば、次のセンテンス)w1+tの確率は、以下で表すことができる。
Figure 0006921022
ここで、
Figure 0006921022
は、時間ステップtにおける前のRNNの最後の状態をw1:t(図2参照)のまとまり(summarization)とし、iはセンテンスにおける単語を指す。RNNを用いて第t+1番目のセンテンスにおける第i番目の単語をモデル化することも自然であり、ここで、条件とするtまでのセンテンスと第t+1番目のセンテンスにおけるiまでの単語は、固定長の隠れ状態ベクトルにより、
Figure 0006921022
として取得され、それにより、
Figure 0006921022
ここで、Wh、Wvとbは、それぞれ変換重みとバイアスパラメータを示す。
Figure 0006921022
図6は、本願開示の実施形態による視覚エンコーダ300で視覚特徴ベクトルを生成するための方法を示す。視覚エンコーダ300は、図2における視覚エンコーダ210又は212とすることができる。ステップ605で、視覚画像302は、まず、視覚特徴マップを取得するように、畳み込みニューラルネットワーク(CNN)304により符号化される(図3におけるキューブ305)。
複数の実施形態において、視覚特徴マップは、縦続特徴マップ(concatenated feature map)(図3におけるキューブ310と縦続されるキューブ305)を生成するように、方向的情報を符号化するための学習可能なパラメータを備える他のマップのセット(図3におけるキューブ310)が(ステップ610で)付加される。学習可能なマップのセット(図3におけるキューブ310)は、初期化され全ての値がゼロになる視覚特徴マップ(キューブ305)と同じサイズのキューブを確立することにより生成され、訓練の間で、学習アルゴリズムにより変更することができる。
ステップ615で、注意マップ308は、初期RNN状態
Figure 0006921022
から生成された空間的フィルタ306を用いて、縦続特徴マップを畳み込むことにより取得される。ステップ620で、空間的加重(spatial summation)は、空間集約ベクトル(spatially aggregated vector)(図3における320と縦続される315)を生成するように、注意マップと縦続特徴マップの間で実施される。ステップ625で、
Figure 0006921022
から生成された視覚的又は方向的特徴を強調するための注意マスク316は、最終視覚特徴ベクトル(図3における340と縦続される335)を作成するように、空間集約ベクトル(spatially aggregated vector)(図3における320と縦続される315)に応用される。最終視覚特徴ベクトルは、符号化RNN220又は行動RNN240への出力350として用いられる。複数の実施形態において、最終視覚特徴ベクトルは、バイナリー注意マスク316と空間集約ベクトル315の間のアダマール積(Hadamard product)を実施することにより作成される。符号化RNNの初期状態は、前のRNNの最後の状態であり、即ち、
Figure 0006921022
このように訓練された言語モデルは、入力を条件とするセンテンスを作成する基本能力を有する。そのため、符号化RNNと行動RNNを直接的に接続し、即ち、前の符号化RNNからの最後の状態ベクトルを初期状態として行動RNNへ入力する場合、学習者は、パラメータが共有されるので、教師の話し方を真似することにより、センテンスを生成するための能力を有する。しかしながら、このスピーキングの基本能力は、学習者を教師と適切的に会話させるのに不十分である場合があり、それは、次のセクションに記載するような強化シグナルの取り組みが必要である。
2.2 シーケンス行動に対する強化を介する学習の実施形態
複数の実施形態において、エージェントは、
Figure 0006921022
を介して変調された条件シグナルを用いて生成されてもよい(図2と図4参照)。
Figure 0006921022
変調のためにコントローラ
Figure 0006921022
を取り込む理由として、基本言語モデルが学習者にセンテンスを生成する能力を与えるが、必ずしも正確に応答し、又は教師からの質問を適切に回答する能力を与えるわけではないためである。いずれの追加モジュールがない場合、エージェントの行為は、パラメータが共有されるため、教師からの行動と同じになるため、エージェントは、教師からのフィードバックを利用することにより適応的に正確に話すことを学習することができない。
図7は、本願開示の実施形態によるコントローラネットワークで制御ベクトルを生成するための方法を説明する。複数の実施形態において、
Figure 0006921022
を変換するための残差構造ネットワーク405と;(2)探索の形式として、残差制御ネットワークからの変換された符号化ベクトルを条件とするガウス分布から、制御ベクトルを生成するためのガウス方策モジュール410と、2つの要素を有する複合ネットワークである。複数の実施形態において、勾配停止層(gradient-stopping layer)(図4に図示せず)は、コントローラ内全ての変調能力をカプセル化するために、コントローラとその入力の間に取り込むことができる。
残差制御。複数の実施形態において、行動コントローラは、入力ベクトルの内容を変更することができない場合、入力ベクトルを未変更の次のモジュールに渡すことができる性質を有する。ステップ705で、残差構造ネットワークは、下記のように、コンテンツ変更ベクトルを初期入力状態ベクトルに加える(即ち、スキップコネクション)。
Figure 0006921022
Figure 0006921022
ガウス方策。複数の実施形態において、ガウス方策ネットワークは、入力ベクトルを条件とするガウス分布として出力ベクトルをモデル化する。ステップ710で、ガウス方策モジュールは、生成された制御ベクトルcを入力として受信し、行動RNNの初期状態として用いられる(715)出力制御ベクトルkを作成する。ガウス方策は、下記のようにモデル化される。
Figure 0006921022
ここで、
Figure 0006921022
は標準偏差ベクトルを推定するためのサブネットワークであり、ReLU活性を有する全結合層を用いて実現することができる。
ガウス方策の取り込みは、ネットワークに確率的ユニット(stochastic unit)を導入し、それにより、誤差逆伝播法(backpropagation)を直接的に適用することができない。そのため、方策勾配アルゴリズムは、最適化のために用いることができる。複数の実施形態において、小さい値(0.01)は、最小限の標準偏差の制約としてγ(c)に加えられる。その後、コントローラから生成されたベクトルkは、行動RNNの初期状態として用いられ、センテンスの出力は、ビームサーチを用いて生成される(図2参照)。複数の実施形態において、
Figure 0006921022
Figure 0006921022
Figure 0006921022
2.3 訓練の実施形態
訓練は、教師のフィードバックFを訓練シグナルとして用いることにより確率的方策を最適化し、式(2)に示されるように模倣と強化を共同して考慮することにより最適化されたパラメータのセットを取得することを含む。確率的勾配降下法は、ネットワークを訓練するために用いられる。模倣モジュールからのLIに対して、その勾配は下記のように取得することができる。
Figure 0006921022
方策勾配定理を用いて、下記強化モジュールに対する勾配が下記の通り取得することができる。
Figure 0006921022
ここで、δは、
Figure 0006921022
のように定義されたTD誤差である。複数の実施形態において、ネットワークは、16のバッチサイズと、1×10−5の学習レートで、Adagradにより訓練される。γ=0.99の割引因子を用いることができる。複数の実施形態において、経験再生(Experience Replay)は、実践に用いられる。
D.様々な実験結果
本明細書で提案されるアプローチの実施形態の性能は、そのインタラクティブ言語学習の能力を示すために、複数の異なる設定で評価した。訓練効率について、図1に示されるように、言語学習のため模擬環境が構築された。四つの異なる対象は、それぞれの方向(S、N、E、W)に学習者の周りにあると考えられ、それぞれのセッションについての対象のセットからランダムにサンプリングされる。当該環境において、教師は、3つの異なる形式で周りの対象についてエージェントとインタラクトする:(1)「南になにがあるか」、「りんごはどこ」のように質問をし、エージェントが前記質問を回答する。(2)「りんごは東にある」のように周りの対象を述べ、エージェントが前記陳述を繰り返す。(3)何も言わずに(「。」)、その後、エージェントが周りの対象を述べ、教師からのフィードバックを取得する。エージェントは、正しく動作する(教師からの質問に対して正しい回答を生成するか、又は教師が何も言わない場合に正しい陳述を作成する)場合、ポジティブなリワード(例えば、r=+1を受信し、その他の場合、ネガティブなリワード(例えば、r=−1)を受信する。リワードは、激励として、頷きのような教師の非言語フィードバックを表すために用いられる。リワードフィードバックに加え、教師は、「Xは東にある」又は「東にはXがある」の形式で、半分の確率で接頭語(はい/いいえ)を加えるように、所望の回答を含む言語フィードバックをさらに提供した。エージェントが上記形式の1つで、所望の回答とピッタリ一致するセンテンスを出力する場合、エージェントの言語行動は正しい。学習者が教師の知識を超える新しい正しいセンテンスを生成する可能性がある。
言語学習の評価:提案されるアプローチの基本言語学習能力は、まず、インタラクティブ言語学習設定の下で検証される。当該設定において、教師は、まず、学習者に対してセンテンスを生成し、その後、学習者は応答し、教師はセンテンスとリワードに基づいてフィードバックを提供する。複数の実施形態において、実施形態は、2つのベースラインアプローチと比較される。
− 教師のリワードフィードバックからの学習の強化を直接的に用いる強化及び、
− 教師の行為を真似することにより学習する模倣である。
実験結果は、図8に示される。注意(注目)に値することは、リワードフィードバックのみからの直接的な学習(強化)805は、成功な言語習得につながらなかった。主な理由として、ランダム探索により適切なセンテンスを生成する可能性が低く、正しいセンテンスを生成する可能性はさらに低くなるため、受信されたリワードは−1に止まる可能性があるためである。一方、模倣アプローチ810は、真似することによりスピーキング能力を得ることができるため、強化の場合よりも優れた能力を発揮した。実施形態815は、学習するための会話の間で自然に現れるフィードバックシグナルを充分に利用することができる共同公式の効果のため、比較された両方のアプローチよりも高いリワードを実現した。これは、インタラクティブ設定の下で、言語学習のために提案されたアプローチの有効性を示している。
同じような動作が、既にテストの間で観察された。さらに、複数の例は、生成された注意マップと共に図9a〜9dに示されるように視覚化される。図9aと9bは「なに」との質問に対応し、図9cは「どこ」との質問に対応し、図9dは、教師が何も言わず(「。」)、かつエージェントが陳述を作成することが予期される状況に対応する。それぞれの例に対して、視覚画像が、教師と学習者の間の会話の対話(dialogue)、及び教師への応答を作成する際に学習者から生成された注意マップ(att.map)(右上に重ねて表示)と共に示される。注意マップは、ヒートマップとして表示され、注釈付き参照番号(905(a)−905(d))は大きな値を示し、非注釈領域は小さい値を示す。グリッド線は、視覚化する目的で、注意マップの上に重ねられる。学習者の位置は、十字で注意マップにおいて示される(T/L:教師/学習者、[+/−]:ポジティブ/ネガティブリワード)。
結果から観察できるように、テストされた実施形態は、「なに」と「どこ」質問両方に対して、正しい注意マップを成功に生成することができた。教師が何も言わない場合(「。」)、エージェントは、周りの対象を述べる陳述を正しく生成することができた。
ゼロショット対話(zero-shot dialogue)。複数の実施形態において、知的エージェントは、一般化する能力を有することが期待される。複数の実施形態において、ゼロショット対話は、アプローチの言語学習能力を評価する方法として用いられる。実験は、下記2つの設定の下で行われた。
(1)組み合わせの一般化(Compositional generalization):学習者が、訓練の間で周りの対象について教師とインタラクトするが、特定の位置にある特定の対象(インアクティブ物体と称する)と何らかのインタラクションをせず、テストにおいて、教師はその位置に関係なく、対象について質問することができる。期待されることとして、優れた学習者が、対象と位置について学んだ概念、及び習得された会話スキルを一般化することをでき、以前に経験したことのない新しい{対象、位置}の組み合わせについて、教師と自然言語でうまくインタラクトすることができる。
(2)知識の伝達:教師が周りの対象について学習者に質問する。特定の対象に対して、教師が、訓練の間で質問することなく説明のみを提供するが、テストにおいて、教師がシーンに存在するいずれの対象について質問することができる。学習者は、教師の説明から学んだ知識を伝達し、これらの対象に関する教師の質問に対する回答を生成することができることが期待される。実験は、二つの設定(configuration)(混合とホールドアウト)に対して、これら二つの設定で行われ、実験結果は、それぞれ表1と表2にまとめた。混合設定は、訓練の間で、対象がアクティブ又はインアクティブであるにかかわらず、全ての対象とのインタラクションの混合の場合を示す。ホールドアウト設定は、訓練の間で、インアクティブ対象のみとのインタラクションを含む場合を示す。
結果から、強化アプローチが、前記セクションに言及したように、基本の言語関連の能力が欠如するため、両方の設定において十分に機能されていないことが示された。模倣アプローチは、主としてその真似による言語スピーキング能力のため、強化より優れている。なお、ホールドアウト設定は、新しい対象/組み合わせのみを含む混合設定のサブセットであるため、混合の場合よりも困難である。興味深く注意すべきこととして、試験された実施形態は、より困難なホールドアウト設定で一致した行為を維持し、両方の設定で他の2つのアプローチより優れ、インタラクティブ言語学習における有効性を証明した。
Figure 0006921022
Figure 0006921022
E.様々な結論
本明細書では、グラウンディングされた自然言語学習のためのインタラクティブ設定の実施形態で、共同模倣と強化によりインタラクションの間で自然に現れるフィードバックを充分に利用することにより、効果的なインタラクティブ自然言語学習を実現する実施形態を開示した。実験結果から、各実施形態が、インタラクティブの設定で自然言語学習のための効果的な方法を提供し、複数の異なる場面で満足のできる一般化及び伝達能力を示している。注意すべきこととして、実施形態は、新しい概念に関して学習した知識及び高速学習の明示的なモデル化、並びに本開示に提案された言語学習タスクとナビゲーションのような他の異種タスクと接続することを含む又は取り込むことができる。
F.システムの実施形態
複数の実施形態において、本開示の態様は、1つ又は複数の情報処理システム/コンピュータシステムに向け、実装され、又はそれを利用することができる。本開示の目的として、コンピュータシステムは、ビジネス、科学、制御又は他の目的でいずれの情報、知恵、又はデータをコンピュート、計算、決定、分類、処理、送信、受信、検索、発生、ルーティング、切替、格納、表示、通信、出現、検出、記録、再生、運用、又は利用するための、操作可能ないずれの手段又は手段の集合を含むことができる。例えば、コンピュータシステムは、パーソナルコンピュータ(例えば、ラップトップ)、タブレットコンピュータ、ファブレット、パーソナルデジタルアシスタント(PDA)、スマートフォン、スマートウォッチ、スマートパッケージ、サーバ(例えば、ブレードサーバ又はラックサーバ)、ネットワーク記憶装置、又は他のいずれの適切な装置であってもよく、サイズ、形、性能、機能、及び価格で変動することができる。コンピュータシステムは、ランダムアクセスメモリ(RAM)、中央処理装置(CPU)もしくはハードウェア又はソフトウェア制御論理回路のような1つ又は複数のプロセッシングリソース、ROM、及び/又は他のタイプのメモリを含むことができる。コンピュータシステムの他の要素は、1つ又は複数のディスクドライブ、外部装置と通信するための1つ又は複数のネットワークポート、並びにキーボード、マウス、タッチスクリーン、及び/又はビデオディスプレイのような様々な入力と出力(I/O)装置を含むことができる。コンピュータシステムは、様々なハードウェア要素の間で通信を伝送するように操作可能な1つ又は複数のバスをさらに含むことができる。
図10は、本願開示の実施形態によるコンピュータ装置/情報処理システム(又はコンピュータシステム)の簡略ブロック図を示す。システム1000に対して示される機能は、様々な情報処理システムの実施形態をサポートするように動作することができることを理解されるべきであり、情報処理システムは異なる構成を有し、異なる要素を含むことを理解されるべきものである。
図10に示されるように、システム1000は、コンピュータリソースを提供し、コンピュータを制御する1つ又は複数の中央処理装置(CPU)1001を含む。CPU1001は、マイクロプロセッサなどによって実現することができ、数学的計算のために、1つ又は複数のグラフィックスプロセッシングユニット(GPU)1017及び/又は浮動小数点演算コプロセッサーをさらに含むことができる。システム1000は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、又は両方としてのシステムメモリ1002をさらに含むことができる。
図10に示されるように、さらに、複数のコントローラ及び周辺装置を提供することができる。入力コントローラ1003は、キーボード、マウス、又はスタイラスのような様々な入力装置1004へのインターフェースを表す。スキャナー1006と通信するスキャナーコントローラ1005もさらに含むことができる。システム1000は、1つ又は複数の記憶装置1008とインターフェースで接続するための記憶コントローラ1007をさらに含むことができ、前記記憶装置1008のそれぞれは、磁気テープ又はディスク、もしくは光学媒体のような記憶媒体を含むことができ、システム、ユーティリティ及びアプリケーションを操作するための命令のプログラムを記録するために用いることができ、前記プログラムは、本発明の様々の態様を実現するプログラムの実施形態を含むことができる。記憶装置1008は、本発明による処理されたデータ又は処理しようとするデータを格納するためにも用いることができる。システム1000は、ディスプレイ装置1011へのインターフェースを提供するためのディスプレイコントローラ1009を含むことができ、前記ディスプレイ装置1011は、ブラウン管(CRT)、薄膜トランジスタ(TFT)ディスプレイ、又は他のタイプのディスプレイであってもよい。コンピュータシステム1000は、プリンタ1013と通信するためのプリンタコントローラ1012をさらに含むことができる。通信コントローラ1014は、1つ又は複数の通信装置1015とインターフェースで接続することにより、前記通信装置1015は、インターネット、クラウドリソース(例えば、イーサネット(登録商標)クラウド、ファイバーチャネルオーバーイーサネット(登録商標)(FCoE)/データセンターブリッジング(DCB)クラウドなど)、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ストレージエリアネットワーク(SAN)を含む様々なネットワークのいずれかを通じて、又は赤外線シグナルを含むいずれの適切な電磁キャリアシグナルを通じて、システム1000をリモート装置と接続ことを可能にする。
示されたシステムにおいて、全ての主要システム要素は、バス1016に接続することができ、前記バス1016は、1つ以上の物理的バスを表すことができるが、複数のシステム要素は、互いに物理的に隣接することができるが、そうしなくてもよい。例えば、入力データ及び/又は出力データは、遠隔的に1つの物理的位置から他の物理的位置に発信することができる。また、本発明の様々な態様を実現するプログラムは、ネットワークをわたってリモート位置(例えば、サーバ)からアクセスすることができる。このようなデータ及び/又はプログラムは、様々な機械読みとり可能な媒体のいずれかを通じて搬送することができ、前記機械読みとり可能な媒体は、ハードディスク、フロッピーディスク、及び磁気テープのような磁気媒体、CD-ROMとホログラフィック装置のような光学媒体、光磁気媒体、並びに、特定用途向けの集積回路(ASIC)、プログラマブルロジックデバイス(PLD)、フラッシュメモリ装置、及びROMとRAM装置のような、プログラムコードを格納し、又は格納して実行するように特別に設定されるハードウェア装置を含むが、それらに限定することがない。
本発明の実施形態は、1つ又は複数のプロセッサ又はプロセッシングユニットを実施しようとするステップを引き起こすための命令を有する1つ又は複数の非一時的なコンピュータ−読み取り可能な媒体で符号化することができる。注意すべきこととして、1つ又は複数の非一時的なコンピュータ−可読媒体は、揮発性及び不揮発性メモリを含むべきである。注意すべきこととして、ハードウェアの実装又はソフトウェア/ハードウェアの実装を含む代替的な実装も可能である。ハードウェアに実装された機能は、ASIC、プログラマブルアレイ、デジタルシグナルプロセッシング回路などを用いて実現することができる。それに応じて、いずれの請求項における「手段」という用語は、ソフトウェアの実装とハードウェアの実装の両方をカバーすることを意図する。同じように、ここで用いられる「コンピュータ−読み取り可能な媒体」という用語は、具現化された命令のプログラムを有するハードウェア及び/又はソフトウェア、もしくはそれらの組み合わせを含む。これらの実装の代替案を考慮して、理解されるべきこととして、図面と付随の説明は、当業者が、必要なプロセッシングを実施するように、プログラムコード(即ち、ソフトウェア)を書き込むために、及び/又は回路(即ち、ハードウェア)を製造するために必要な機能的情報を提供する。
注意すべきこととして、本発明の実施形態は、さらに、様々なコンピュータへの実装による動作を実行するためのコンピュータコードを有する非一時的(non-transitory)有形コンピュータ読み取り可能な媒体を備えるコンピュータ製品に関する。この媒体及びコンピュータコードは、本発明の目的のために特別に設計及び構築されたものであってもよく、または、関連する技術分野における当業者に対して公知又は入手できるものであってもよい。有形コンピュータ読み取り可能な媒体の例としては、ハードディスク、フロッピーディスク、及び磁気テープのような磁気媒体、CD-ROMとホログラフィック装置のような光学媒体、光磁気媒体、並びに、特定用途向け集積回路(ASIC)、プログラマブルロジックデバイス(PLD)、フラッシュメモリ装置、及びROMとRAM装置など、プログラムコードを格納し、又は格納して実行するように特別に設定されたハードウェア装置を含むが、それらに限定することがない。コンピュータコードの例には、コンパイラにより作成された機械コードと、インタープリターを使用してコンピュータにより実行される高水準コードを含むファイルとを含む。本発明の実施形態は、処理装置により実行されるプログラムモジュールにあてもよい機械実行可能な命令として、全体又は部分的に実装することができる。プログラムモジュールの例は、ライブラリー、プログラム、ルーチン、対象、要素、及びデータ構造を含む。分散型コンピューティング環境において、プログラムモジュールは、ローカル、リモート、又は両方である設定で物理的に配置されでもよい。
当業者は、コンピューティングシステム又はプログラミング言語は本発明の実施に対して、いずれも重要ではないと認識する。当業者であれば、さらに、前記複数の要素が、物理的及び/又は機能的にサブモジュールに分離されるか、又は一緒に組み合わせることができることは認識するであろう。
当業者にして、前記例と実施形態は例示的であり、本願開示の範囲を限定するものではないことは理解されるべきである。当業者が本明細書を読み、図面を検討することにより自明なすべての並び替え、強化、均等物、組み合わせ、及び改善は、本願開示の真の精神及び範囲に含まれることを意図する。さらに、特許請求の範囲の要素は、マルチ従属、設定、及び組み合わせを含む異なる方法で配置することができることを留意すべきである。

Claims (16)

  1. インタラクションに基づく言語学習のためのコンピュータによって実現される方法であって、
    一の時間ステップにおいて、階層再帰型ニューラルネットワーク(RNN)モデルにおける符号化RNNで、視覚画像に関する1つ又は複数の単語を含む教師からの自然言語入力と初期状態とを、状態ベクトルに符号化することであって、前記階層RNNモデルは、前記符号化RNN、コントローラネットワーク、行動RNNを含むものであり、前記教師は、自然言語で会話可能なバーチャル教師又は人間であることと、
    コントローラネットワークで、前記状態ベクトルに基づいて、所定の方策に従って状態ベクトルの内容を変換して、変換された状態ベクトルに基づいて出力制御ベクトルを生成することと、
    行動RNNで、前記出力制御ベクトルに基づいて、前記自然言語入力への応答を生成することと、
    前記自然言語入力と生成された前記応答とに基づいて、前記教師から、前記応答に対するフィードバックを生成することと
    を含み、
    前記教師からの前記フィードバックは、次の時間ステップにおける次の自然言語入力と、現在の時間ステップに生成された前記応答に対するリワードとを含み、
    前記方策は、前記教師からのフィードバックによって調整される、コンピュータによって実現される方法。
  2. 次の時間ステップにおける符号化処理のために、前記状態ベクトルを次の時間ステップにおける初期状態として用いることをさらに含む請求項1に記載のコンピュータによって実現される方法。
  3. 前記リワードは、前記応答の正確さにより、正値を激励とし、負値を激励しないとする前記教師からのスカラー値のフィードバックである請求項に記載のコンピュータによって実現される方法。
  4. 前記符号化RNNは、視覚エンコーダから出力した視覚特徴ベクトルをさらに受信し、前記符号化は、前記自然言語入力及び前記視覚特徴ベクトルに基づいて行われる請求項1に記載のコンピュータによって実現される方法。
  5. 前記視覚エンコーダから前記視覚特徴ベクトルを出力することは、
    前記視覚エンコーダにおける畳み込みニューラルネットワーク(CNN)により、視覚入力を符号化することにより視覚特徴マップを得ることと、
    前記視覚特徴マップに、学習可能なパラメータを備えるマップのセットを付加することにより、縦続特徴マップを生成することと、
    前記初期状態から生成された空間的フィルタで前記縦続特徴マップを畳み込むことにより、注意マップを得ることと、
    前記注意マップと前記視覚特徴マップとの間で空間的加重を実施することにより、空間集約ベクトルを生成することと、
    前記初期状態から生成された注意マスクと前記空間集約ベクトルとのアダマール積を実施することにより、前記視覚特徴ベクトルを生成することと
    を含む請求項に記載のコンピュータによって実現される方法。
  6. 前記階層RNNモデルは、環境とのインタラクション及び教師からのフィードバックに応じて行動を調整するための学習可能なパラメータを含むトランスフォーマーネットワークを更に含み、
    前記コントローラネットワークは、残差構造ネットワーク及びガウス方策モジュールをさらに含み、
    前記状態ベクトルに基づいて前記出力制御ベクトルを生成することは、
    前記残差構造ネットワークにおいて、前記トランスフォーマーネットワークを前記状態ベクトルに加えることにより、制御ベクトルを生成することと、
    前記ガウス方策モジュールにおいて、生成された前記制御ベクトルを条件とするガウス分布により、生成された前記制御ベクトルに基づいて前記出力制御ベクトルを生成することと
    を含む請求項1に記載のコンピュータによって実現される方法。
  7. 前記出力制御ベクトルを、行動RNNのための初期状態として用いることをさらに含む請求項に記載のコンピュータによって実現される方法。
  8. コンピュータによって、基本的な自然言語学習インタラクティブ環境を実現る方法であって、
    一の時間ステップにおいて、視覚画像に関する1つ又は複数の単語を含む教師からの自然言語入力を受信することであって、前記教師は、自然言語で会話可能なバーチャル教師又は人間であることと、
    少なくとも前記視覚画像に基づいて、視覚特徴ベクトルを生成することと、
    階層再帰型ニューラルネットワーク(RNN)モデルにおける符号化RNNにより、前記自然言語入力と前記生成された視覚特徴ベクトルとに基づいて、前記時間ステップに対応する状態ベクトルを生成することであって、前記階層RNNモデルは、前記符号化RNN、コントローラネットワーク、行動RNNを含むことと、
    少なくとも前記状態ベクトルに基づいて、コントローラネットワークにより、所定の方策に従って前記状態ベクトルの内容を変換して、変換された状態ベクトルに基づいて、出力制御ベクトルを生成することと、
    前記行動RNNにおいて、前記行動RNNの初期状態として用いられる前記出力制御ベクトルにより、前記自然言語入力への応答を生成することと、
    前記自然言語入力及び生成された応答に基づいて、前記応答に対するフィードバックを前記教師から生成することであって、前記フィードバックは、次の時間ステップにおける他の自然言語入力と、現在の時間ステップに生成された前記応答に対するスカラー値のリワードとを含むことと、
    生成された前記フィードバックにより、前記符号化RNN及び前記行動RNNの少なくとも1つを訓練することと、
    を含む方法。
  9. 前記時間ステップに対応する前記状態ベクトルを生成することは、さらに前記時間ステップにおける前記符号化RNNの初期状態に基づいて行い、前記初期状態は、前の時間ステップで取得した状態ベクトルである請求項に記載の方法。
  10. 前記スカラー値のリワードは、前記応答の正確さにより、激励とする正値、激励しないとする負値を有する請求項に記載のコンピュータによって実現される方法。
  11. 前記教師からの、前記他の自然言語入力を含むフィードバックに基づいて、前記符号化RNNを訓練するために確率的勾配降下法を使用し、前記コントローラネットワークは、前記教師からの、前記スカラー値のリワードを含むフィードバックに基づいて、強化学習を用いて訓練される請求項に記載の方法。
  12. 前記階層RNNモデルは、環境とのインタラクション及び教師からのフィードバックに応じて行動を調整するための学習可能なパラメータを含むトランスフォーマーネットワークを更に含み、
    前記状態ベクトルに基づいて前記出力制御ベクトルを生成することは、
    前記状態ベクトルに対し前記トランスフォーマーネットワークを加えることにより、変換された状態ベクトルを生成することと、
    変換された前記状態ベクトルを条件とするガウス分布により前記出力制御ベクトルを生成することと
    を含む請求項に記載の方法。
  13. 前記トランスフォーマーネットワークは、ReLU活性を有する1つ又は複数の全結合層として実装される請求項12に記載の方法。
  14. 前記トランスフォーマーネットワークは、前記フィードバックとのインタラクションを調整するための学習可能なパラメータを含む請求項12に記載の方法。
  15. インタラクティブ言語学習のためのコンピュータによって実現される方法であって、
    階層再帰型ニューラルネットワーク(RNN)モデルにより、一の時間ステップにおいて、視覚画像に関する1つ又は複数の単語を含む自然言語入力を受信することと、
    前記階層RNNモデルにより、前記自然言語入力への応答を生成することと、
    前記自然言語入力と前記生成された応答に応じた、他の自然言語入力と、スカラー値のリワードとを含むフィードバックを受信することと
    を含み、
    前記階層RNNモデルは、
    少なくとも前記自然言語入力と前記視覚画像から抽出された視覚特徴ベクトルに基づいて、前記時間ステップに対応する状態ベクトルを生成するための符号化RNNと、
    少なくとも前記状態ベクトルに基づいて、所定の方策に従って前記状態ベクトルの内容を変換して、変換された状態ベクトルに基づいて出力制御ベクトルを生成するためのコントローラネットワークと、
    前記出力制御ベクトルが初期状態として用いられる行動RNNであって、前記自然言語入力への応答を生成するための行動RNNと
    を含み、
    前記方策は、前記フィードバックによって調整される、コンピュータによって実現される方法。
  16. 前記階層RNNモデルは、環境とのインタラクション及び教師からのフィードバックに応じて行動を調整するための学習可能なパラメータを含むトランスフォーマーネットワークを更に含み、
    前記コントローラネットワークは、
    前記状態ベクトルに対してトランスフォーマーネットワークを加えることにより変換された状態ベクトルを生成するように構成され、
    変換された前記状態ベクトルを条件とするガウス分布により前記出力制御ベクトルを生成するように構成される請求項15に記載のコンピュータによって実現される方法。
JP2018049699A 2017-05-25 2018-03-16 傾聴、インタラクト、及びトーク:インタラクションを介するスピーキング学習 Active JP6921022B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762511295P 2017-05-25 2017-05-25
US62/511,295 2017-05-25
US15/821,452 US11417235B2 (en) 2017-05-25 2017-11-22 Listen, interact, and talk: learning to speak via interaction
US15/821,452 2017-11-22

Publications (2)

Publication Number Publication Date
JP2019023717A JP2019023717A (ja) 2019-02-14
JP6921022B2 true JP6921022B2 (ja) 2021-08-18

Family

ID=61691330

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018049699A Active JP6921022B2 (ja) 2017-05-25 2018-03-16 傾聴、インタラクト、及びトーク:インタラクションを介するスピーキング学習

Country Status (4)

Country Link
US (1) US11417235B2 (ja)
EP (1) EP3407264B1 (ja)
JP (1) JP6921022B2 (ja)
CN (1) CN108932549B (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8577671B1 (en) 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US9852136B2 (en) 2014-12-23 2017-12-26 Rovi Guides, Inc. Systems and methods for determining whether a negation statement applies to a current or past query
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
US20180197438A1 (en) * 2017-01-10 2018-07-12 International Business Machines Corporation System for enhancing speech performance via pattern detection and learning
CN112771542B (zh) * 2018-09-27 2024-03-05 渊慧科技有限公司 以学习的视觉实体为基础的强化学习神经网络
US10929392B1 (en) * 2018-11-16 2021-02-23 Amazon Technologies, Inc. Artificial intelligence system for automated generation of realistic question and answer pairs
CN110070185A (zh) * 2019-04-09 2019-07-30 中国海洋大学 一种从演示和人类评估反馈进行交互强化学习的方法
US10783257B1 (en) * 2019-12-20 2020-09-22 Capital One Services, Llc Use of word embeddings to locate sensitive text in computer programming scripts
US11586830B2 (en) 2020-06-03 2023-02-21 PM Labs, Inc. System and method for reinforcement learning based controlled natural language generation
US20230222319A1 (en) 2020-06-08 2023-07-13 Nippon Telegraph And Telephone Corporation Learning method, learning apparatus and program
CN111833660B (zh) * 2020-06-17 2023-01-31 胡屹 一种汉字学习实现***
JP2022082238A (ja) * 2020-11-20 2022-06-01 富士通株式会社 機械学習プログラム,機械学習方法および出力装置
US11883746B2 (en) * 2021-02-23 2024-01-30 Electronic Arts Inc. Adversarial reinforcement learning for procedural content generation and improved generalization
CN114913403B (zh) * 2022-07-18 2022-09-20 南京信息工程大学 基于度量学习的视觉问答方法
CN115470381A (zh) * 2022-08-16 2022-12-13 北京百度网讯科技有限公司 信息交互方法、装置、设备及介质
CN116049397B (zh) * 2022-12-29 2024-01-02 北京霍因科技有限公司 基于多模态融合的敏感信息发现并自动分类分级方法
CN116892932B (zh) * 2023-05-31 2024-04-30 三峡大学 一种结合好奇心机制与自模仿学习的导航决策方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7152051B1 (en) * 2002-09-30 2006-12-19 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
CN103942990A (zh) 2013-01-23 2014-07-23 郭毓斌 一种语言学习装置
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning
US9659384B2 (en) * 2014-10-03 2017-05-23 EyeEm Mobile GmbH. Systems, methods, and computer program products for searching and sorting images by aesthetic quality
US10909329B2 (en) * 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering
US10504010B2 (en) * 2015-10-02 2019-12-10 Baidu Usa Llc Systems and methods for fast novel visual concept learning from sentence descriptions of images
US10395118B2 (en) * 2015-10-29 2019-08-27 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
US9811765B2 (en) * 2016-01-13 2017-11-07 Adobe Systems Incorporated Image captioning with weak supervision
US10546066B2 (en) * 2016-08-31 2020-01-28 Microsoft Technology Licensing, Llc End-to-end learning of dialogue agents for information access
US10354159B2 (en) * 2016-09-06 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in an image using a contextual multiscale fast region-based convolutional neural network
US11748978B2 (en) * 2016-10-16 2023-09-05 Ebay Inc. Intelligent online personal assistant with offline visual search database
US10467274B1 (en) * 2016-11-10 2019-11-05 Snap Inc. Deep reinforcement learning-based captioning with embedding reward
US10398319B2 (en) * 2016-11-22 2019-09-03 Huami Inc. Adverse physiological events detection
US20180157747A1 (en) * 2016-12-02 2018-06-07 Microsoft Technology Licensing, Llc Systems and methods for automated query answer generation
CN106611048A (zh) 2016-12-20 2017-05-03 李坤 一种具有在线语音测评及语音交互功能的语言学习***
US11010431B2 (en) * 2016-12-30 2021-05-18 Samsung Electronics Co., Ltd. Method and apparatus for supporting machine learning algorithms and data pattern matching in ethernet SSD
US10366166B2 (en) * 2017-09-07 2019-07-30 Baidu Usa Llc Deep compositional frameworks for human-like language acquisition in virtual environments
US10592767B2 (en) * 2017-10-27 2020-03-17 Salesforce.Com, Inc. Interpretable counting in visual question answering
US20190147355A1 (en) * 2017-11-14 2019-05-16 International Business Machines Corporation Self-critical sequence training of multimodal systems
US10726206B2 (en) * 2018-01-30 2020-07-28 Disney Enterprises, Inc. Visual reference resolution using attention memory for visual dialog
US10860629B1 (en) * 2018-04-02 2020-12-08 Amazon Technologies, Inc. Task-oriented dialog systems utilizing combined supervised and reinforcement learning
US11074829B2 (en) * 2018-04-12 2021-07-27 Baidu Usa Llc Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game
US10885345B2 (en) * 2019-04-29 2021-01-05 Tencent America LLC End-to-end video captioning with multi-task reinforcement learning
US11663814B2 (en) * 2019-08-23 2023-05-30 Arm Limited Skip predictor for pre-trained recurrent neural networks
US10699129B1 (en) * 2019-11-15 2020-06-30 Fudan University System and method for video captioning

Also Published As

Publication number Publication date
US11417235B2 (en) 2022-08-16
CN108932549A (zh) 2018-12-04
EP3407264A1 (en) 2018-11-28
US20180342174A1 (en) 2018-11-29
EP3407264B1 (en) 2022-03-02
CN108932549B (zh) 2022-08-02
JP2019023717A (ja) 2019-02-14

Similar Documents

Publication Publication Date Title
JP6921022B2 (ja) 傾聴、インタラクト、及びトーク:インタラクションを介するスピーキング学習
Shidiq The use of artificial intelligence-based chat-gpt and its challenges for the world of education; from the viewpoint of the development of creative writing skills
JP6722789B2 (ja) インタラクティブ言語習得のシステム、及び方法
Eager et al. Prompting higher education towards AI-augmented teaching and learning practice
Luckin et al. Intelligence unleashed: An argument for AI in education
Alepis et al. Automatic generation of emotions in tutoring agents for affective e-learning in medical education
Tafazoli et al. Robot-assisted language learning: Artificial intelligence in second language acquisition
Sajja et al. Artificial Intelligence-Enabled Intelligent Assistant for Personalized and Adaptive Learning in Higher Education
Zhang et al. Listen, interact and talk: Learning to speak via interaction
Spaulding et al. Affect and inference in Bayesian knowledge tracing with a robot tutor
Nassiri-Mofakham Current and future developments in artificial intelligence
Yu AI-empowered metaverse learning simulation technology application
Yorganci et al. Avatar-based sign language training interface for primary school education
Auflem et al. Facing the facs—using ai to evaluate and control facial action units in humanoid robot face development
Jeon et al. Deep reinforcement learning for cooperative robots based on adaptive sentiment feedback
Magyar et al. Towards adaptive cloud-based platform for robotic assistants in education
Zhou et al. Application of large language models in professional fields
Hosseini et al. “Let There Be Intelligence!”-A Novel Cognitive Architecture for Teaching Assistant Social Robots
Yahyaeian Enhancing Mechanical Engineering Education Through a Virtual Instructor in an Ai-Driven Virtual Reality Fatigue Test Lab
Sun et al. Investigating the effects of robot engagement communication on learning from demonstration
Shibberu Introduction to deep learning: A first course in machine learning
Law From computational thinking to thoughtful computing: perspectives on physical computing in maker-centered education
Shakerimov et al. Qwriter: Technology-enhanced alphabet acquisition based on reinforcement learning
Kocher Better together: designing for child-robot collaboration
Silverman et al. Reinforcement Learning to Generate 3D Shapes: Towards a Spatial Visualization VR Application

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180801

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180801

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200128

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200821

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20200821

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20200901

C27A Decision to dismiss

Free format text: JAPANESE INTERMEDIATE CODE: C2711

Effective date: 20201020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201021

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20201022

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20201027

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20201113

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20201117

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20210323

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20210525

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20210629

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20210629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210727

R150 Certificate of patent or registration of utility model

Ref document number: 6921022

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250