JP7109560B2 - グローバルローカルエンコーダを使用した対話状態追跡 - Google Patents

グローバルローカルエンコーダを使用した対話状態追跡 Download PDF

Info

Publication number
JP7109560B2
JP7109560B2 JP2020544529A JP2020544529A JP7109560B2 JP 7109560 B2 JP7109560 B2 JP 7109560B2 JP 2020544529 A JP2020544529 A JP 2020544529A JP 2020544529 A JP2020544529 A JP 2020544529A JP 7109560 B2 JP7109560 B2 JP 7109560B2
Authority
JP
Japan
Prior art keywords
global
local
ontology
encoded representation
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020544529A
Other languages
English (en)
Other versions
JP2021515269A (ja
Inventor
ゾン,ヴィクター
ション,カイミング
Original Assignee
セールスフォース ドット コム インコーポレイティッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by セールスフォース ドット コム インコーポレイティッド filed Critical セールスフォース ドット コム インコーポレイティッド
Publication of JP2021515269A publication Critical patent/JP2021515269A/ja
Application granted granted Critical
Publication of JP7109560B2 publication Critical patent/JP7109560B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Description

[関連出願]
本出願は、2018年2月22日に出願され「Dialogue State Tracking Using A Neural Network Model」と題された米国仮特許出願第62/634,130号、及び2018年5月14日に出願され「Dialogue State Tracking Using a Global-Local Encoder」と題された米国非仮特許出願第15/978,445号の利益を主張し、これらはその全体を参照により本明細書に組み込まれる。
本開示の実施形態は、概して対話状態追跡に関し、より詳細には、グローバルローカルエンコーダを使用する対話状態追跡に関する。
ニューラルネットワークは、現実世界の情報を人間のような正確さで自動的に分析する手法としてかなりの有望さを示している。一般に、ニューラルネットワークモデルは、入力情報を受け取り、入力情報に基づいて予測を行う。例えば、ニューラルネットワーク分類器は、所定のクラスセットの中で入力情報のクラスを予測し得る。現実世界の情報を分析するための他のアプローチは、ハードコーディングされたプロセス、統計分析などを含み得るが、ニューラルネットワークは、機械学習プロセスを使用して、試行錯誤のプロセスにより、徐々に予測することを学習する。与えられたニューラルネットワークモデルは、多数の訓練例を用いて訓練され得、訓練例から人間が行い得る同様の推論をニューラルネットワークモデルが一貫して行い始めるまで、反復的に進行する。ニューラルネットワークモデルは、多くの適用において他のコンピューティング手法をしのぐ及び/又はしのぐポテンシャルを有することが示されている。実際、ニューラルネットワーキングモデルが人間レベルのパフォーマンスを上回るいくつかの適用さえ特定されている。
いくつかの実施形態による、対話状態追跡を有するデジタルシステムの簡略図である。 いくつかの実施形態による、ユーザとデジタルシステムとの間の例示的な対話の簡略図である。 いくつかの実施形態によるスコア付けモデルの簡略図である。 いくつかの実施形態によるスコア付けモデルの簡略図である。 いくつかの実施形態によるスコア付けモデルの簡略図である。 いくつかの実施形態によるエンコーダの簡略図である。 いくつかの実施形態によるグローバルローカルエンコーダの簡略図である。 いくつかの実施形態による、ニューラルネットワークモデルのための訓練構成の簡略図である。 いくつかの実施形態による、ユーザとデジタルシステムとの間の対話に関連づけられた対話状態を維持する方法の簡略図である。 いくつかの実施形態による、ニューラルネットワークモデルを訓練する方法の簡略図である。 いくつかの実施形態による、対話状態追跡器の実験的評価の簡略図である。 いくつかの実施形態による、対話状態追跡器の実験的評価の簡略図である。
対話状態追跡は、ニューラルネットワークが適用され得る問題の1つのクラスである。対話状態追跡アプリケーションにおいて、ユーザは、デジタルアシスタント、チャットボット、タスク指向対話システム(例えば、レストラン予約システム)などのインタラクティブなデジタルシステムとの対話に関与する。対話の過程を通じてユーザにより表された様々な目的及び/又はデジタルシステムにより取られた応答アクションを追跡するために、デジタルシステムは、対話に関連づけられた対話状態を維持する対話状態追跡器を含み、あるいはこれに関連づけられる。詳細には、対話状態追跡器は、対話の各やりとり(exchange)において対話状態を更新するためのニューラルネットワークモデルを含み得る。例えば、あるユーザがデジタルシステムに「町の南側で良いレストランを見つけて」と尋ねると仮定する。さらに、デジタルシステムが「安価ですか、あるいは高価ですか?」とリプライし、これに対してユーザは「安価。電話番号をくれる?」とリプライすると仮定する。このシナリオでは、対話状態追跡器は、その時点までの対話の累積である対話状態の包括的な表現を維持するべきである(例えば、ユーザが、安くて町の南側にあるレストランの電話番号を要求した)。
対話状態追跡器の性能は、例えば、対話システム技術チャレンジ(Dialogue System Technology Challenges、DSTC)シリーズの共有タスクからのデータセットなどの共有データセット上で異なるモデルをテストすることにより比較され、あるいはベンチマークされ得る。DTSCフレームワークに準拠する例示的なタスクの例には、ウィザードオブオズ(Wizard of Oz、WoZ)レストラン予約タスク及びDSTC2タスクが含まれる。各モデルの精度(accuracy)は、累積ゴール精度(cumulative goal accuracy)(例えば、正しく識別されたユーザゴールのパーセンテージであり、対話におけるやりとりを通じて累積的に決定される)、ターン要求精度(turn request accuracy)(対話の所与のやりとりの中で正しく識別されたユーザ要求のパーセンテージ)などの1つ以上のメトリックを評価することにより測定されてもよい。最高水準の対話状態追跡器は、DSTC2において73.4%以下の累積ゴール精度と96.6%以下のターン要求精度を、WoZにおいて84.4%以下の累積ゴール精度と91.6%以下のターン要求精度を達成している。したがって、現在の最高水準の対話状態追跡器より高い精度を達成する対話状態追跡器のためのニューラルネットワークモデルを開発することが望ましい。
図1Aは、いくつかの実施形態による、対話状態追跡を有するデジタルシステム100の簡略図である。いくつかの実施形態によれば、ユーザ110は、デジタルシステム100との対話に関与し(engage)得る。例えば、ユーザ110は、口頭コミュニケーション(例えば、話された発話)、書かれたコミュニケーション(例えば、英数字テキスト及び/又は記号)、視覚コミュニケーション(例えば、ジェスチャ)などを含む任意の適切な形式のコミュニケーションを使用してデジタルシステム100とコミュニケーションする(communicate)ことができる。応答において、デジタルシステム100は、1つ以上のシステム応答を提供し得る(例えば、応答対話をユーザ110に提供すること、ユーザ110のためにタスクを実行すること、さらなる情報を要求することなど)。
図1Aに示すように、デジタルシステム100は、ユーザ110及び/又はユーザ110のユーザデバイスに通信上結合されたコントローラ120を含む。例えば、ユーザ110は、ネットワークを介してコントローラ120にアクセスしてもよい。いくつかの実施形態において、コントローラ120は、プロセッサ122(例えば、1つ以上のハードウェアプロセッサ)を含んでもよい。プロセッサ122は、1つ以上の汎用中央処理装置(central processing units、CPU)を含んでもよいが、プロセッサ122は、ニューラルネットワークモデルを評価するときに加速性能を提供する少なくとも1つのプロセッサをさらに又は代わりに含んでもよい。例えば、プロセッサ122は、グラフィックス処理ユニット(graphics processing unit、GPU)、特定用途向け集積回路(application specific integrated circuit、ASIC)、フィールドプログラマブルゲートアレイ(field programmable gate array、FPGA)、テンソル処理ユニット(tensor processing unit、TPU)、デジタル信号プロセッサ(digital signal processor、DSP)、単一命令複数データ(single-instruction multiple-data、SIMD)プロセッサなどを含んでもよい。一般に、このようなプロセッサは、ニューラルネットワークモデルを評価することに関連づけられた様々な計算タスク(例えば、訓練、予測、前処理など)を、汎用CPUと比較して1桁以上加速し得る。
コントローラ120は、メモリ124(例えば、1つ以上の非一時的メモリ)をさらに含み得る。メモリ124は、キャッシュメモリ、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、不揮発性メモリ(NVM)、フラッシュメモリ、ソリッドステートドライブ(SSD)、ハードディスクドライブ(HDD)、光記憶媒体、磁気テープなどを含む様々なのタイプの短期及び/又は長期記憶モジュールを含んでもよい。いくつかの実施形態において、メモリ124は、本明細書に開示され以下でより詳細に説明されるプロセスに対応する動作をプロセッサ122に実行させるようにプロセッサ122により実行可能な命令を記憶し得る。
プロセッサ122及び/又はメモリ124は、任意の適切な物理的配置で配置されてもよい。いくつかの実施形態において、プロセッサ122及び/又はメモリ124は、同じボード上、同じパッケージ内(例えば、システムインパッケージ)、同じチップ上(例えば、システムオンチップ)などに実装されてもよい。いくつかの実施形態において、プロセッサ122及び/又はメモリ124は、分散、仮想化、及び/又はコンテナ化された計算リソースを含んでもよい。そのような実施形態と矛盾なく、プロセッサ122及び/又はメモリ124は、1つ以上のデータセンタ及び/又はクラウドコンピューティング施設に位置してもよい。
いくつかの実施形態において、メモリ124は、対話状態132を維持する対話状態追跡器130を記憶し得る。対話の各やりとりにおいて(例えば、ユーザ110から受け取った各コミュニケーション及び/又はデジタルシステム100により提供されたシステム応答において)、対話状態追跡器130は、対話状態132を更新し得る。例えば、対話状態132は、対話の過程を通じてユーザ110により表された1つ以上のゴール及び/又は要求を含むように更新されてもよい。さらに又は代わりに、対話状態追跡器130は、文脈134を維持してもよい。例えば、文脈134は、デジタルシステム100による1つ以上の前のシステム応答(例えば、前の、取られたアクション)の履歴を含んでもよく、これは、ユーザ110から受け取られる現在のコミュニケーションのための文脈を提供する。
いくつかの実施形態において、メモリ124は、デジタルシステム100が取り扱うよう備えられたユーザゴール及び/又は要求の範囲を定義するオントロジセット140を記憶し得る。いくつかの実施形態において、オントロジセット140は、複数のオントロジメンバを含んでもよく、これらは、図1Aにおいてスロット142と対応する値144とのペアとして例示的に示されている。図1Aに示すように、スロット142と値144は、デジタルシステム100がレストラン予約システムに対応するシナリオに対応する例示的な例で埋められている。詳細には、スロット142は、それぞれ「価格範囲」及び「エリア」とラベル付けされた2つのゴールスロットを含む。「価格範囲」に対応する値144は、「安価」及び「高価」を含む。「エリア」に対応する値144は、「北」、「南」、「東」及び「西」を含む。すなわち、ユーザ110は、デジタルシステム100が予約を行うことを検討し得るレストランの価格範囲及び/又は地理的エリアを指定することができる。スロット142は、「<要求>」とラベル付けされた擬似スロットをさらに含み、これは、ユーザ要求を取り扱うために使用され得る。「<要求>」に対応する値144は、「電話」及び「料理」を含む。すなわち、ユーザ110は、デジタルシステム100がレストランの電話番号及び/又は料理法の種類を提供することを要求することができる。これらは単なる例であり、オントロジセット140は広範なユーザゴール及び/又は要求をサポートしてもよく、それらは特定のアプリケーション(例えば、レストランの予約)及び/又は汎用のアプリケーションに合わせられてもよいことが理解されるべきである。
対話の各やりとりにおいて、対話状態追跡器130は、対話状態132に追加すべきゼロ個以上のオントロジメンバ(例えば、オントロジセット140からのスロット及び値のペア)を決定し得る。例えば、ユーザ110が安価なレストランを見つける要望を表したとき、対話状態追跡器130は、スロット‐値ペア「価格範囲=安価」を対話状態132に追加し得る。同様に、対話状態追跡器130は、対話状態132において除去又は置換すべきゼロ個以上のオントロジメンバを決定してもよい。例えば、対話状態追跡器130は、ユーザ110が高価なレストランに対する要望を前に表したが、その後に好みを安価なレストランに変えた場合、スロット‐値ペア「価格範囲=高価」を「価格範囲=安価」で置換してもよい。
所与のやりとりにおいてどのオントロジメンバ(例えば、オントロジセット140からのスロット‐値ペア)を対話状態132に追加又は対話状態132から除去すべきかを決定するために、対話状態追跡器130は、オントロジメンバに対応するメンバスコアを評価するスコア付けモデル150を含み得る。スコア付けモデル150は、プロセッサ122により評価されるニューラルネットワークモデルに対応してもよい。詳細には、スコア付けモデル150は、複数のニューラルネットワーク層を含んでもよい。ニューラルネットワーク層の例には、密結合層(densely connected layers)、畳み込み層、リカレント層、プーリング層、ドロップアウト層などが含まれる。いくつかの実施形態において、スコア付けモデル150は、ニューラルネットワークの入力又は出力のいずれかに直接接続されない少なくとも1つの隠れ層を含んでもよい。スコア付けモデル150は、機械学習プロセスに従って学習される複数のモデルパラメータ(例えば、重み及び/又はバイアス)をさらに含んでもよい。機械学習プロセスの例には、教師つき学習(supervised learning)、強化学習、教師なし学習(unsupervised learning)などが含まれる。スコア付けモデル150の実施形態は、図2A~図7を参照して以下でさらに詳細に説明される。
スコア付けモデル150は、任意数のファイル及び/又はデータ構造を使用してメモリ124に記憶されてもよい。図1に示すように、スコア付けモデル150は、スコア付けモデル150の計算グラフ(例えば、ニューラルネットワーク層のシーケンス)を定義するモデル記述152と、スコア付けモデル150のパラメータ(例えば、重み及び/又はバイアス)を記憶するモデルパラメータ154を含む。一般に、モデル記述152及び/又はモデルパラメータ154は、これらに限られないが構造化された、構造化されていない、シリアライズされた、及び/又はデータベースフォーマットを含む任意の適切なフォーマットで、スコア付けモデル150に関連づけられた情報を記憶し得る。
いくつかの実施形態において、メモリ124は、対話状態132に少なくとも部分的に基づいて所与のユーザコミュニケーションに応答して提供又は実行すべきゼロ個以上のシステム応答を決定する応答モジュール160を記憶し得る。システム応答の例には、ユーザ110に対して応答対話を生成及び送信すること、ユーザ110のためにタスクを実行すること、ユーザ110からのさらなる情報を要求することなどが含まれる。いくつかの実施形態において、応答モジュール160は、例えば文脈134を更新することにより、所与のやりとりにおけるシステム応答を記録してもよい。このようにして、文脈134は、デジタルシステム100により取られた前のアクションに基づいて対話状態追跡器130に文脈情報を提供し得る。
図1Bは、いくつかの実施形態による、ユーザ110とデジタルシステム100との間の例示的な対話170の簡略図である。例示的な対話170は、一般に、WoZレストラン予約タスクからの対話に対応する。図1Bに示される列は、所与のやりとりにおけるユーザ110による発話又はコミュニケーションを示すユーザコミュニケーション列、文脈134に記録されたデジタルシステム100による前のやりとりの間にとられた任意のアクションを示す文脈列、所与のやりとりにおいて対話状態追跡器130により決定された対話状態132への更新、及び所与のやりとりにおいて応答モジュール160により生成された応答対話を含む。
第1のやりとりの間、ユーザは、「町の南部の中でどこに食べに行きますか?」と述べる。これは第1のやりとりであるため、文脈134に含まれる前のアクションはない。対話状態追跡器130は、ユーザコミュニケーションがオントロジセット140からのスロット‐値ペア「エリア=南」にマッチすると判定し、これは、対話状態132において「通知(エリア=南)」として表され、スロット‐値ペアが(ユーザ要求と対照的に)ユーザゴールに対応することを示す。デジタルシステム100は、「OK、私はそれについて助けることができます。あなたは特定の種類の料理を、あるいは特定の価格範囲内で探していますか?」と応答する。
第2のやりとりの間、ユーザは、「町の南部の安価なレストランで食べたいだけです。どんな料理の種類が得られますか、電話番号も提供できますか?」と述べる。文脈134は、前のやりとりの間、デジタルシステム100が、ユーザ110が料理の種類(「要求(料理)」)と価格範囲(「要求(価格範囲)」)を提供することを要求したことを示している。対話状態追跡器130は、ユーザコミュニケーションがオントロジセット140からのスロット‐値ペア「価格範囲=安価」、「エリア=南」、「<要求>=電話」、及び「<要求>=料理」にマッチすると判定する。「<要求>」スロットからのマッチング値は、対話状態132において「要求(値)」として表現され、スロット‐値ペアが(ユーザゴールと対照的に)ユーザ要求に対応することを示す。デジタルシステム100は、「私は安価な料理を出す2つのレストランを見つけました。あなたはポルトガル料理をより好みますか、あるいは中華料理をより好みますか?」と応答する。
第3のやりとりの間、ユーザは「どちらでも構いません、電話番号をお願いできますか?」と述べる。文脈134は、前のやりとりの間、デジタルシステム100が、ユーザ110が料理の種類(「要求(料理)」)を提供することを要求したことを示す。対話状態追跡器130は、ユーザコミュニケーションがオントロジセット140からのスロット‐値ペア「<要求>=電話」にマッチすると判定する。デジタルシステム100は、ユーザにより表された基準(すなわち、安価で、町の南部に位置する)を満たす2つのレストランの電話番号を提供すること、すなわち、「The lucky startは01223244277で、Nandosは01223327908です」により応答する。ユーザ110が「どうもありがとう」とリプライしたとき、対話は終了する。
図2A~図2Cは、いくつかの実施形態によるスコア付けモデル200の簡略図である。図1と矛盾しないいくつかの実施形態によれば、スコア付けモデル200は、スコア付けモデル150を実現するために使用されてもよい。図2A~図2Cに示すように、スコア付けモデル200は、参照によりその全体を本明細書に組み込まれている、2017年4月に公表された
[外1]
Figure 0007109560000001
らによる「Neural Belief Tracker: Data-Driven Dialogue State Tracking」に記載されたものと同様の特徴を一般に含む。
いくつかの実施形態において、スコア付けモデル200は、オントロジメンバシーケンス202、ユーザコミュニケーションシーケンス204、及びゼロ個以上の文脈シーケンス206を受け取り、受け取ったオントロジメンバシーケンス202に対応するメンバスコア208を生成し得る。いくつかの実施形態において、オントロジメンバシーケンス202は、例示的な対話170からの「安価」、「価格範囲=安価」、及び/又は「通知(価格範囲=安価)」などの、オントロジセットのスロット値及び/又はスロット‐値ペアを表すテキストシーケンスに対応し得る。いくつかの実施形態において、ユーザコミュニケーションシーケンス204は、例示的な対話170からの「町の南部の中であなたはどこに食べに行くか?」などの、ユーザコミュニケーションを表すテキストシーケンスに対応し得る。いくつかの実施形態において、文脈シーケンス206は、ユーザコミュニケーションシーケンス204に関連づけられた文脈を提供するテキストのゼロ個以上のシーケンスを含み得る。例えば、文脈シーケンス206は、例示的な対話170からの「要求(料理)」及び「要求(価格範囲)」などの、デジタルシステム100により取られた前のアクションのテキスト表現に対応し得る。
メンバスコア208は、一般に、検討下のユーザコミュニケーションが現在評価されているオントロジメンバにマッチし又は該オントロジメンバを呼び出す可能性を反映する(例えば、ユーザが実際に「安価な」価格範囲のレストランを見つけたいかどうか)。メンバスコア208は、数値スコア、ランク付け、ラベル(例えば、「高」/「低」)、グループ化、選択などに対応し得る。いくつかの実施形態において、スコア付けモデル200は、オントロジセット140などのオントロジセット内の各オントロジメンバについて(例えば、並列及び/又は直列の方法で)評価され、メンバスコアのセットを生じてもよい。メンバスコアのセットに基づいて、対話状態追跡器130などの対話状態追跡器は、対話状態132などの対話状態を更新してもよい。例えば、第1の閾値を上回るメンバスコアを割り当てられたオントロジメンバが、対話状態に追加されてもよく、第2の閾値を下回るメンバスコアを有するオントロジメンバが、対話状態から除去されてもよい。
スコア付けモデル200は、オントロジメンバシーケンス202、ユーザコミュニケーションシーケンス204、及び文脈シーケンス206をそれぞれ受け取り、入力表現222、224、及び226をそれぞれ生成する入力段階212、214、及び216を含み得る。いくつかの実施形態において、入力表現222、224、及び226は、それぞれ、シーケンス202、204、及び206のベクトル表現に対応し得る。例えば、シーケンス202、204、及び/又は206がテキストシーケンスに対応するとき、入力段階212、214、及び/又は216は、(1)テキストシーケンスをトークン化し(tokenizing)、(2)トークン化されたテキストシーケンスをベクトル空間に埋め込むことにより、対応するベクトル表現を生成してもよい。テキストシーケンスをトークン化することは、テキストシーケンス内のトークンを識別することを含み得、トークンの例には、文字(characters)、文字nグラム、単語(words)、単語nグラム、レンマ(lemmas)、句(例えば、名詞句)、文、段落などが含まれる。トークン化されたテキストシーケンスを埋め込むことは、各トークンを多次元ベクトル空間におけるベクトル表現にマッピングすることを含み得る。例えば、単語に対応するトークンが、300次元のGloVeベクトル表現にマッピングされてもよい。
スコア付けモデル200は、入力表現222、224、及び226をそれぞれ受け取り、1つ以上のエンコード表現(encoded representations)242、244、245、及び/又は246を生成するエンコーダ段階232、234、及び236をさらに含み得る。エンコーダ段階232、234、及び/又は236の例示的な実施形態は、図3及び図4を参照して以下でより詳細に説明される。
スコア付けモデル200は、エンコード表現242及び244に基づいてユーザコミュニケーションスコア255を生成するユーザコミュニケーションスコア付け段階250をさらに含み得る。図2Bは、ユーザコミュニケーションスコア付け器段階250の一例示的な実施形態を示す。図2Bに示すように、ユーザコミュニケーションスコア付け段階250は、エンコード表現242及び244に基づいて注目表現(attended representation)284を生成する注目層282を含み得る。詳細には、注目表現284は、現在評価されているオントロジメンバの表現(例えば、エンコード表現242)を使用して、ユーザコミュニケーションの表現(例えば、エンコード表現244)にわたり注目することにより生成されてもよい。例えば、注目表現284は、以下の式:
Figure 0007109560000002
を評価することにより決定されてもよい。ここで、quttは、注目表現284を示し、c uttは、エンコード表現244のi番目の値を示し、p uttは、softmax(sutt)として定義され、suttのi番目の値は、s utt=c utt・c valとして定義され、c valは、エンコード表現242のj番目の値を示す。
ユーザコミュニケーションスコア付け段階250は、注目表現284に基づいてユーザコミュニケーションスコア255を生成するフィードフォワード層286をさらに含み得る。例えば、ユーザコミュニケーションスコア255は、以下の式:
utt=Wuttutt+butt
を評価することにより決定されてもよい。ここで、yuttは、ユーザコミュニケーションスコア255を示し、Wuttは、学習された重みを含むパラメータ行列を示し、buttは、学習されたバイアス値を示す。
スコア付けモデル200は、エンコード表現242、245、及び246に基づいて文脈スコア265を生成する文脈スコア付け器段階260をさらに含み得る。図2Cは、文脈スコア付け段階260の一例示的な実施形態を示す。図2Cに示すように、文脈スコア付け段階260は、エンコード表現242、245、及び246に基づいて注目表現294を生成する注目層292を含み得る。詳細には、注目表現294は、ユーザコミュニケーションの表現(例えば、エンコード表現245)を使用して文脈の表現(例えば、エンコード表現246)にわたり注目することにより生成されてもよい。例えば、注目表現294は、以下の式:
Figure 0007109560000003
を評価することにより決定されてもよい。ここで、qctxは、注目表現284を示し、c ctxは、エンコード表現246のi番目の値を示し、p ctxは、softmax(sctx)として定義され、sctxのi番目の値は、s ctx=c ctx・c uttとして定義され、c uttは、エンコード表現245のj番目の値を示す。
文脈スコア付け段階260は、注目表現294に基づいて文脈スコア265を生成する乗算層296をさらに含み得る。例えば、文脈スコア265は、以下の式:
ctx=qctx・cval
を評価することにより決定されてもよい。ここで、yctxは、文脈スコア265を示し、cvalは、エンコード表現242を示す。
図2Aに戻り、スコア付けモデル200は、ユーザコミュニケーションスコア255と文脈スコア265との組み合わせに基づいてメンバスコア208を決定するスコアコンバイナ段階270をさらに含み得る。例示的な実施形態において、メンバスコア208は、以下の式:
y=σ(yutt+wctx
を評価することにより決定されてもよい。ここで、yは、メンバスコア208を示し、σは、シグモイド関数を示し、wは、学習された重み付けパラメータを示す。
いくつかの実施形態によれば、スコア付けモデル200は計算グラフに対応してもよく、その場合、種々の段階(例えば、入力段階212~216、エンコーダ段階232~236、スコア付け段階250及び/又は260、及び/又はスコアコンバイナ段階270)は計算グラフにおけるノードの集合に対応し得る。そのような実施形態と矛盾せず、スコア付けモデル200により使用される種々の表現(例えば、入力表現222~226、エンコード表現242~246、及び/又はスコア付けモデル200により使用される任意の中間表現)は、計算グラフのエッジに沿って渡される実数値テンソル(例えば、スカラー、ベクトル、多次元配列など)に対応してもよい。さらに、計算グラフの各ノードは、1つ以上のテンソル演算、例えば、ノードの1つ以上の入力表現をノードの1つ以上の出力表現に変換することを実行してもよい。種々のノードで実行されるテンソル演算の例は、行列乗算、n次元畳み込み、正規化、要素ごとの演算などを含み得る。
図3は、いくつかの実施形態によるエンコーダ300の簡略図である。図1A~図2Cと矛盾しないいくつかの実施形態によれば、エンコーダ300は、エンコーダ段階232~236の1つ以上を実現するために使用されてもよい。このような実施形態と矛盾せず、エンコーダ300は、入力表現302を受け取り、1つ以上のエンコード表現304及び/又は306を生成し得る。図1A~図2Cと矛盾しない実施形態において、入力表現302は、入力表現222~226のいずれかに一般に対応し得、エンコード表現304は、エンコード表現244に一般に対応し得、エンコード表現306は、エンコード表現242、245、及び/又は246のいずれかに一般に対応し得る。
いくつかの実施形態において、エンコーダ300は、入力表現302を受け取り、かつエンコード表現304を生成するリカレントニューラルネットワーク(recurrent neural network、RNN)層310を含み得る。一般に、RNN層は、変換された表現にシーケンス関連情報(例えば、時間情報)を注入する。例えば、RNN層は、簡素なRNNセル、長短期記憶(long short-term memory、LSTM)セル、ゲート付きリカレントユニット(gated recurrent units、GRU)などのシーケンスを含んでもよい。いくつかの例において、RNN層310は、双方向性、例えば、双方向LSTM(Bi‐LSTM)層でもよい。例えば、RNN層310がBi‐LSTM層を含むとき、エンコード表現304は、中間LSTM状態のセットを含んでもよい。
いくつかの実施形態において、エンコーダ300は、エンコード表現304を受け取り、かつエンコード表現306を生成する自己注目層(self-attention layer)320を含み得る。詳細には、エンコード表現306は、エンコード表現304にわたる自己注目により生成され得る。例えば、エンコード表現306は、以下の式:
Figure 0007109560000004
を評価することにより決定されてもよい。ここで、cは、エンコード表現306を示し、Hは、エンコード表現304のi番目の値を示し、pは、softmax(s)として定義され、sのi番目の値は、s=WH+bとして定義され、Wは、学習された重みを含むパラメータ行列を示し、bは、学習されたバイアスを示す。
いくつかの実施形態において、エンコーダ300は、オントロジセット140などのオントロジセットの各オントロジメンバについて別個に決定されるローカル訓練パラメータ(local trained parameters)を含んでもよい。ローカル訓練パラメータの使用は、オントロジセット内の各オントロジメンバについて訓練パラメータを別個に調整することによりエンコーダ300の精度を改善し得る。
ローカル訓練パラメータに関連する一つの課題は、ローカル訓練パラメータの使用が、対応するオントロジメンバが生じる訓練例の数を制限することである。この課題は、特に、実際には稀に生じるオントロジメンバについて悪化する(例えば、ユーザは高価なレストランで食べることを稀に要求する可能性があり、これは、訓練データセットが、ユーザコミュニケーションがそのような要求を表すかなり少ない例を含む傾向があることを意味する)。大きいオントロジセットは、多数のオントロジメンバを含む可能性もあり、それらの各々は、個々には所与のターンで生じそうにないが、それらのうち少なくとも1つは、集合的には所与のターンで生じる可能性がある。例えば、旅行予約システムは、世界中の膨大な数の潜在的旅行先への要求を取り扱うように構成され得る。したがって、ユーザの要求が少なくとも1つの宛先を識別する可能性は高いが、要求された宛先が全ての可能な宛先の中で特定の宛先(例えば、「パリ、フランス」)である可能性は低い。問題は、特定の訓練データセットを参照して定量化され得る。例えば、WoZ状態追跡データセットにおいて、各スロット‐値ペアは、平均で214.9個の訓練例で生じるが、このセットは、20個未満の訓練例で生じる複数の稀なスロット‐値ペアの存在を含む。さらに、そのような稀なスロット‐値ペアは個々には珍しいが、これらは集合的には頻繁に生じる。すなわち、WoZデータセットにおけるターンの38.6%は、稀な(20個未満の訓練例の)スロット‐値ペアを含むゴールを有する。
この課題に対処するために、エンコーダ300は、オントロジセットのオントロジメンバ間で共有されるグローバル訓練パラメータ(global trained parameters)を含んでもよい。グローバル訓練パラメータの使用は、訓練プロセスの範囲をフルのオントロジセットに拡張することにより、エンコーダ300の性能を、特に稀に生じるオントロジメンバに関して改善し得る。しかしながら、グローバル訓練パラメータは特定のオントロジメンバに対して調整されないため、グローバル訓練パラメータを使用するとき全体的な精度は低下する可能性がある。
図4は、いくつかの実施形態による、グローバルローカルエンコーダ(global-local encoder)400の簡略図である。エンコーダ300と比較し、グローバルローカルエンコーダ400は、ローカル訓練パラメータとグローバル訓練パラメータの組み合わせでスコア付けモデル200を訓練するために使用され得る。したがって、グローバルローカルエンコーダ400は、ローカル訓練パラメータ(例えば、多数の訓練例が利用可能な頻繁に発生するオントロジメンバに対する改善された精度)とグローバル訓練パラメータ(例えば、訓練例がほとんど利用できない稀に発生するオントロジメンバに対する改善された精度)の双方の利点を利用することができる。
図1A~図2Cと矛盾しないいくつかの実施形態によれば、グローバルローカルエンコーダ400は、エンコーダ段階232~236の1つ以上を実現するために使用されてもよい。そのような実施形態と矛盾せず、グローバルローカルエンコーダ400は、入力表現402を受け取り、1つ以上のエンコード表現404及び/又は406を生成し得る。図1A~図2Cと矛盾しない実施形態において、入力表現402は、入力表現222~226のいずれかに一般に対応し得、エンコード表現404は、エンコード表現244に一般に対応し得、エンコード表現406は、エンコード表現242、245、及び/又は246のいずれかに一般に対応し得る。しかしながら、グローバルローカルエンコーダ400は、一般に、スコア付けモデル200以外の広範なモデル、例えば、スコア付けモデル200とは異なるアーキテクチャを有するスコア付けモデルにおいて使用され得ることが理解されるべきである。
いくつかの実施形態において、グローバルローカルエンコーダ400は、1つ以上のグローバル分岐(global branches)(例えば、複数のオントロジメンバ間で共有されるグローバル訓練パラメータを含む分岐)及び1つ以上のローカル分岐(local branches)(例えば、複数のオントロジメンバの各々について別個に決定されるローカル訓練パラメータを含む分岐)を含み得る。いくつかの実施形態において、所与のグローバル分岐は、対応するローカル分岐と並列に配置され得る。例えば、図4に示すように、グローバルローカルエンコーダ400は、グローバルリカレントニューラルネットワーク(RNN)層41を含む第1のグローバル分岐と、ローカルRNN層420を含む第1のローカル分岐を含み、第1のグローバル分岐と第1のローカル分岐は、並列に配置される。グローバルRNN層410は、入力表現402を受け取り、グローバルエンコード表現415を生成し、ローカルRNN層420は、入力表現402を受け取り、ローカルエンコード表現425を生成する。グローバルRNN層410が、オントロジセットのオントロジメンバ間で共有されるグローバル訓練パラメータを含み得るのに対し、ローカルRNN層420は、オントロジセットの各オントロジメンバについて別個に決定されるローカル訓練パラメータを含み得る。前に論じたように、RNN層は、変換された表現にシーケンス関連情報(例えば、時間情報)を注入する。例えば、RNN層は、簡素なRNNセル、長短期記憶(LSTM)セル、ゲート付きリカレントユニットなどのシーケンスを含んでもよい。いくつかの例において、RNN層410及び/又は420は、双方向性、例えば、双方向性LSTM(Bi‐LSTM)層でもよい。例えば、RNN層410及び/又は420がBi‐LSTM層を含むとき、エンコード表現415及び/又は425は、中間LSTM状態のセットを含んでもよい。
グローバルローカルエンコーダ400は、グローバルエンコード表現415とローカルエンコード表現425を組み合わせ、かつエンコード表現404を生成するマージモジュール430を含み得る。いくつかの実施形態において、マージモジュール430は、オントロジセットの各オントロジメンバに対して別個に決定されるローカル訓練パラメータ、オントロジセットのオントロジメンバ間で共有されるグローバル訓練パラメータ、及び/又はこれらの適切な組み合わせを含んでもよい。例示的な実施形態において、エンコード表現404は、ローカル重み付けパラメータを用いたグローバルエンコード表現415及びローカルエンコード表現425の重み付き平均に対応してもよく、これは、以下の式:
f’(x)=σ(α)f(x)+(1-σ(α))f(x)
を評価することにより決定されてもよい。ここで、xは、入力表現402を示し、f’(x)は、エンコード表現404を示し、f(x)は、ローカルエンコード表現425を示し、f(x)は、グローバルエンコード表現415を示し、σは、シグモイド関数を示し、αは、所与のオントロジメンバsについて決定される学習されたローカル重み付けパラメータを示す。
いくつかの実施形態において、グローバルローカルエンコーダ400は、グローバル自己注目層440を含む第2のグローバル分岐と、ローカル自己注目層450を含む第2のローカル分岐とを含んでもよく、第2のグローバル分岐と第2のローカル分岐は、並列に配置される。グローバル自己注目層440は、エンコード表現404を受け取り、グローバルエンコード表現445を生成し、ローカル自己注目層450は、エンコード表現404を受け取り、ローカルエンコード表現455を生成する。図3に関して前に論じたように、グローバルエンコード表現445及び/又はローカルエンコード表現455は、エンコード表現404にわたる自己注目により生成されてもよい。例えば、グローバルエンコード表現445(又は、ローカルエンコード表現455)は、以下の式:
Figure 0007109560000005
を評価することにより決定されてもよい。ここで、cは、グローバルエンコード表現445(又は、ローカルエンコード表現455)を示し、Hは、エンコード表現404のi番目の値を示し、pは、softmax(s)として定義され、sのi番目の値は、s=WH+bとして定義され、Wは、学習された重みを含むパラメータ行列を示し、bは、学習されたバイアスを示す。グローバル自己注目層440の場合、学習された重み及び/又は学習されたバイアスは、オントロジセットのオントロジメンバ間で共有されるグローバル訓練パラメータでもよい。ローカル自己注目層450の場合、学習された重み及び/又は学習されたバイアスは、オントロジセットの各オントロジメンバについて別個に決定されるローカル訓練パラメータでもよい。
グローバルローカルエンコーダ400は、グローバルエンコード表現445とローカルエンコード表現455を組み合わせ、かつエンコード表現406を生成するマージモジュール460を含んでもよい。一般に、マージモジュール460は、マージモジュール430と同様の方法で動作し得る。例えば、エンコード表現406は、ローカル重み付けパラメータを用いたグローバルエンコード表現445とローカルエンコード表現455の重み付き平均に対応してもよく、これは、以下の式:
f’(x)=σ(α)f(x)+(1-σ(α))f(x)
を評価することにより決定されてもよい。ここで、xは、エンコード表現404を示し、f’(x)は、エンコード表現406を示し、f(x)は、ローカルエンコード表現455を示し、f(x)は、グローバルエンコード表現445を示し、σは、シグモイド関数を示し、αは、所与のオントロジメンバsについて決定される学習されたローカル重み付けパラメータを示す。
図5は、いくつかの実施形態による、ニューラルネットワークモデルのための訓練構成500の簡略図である。図5に示すように、訓練構成500は、モデル510を訓練するために使用される。図1~図4と矛盾しないいくつかの実施形態において、モデル510は、スコア付けモデル200を実現するために使用されてもよい。
いくつかの実施形態によれば、訓練構成500は、モデル510の複数のモデルパラメータを訓練するために使用されてもよい。訓練の間、多数の訓練例(例えば、ユーザコミュニケーションシーケンス、文脈シーケンス、及び/又はオントロジメンバシーケンス)がモデル510に提供される。モデル510により生成される予測されたメンバスコアは、学習目的(learning objective)520を使用して例の各々についてグラウンドトゥルース(ground truth)回答と比較され、学習目的520は、グラウンドトゥルース回答に基づいて、所与の予測されたメンバスコアに関連づけられた損失及び/又は報酬を決定する。
学習目的520の出力(例えば、損失及び/又は報酬)は、モデル510のモデルパラメータを更新するために、最適化器530に提供される。例えば、最適化器530は、モデルパラメータに関する目的の勾配を決定し、逆伝搬を使用してモデルパラメータを調整し得る。いくつかの実施形態において、最適化器530は、勾配降下最適化器(例えば、確率的勾配降下(stochastic gradient descent、SGD)最適化器)、ADAM最適化器、Adagrad最適化器、RMSprop最適化器などを含んでもよい。使用される最適化器のタイプに依存して、様々なパラメータが最適化器530に供給されてもよい(例えば、学習率、減衰パラメータなど)。
図6は、いくつかの実施形態による、ユーザとデジタルシステム100などのデジタルシステムとの間の対話に関連づけられた対話状態を維持する方法600の簡略図である。図1~図5と矛盾しないいくつかの実施形態によれば、方法600の全部又は一部は、プロセッサ122などのプロセッサを使用して実行されてもよい。いくつかの実施形態において、方法600の全部又は一部は、スコア付けモデル150及び/又は200などのニューラルネットワークモデルを評価することにより実行されてもよい。
プロセス610において、対話状態132などの対話状態が、ユーザコミュニケーション(又は、そのデジタル表現であり、この表現は、例えば、ユーザデバイスから受信されている)に基づいて更新される。いくつかの実施形態において、対話状態は、対話状態追跡器130などの、デジタルシステムに関連づけられた対話状態追跡器を使用して更新されてもよい。そのような実施形態と矛盾せず、対話状態追跡器は、スコア付けモデル150などのスコア付けモデルを評価して、オントロジセット140などのオントロジセットの複数のオントロジメンバに対応する複数のメンバスコアを決定し得る。いくつかの実施形態において、スコア付けモデルは、ユーザコミュニケーション、検討下のオントロジメンバ、及び/又は文脈134などの文脈情報に基づいて、メンバスコアの各々を生成し得る。メンバスコアに基づいて、対話状態追跡器は、対話状態を更新し得る。例えば、対話状態追跡器は、メンバスコアに基づいて(例えば、所定の閾値を上回るか又は下回るメンバスコアを有するオントロジメンバを選択することにより)、対話状態に追加又は対話状態から除去すべきゼロ個以上のオントロジメンバを選択してもよい。いくつかの実施形態において、対話状態は、累積ゴール(例えば、対話において現在のやりとりまでにユーザにより表されたゴールのセット)及び/又はターン要求(例えば、現在のやりとりの間にユーザにより表された要求のセット)を含んでもよい。
プロセス620において、更新された対話状態に基づいてシステム応答が提供される。いくつかの実施形態において、システム応答は、応答モジュール160などの応答モジュールを使用して提供されてもよい。いくつかの実施形態において、システム応答は、ユーザのためにタスクを実行すること(例えば、データベースを検索すること、レストラン予約を行うことなど)、ユーザに応答対話を提供すること、ユーザからのさらなる情報を要求することなどを含んでもよい。いくつかの実施形態において、応答モジュールは、例えば、文脈情報を更新することにより、プロセス620において取られた1つ以上のアクションを記録してもよい。したがって、ユーザとの対話のその後のやりとりの間に方法600が繰り返されるとき、対話状態追跡器は、対話状態を更新するときに更新された文脈情報にアクセスしてもよい。
図7は、いくつかの実施形態による、ニューラルネットワークモデルを訓練する方法700の簡略図である。図1~図6と矛盾しないいくつかの実施形態によれば、方法700は、スコア付けモデル150及び/又は200などのニューラルネットワークモデルを訓練するために使用されてもよい。訓練の間、モデルは、訓練構成500などの訓練構成で構成され得る。いくつかの例において、方法700は、ニューラルネットワークモデルを徐々に訓練するために、多数の訓練例にわたり反復的に実行されてもよい。
プロセス710において、累積ゴール及び/又はターン要求が、ニューラルネットワークモデルを使用して予測される。いくつかの実施形態において、累積ゴール及び/又はターン要求は、訓練コミュニケーションを含む訓練例に基づいて生成されてもよい。いくつかの実施形態において、累積ゴール及び/又はターン要求は、方法600に従って生成されてもよい。
プロセス720において、学習目的が、累積ゴール及び/又はターン要求に基づいて評価される。いくつかの実施形態において、学習目的は、学習目的520に対応し得る。いくつかの実施形態において、学習目的は、プロセス710で予測された累積ゴール及び/又はターン要求を、訓練コミュニケーションに対応するグラウンドトゥルース回答と比較することにより評価されてもよい。
プロセス730において、ニューラルネットワークモデルのパラメータが、学習目的に基づいて更新される。いくつかの実施形態において、モデルパラメータは、最適化器530などの最適化器を使用して更新されてもよい。いくつかの実施形態において、パラメータは、モデルパラメータに関連して学習目的の勾配を決定し、勾配に基づいてパラメータを更新することにより、更新されてもよい。学習目的の勾配は、逆伝搬により決定されてもよい。
図8A及び図8Bは、いくつかの実施形態による、対話状態追跡器の実験的評価の簡略図である。評価される対話状態追跡器は、図3に示されるように構成されたスコア付けモデルを含み、対話状態追跡器の異なるバージョンが、WoZ及びDSTC2データセット上で訓練される。
図8Aは、本開示の対話状態追跡器(最後の行)の精度を他のタイプの対話状態追跡器(他の行)の精度と比較する表810を示す。表に示されているように、本開示の対話状態追跡器は全てのメトリックにわたり最も高い精度を達成しており、DSTC2データセットにおける74.8%の累積ゴール精度及び97.3%のターン要求精度と、WoZデータセットにおける88.3%の累積ゴール精度及び96.4%のターン要求精度が含まれる。
図8Bは、WoZデータセット上で訓練及びテストされた、本開示の対話状態追跡器のアブレーション研究の結果を含む表820を示す。最上行は、グローバル及びローカル訓練パラメータの組み合わせを使用する、図4に示されるように構成されたグローバルローカルエンコーダを有する対話状態追跡器に対応する。第2の行は、ローカル訓練パラメータを使用する、図3に示されるように構成されたエンコーダを有する対話状態追跡器に対応する。第2の行は、グローバル訓練パラメータを使用する、図3に示されるように構成されたエンコーダを有する対話状態追跡器に対応する。第3の行は、図4に示されるように構成されているが自己注目層のない(例えば、グローバル自己注目層440及び/又はローカル自己注目層450のない)グローバルローカルエンコーダを有する対話状態追跡器に対応する。第3の行は、図4に示されるように構成されているがリカレント層のない(例えば、グローバルRNN層410及び/又はローカルRNN層420のない)グローバルローカルエンコーダを有する対話状態追跡器に対応する。表に示されるように、種々の機能の除去は、累積ゴール精度における1.2%~17.3%間の減少、ターン要求精度における0%~4.1%間の減少を結果としてもたらす。
例示的な実施形態が図示され説明されたが、広範囲の修正、変更、及び置換が前述の開示において考えられ、いくつかの例では、実施形態のいくつかの特徴は他の特徴の対応する使用なしに採用され得る。当業者は、多くの変形、代替、及び修正を認識するであろう。ゆえに、本出願の範囲は別記の特許請求の範囲によってのみ限定されるべきであり、特許請求の範囲は、広く、本明細書に開示される実施形態の範囲と矛盾しないように解釈されることが適切である。

Claims (20)

  1. ユーザとデジタルシステムとの間の対話に関連づけられた対話状態を維持する方法であって、
    前記デジタルシステムに関連づけられた対話状態追跡器により、ユーザコミュニケーションの表現を受け取るステップと、
    前記対話状態追跡器により、前記ユーザコミュニケーションの表現に基づいて、オントロジセットの複数のオントロジメンバに対応する複数のメンバスコアを評価することと、前記複数のメンバスコアに基づいて、前記対話状態に追加又は前記対話状態から除去すべき前記複数のオントロジメンバのうちゼロ個以上を選択することとにより、前記対話状態を更新するステップと、
    前記更新された対話状態に基づいてシステム応答を提供するステップと、
    を含み、
    前記対話状態追跡器は、前記複数のメンバスコアの各々の評価の間にエンコード表現を生成するグローバルローカルエンコーダを含み、前記グローバルローカルエンコーダは、グローバル分岐及びローカル分岐を含み、前記グローバル分岐は、前記複数のオントロジメンバ間で共有されるグローバル訓練パラメータを有し、前記ローカル分岐は、前記複数のオントロジメンバの各々について別個に決定されるローカル訓練パラメータを有する、方法。
  2. 前記グローバル分岐及び前記ローカル分岐は、並列に配置される、請求項1に記載の方法。
  3. 前記グローバル分岐及び前記ローカル分岐は各々、それぞれのリカレントニューラルネットワークを含む、請求項1又は2に記載の方法。
  4. 前記グローバル分岐及び前記ローカル分岐は各々、それぞれの自己注目ネットワークを含む、請求項1乃至3のうちいずれか1項に記載の方法。
  5. 前記グローバルローカルエンコーダは、前記ユーザコミュニケーションに基づいて前記エンコード表現を生成する、請求項1乃至4のうちいずれか1項に記載の方法。
  6. 前記エンコード表現は、前記ユーザコミュニケーションと現在評価されている前記複数のオントロジメンバのうちのオントロジメンバとに基づいてコミュニケーションスコアを決定するコミュニケーションスコア付けモジュールに提供される、請求項5に記載の方法。
  7. 前記グローバルローカルエンコーダは、前記対話の1つ以上の前のターンで提供された1つ以上の前のシステム応答を示す文脈情報に基づいて前記エンコード表現を生成する、請求項1乃至6のうちいずれか1項に記載の方法。
  8. 前記エンコード表現は、前記文脈情報と現在評価されている前記複数のオントロジメンバのうちのオントロジメンバとに基づいて文脈スコアを決定する文脈スコア付けモデルに提供される、請求項7に記載の方法。
  9. 前記グローバルローカルエンコーダは、前記グローバル分岐及び前記ローカル分岐からのそれぞれのエンコード表現を組み合わせるマージノードをさらに含む、請求項1乃至8のうちいずれか1項に記載の方法。
  10. 前記マージノードは、前記複数のオントロジメンバの各々について別個に決定されるローカル重み付けパラメータを含む、請求項9に記載の方法。
  11. 前記グローバルローカルエンコーダは、順次配置された第1の段階及び第2の段階を含み、前記第1の段階は、前記グローバル分岐及び前記ローカル分岐を含み、前記第2の段階は、第2のグローバル分岐及び第2のローカル分岐を含む、請求項1乃至10のうちいずれか1項に記載の方法。
  12. 前記グローバルローカルエンコーダは、現在評価されている前記複数のオントロジメンバのうちのオントロジメンバに基づいて前記エンコード表現を生成する、請求項1乃至11のうちいずれか1項に記載の方法。
  13. システムであって、
    ユーザコミュニケーションに基づいて、対話状態に追加又は対話状態から除去すべきオントロジセットの複数のオントロジメンバのうちゼロ個以上を、ニューラルネットワークを使用して前記複数のオントロジメンバに対応する複数のメンバスコアを評価することにより選択するように構成された対話状態追跡器、を含み、
    前記ニューラルネットワークは、
    グローバル分岐及びローカル分岐を含む第1のグローバルローカルエンコーダであり、前記グローバル分岐は、前記複数のオントロジメンバ間で共有されるグローバル訓練パラメータを有し、前記ローカル分岐は、前記複数のオントロジメンバの各々について別個に決定されるローカル訓練パラメータを有する、第1のグローバルローカルエンコーダ
    を含む、システム。
  14. 前記ニューラルネットワークは、第2のグローバルローカルエンコーダ及びコミュニケーションスコア付けモジュールをさらに含み、
    前記第1のグローバルローカルエンコーダは、現在評価されている前記複数のオントロジメンバのうち第1のオントロジメンバに対応するオントロジメンバシーケンスに基づいて第1のエンコード表現を生成し、
    前記第2のグローバルローカルエンコーダは、前記ユーザコミュニケーションに対応するユーザコミュニケーションシーケンスに基づいて第2のエンコード表現を生成し、
    前記コミュニケーションスコア付けモジュールは、前記第1のエンコード表現及び前記第2のエンコード表現に基づいてコミュニケーションスコアを生成し、前記第1のオントロジメンバに対応する第1のメンバスコアが、前記コミュニケーションスコアに基づいて決定される、請求項13に記載のシステム。
  15. 前記ニューラルネットワークは、第3のグローバルローカルエンコーダ及び文脈スコア付けモジュールをさらに含み、
    前記第3のグローバルローカルエンコーダは、当該システムの前のアクションに関連づけられた文脈情報に対応する文脈情報シーケンスに基づいて第3のエンコード表現を生成し、
    前記文脈スコア付けモジュールは、前記第1のエンコード表現と、前記第のエンコード表現と、前記ユーザコミュニケーションシーケンスに基づいて前記第2のグローバルローカルエンコーダにより生成される第4のエンコード表現とに基づいて文脈スコアを生成し、前記第1のメンバスコアはさらに、前記文脈スコアに基づいて決定される、請求項14に記載のシステム。
  16. 前記ニューラルネットワークは、学習された重み付けパラメータに従って前記コミュニケーションスコアと前記文脈スコアを組み合わせることにより前記第1のメンバスコアを生成するスコアコンバイナモジュールをさらに含む、請求項15に記載のシステム。
  17. 前記第2のエンコード表現は、前記ユーザコミュニケーションシーケンスに基づいて前記第2のグローバルローカルエンコーダのリカレントニューラルネットワーク段階により生成され、前記第4のエンコード表現は、前記第2のエンコード表現に基づいて前記第2のグローバルローカルエンコーダの自己注目段階により生成される、請求項15に記載のシステム。
  18. システムに動作を実行させるように実行可能なマシン読取可能命令を記憶させた非一時的マシン読取可能媒体であって、前記動作は、
    ユーザとの対話に関与するデジタルシステムを介して、ユーザのユーザコミュニケーションの表現を受け取ることと、
    前記ユーザコミュニケーションの表現に基づいて、ニューラルネットワークを使用してオントロジセットの複数のオントロジメンバに対応する複数のメンバスコアを評価することと、前記複数のメンバスコアに基づいて、対話状態に追加又は対話状態から除去すべき前記複数のオントロジメンバのうちゼロ個以上を選択することとにより、前記対話に関連づけられた前記対話状態を更新することと、
    前記更新された対話状態を前記デジタルシステムに提供して前記デジタルシステムが前記更新された対話状態に基づいてシステム応答を提供することを可能にすることと、を含み、
    前記ニューラルネットワークは、
    前記複数のオントロジメンバのうち第1のオントロジメンバに対応する第1のシーケンスに基づいて第1のエンコード表現を生成する第1のエンコーダと、
    前記ユーザコミュニケーションの表現に対応する第2のシーケンスに基づいて第2のエンコード表現を生成する第2のエンコーダと、
    前記第1のエンコード表現及び前記第2のエンコード表現に基づいてコミュニケーションスコアを生成するコミュニケーションスコア付けモジュールであり、前記第1のオントロジメンバに対応する第1のメンバスコアが、前記コミュニケーションスコアに基づいて決定される、コミュニケーションスコア付けモジュールと、を含み、
    前記第1のエンコーダ及び前記第2のエンコーダのうち少なくとも1つが、グローバル分岐及びローカル分岐を含むグローバルローカルエンコーダとして構成され、前記グローバル分岐は、前記複数のオントロジメンバ間で共有されるグローバル訓練パラメータを有し、前記ローカル分岐は、前記複数のオントロジメンバの各々について別個に決定されるローカル訓練パラメータを有する、非一時的マシン読取可能媒体。
  19. 前記複数のオントロジメンバの各々は、前記オントロジセットのスロット‐値ペアを含む、請求項18に記載の非一時的マシン読取可能媒体。
  20. 前記対話状態は、前記対話に関連づけられた累積ゴールのセット又は前記ユーザコミュニケーションに関連づけられたターン要求のセットのうち1つ以上を含む、請求項18又は19に記載の非一時的マシン読取可能媒体。
JP2020544529A 2018-02-22 2019-02-14 グローバルローカルエンコーダを使用した対話状態追跡 Active JP7109560B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862634130P 2018-02-22 2018-02-22
US62/634,130 2018-02-22
US15/978,445 2018-05-14
US15/978,445 US10929607B2 (en) 2018-02-22 2018-05-14 Dialogue state tracking using a global-local encoder
PCT/US2019/018014 WO2019164744A1 (en) 2018-02-22 2019-02-14 Dialogue state tracking using a global-local encoder

Publications (2)

Publication Number Publication Date
JP2021515269A JP2021515269A (ja) 2021-06-17
JP7109560B2 true JP7109560B2 (ja) 2022-07-29

Family

ID=67616466

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020544529A Active JP7109560B2 (ja) 2018-02-22 2019-02-14 グローバルローカルエンコーダを使用した対話状態追跡

Country Status (4)

Country Link
US (2) US10929607B2 (ja)
EP (1) EP3756141A1 (ja)
JP (1) JP7109560B2 (ja)
WO (1) WO2019164744A1 (ja)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10558750B2 (en) 2016-11-18 2020-02-11 Salesforce.Com, Inc. Spatial attention model for image captioning
US11386327B2 (en) 2017-05-18 2022-07-12 Salesforce.Com, Inc. Block-diagonal hessian-free optimization for recurrent and convolutional neural networks
US10817650B2 (en) 2017-05-19 2020-10-27 Salesforce.Com, Inc. Natural language processing using context specific word vectors
US10542270B2 (en) 2017-11-15 2020-01-21 Salesforce.Com, Inc. Dense video captioning
US10929607B2 (en) 2018-02-22 2021-02-23 Salesforce.Com, Inc. Dialogue state tracking using a global-local encoder
US11227218B2 (en) 2018-02-22 2022-01-18 Salesforce.Com, Inc. Question answering from minimal context over documents
US11106182B2 (en) 2018-03-16 2021-08-31 Salesforce.Com, Inc. Systems and methods for learning for domain adaptation
US10783875B2 (en) 2018-03-16 2020-09-22 Salesforce.Com, Inc. Unsupervised non-parallel speech domain adaptation using a multi-discriminator adversarial network
US10909157B2 (en) 2018-05-22 2021-02-02 Salesforce.Com, Inc. Abstraction of text summarization
US11436481B2 (en) 2018-09-18 2022-09-06 Salesforce.Com, Inc. Systems and methods for named entity recognition
US10970486B2 (en) 2018-09-18 2021-04-06 Salesforce.Com, Inc. Using unstructured input to update heterogeneous data stores
US11514915B2 (en) 2018-09-27 2022-11-29 Salesforce.Com, Inc. Global-to-local memory pointer networks for task-oriented dialogue
US11087177B2 (en) 2018-09-27 2021-08-10 Salesforce.Com, Inc. Prediction-correction approach to zero shot learning
US11645509B2 (en) 2018-09-27 2023-05-09 Salesforce.Com, Inc. Continual neural network learning via explicit structure learning
US11029694B2 (en) 2018-09-27 2021-06-08 Salesforce.Com, Inc. Self-aware visual-textual co-grounded navigation agent
US10963652B2 (en) 2018-12-11 2021-03-30 Salesforce.Com, Inc. Structured text translation
US11822897B2 (en) 2018-12-11 2023-11-21 Salesforce.Com, Inc. Systems and methods for structured text translation with tag alignment
US11922323B2 (en) 2019-01-17 2024-03-05 Salesforce, Inc. Meta-reinforcement learning gradient estimation with variance reduction
US11568306B2 (en) 2019-02-25 2023-01-31 Salesforce.Com, Inc. Data privacy protected machine learning systems
US11366969B2 (en) 2019-03-04 2022-06-21 Salesforce.Com, Inc. Leveraging language models for generating commonsense explanations
US11003867B2 (en) 2019-03-04 2021-05-11 Salesforce.Com, Inc. Cross-lingual regularization for multilingual generalization
US11087092B2 (en) 2019-03-05 2021-08-10 Salesforce.Com, Inc. Agent persona grounded chit-chat generation framework
US11580445B2 (en) 2019-03-05 2023-02-14 Salesforce.Com, Inc. Efficient off-policy credit assignment
US11232308B2 (en) 2019-03-22 2022-01-25 Salesforce.Com, Inc. Two-stage online detection of action start in untrimmed videos
US11580970B2 (en) * 2019-04-05 2023-02-14 Samsung Electronics Co., Ltd. System and method for context-enriched attentive memory network with global and local encoding for dialogue breakdown detection
US12008459B2 (en) * 2019-04-19 2024-06-11 Microsoft Technology Licensing, Llc Multi-task machine learning architectures and training procedures
US11487939B2 (en) 2019-05-15 2022-11-01 Salesforce.Com, Inc. Systems and methods for unsupervised autoregressive text compression
US11604965B2 (en) 2019-05-16 2023-03-14 Salesforce.Com, Inc. Private deep learning
US11562251B2 (en) 2019-05-16 2023-01-24 Salesforce.Com, Inc. Learning world graphs to accelerate hierarchical reinforcement learning
US11620572B2 (en) 2019-05-16 2023-04-04 Salesforce.Com, Inc. Solving sparse reward tasks using self-balancing shaped rewards
US11669712B2 (en) 2019-05-21 2023-06-06 Salesforce.Com, Inc. Robustness evaluation via natural typos
US11687588B2 (en) 2019-05-21 2023-06-27 Salesforce.Com, Inc. Weakly supervised natural language localization networks for video proposal prediction based on a text query
US11775775B2 (en) 2019-05-21 2023-10-03 Salesforce.Com, Inc. Systems and methods for reading comprehension for a question answering task
US11657269B2 (en) 2019-05-23 2023-05-23 Salesforce.Com, Inc. Systems and methods for verification of discriminative models
US11615240B2 (en) 2019-08-15 2023-03-28 Salesforce.Com, Inc Systems and methods for a transformer network with tree-based attention for natural language processing
US11599792B2 (en) 2019-09-24 2023-03-07 Salesforce.Com, Inc. System and method for learning with noisy labels as semi-supervised learning
US11568000B2 (en) 2019-09-24 2023-01-31 Salesforce.Com, Inc. System and method for automatic task-oriented dialog system
US11640527B2 (en) 2019-09-25 2023-05-02 Salesforce.Com, Inc. Near-zero-cost differentially private deep learning with teacher ensembles
US11620515B2 (en) 2019-11-07 2023-04-04 Salesforce.Com, Inc. Multi-task knowledge distillation for language model
US11347708B2 (en) 2019-11-11 2022-05-31 Salesforce.Com, Inc. System and method for unsupervised density based table structure identification
US11288438B2 (en) 2019-11-15 2022-03-29 Salesforce.Com, Inc. Bi-directional spatial-temporal reasoning for video-grounded dialogues
US11334766B2 (en) 2019-11-15 2022-05-17 Salesforce.Com, Inc. Noise-resistant object detection with noisy annotations
US11537899B2 (en) 2019-11-18 2022-12-27 Salesforce.Com, Inc. Systems and methods for out-of-distribution classification
US11922303B2 (en) 2019-11-18 2024-03-05 Salesforce, Inc. Systems and methods for distilled BERT-based training model for text classification
US11640505B2 (en) 2019-12-09 2023-05-02 Salesforce.Com, Inc. Systems and methods for explicit memory tracker with coarse-to-fine reasoning in conversational machine reading
US11256754B2 (en) 2019-12-09 2022-02-22 Salesforce.Com, Inc. Systems and methods for generating natural language processing training samples with inflectional perturbations
US11416688B2 (en) 2019-12-09 2022-08-16 Salesforce.Com, Inc. Learning dialogue state tracking with limited labeled data
US11573957B2 (en) 2019-12-09 2023-02-07 Salesforce.Com, Inc. Natural language processing engine for translating questions into executable database queries
US11487999B2 (en) 2019-12-09 2022-11-01 Salesforce.Com, Inc. Spatial-temporal reasoning through pretrained language models for video-grounded dialogues
US11669745B2 (en) 2020-01-13 2023-06-06 Salesforce.Com, Inc. Proposal learning for semi-supervised object detection
CN111259114A (zh) * 2020-01-15 2020-06-09 中国平安财产保险股份有限公司 多轮对话方法及装置、电子设备和存储介质
US11562147B2 (en) 2020-01-23 2023-01-24 Salesforce.Com, Inc. Unified vision and dialogue transformer with BERT
US20210249104A1 (en) 2020-02-06 2021-08-12 Salesforce.Com, Inc. Systems and methods for language modeling of protein engineering
US11263476B2 (en) 2020-03-19 2022-03-01 Salesforce.Com, Inc. Unsupervised representation learning with contrastive prototypes
US11328731B2 (en) 2020-04-08 2022-05-10 Salesforce.Com, Inc. Phone-based sub-word units for end-to-end speech recognition
US11669699B2 (en) 2020-05-31 2023-06-06 Saleforce.com, inc. Systems and methods for composed variational natural language generation
US11720559B2 (en) 2020-06-02 2023-08-08 Salesforce.Com, Inc. Bridging textual and tabular data for cross domain text-to-query language semantic parsing with a pre-trained transformer language encoder and anchor text
CN113761976A (zh) * 2020-06-04 2021-12-07 华为技术有限公司 基于全局引导选择性上下文网络的场景语义解析方法
US11222075B2 (en) 2020-06-12 2022-01-11 Earley Information Science, Inc. Digital data processing systems and methods for digital content retrieval and generation
US20220050877A1 (en) 2020-08-14 2022-02-17 Salesforce.Com, Inc. Systems and methods for query autocompletion
US11934952B2 (en) 2020-08-21 2024-03-19 Salesforce, Inc. Systems and methods for natural language processing using joint energy-based models
US11934781B2 (en) 2020-08-28 2024-03-19 Salesforce, Inc. Systems and methods for controllable text summarization
GB2604317B (en) * 2020-11-09 2024-03-27 Toshiba Kk Dialogue management
US11829442B2 (en) 2020-11-16 2023-11-28 Salesforce.Com, Inc. Methods and systems for efficient batch active learning of a deep neural network
CN112347150B (zh) * 2020-11-23 2021-08-31 北京智谱华章科技有限公司 一种学者学术标签标注方法、装置和电子设备
US20230011434A1 (en) * 2021-07-08 2023-01-12 T-Mobile Usa, Inc. Customer care topic coverage determination and coaching
CN116110076B (zh) * 2023-02-09 2023-11-07 国网江苏省电力有限公司苏州供电分公司 基于混合粒度网络的输电高空作业人员身份重识别方法和***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017059205A (ja) 2015-09-17 2017-03-23 パナソニックIpマネジメント株式会社 主題推定システム、主題推定方法およびプログラム

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997039417A2 (en) * 1996-03-29 1997-10-23 Sarnoff Corporation Method and apparatus for training a neural network to use a fidelity metric
US6075884A (en) * 1996-03-29 2000-06-13 Sarnoff Corporation Method and apparatus for training a neural network to learn and use fidelity metric as a control mechanism
US7127486B1 (en) * 2000-07-24 2006-10-24 Vignette Corporation Method and system for facilitating marketing dialogues
US20030079039A1 (en) * 2001-10-16 2003-04-24 Forkner Damien R. Web server utilizing a state machine and user token
US20070288734A1 (en) * 2006-06-08 2007-12-13 Luick David A Double-Width Instruction Queue for Instruction Execution
WO2011086066A1 (en) * 2010-01-12 2011-07-21 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, method for encoding and audio information, method for decoding an audio information and computer program using a modification of a number representation of a numeric previous context value
WO2012030838A1 (en) * 2010-08-30 2012-03-08 Honda Motor Co., Ltd. Belief tracking and action selection in spoken dialog systems
GB2505476B (en) * 2012-08-31 2019-02-27 Metaswitch Networks Ltd Processing communication sessions
US9466297B2 (en) * 2014-12-09 2016-10-11 Microsoft Technology Licensing, Llc Communication system
US20160350653A1 (en) 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network
US11113598B2 (en) 2015-06-01 2021-09-07 Salesforce.Com, Inc. Dynamic memory network
US20170032280A1 (en) 2015-07-27 2017-02-02 Salesforce.Com, Inc. Engagement estimator
US20170140240A1 (en) 2015-07-27 2017-05-18 Salesforce.Com, Inc. Neural network combined image and text evaluator and classifier
US10282663B2 (en) 2015-08-15 2019-05-07 Salesforce.Com, Inc. Three-dimensional (3D) convolution with 3D batch normalization
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
US10055403B2 (en) * 2016-02-05 2018-08-21 Adobe Systems Incorporated Rule-based dialog state tracking
US9830709B2 (en) * 2016-03-11 2017-11-28 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
US11017767B2 (en) * 2016-03-29 2021-05-25 Microsoft Technology Licensing, Llc Hierarchical attention for spoken dialogue state tracking
US10565493B2 (en) 2016-09-22 2020-02-18 Salesforce.Com, Inc. Pointer sentinel mixture architecture
US20180096267A1 (en) 2016-09-30 2018-04-05 Salesforce.Com, Inc. Single model-based behavior predictions in an on-demand environment
US9977778B1 (en) * 2016-11-03 2018-05-22 Conduent Business Services, Llc Probabilistic matching for dialog state tracking with limited training data
US11042796B2 (en) 2016-11-03 2021-06-22 Salesforce.Com, Inc. Training a joint many-task neural network model using successive regularization
US11080595B2 (en) 2016-11-04 2021-08-03 Salesforce.Com, Inc. Quasi-recurrent neural network based encoder-decoder model
US10963782B2 (en) 2016-11-04 2021-03-30 Salesforce.Com, Inc. Dynamic coattention network for question answering
US10540967B2 (en) * 2016-11-14 2020-01-21 Xerox Corporation Machine reading method for dialog state tracking
US10558750B2 (en) 2016-11-18 2020-02-11 Salesforce.Com, Inc. Spatial attention model for image captioning
GB2559617B (en) * 2017-02-13 2020-06-24 Toshiba Kk A dialogue system, a dialogue method and a method of adapting a dialogue system
WO2018156373A1 (en) * 2017-02-24 2018-08-30 Google Llc Sequence processing using online attention
US11250311B2 (en) 2017-03-15 2022-02-15 Salesforce.Com, Inc. Deep neural network-based decision network
US10565318B2 (en) 2017-04-14 2020-02-18 Salesforce.Com, Inc. Neural machine translation with latent tree attention
US10474709B2 (en) 2017-04-14 2019-11-12 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization
DK201770432A1 (en) * 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10747761B2 (en) 2017-05-18 2020-08-18 Salesforce.Com, Inc. Neural network based translation of natural language queries to database queries
US12014257B2 (en) 2017-05-19 2024-06-18 Salesforce, Inc. Domain specific language for generation of recurrent neural network architectures
CN109086282A (zh) * 2017-06-14 2018-12-25 杭州方得智能科技有限公司 一种具备多任务驱动能力的多轮对话的方法和***
KR102342066B1 (ko) * 2017-06-21 2021-12-22 삼성전자주식회사 뉴럴 네트워크 모델을 이용한 기계 번역 방법, 장치 및 그 장치를 학습시키기 위한 방법
US10515625B1 (en) * 2017-08-31 2019-12-24 Amazon Technologies, Inc. Multi-modal natural language processing
US11031135B2 (en) * 2017-09-26 2021-06-08 Edge2020 LLC Determination of cybersecurity recommendations
US11017556B2 (en) * 2017-10-04 2021-05-25 Nvidia Corporation Iterative spatio-temporal action detection in video
US11093816B2 (en) 2017-10-05 2021-08-17 Salesforce.Com, Inc. Convolutional neural network (CNN)-based anomaly detection
US11087211B2 (en) 2017-10-05 2021-08-10 Salesforce.Com, Inc. Convolutional neural network (CNN)-based suggestions for anomaly input
US10424302B2 (en) * 2017-10-12 2019-09-24 Google Llc Turn-based reinforcement learning for dialog management
US20190130896A1 (en) 2017-10-26 2019-05-02 Salesforce.Com, Inc. Regularization Techniques for End-To-End Speech Recognition
US10592767B2 (en) 2017-10-27 2020-03-17 Salesforce.Com, Inc. Interpretable counting in visual question answering
CN118194921A (zh) * 2017-10-27 2024-06-14 谷歌有限责任公司 基于关注的图像生成神经网络
US11170287B2 (en) 2017-10-27 2021-11-09 Salesforce.Com, Inc. Generating dual sequence inferences using a neural network model
US11562287B2 (en) 2017-10-27 2023-01-24 Salesforce.Com, Inc. Hierarchical and interpretable skill acquisition in multi-task reinforcement learning
US11604956B2 (en) 2017-10-27 2023-03-14 Salesforce.Com, Inc. Sequence-to-sequence prediction using a neural network model
US11928600B2 (en) 2017-10-27 2024-03-12 Salesforce, Inc. Sequence-to-sequence prediction using a neural network model
US10573295B2 (en) 2017-10-27 2020-02-25 Salesforce.Com, Inc. End-to-end speech recognition with policy learning
CN107679525B (zh) * 2017-11-01 2022-11-29 腾讯科技(深圳)有限公司 图像分类方法、装置及计算机可读存储介质
CN109753978B (zh) * 2017-11-01 2023-02-17 腾讯科技(深圳)有限公司 图像分类方法、装置以及计算机可读存储介质
US10346721B2 (en) 2017-11-01 2019-07-09 Salesforce.Com, Inc. Training a neural network using augmented training datasets
US10542270B2 (en) 2017-11-15 2020-01-21 Salesforce.Com, Inc. Dense video captioning
US11562243B2 (en) * 2017-11-17 2023-01-24 Meta Platforms, Inc. Machine-learning models based on non-local neural networks
KR102424514B1 (ko) * 2017-12-04 2022-07-25 삼성전자주식회사 언어 처리 방법 및 장치
US11276002B2 (en) 2017-12-20 2022-03-15 Salesforce.Com, Inc. Hybrid training of deep networks
US10878808B1 (en) * 2018-01-09 2020-12-29 Amazon Technologies, Inc. Speech processing dialog management
SG11202007234RA (en) * 2018-01-29 2020-08-28 Emergex Llc System and method for facilitating affective-state-based artificial intelligence
EP3732627A1 (en) * 2018-02-09 2020-11-04 Google LLC Fast decoding in sequence models using discrete latent variables
US10776581B2 (en) 2018-02-09 2020-09-15 Salesforce.Com, Inc. Multitask learning as question answering
US10929607B2 (en) 2018-02-22 2021-02-23 Salesforce.Com, Inc. Dialogue state tracking using a global-local encoder

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017059205A (ja) 2015-09-17 2017-03-23 パナソニックIpマネジメント株式会社 主題推定システム、主題推定方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Nikola Mrksic et al.,Neural Belief Tracker: Data-Driven Dialogue State Tracking,Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics,2017年07月30日,pp.1777-1788,arXiv:1606.03777v2[cs.CL] 21. Apr 2017 で先行公開

Also Published As

Publication number Publication date
WO2019164744A1 (en) 2019-08-29
JP2021515269A (ja) 2021-06-17
US11836451B2 (en) 2023-12-05
US20210174028A1 (en) 2021-06-10
US20190258714A1 (en) 2019-08-22
US10929607B2 (en) 2021-02-23
EP3756141A1 (en) 2020-12-30

Similar Documents

Publication Publication Date Title
JP7109560B2 (ja) グローバルローカルエンコーダを使用した対話状態追跡
US20220044093A1 (en) Generating dual sequence inferences using a neural network model
US11604956B2 (en) Sequence-to-sequence prediction using a neural network model
US10540967B2 (en) Machine reading method for dialog state tracking
US11586880B2 (en) System and method for multi-horizon time series forecasting with dynamic temporal context learning
US20200349450A1 (en) Projection neural networks
CN113544703B (zh) 高效的离策略信用分配
US11928600B2 (en) Sequence-to-sequence prediction using a neural network model
US11610064B2 (en) Clarification of natural language requests using neural networks
US20220092416A1 (en) Neural architecture search through a graph search space
US11093714B1 (en) Dynamic transfer learning for neural network modeling
Kim et al. A Bi-LSTM memory network for end-to-end goal-oriented dialog learning
CN113826125A (zh) 使用无监督数据增强来训练机器学习模型
US20230029590A1 (en) Evaluating output sequences using an auto-regressive language model neural network
JP2019095600A (ja) 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム
US20220383119A1 (en) Granular neural network architecture search over low-level primitives
US20220391706A1 (en) Training neural networks using learned optimizers
US20240005131A1 (en) Attention neural networks with tree attention mechanisms
JP2020155010A (ja) ニューラルネットワークのモデル縮約装置
US20240005129A1 (en) Neural architecture and hardware accelerator search
US20230206030A1 (en) Hyperparameter neural network ensembles
WO2024138177A1 (en) Recurrent interface networks
WO2024159132A1 (en) Lifelong pretraining of mixture-of-experts neural networks
CA3160910A1 (en) Systems and methods for semi-supervised active learning
JP2022051113A (ja) 情報出力装置、質問生成装置、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201019

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211019

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220614

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220719

R150 Certificate of patent or registration of utility model

Ref document number: 7109560

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150