JP7208952B2 - 対話モデルを生成するための方法及び装置 - Google Patents

対話モデルを生成するための方法及び装置 Download PDF

Info

Publication number
JP7208952B2
JP7208952B2 JP2020097597A JP2020097597A JP7208952B2 JP 7208952 B2 JP7208952 B2 JP 7208952B2 JP 2020097597 A JP2020097597 A JP 2020097597A JP 2020097597 A JP2020097597 A JP 2020097597A JP 7208952 B2 JP7208952 B2 JP 7208952B2
Authority
JP
Japan
Prior art keywords
training
information
neural network
loss function
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020097597A
Other languages
English (en)
Other versions
JP2021108094A (ja
Inventor
バオ・シキ
ホー・フアン
チェン・ジュンクン
ワン・ファン
ウー・フア
ホー・ジンヂョウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021108094A publication Critical patent/JP2021108094A/ja
Application granted granted Critical
Publication of JP7208952B2 publication Critical patent/JP7208952B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示の実施形態はコンピュータ技術分野に関し、具体的には対話モデルを生成するための方法及び装置に関する。
対話モデルは一般的にインテリジェントな対話システムに適用することができ、例えばユーザとのコミュニケーションを行うゴシップシステムや、ナビゲーションロボットなどに適用することができる。具体的には、ユーザが発した質問文(テキスト又は音声等の形態であってもよい)に対して、対話モデルはユーザからの質問文に対して内部演算を行い、質問文に対する回答を確定し、回答をモデル出力としてユーザにフィードバックする。一般的に、対話モデルはシーケンス・ツー・シーケンス(Sequence to Sequence,seq2seqと略称される)により上記対話機能(すなわち、短いテキストの回答機能)を実現することができる。
関連技術において、対話モデルは大規模な事前トレーニングに基づく言語モデルであり、例えば、BERTである。このような対話モデルにより生成された回答の内容が単調で、情報不足の状況もあるので、ユーザからの質問文に対する有効回答を正確に行うことはできない。
本開示の実施形態は対話モデルを生成するための方法及び装置に関する。
第1態様において、本開示の実施形態は、対話モデルを生成するための方法であって、入力情報及び目標回答情報を含むコーパスサンプルからなるコーパスサンプル集合を取得することと、コーパスサンプル集合におけるコーパスサンプルを分類し、分類の結果に基づいて各コーパスサンプルに離散的な潜在変数を設定し、入力情報、目標回答情報及び離散的な潜在変数を含むトレーニングサンプルからなるトレーニングサンプル集合を生成することと、トレーニングサンプル集合を用いて事前設置されたニューラルネットワークをトレーニングし、入力された入力情報と出力された目標回答情報との対応関係を特徴付けるための対話モデルを取得することと、を備える対話モデルを生成するための方法を提供する。
いくつかの実施形態において、前記事前設置されたニューラルネットワークは変換ニューラルネットワークであり、変換ニューラルネットワークはテキスト情報の単方向符号化及び双方向符号化をサポートするニューラルネットワークである。
トレーニングサンプル集合を用いて事前設置されたニューラルネットワークをトレーニングして対話モデルを取得することは、トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルにおける入力情報及び離散的な潜在変数を入力とし、該トレーニングサンプルにおける目標回答情報を所望出力とし、事前設定された損失関数を用いて単方向注意メカニズムに基づく変換ニューラルネットワークをトレーニングして、変換ニューラルネットワークのパラメータを更新することと、該トレーニングサンプルにおける入力情報及び目標回答情報を更新済み変換ニューラルネットワークの入力とし、該トレーニングサンプルにおける離散的な潜在変数を所望出力とし、損失関数を用いて双方向注意メカニズムに基づく変換ニューラルネットワークをトレーニングして、対話モデルを取得することと、を備える。
いくつかの実施形態において、トレーニングサンプル集合を用いて事前設置されたニューラルネットワークをトレーニングして、対話モデルを取得することは、トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルをテキストベクトルに変換することと、テキストベクトルを事前設置されたニューラルネットワークに入力してトレーニングして、対話モデルを取得することと、を備える。
いくつかの実施形態において、損失関数は、負の対数尤度損失関数、単語の袋損失関数及び回答情報選択損失関数のうちの少なくとも一つを含み、
単語の袋損失関数は、変換ニューラルネットワークから出力された離散的な潜在変数とトレーニングサンプルにおける離散的な潜在変数との差異度を特徴付けるために用いられ、回答情報選択損失関数は、変換ニューラルネットワークから出力された目標回答情報とトレーニングサンプルにおける目標回答情報との差異度を特徴付けるために用いられる。
いくつかの実施形態において、トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルをテキストベクトルに変換することは、トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルにおける入力情報及び目標回答情報を単語に分割することと、分割された各単語の、該トレーニングサンプルにおけるキャラクタ情報、単語種類情報、対話回数情報及び位置情報に基づき、該トレーニングサンプルをテキストベクトルに変換することと、を備える。
第2態様において、本開示の実施形態は、対話モデルを生成するための装置であって、入力情報及び目標回答情報を含むコーパスサンプルからなるコーパスサンプル集合を取得するように構成されるように構成される取得手段と、コーパスサンプル集合におけるコーパスサンプルを分類し、分類の結果に基づいて各コーパスサンプルに離散的な潜在変数を設定し、入力情報、目標回答情報及び離散的な潜在変数を含むトレーニングサンプルからなるトレーニングサンプル集合を生成するように構成される生成手段と、トレーニングサンプル集合を用いて事前設置されたニューラルネットワークをトレーニングし、入力された入力情報と出力された目標回答情報との間の対応関係を特徴付けるための対話モデルを取得するように構成されるトレーニング手段と、を備える対話モデルを生成するための装置を提供する。
いくつかの実施形態において、前記事前設置されたニューラルネットワークは変換ニューラルネットワークであり、変換ニューラルネットワークはテキスト情報の単方向符号化及び双方向符号化をサポートするニューラルネットワークである。
トレーニング手段はさらに、トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルにおける入力情報及び離散的な潜在変数を入力とし、該トレーニングサンプルにおける目標回答情報を所望出力とし、事前設定された損失関数を用いて単方向注意メカニズムに基づく変換ニューラルネットワークをトレーニングして、変換ニューラルネットワークのパラメータを更新することと、該トレーニングサンプルにおける入力情報及び目標回答情報を更新済み変換ニューラルネットワークの入力とし、該トレーニングサンプルにおける離散的な潜在変数を所望出力とし、前記損失関数を用いて双方向注意メカニズムに基づく変換ニューラルネットワークをトレーニングして、前記対話モデルを取得することとを行うように構成される。
いくつかの実施形態において、トレーニング手段は、トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルをテキストベクトルに変換するように構成される変換モジュールと、テキストベクトルを事前設置されたニューラルネットワークに入力してトレーニングして、対話モデルを取得するように構成されるトレーニングモジュールと、を備える。
いくつかの実施形態において、損失関数は、負の対数尤度損失関数、単語の袋損失関数及び回答情報選択損失関数のうちの少なくとも一つを含み、単語の袋損失関数は、変換ニューラルネットワークから出力された離散的な潜在変数とトレーニングサンプルにおける離散的な潜在変数との差異度を特徴付けるために用いられ、回答情報選択損失関数は、変換ニューラルネットワークから出力された目標回答情報とトレーニングサンプルにおける目標回答情報との差異度を特徴付けるために用いられる。
いくつかの実施形態において、変換モジュールはさらに、トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルにおける入力情報及び目標回答情報を単語に分割し、分割された各単語の該トレーニングサンプルにおけるキャラクタ情報、単語種類情報、対話回数情報及び位置情報に基づき、該トレーニングサンプルをテキストベクトルに変換するように構成される。
本開示の実施形態により提供された対話モデルを生成するための方法及び装置は、コーパスサンプル集合を取得し、コーパスサンプル集合におけるコーパスサンプルを分類し、分類の結果に基づいて各コーパスサンプルに離散的な潜在変数を設定し、入力情報、目標回答情報及び離散的な潜在変数を含むトレーニングサンプル集合を生成し、最後に、トレーニングサンプル集合を用いて事前設置されたニューラルネットワークをトレーニングし、対話モデルを取得することができる。本開示により提供された、対話モデルを生成するための方法は、コーパスサンプルの離散的な潜在変数を確定することができ、離散的な潜在変数を導入することにより対話テキストの間の「1対多」関係を効果的にモデリングすることができ、生成された対話モデルの回答の多様性が向上され、ユーザからの質問文に対する有効回答を行うことができる。
以下の図面を参照してなされる非限定的な実施形態に対する詳細な説明により、本開示の他の特徴、目的及び利点がより明らかになる。
本開示のいくつかの実施形態を適用できる例示的なシステムアーキテクチャである。 本開示に係る対話モデルを生成するための方法の一実施形態を示すフローチャートである。 本開示に係る対話モデルを生成するための方法の更なる実施形態を示すフローチャートである。 本開示の対話モデルを生成するための装置の一実施形態の構造概略図である。 本開示の実施形態を実現するための電子機器の構造概略図である。
以下で図面及び実施形態を踏まえて本開示をさらに詳細に説明する。ここで開示された具体的な実施形態は、関連発明を説明するためにのみ使用され、その発明を限定するものではないことを理解されたい。なお、説明の便宜上、図面には発明に関連する部分のみが示される。
なお、矛盾が生じない状況で本開示は、本出願の実施形態及び実施形態での特徴は、互いに組み合わせることができる。以下は図面を参照しながら実施形態を踏まえて本開示をさらに詳細に説明する。
図1は、本開示の実施形態を適用できる、対話モデルを生成するための方法又は対話モデルを生成するための装置の例示としてのシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は端末装置101、102、103、ネットワーク104及びサーバ105を備える。ネットワーク104は、端末装置101、102、103とサーバ105との間で通信リンクの媒体を提供するためのものである。ネットワーク104は、有線または無線の通信リンクや、光ファイバケーブル等による各種の接続方式を含む。
ユーザは、端末装置101、102、103を用いてネットワーク104を介してサーバ105と情報のやり取りを行うことにより、情報を送信または受信することができる。端末装置101、102、103には様々な通信クライアントアプリケーションがインストールされることができ、例えばWebブラウザアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントメッセージングツール、メールボックスクライアント、ソーシャルプラットフォームソフトウェアなどがインストールされる。
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、表示画面を有し、インテリジェントな対話システムなどのアプリケーションがインストールされる各種の電子機器であってもよく、例えば、スマートフォン、タブレットコンピュータ、電子書籍リーダー、ラップトップコンピュータ及びデスクトップコンピュータなどを含むが、これらに限定されない。端末装置101、102、103がソフトウェアである場合、上述した電子機器に搭載されることができる。それは例えば分散サービスを提供するための複数のソフトウェア又はソフトウェアモジュールとして実現されることができ、また単一のソフトウェア又はソフトウェアモジュールとして実現されることができる。ここでは特に限定しない。
サーバ105は、各種サービスを提供するサーバであってもよく、例えば、端末装置101、102、103に表示されるデータに対してサポートを提供するバックグラウンドサーバである。バックグラウンドサーバは取得したコーパスサンプル集合等のデータに対して解析などの処理を行い、処理結果(例えば対話モデル)を生成することができる。
なお、本開示の実施形態に係る、対話モデルを生成するための方法は、端末装置101、102、103によって実行されてもよいし、サーバ105によって実行されてもよい。したがって、対話モデルを生成するための装置は端末装置101、102、103に設置されてよいし、サーバ105に設置されてもよい。ここでは特に限定しない。
なお、サーバは、ハードウェアであってもよいし、ソフトウェアであってもよい。サーバがハードウェアである場合、複数のサーバより構成される分散サーバクラスタとして実施することもできれば、単一のサーバとして実施することもできる。サーバがソフトウェアである場合、例えば分散サービスを提供するための複数のソフトウェア又はソフトウェアモジュールとして実現されてもよいし、また単一のソフトウェア又はソフトウェアモジュールとして実現されてもよい。ここでは特に限定しない。
図1における端末装置、ネットワーク及びサーバの数は例示のみであることを理解されたい。また、必要に応じて、任意の数の端末装置、ネットワーク、サーバ等を備えることができる。
続いて、本開示に係る対話モデルを生成するための方法の一実施形態の流れ200を示す図2を参照する。該対話モデルを生成するための方法は、以下のステップを備える。
ステップ201:コーパスサンプル集合を取得する。
本実施形態において、対話モデルを生成するための方法の実行主体(例えば図1に示すサーバ)は、コーパスサンプル集合を取得することができる。ここで、コーパスサンプル集合は複数のコーパスサンプルを含むことができ、各コーパスサンプルは入力情報及び目標回答情報を含むことができる。なお、上記コーパスサンプルに含まれるコーパスサンプルは対話コーパスである。例えば、コーパスサンプルの入力情報は、「Do you have a pet? I have a cute dog.」であり得、目標回答情報は「That is great.」であってもよい。又は、上記コーパスサンプル集合はTwitterコーパス、Redditコーパス等から得られるコーパスサンプル集合であり得る。
なお、上記コーパスサンプル集合は上記実行主体のローカルデバイスに記憶されることができ、この場合、上記実行主体は上記コーパスサンプル集合をローカルデバイスから直接取得することができる。また、上記コーパスサンプル集合は、前記実行主体に接続された他の電子機器が有線接続方式または無線接続方式により前記実行主体へ送信されるものであってもよい。ここで、上記無線接続方式は3G/4G接続、WiFi接続、ブルートゥース(登録商標)接続、WiMAX接続、Zigbee(登録商標)接続、UWB(ultra wideband)接続、及び他の既知又は将来の無線接続方式を含むがこれに限定されない。
関連技術において、一般的には、広く知られたテキスト(例えばウィキペディア)を用いて言語モデルをトレーニングするが、広く知られたテキストと対話コーパスはデータ及び知識の分布に大きな差があることを理解されたい。そのため、ウィキペディアなどから得られたコーパスサンプル集合に比べ、Twitterコーパス、Redditコーパスなどから得られた入力情報と目標回答情報を含むコーパスサンプル集合の方が、対話モデルのトレーニングに適している。
ステップ202では、コーパスサンプル集合におけるコーパスサンプルを分類し、分類の結果に基づいて各コーパスサンプルに離散的な潜在変数を設定し、トレーニングサンプル集合を生成する。
本実施形態において、ステップ201に基づいて取得されたコーパスサンプル集合について、上記実行主体(例えば図1に示すサーバ)は、コーパスサンプル集合における目標回答情報の回答方向に応じてコーパスサンプル集合におけるコーパスサンプルをkクラスに分類することができる。したがって、離散的な潜在変数は[1、k]において値を取り、離散的な潜在変数の各取り得る値は目標回答情報における特定の回答方向に対応する。上記実行主体は分類の結果に基づいて各コーパスサンプルに離散的な潜在変数を設定することができる。これにより、各コーパスサンプルについて、上記実行主体は、当該コーパスサンプルにおける入力情報、目標回答情報、および当該コーパスサンプルの離散的な潜在変数を含むトレーニングサンプルを生成することができる。上記実行主体はコーパスサンプル集合を用いてトレーニングサンプル集合を対応に生成することができる。
コーパスサンプルの離散的な潜在変数は該コーパスサンプルにおける特定の回答方向に対応することができるので、離散的な潜在変数とコーパスサンプル集合とを関連付けることで、離散的な潜在変数は説明可能になり、生成された対話モデルの精度を向上させることに役立つことが理解できる。
ステップ203では、トレーニングサンプル集合を用いて事前設置されたニューラルネットワークをトレーニングして、対話モデルを取得する。
本実施形態において、ステップ202に基づき、トレーニングサンプル集合を生成し、上記実行主体は生成されたトレーニングサンプル集合を用いて事前設置されたニューラルネットワークをトレーニングすることで、対話モデルを取得することができる。ここで、対話モデルは入力された入力情報と出力された目標回答情報との間の対応関係を特徴付けることができる。例示として、上記実行主体は以下のように対話モデルをトレーニングすることができる。トレーニングサンプルにおける入力情報及び目標回答情報を入力とし、離散的な潜在変数を所望出力とし、事前設置されたニューラルネットワークをトレーニングして対話モデルを取得する。トレーニングにより取得された対話モデルは離散的な潜在変数の値を正確に推定することができ、それによって、対話モデルから出力される回答情報の方向を確定し、生成された対話モデルの信頼性を向上させる。
本実施形態のいくつかの選択可能な実現方式において、上記コーパスサンプルにおける入力情報及び目標回答情報は音声情報又はテキスト情報であることができる。入力情報及び目標回答情報が音声情報である場合、上記実行主体は音声情報をテキスト情報に事前変換し、続いてテキスト情報を用いてモデルをトレーニングすることができる。対話モデルの利用過程において、対話モデルの入力情報が音声情報であれば、その音声情報をテキスト情報に変換し、対話モデルから出力される回答情報を音声情報に変換して出力することができる。
本実施形態のいくつかの選択可能な実現方式では、上記トレーニングサンプル集合における各トレーニングサンプルについて、上記実行主体は様々な方式を採用してトレーニングサンプルをテキストベクトルに変換することができる。そして、上記実行主体はテキストベクトルを事前設置されたニューラルネットワークに入力してトレーニングを行い、従って、対話モデルを取得する。例示として、上記実行主体は事前トレーニングされたベクトル空間モデルを用いてトレーニングサンプルをベクトルに変換することができる。
本実施形態のいくつかの選択可能な実現方式において、トレーニングサンプル集合におけるトレーニングサンプルについて、上記実行主体は以下の方式を採用してトレーニングサンプルのテキストベクトルを取得することができる。トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルにおける入力情報及び目標回答情報を単語に分割し、各分割された単語の、各トレーニングサンプルにおけるキャラクタ情報、単語種類情報、対話回数情報および位置情報に基づき、該トレーニングサンプルをテキストベクトルに変換する。上記トレーニングサンプルは入力情報、目標出力情報及び離散的な潜在変数を含むことができる。トレーニングサンプルの文を区別するために、各文の末端に例えば[EOS]の識別子を付加し、目標回答情報に含まれる文の文頭に例えば[BOS]の識別子を付加することができる。トレーニングサンプルにおける離散的な潜在変数zについて、潜在ベクトル空間からマッピングすることにより離散的な潜在変数埋め込みEzを取得することができる。さらに、トレーニングサンプルにおける対話キャラクタの違いを区別するため、トレーニングサンプルのキャラクタ情報に応じて、キャラクタベクトルrole embeddingを設置することができる。また、トレーニングサンプルにおける複数回の情報のやり取りの対話について、対話回数情報に基づき、相対順序を採用して回数ベクトルturn embeddingを設定することができる。例えば、回答のturn embeddingはいつもE[0]であり、その前の文はE[-1]であるなどのように挙げられる。ここでは、絶対的な順序ではなく、対話の相対的な順序を採用することで、目標回答情報を対話回数における干渉から遠ざけることができる。最後に、トレーニングサンプルにおいて、各単語の各文における位置情報に基づいて位置ベクトルposition embeddingを設定することができる。事前設置されたニューラルネットワークに入力されたテキストベクトルは、上記キャラクタ情報、単語種類情報、対話回数情報及び位置情報等に対応して設定されたrole embedding等のベクトルを重ね合わせるものであり得る。
本開示の上記実施形態により提供された、対話モデルを生成するための方法は、コーパスサンプル集合を取得し、コーパスサンプル集合におけるコーパスサンプルを分類し、分類の結果に基づいて各コーパスサンプルに離散的な潜在変数を設定し、入力情報、目標回答情報及び離散的な潜在変数を含むトレーニングサンプル集合を生成し、最後にトレーニングサンプル集合を用いて事前設置されたニューラルネットワークをトレーニングし、対話モデルを取得することができる。本開示により提供された対話モデルを生成するための方法はコーパスサンプルの離散的な潜在変数を確定することができ、離散的な潜在変数を導入することにより対話テキストの間の「1対多」の関係を効果的にモデリングすることができ、生成された対話モデルの回答の多様性を向上させ、それによって、ユーザからの質問文に有効回答を行うことができる。
さらに、対話モデルを生成するための方法の更なる実施形態の流れ300を示す図3を参照する。該対話モデルを生成するための方法の流れ300は、以下のステップを備える。
ステップ301:コーパスサンプル集合を取得する。
本実施形態において、対話モデルを生成するための方法の実行主体(例えば図1に示すサーバ)は、コーパスサンプル集合を取得することができる。ここで、コーパスサンプル集合は複数のコーパスサンプルを含み、各コーパスサンプルは入力情報及び目標回答情報を含むことができる。なお、上記コーパスサンプルに含まれるコーパスサンプルは対話コーパスである。例えば、上記コーパスサンプル集合はTwitterコーパス、Redditコーパス等から得られるコーパスサンプル集合であってもよい。
ステップ302では、コーパスサンプル集合におけるコーパスサンプルを分類し、分類の結果に基づいて各コーパスサンプルに離散的な潜在変数を設定し、トレーニングサンプル集合を生成する。
本実施形態では、ステップ301で取得されたコーパスサンプル集合に基づき、上記実行主体(例えば図1に示すサーバ)は、コーパスサンプル集合における目標回答情報の回答方向に応じてコーパスサンプル集合におけるコーパスサンプルをkクラスに分類することができる。したがって、離散的な潜在変数は[1、k]において値を取り、離散的な潜在変数の各取り得る値は目標回答情報における特定の回答方向に対応する。上記実行主体は分類の結果に基づいて各コーパスサンプルに離散的な潜在変数を設定することができる。これにより、各コーパスサンプルについて、上記実行主体は、該コーパスサンプルにおける入力情報、目標回答情報、および該コーパスサンプルの離散的な潜在変数を含むトレーニングサンプルを生成することができる。上記実行主体はコーパスサンプル集合を用いてトレーニングサンプル集合を相応に生成することができる。
ステップ303では、トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルにおける入力情報及び離散的な潜在変数を入力とし、該トレーニングサンプルにおける目標回答情報を所望出力とし、事前設定された損失関数を用いて単方向注意メカニズムに基づく変換ニューラルネットワークをトレーニングし、変換ニューラルネットワークのパラメータを更新する。
本実施形態において、事前設置されたニューラルネットワークは変換ニューラルネットワークであってもよく、該変換ニューラルネットワークはテキスト情報の単方向符号化と双方向符号化をサポートすることができる。変換ニューラルネットワークはUNILM(Unified Language Model Pre-training for Natural Language Understanding and Generation、自然言語の理解と生成のための汎用言語モデルの事前トレーニング)におけるtransformerネットワークであってもよい。本実施形態で採用されるUNILMのtransformerネットワークは双方向符号化と単方向符号化を柔軟にサポートすることができ、同期並列化トレーニングを行うことができる。前記transformerネットワークはトレーニング過程において、入力内容を符号化し、エンコーダの入力自己注意(self-attention)層は、その出力がフィードフォワードニューラルネットワークに送信され、デコーダは出力された内容を復号化する。なお、transformerは以下の特性を有する。トレーニングの過程中に、入力情報の各単語はエンコーダを通過する時に自身の経路を流れ、self-attention層においてこれらの経路の間には依存関係があるが、フィードフォワード層はこれらの依存関係がないため、各経路はフィードフォワード層を流れる時に並列に実行されることができる。又は、変換ニューラルネットワークは他の双方向符号化及び単方向符号化をサポートする上に、同期並列化トレーニングを行うことができる他のニューラルネットワークであってもよい。
本実施形態では、ステップ302で得られたトレーニングサンプル集合に基づき、該トレーニングサンプル集合におけるトレーニングサンプルについて、上記実行主体は該トレーニングサンプルにおける入力情報及び離散的な潜在変数を入力とし、該トレーニングサンプルにおける目標回答情報を所望出力とし、事前設定された損失関数に基づいて変換ニューラルネットワークをトレーニングし、該変換ニューラルネットワークにおけるパラメータを更新することができる。該ステップでは、入力情報と離散的な変数を入力とし、目標回答情報を対話モデルの所望出力とすることで、対話モデルの回答により生成されたタスクをトレーニングすることができ、それによって、対話モデルによる目標回答の確率が最大になることができる。
上記損失関数は、モデルの出力と所望出力との差異度を表すことができる。損失関数が小さいほど、モデルの出力と所望出力との差異度が小さくなる。このため、モデルトレーニングの目標は、損失関数の値を最小にすることである。
ステップ304では、該トレーニングサンプルにおける入力情報及び目標回答情報を更新済み変換ニューラルネットワークの入力とし、該トレーニングサンプルにおける離散的な潜在変数を所望出力とし、損失関数を用いて双方向注意メカニズムに基づく変換ニューラルネットワークをトレーニングし、対話モデルを取得する。
本実施形態において、ステップ302で得られたトレーニングサンプル集合に基づき、該トレーニングサンプル集合におけるトレーニングサンプルについて、上記実行主体は該トレーニングサンプルにおける入力情報及び目標回答情報を入力とし、該トレーニングサンプルにおける離散的な潜在変数を所望出力とし、事前設定された損失関数に基づいて更新済み変換ニューラルネットワークをトレーニングし、それによって、該変換ニューラルネットワークにおけるパラメータを再更新することができる。このステップでは、入力情報と目標回答情報を入力とし、離散的な潜在変数を対話モデルの所望出力とすることで、対話モデルの潜在動作の識別タスクをトレーニングすることができ、それによって、対話モデルが離散的な潜在変数を推定することができ、離散的な潜在変数の正確的な推定は、対話モデルから出力される回答情報の品質を向上させることに役立つことができる。
本実施形態において、トレーニングサンプル集合における各トレーニングサンプルについて、ステップ303及びステップ304における方法を用いて対話モデルをトレーニングすることができる。本出願の実施形態が開示する解決手段は同一のネットワークアーキテクチャでネットワークパラメータを共有する場合、回答により生成されたタスク(ステップ303に対応する)と潜在動作の識別タスク(ステップ304に対応する)を同期にトレーニングすることで、トレーニングにより得られた対話モデルが目標回答の確率を最大にさせることができるし、正確に推定された離散的な変数に基づいて回答方向を確定することもできるので、対話モデルの信頼性が向上される。さらに、本実施形態で採用されるUNILMのtransformerネットワークは双方向符号化と単方向符号化をサポートし、それによって、入力情報の双方向情報と目標回答情報の単方向情報を十分に利用することができ、モデルトレーニングの過程中において回答生成タスクと潜在動作の識別タスクを同期にトレーニングすることができる。
本実施形態のいくつかの選択可能な実現方式において、上記損失関数は負の対数尤度損失関数、単語の袋損失関数及び回答情報選択損失関数の少なくとも一つを含み得る。負の対数尤度(negative loglikelihood,NLLと略称される)損失関数LNLLは典型的な生成損失関数であり、NLL損失関数LNLLは、一般的には、softmax関数と一緒に用いることができる。単語の袋(bag-of-words,BOWと略称される)損失関数LBOWはtransformerネットワークにより出力される離散的な潜在変数とトレーニングサンプルにおける離散的な潜在変数との差異度を表すことができ、該BOW損失関数は主に離散的な潜在変数のトレーニングを促進するためのものである。NLLに比べて、BOWは語順情報を考慮しないため、離散的な潜在変数は回答情報におけるグローバル情報をキャプチャすることができる。回答情報選択(response selection,RSと略称される)損失関数LRSは、transformerネットワークにより出力される目標回答情報とトレーニングサンプルにおける目標回答情報との差異度を表すためのものであり、該RS損失関数は主に回答情報が入力情報と関連するか否かを判断するためのものである。
上記NLL損失関数、BOW損失関数及びRS損失関数は以下のように示す。
Figure 0007208952000001
ここで、zはトレーニングサンプルにおける離散的な変数を表し、cはトレーニングサンプルにおける入力情報を表し、rはトレーニングサンプルにおける目標回答情報を表し、Tは目標回答情報rに含まれる単語の数を表し、tは現在単語の、目標回答情報の単語シーケンスにおける配列番号を表し、r<tは現在生成された回答情報の単語シーケンスを表す。
Figure 0007208952000002
本実施形態のいくつかの選択可能な実現方式において、上記事前設定された損失関数LはL=LNLL+LBOW+LRSであってもよい。この実現形態における損失関数を用いてモデルトレーニングを行うことにより、生成した対話モデルの信頼性を向上させることができる。
図4から分かるように、図2に対応する実施形態に比べて、本実施形態における、対話モデルを生成するための方法の流れ400は入力情報及び離散的な潜在変数を入力とし、目標回答情報を所望出力として変換ニューラルネットワークをトレーニングし、入力情報及び目標回答情報を同期に入力とし、離散的な潜在変数を所望出力として変換ニューラルネットワークをトレーニングし、回答生成タスク及び潜在動作の識別タスクの同期トレーニングを実現することで、トレーニングにより得られる対話モデルは目標回答確率を最大にすることができるとともに正確に推定された離散的な潜在変数に基づいて回答方向を確定することができ、対話モデルの信頼性をさらに向上させる。
図4をさらに参照し、上記の各図面に示す方法を実現するためのものとして、本開示は対話モデルを生成するための装置の一実施形態を提供し、該装置の実施形態は図2に示す方法の実施形態に対応し、該装置は具体的に様々な電子機器に適用することができる。
図4に示すように、本実施形態の対話モデルを生成するための装置400は、取得手段401、生成手段402、トレーニング手段40を含む。ここで、取得手段401はコーパスサンプル集合を取得するように構成され、コーパスサンプルは入力情報及び目標回答情報を含み、生成手段402はコーパスサンプル集合におけるコーパスサンプルを分類し、分類の結果に基づいて各コーパスサンプルに離散的な潜在変数を設定し、入力情報、目標回答情報及び離散的な潜在変数を含むトレーニングサンプル集合を生成するように構成され、トレーニング手段403はトレーニングサンプル集合を用いて事前設置されたニューラルネットワークをトレーニングし、入力された入力情報と出力された目標回答情報との間の対応関係を特徴付けるための対話モデルを取得するように構成される。
本開示の上記実施形態が提供する対話モデルを生成するための装置において、取得手段401はコーパスサンプル集合を取得し、その後、生成手段402はコーパスサンプル集合におけるコーパスサンプルを分類し、分類の結果に基づいて各コーパスサンプルに離散的な潜在変数を設定し、入力情報、目標回答情報及び離散的な潜在変数を含むトレーニングサンプル集合を生成し、最後にトレーニング手段403はトレーニングサンプル集合を用いてtransformerネットワークをトレーニングして、対話モデルを取得することができる。本開示により提供された対話モデルを生成するための装置は、コーパスサンプルの離散的な潜在変数を確定することができ、離散的な潜在変数を導入することにより対話テキストの間の「1対多」の関係を効果的にモデリングすることができ、生成された対話モデルの回答の多様性を向上させ、それによって、ユーザからの質問文に対する有効回答を行うことができる。
本実施形態のいくつかの選択可能な実現方式において、前記事前設置されたニューラルネットワークは変換ニューラルネットワークであり、変換ニューラルネットワークはテキスト情報の単方向符号化及び双方向符号化をサポートするニューラルネットワークであり、トレーニング手段403は、さらに、トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルにおける入力情報及び離散的な潜在変数を入力とし、該トレーニングサンプルにおける目標回答情報を所望出力とし、事前設定された損失関数を用いて単方向注意メカニズムに基づく変換ニューラルネットワークをトレーニングし、変換ニューラルネットワークのパラメータを更新し、該トレーニングサンプルにおける入力情報及び目標回答情報を更新済み変換ニューラルネットワークの入力とし、該トレーニングサンプルにおける離散的な潜在変数を所望出力とし、損失関数を用いて双方向注意メカニズムに基づく変換ニューラルネットワークをトレーニングして、対話モデルを取得するように構成される。
本実施形態のいくつかの選択可能な実現方式において、トレーニング手段403は、トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルをテキストベクトルに変換するように構成される変換モジュールと、テキストベクトルを事前設置されたニューラルネットワークに入力してトレーニングし、対話モデルを取得するように構成されるトレーニングモジュールと、を含む。
本実施形態のいくつかの選択可能な実現方式において、損失関数は、負の対数尤度損失関数、単語の袋損失関数及び回答情報選択損失関数の少なくとも一つを含み、単語の袋損失関数は変換ニューラルネットワークから出力された離散的な潜在変数とトレーニングサンプルにおける離散的な潜在変数との差異度を表し、回答情報選択損失関数は変換ニューラルネットワークから出力された目標回答情報とトレーニングサンプルにおける目標回答情報との差異度を表すためのものである。
本実施形態のいくつかの選択可能な実現方式において、変換モジュールはさらに、トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルにおける入力情報及び目標回答情報を単語に分割し、分割された各単語の該トレーニングサンプルにおけるキャラクタ情報、単語種類情報、対話回数情報及び位置情報に基づき、該トレーニングサンプルをテキストベクトルに変換するように構成される。
装置400に記載された各手段は、図2を参照して説明した方法の各ステップに対応する。したがって、上記の方法に対して説明した操作及び特徴は同様に装置400及びそれに含まれる手段に適用し、ここで説明を省略する。
次に、本開示の実施形態を実現するための電子機器(例えば図1のサーバ)500を示す概略構成図である図5を参照する。図5に示されるサーバは例示であり、本開示の実施形態の機能及び使用範囲を限定するものではない。
図5に示すように、電子機器500は、処理装置501(例えば、中央処理装置、グラフィックプロセッサなど)を含むことができ、ROM(Read Only Memory)502に記憶されたプログラムや、記憶装置508からRAM(Random Access Memory)503にロードされたプログラムによって各種の適当な動作や処理を実行することができる。RAM503には、電子機器500の動作に必要な各種プログラムやデータ等が記憶される。処理装置501、ROM502、およびRAM503は、バス504を介して相互に接続される。バス504には、入出力(I/O)インタフェース505も接続されている。
一般に、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープなどの入力装置506、液晶ディスプレイ(LCD)、スピーカ、バイブレータなどの出力装置507、磁気テープ、ハードディスクなどの記憶装置508、及び通信装置509は、I/Oインタフェース505に接続することができる。通信装置509は、データを交換するために、電子機器500が他の装置と無線又は有線通信を行うことを可能にすることができる。図5は、様々な装置を有する電子機器500を示しているが、図示した全ての装置を実施又は備えることが要求されていないことを理解されたい。代替的に、より多く又はより少ない装置を実施又は備えることができる。図5に示す各ブロックは、1つの装置を表してもよく、必要に応じて複数の装置を代表してもよい。
特に、本開示の実施形態によれば、フローチャートを参照して上述したプロセスは、コンピュータソフトウェアプログラムとして実施されることが可能である。例えば、本開示の実施形態は、フローチャートに示された方法を実行するためのプログラムコードを含む、コンピュータ可読媒体上に担持されたコンピュータプログラム製品を含む。このような実施形態では、該コンピュータプログラムは、通信装置509を介してネットワークからダウンロードされインストールされたり、記憶装置508からインストールされたり、RОM502からインストールされたりすることができる。このコンピュータプログラムが処理装置501によって実行されると、本開示の実施形態の方法に限定された上記機能が実行される。
なお、本開示の実施形態で説明したコンピュータ可読媒体は、コンピュータ可読信号媒体若しくはコンピュータ可読記憶媒体、又はこれらの両者の任意の組み合わせであり得る。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、又は半導体のシステム、装置若しくはデバイス、又は以上の任意の組み合わせであり得るが、これらに限られない。コンピュータ可読記憶媒体のより具体的な例は、1本又は複数本のリード線を有する電気的に接続された携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(RОM)、消去可能プログラマブル読取り専用メモリ(EPRОM又はフラッシュメモリ)、光ファイバ、携帯型コンパクトディスク読取り専用メモリ(CD-RОM)、光記憶装置、磁気記憶装置、又は上記の任意の適切な組み合わせを含むが、これらに限られない。本開示の実施形態では、コンピュータ可読記憶媒体は、命令実行システム、装置又はデバイスによって使用されることもそれらに結合して使用されることも可能なプログラムを含む又は記憶する任意の有形の媒体であり得る。本開示の実施形態では、コンピュータ可読信号媒体は、ベースバンド内において又はキャリアの一部として伝播された、コンピュータ可読プログラムコードを搬送しているデータ信号を含んでもよい。このような伝播されたデータ信号は、電磁信号、光信号、又は上述の任意の適切な組み合わせを含むが、これらに限られない様々な形態を採用することができる。コンピュータ可読信号媒体はまた、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。このコンピュータ可読信号媒体は、命令実行システム、装置又はデバイスによって使用されることもそれらに結合して使用されることも可能なプログラムを送信、伝播又は伝送することができる。コンピュータ可読媒体に含まれているプログラムコードは、電線、光ケーブル、RF(無線周波数)など、又は上記の任意の適切な組み合わせを含むが、これらに限られない任意の適切な媒体で伝送することができる。
前記コンピュータ可読媒体は、前記電子機器に含まれるものであってもよく、個別に存在しており、該電子機器に組み込まれていないものであってもよい。前記コンピュータ可読媒体は、1つ又は複数のプログラムを記憶しており、前記1つ又は複数のプログラムが該電子機器によって実行されると、該電子機器は、入力情報及び目標回答情報を含むコーパスサンプルからなるコーパスサンプル集合を取得し、コーパスサンプル集合におけるコーパスサンプルを分類し、分類の結果に基づいて各コーパスサンプルに離散的な潜在変数を設定し、入力情報、目標回答情報及び離散的な潜在変数を含むトレーニングサンプルからなるトレーニングサンプル集合を生成し、トレーニングサンプル集合を用いて事前設置されたニューラルネットワークをトレーニングし、入力された入力情報と出力された目標回答情報との対応関係を特徴付けるための対話モデルを取得する。
本開示の実施形態の動作を実行するためのコンピュータプログラムコードは、1つ又は複数のプログラミング言語、又はそれらの組み合わせで書くことができる。前記プログラミング言語は、Java(登録商標)、Smalltalk、C++などのオブジェクト指向プログラミング言語や、「C」言語又は類似するプログラミング言語などの従来の手続き型プログラミング言語を含む。プログラムコードは、完全にユーザのコンピュータ上で実行されることも、部分的にユーザのコンピュータ上で実行されることも、スタンドアロンソフトウェアパッケージとして実行されることも、部分的にユーザのコンピュータ上で実行されながら部分的にリモートコンピュータ上で実行されることも、又は完全にリモートコンピュータ又はサーバ上で実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続されることができる。又は、外部のコンピュータに接続されることができる(例えば、インターネットサービスプロバイダーによるインターネット経由で接続される)。
添付図面におけるフローチャート及びブロック図は、本開示の様々な実施形態に係るシステム、方法、及びコンピュータプログラム製品の実施可能なアーキテクチャ、機能、及び動作を示している。ここで、フローチャート又はブロック図における各ブロックは、モジュール、プログラムセグメント、又はコードの一部を表すことができる。該モジュール、プログラムセグメント、又はコードの一部は、指定されたロジック関数を実施するための1つ又は複数の実行可能な命令を含む。また、いくつかの代替的な実施形態では、ブロックに記載されている機能は、図面に示されているものとは異なる順序で発生する場合があることにも留意されたい。例えば、連続して表されている2つのブロックは、実際にほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。これは関連する機能によって決まる。また、ブロック図及び/又はフローチャートにおける各ブロック、及びブロック図及び/又はフローチャートにおけるブロックの組み合わせは、指定された機能又は動作を実行する専用のハードウェアベースのシステムで実施することも、又は専用のハードウェアとコンピュータの命令の組み合わせで実施することも可能であることに留意されたい。
本開示の実施形態に係る手段は、ソフトウェアによって実装されてもよいし、ハードウェアによって実装されてもよい。説明された手段は、プロセッサに設置されることができ、例えば、「取得手段、生成手段、トレーニング手段を備えるプロセッサ」と記載されてもよい。ここで、これらの手段の名称は、手段その自体に対する限定ではなく、例えば、取得手段は、「コーパスサンプル集合を取得する手段」と記載されてもよい。
上記の説明は、あくまでも本開示の好ましい実施形態及び応用技術原理の説明にすぎない。本開示の実施形態に係る発明の範囲は、上記の技術的特徴の特定の組み合わせによって形成された技術的解決手段に限定されず、上記の発明の構想から逸脱しない範囲で上記の技術的特徴又はその同等の技術的特徴の任意の組み合わせによって形成されたその他の技術的解決手段、例えば、上記の特徴と本開示の実施形態に開示された同様の機能を有する技術的特徴(それだけに限定されない)とが相互に代替することによって形成された技術的解決手段もカバーしていることを当業者は理解すべきである。

Claims (13)

  1. 入力情報及び目標回答情報を含むコーパスサンプルからなるコーパスサンプル集合を取得することと、
    コーパスサンプル集合における目標回答情報の回答方向に応じて前記コーパスサンプル集合におけるコーパスサンプルをkクラスに分類し、分類後の各コーパスサンプルに離散的な潜在変数を設定し、入力情報、目標回答情報及び離散的な潜在変数を含むトレーニングサンプルからなるトレーニングサンプル集合を生成することであって、前記離散的な潜在変数は、潜在ベクトル空間からマッピングすることにより得られ、[1、k]の取り得る値を有し、前記離散的な潜在変数の各取り得る値は、それぞれ前記目標回答情報の特定の回答方向に対応する、ことと、
    トレーニングサンプルにおける入力情報及び目標回答情報を入力とし、前記離散的な潜在変数を所望出力とし、事前設置されたニューラルネットワークをトレーニングし、入力された入力情報と出力された目標回答情報との対応関係を特徴付けるための対話モデルを取得することと、を備える対話モデルを生成するための方法。
  2. 前記事前設置されたニューラルネットワークは変換ニューラルネットワークであり、変換ニューラルネットワークはテキスト情報の単方向符号化及び双方向符号化をサポートするニューラルネットワークであり、
    前記トレーニングサンプル集合を用いて事前設置されたニューラルネットワークをトレーニングして前記対話モデルを取得することは、
    前記トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルにおける入力情報及び離散的な潜在変数を入力とし、該トレーニングサンプルにおける目標回答情報を所望出力とし、事前設定された損失関数を用いて単方向注意メカニズムに基づく変換ニューラルネットワークをトレーニングして、前記変換ニューラルネットワークのパラメータを更新することと、
    該トレーニングサンプルにおける入力情報及び目標回答情報を更新済み変換ニューラルネットワークの入力とし、該トレーニングサンプルにおける離散的な潜在変数を所望出力とし、前記損失関数を用いて双方向注意メカニズムに基づく変換ニューラルネットワークをトレーニングして、前記対話モデルを取得することと、を備える請求項1に記載の方法。
  3. 前記トレーニングサンプル集合を用いて事前設置されたニューラルネットワークをトレーニングして、前記対話モデルを取得することは、
    前記トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルをテキストベクトルに変換することと、
    前記テキストベクトルを事前設置されたニューラルネットワークに入力してトレーニングして、前記対話モデルを取得することと、を備える請求項1または2に記載の方法。
  4. 前記損失関数は、負の対数尤度損失関数、単語の袋損失関数及び回答情報選択損失関数の和であり
    前記単語の袋損失関数は、前記変換ニューラルネットワークから出力された離散的な潜在変数とトレーニングサンプルにおける離散的な潜在変数との差異度を特徴付けるために用いられ、
    前記回答情報選択損失関数は、前記変換ニューラルネットワークから出力された目標回答情報とトレーニングサンプルにおける目標回答情報との差異度を特徴付けるために用いられる、請求項2に記載の方法。
  5. 前記トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルをテキストベクトルに変換することは、
    前記トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルにおける入力情報及び目標回答情報を単語に分割することと、
    分割された各単語の、該トレーニングサンプルにおけるキャラクタ情報、単語種類情報、対話回数情報及び位置情報に基づき、該トレーニングサンプルをテキストベクトルに変換することと、を備える請求項3に記載の方法。
  6. 入力情報及び目標回答情報を含むコーパスサンプルからなるコーパスサンプル集合を取得するように構成されるように構成される取得手段と、
    コーパスサンプル集合における目標回答情報の回答方向に応じて前記コーパスサンプル集合におけるコーパスサンプルをkクラスに分類し、分類後の各コーパスサンプルに離散的な潜在変数を設定し、入力情報、目標回答情報及び離散的な潜在変数を含むトレーニングサンプルからなるトレーニングサンプル集合を生成するように構成される生成手段であって、前記離散的な潜在変数は、潜在ベクトル空間からマッピングすることにより得られ、[1、k]の取り得る値を有し、前記離散的な潜在変数の各取り得る値は、それぞれ前記目標回答情報の特定の回答方向に対応する、生成手段と、
    トレーニングサンプルにおける入力情報及び目標回答情報を入力とし、前記離散的な潜在変数を所望出力とし、事前設置されたニューラルネットワークをトレーニングし、入力された入力情報と出力された目標回答情報との間の対応関係を特徴付けるための対話モデルを取得するように構成されるトレーニング手段と、
    を備える対話モデルを生成するための装置。
  7. 前記事前設置されたニューラルネットワークは変換ニューラルネットワークであり、変換ニューラルネットワークはテキスト情報の単方向符号化及び双方向符号化をサポートするニューラルネットワークであり、
    前記トレーニング手段はさらに、
    前記トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルにおける入力情報及び離散的な潜在変数を入力とし、該トレーニングサンプルにおける目標回答情報を所望出力とし、事前設定された損失関数を用いて単方向注意メカニズムに基づく変換ニューラルネットワークをトレーニングして、前記変換ニューラルネットワークのパラメータを更新し、
    該トレーニングサンプルにおける入力情報及び目標回答情報を更新済み変換ニューラルネットワークの入力とし、該トレーニングサンプルにおける離散的な潜在変数を所望出力とし、前記損失関数を用いて双方向注意メカニズムに基づく変換ニューラルネットワークをトレーニングして、前記対話モデルを取得するように構成される、請求項6に記載の装置。
  8. 前記トレーニング手段は、
    前記トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルをテキストベクトルに変換するように構成される変換モジュールと、
    前記テキストベクトルを事前設置されたニューラルネットワークに入力してトレーニングして、前記対話モデルを取得するように構成されるトレーニングモジュールと、を備える、請求項6または7に記載の装置。
  9. 前記損失関数は、負の対数尤度損失関数、単語の袋損失関数及び回答情報選択損失関数の和であり、
    前記単語の袋損失関数は、前記変換ニューラルネットワークから出力された離散的な潜在変数とトレーニングサンプルにおける離散的な潜在変数との差異度を特徴付けるために用いられ、
    前記回答情報選択損失関数は、前記変換ニューラルネットワークから出力された目標回答情報とトレーニングサンプルにおける目標回答情報との差異度を特徴付けるために用いられる、請求項7に記載の装置。
  10. 前記変換モジュールはさらに、
    前記トレーニングサンプル集合におけるトレーニングサンプルについて、該トレーニングサンプルにおける入力情報及び目標回答情報を単語に分割し、
    分割された各単語の該トレーニングサンプルにおけるキャラクタ情報、単語種類情報、対話回数情報及び位置情報に基づき、該トレーニングサンプルをテキストベクトルに変換するように構成される、請求項8に記載の装置。
  11. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムが記憶される記憶装置と、を備える電子機器であって、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行される場合、前記1つまたは複数のプロセッサに請求項1~5のいずれか1項に記載の方法を実現させる電子機器。
  12. コンピュータプログラムが記憶されるコンピュータ可読記憶媒体であって、
    前記プログラムがプロセッサによって実行される時、請求項1~5のいずれか1項に記載の方法を実現するコンピュータ可読記憶媒体。
  13. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサにより実行されると、請求項1~5のいずれか1項に記載の方法を実現する、コンピュータプログラム。
JP2020097597A 2019-12-27 2020-06-04 対話モデルを生成するための方法及び装置 Active JP7208952B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911372144.9 2019-12-27
CN201911372144.9A CN111143535B (zh) 2019-12-27 2019-12-27 用于生成对话模型的方法和装置

Publications (2)

Publication Number Publication Date
JP2021108094A JP2021108094A (ja) 2021-07-29
JP7208952B2 true JP7208952B2 (ja) 2023-01-19

Family

ID=70520812

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020097597A Active JP7208952B2 (ja) 2019-12-27 2020-06-04 対話モデルを生成するための方法及び装置

Country Status (3)

Country Link
US (1) US11537798B2 (ja)
JP (1) JP7208952B2 (ja)
CN (1) CN111143535B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753068B (zh) * 2020-05-27 2024-03-26 江汉大学 一种开放域对话回复自动生成方法、***及存储介质
CN111739519A (zh) * 2020-06-16 2020-10-02 平安科技(深圳)有限公司 基于语音识别的对话管理处理方法、装置、设备及介质
CN111710346B (zh) * 2020-06-18 2021-07-27 腾讯科技(深圳)有限公司 音频处理方法、装置、计算机设备以及存储介质
CN112905755A (zh) * 2020-09-11 2021-06-04 腾讯科技(深圳)有限公司 一种回复文本预测方法、装置、设备及存储介质
CN112214592B (zh) * 2020-11-05 2024-06-11 科大讯飞(北京)有限公司 一种回复对话评分模型训练方法、对话回复方法及其装置
CN113139575B (zh) * 2021-03-18 2022-03-01 杭州电子科技大学 一种基于条件嵌入预训练语言模型的图像标题生成方法
CN113420542B (zh) * 2021-06-23 2023-04-18 平安科技(深圳)有限公司 对话生成方法、装置、电子设备及存储介质
CN113378583A (zh) * 2021-07-15 2021-09-10 北京小米移动软件有限公司 对话回复方法及装置、对话模型训练方法及装置、存储介质
CN113591462A (zh) * 2021-07-28 2021-11-02 咪咕数字传媒有限公司 弹幕回复生成方法、装置及电子设备
US20230069285A1 (en) * 2021-08-19 2023-03-02 Bank Of America Corporation Cognitive scrum master assistance interface for developers
CN114360517B (zh) * 2021-12-17 2023-04-18 天翼爱音乐文化科技有限公司 一种复杂环境下的音频处理方法、装置及存储介质
CN114416943B (zh) * 2021-12-29 2023-04-18 北京百度网讯科技有限公司 对话模型的训练方法、装置、电子设备及存储介质
CN114416948A (zh) * 2022-01-18 2022-04-29 重庆邮电大学 一种基于语义感知的一对多对话生成方法及装置
CN114549935B (zh) * 2022-02-25 2024-05-07 北京百度网讯科技有限公司 信息生成方法和装置
CN114691858B (zh) * 2022-03-15 2023-10-03 电子科技大学 一种基于改进的unilm摘要生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019036093A (ja) 2017-08-14 2019-03-07 日本電信電話株式会社 モデル学習装置、変換装置、方法、及びプログラム
CN110275939A (zh) 2019-06-10 2019-09-24 腾讯科技(深圳)有限公司 对话生成模型的确定方法及装置、存储介质、电子设备
JP2020030403A (ja) 2018-08-24 2020-02-27 ネイバー コーポレーションNAVER Corporation ディープラーニング生成モデルとマルチモーダル分布を利用してマルチターン会話応答を生成する方法およびシステム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8762156B2 (en) * 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
CN108256066B (zh) * 2018-01-16 2022-01-11 智言科技(深圳)有限公司 端到端层次解码任务型对话***
CN108681610B (zh) * 2018-05-28 2019-12-10 山东大学 生成式多轮闲聊对话方法、***及计算机可读存储介质
CN109582767B (zh) * 2018-11-21 2024-05-17 北京京东尚科信息技术有限公司 对话***处理方法、装置、设备及可读存储介质
CN109800286B (zh) * 2018-12-17 2021-05-11 北京百度网讯科技有限公司 对话生成方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019036093A (ja) 2017-08-14 2019-03-07 日本電信電話株式会社 モデル学習装置、変換装置、方法、及びプログラム
JP2020030403A (ja) 2018-08-24 2020-02-27 ネイバー コーポレーションNAVER Corporation ディープラーニング生成モデルとマルチモーダル分布を利用してマルチターン会話応答を生成する方法およびシステム
CN110275939A (zh) 2019-06-10 2019-09-24 腾讯科技(深圳)有限公司 对话生成模型的确定方法及装置、存储介质、电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BAO, Siqi 外4名,PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable,インターネット,2019年11月07日,pp.1-12,https://arxiv.org/abs/1910.07931v2

Also Published As

Publication number Publication date
US11537798B2 (en) 2022-12-27
US20210200957A1 (en) 2021-07-01
CN111143535A (zh) 2020-05-12
CN111143535B (zh) 2021-08-10
JP2021108094A (ja) 2021-07-29

Similar Documents

Publication Publication Date Title
JP7208952B2 (ja) 対話モデルを生成するための方法及び装置
JP6803365B2 (ja) 音声合成モデルを生成するための方法、及び装置
JP6751122B2 (ja) ページ制御方法および装置
JP7104683B2 (ja) 情報を生成する方法および装置
US11308671B2 (en) Method and apparatus for controlling mouth shape changes of three-dimensional virtual portrait
JP2021096813A (ja) データ処理方法及び装置
CN110688528B (zh) 生成视频的分类信息的方法、装置、电子设备和介质
CN109981787B (zh) 用于展示信息的方法和装置
CN111666416B (zh) 用于生成语义匹配模型的方法和装置
CN109740167B (zh) 用于生成信息的方法和装置
CN111340220B (zh) 用于训练预测模型的方法和装置
CN112509562B (zh) 用于文本后处理的方法、装置、电子设备和介质
CN111462728A (zh) 用于生成语音的方法、装置、电子设备和计算机可读介质
CN112650841A (zh) 信息处理方法、装置和电子设备
CN111104796B (zh) 用于翻译的方法和装置
CN112364653A (zh) 用于语音合成的文本分析方法、装置、服务器和介质
CN110009101B (zh) 用于生成量化神经网络的方法和装置
KR20210028041A (ko) 전자 장치 및 그 제어 방법
CN114511152A (zh) 预测模型的训练方法和装置
CN113468344A (zh) 实体关系抽取方法、装置、电子设备和计算机可读介质
JP2021108095A (ja) スピーチ理解における解析異常の情報を出力するための方法
WO2022206091A1 (zh) 用于生成数据的方法和装置
CN110633476B (zh) 用于获取知识标注信息的方法及装置
CN110929209B (zh) 用于发送信息的方法及装置
CN112149426A (zh) 阅读任务处理方法及相关设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200608

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230106

R150 Certificate of patent or registration of utility model

Ref document number: 7208952

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150