JP2023078411A

JP2023078411A - 情報処理方法、モデルトレーニング方法、装置、機器、媒体及びプログラム製品

Info

Publication number: JP2023078411A
Application number: JP2023048430A
Authority: JP
Inventors: ファルー; Hua Lu; スーチーバオ; Siqi Bao; ファンフア; Fan Wang; ファンワン; Fang Wang; ファウー; Hua Wu; シューウェイファン; Shiwei Huang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-08-10
Filing date: 2023-03-24
Publication date: 2023-06-06
Also published as: CN115292467A; CN115292467B

Abstract

【課題】対話の品質の高いターゲット返答文を取得する情報処理方法、モデルトレーニング方法、装置、機器、媒体及びプログラム製品を提供する。【解決手段】対話の精度の高い対話モデルと対話の品質の高いターゲット返答文を取得する情報処理方法であって、修正返答サンプル文、第２の候補返答サンプル文及びリコール返答サンプル文に基づいてトレーニングを行い、対話モデルを取得し、初期対話サンプル文を初期対話モデルに入力して複数の候補返答サンプル文を取得する。第２の候補返答サンプル文は、複数の候補返答サンプル文のいずれかであり、修正返答サンプル文は、候補返答サンプル文のうちの第１の返答サンプル文を修正して取得された対話の品質の高い文であり、リコール返答サンプル文は、トレーニングサンプル文のうち、初期対話サンプル文と複数の候補返答サンプル文とを除く他のサンプル文である。【選択図】図２

Description

本開示は、コンピュータ技術の分野に関し、特に、人工知能と音声技術の分野に関し、具体的に、情報処理方法、モデルトレーニング方法、装置、機器、媒体及びプログラム製品に関する。

自然言語処理技術の発展に伴い、機械学習モデルはスマート対話の分野で使用することができ、対話モデルは、ユーザが入力した文に基づいて返答し、ユーザと対話する効果を実現する。

現在、対話モデルの対話の精度は低く、対話の品質は悪い。

本開示は、情報処理方法、モデルトレーニング方法、装置、機器、媒体及びプログラム製品を提供する。

本開示の一様態によれば、情報処理方法を提供し、前記方法は、
初期対話文を取得するステップと、
前記初期対話文をトレーニング済みの対話モデルに入力して、ターゲット返答文を取得するステップとを含み、
前記対話モデルは、修正返答サンプル文、第２の候補返答サンプル文及びリコール返答サンプル文に基づいてトレーニングして取得されたモデルであり、初期対話サンプル文を初期対話モデルに入力して複数の候補返答サンプル文を取得し、前記第２の候補返答サンプル文は、前記複数の候補返答サンプル文のいずれかであり、前記修正返答サンプル文は、前記候補返答サンプル文のうちの第１の返答サンプル文を修正して取得された文であり、前記リコール返答サンプル文は、トレーニングサンプル文のうち、前記初期対話サンプル文と前記複数の候補返答サンプル文とを除く他のサンプル文である。

本開示の別の態様によれば、モデルトレーニング方法を提供し、前記方法は、
初期対話サンプル文を取得するステップと、
前記初期対話サンプル文を初期対話モデルに入力して、複数の候補返答サンプル文を取得するステップと、
前記複数の候補返答サンプル文のうちの第１の候補返答サンプル文を修正して、修正返答サンプル文を取得するステップと、
前記修正返答サンプル文、前記複数の候補返答サンプル文のうちの第２の候補返答サンプル文及びリコール返答サンプル文に基づいて前記初期対話モデルをトレーニングして、対話モデルを取得するステップとを含み、
前記リコール返答サンプル文は、トレーニングサンプル文のうち、前記初期対話サンプル文と前記複数の候補返答サンプル文とを除く他のサンプル文である。

本開示の別の態様によれば、情報処理装置を提供し、前記装置は、
初期対話文を取得する取得モジュールと、
前記初期対話文をトレーニング済みの対話モデルに入力して、ターゲット返答文を取得する入力モジュールと、を含み、
前記対話モデルは、修正返答サンプル文、第２の候補返答サンプル文及びリコール返答サンプル文に基づいてトレーニングして取得されたモデルであり、初期対話サンプル文を初期対話モデルに入力して複数の候補返答サンプル文を取得し、前記第２の候補返答サンプル文は、前記複数の候補返答サンプル文のいずれかであり、前記修正返答サンプル文は、前記候補返答サンプル文のうちの第１の返答サンプル文を修正して取得された文であり、前記リコール返答サンプル文は、トレーニングサンプル文のうち、前記初期対話サンプル文と前記複数の候補返答サンプル文とを除く他のサンプル文である。

本開示の別の態様によれば、モデルトレーニング装置を提供し、前記装置は、
初期対話サンプル文を取得する文取得モジュールと、
前記初期対話サンプル文を初期対話モデルに入力して、複数の候補返答サンプル文を取得する文入力モジュールと、
前記複数の候補返答サンプル文のうちの第１の候補返答サンプル文を修正して、修正返答サンプル文を取得する修正モジュールと、
前記修正返答サンプル文、前記複数の候補返答サンプル文のうちの第２の候補返答サンプル文及びリコール返答サンプル文に基づいて前記初期対話モデルをトレーニングして、対話モデルを取得するトレーニングモジュールと、を含み、
前記リコール返答サンプル文は、トレーニングサンプル文のうち、前記初期対話サンプル文と前記複数の候補返答サンプル文とを除く他のサンプル文である。

本開示の別の態様によれば、電子機器を提供し、前記電子機器は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記少なくとも１つのプロセッサが上記の方法のを実行できるように、前記命令は前記少なくとも１つのプロセッサによって実行される。

本開示の別の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、コンピュータに上記の方法を実行させる。

本開示の別の態様によれば、コンピュータプログラムであって、前記コンピュータプログラムは、プロセッサによって実行される場合、上記の方法のステップを実現する。

本開示のいくつかの実施例では、修正返答サンプル文、第２の候補返答サンプル文及びリコール返答サンプル文に基づいてトレーニングを行い、対話モデルを取得し、初期対話サンプル文を初期対話モデルに入力して複数の候補返答サンプル文を取得し、第２の候補返答サンプル文は、複数の候補返答サンプル文のいずれかであり、修正返答サンプル文は、候補返答サンプル文のうちの第１の返答サンプル文を修正して取得された対話の品質の高い文であり、リコール返答サンプル文は、トレーニングサンプル文のうち、初期対話サンプル文と複数の候補返答サンプル文とを除く他のサンプル文であり、修正返答サンプル文、第２の候補返答サンプル文及びリコール返答サンプル文に対して、初期対話モデルをトレーニングし続けることにより、対話の精度の高い対話モデルを取得し、初期対話文を対話モデルに入力して、対話の品質の高いターゲット返答文を取得する。

なお、この部分に記載の内容は、本開示の実施例の肝心または重要な特徴を特定することを意図しておらず、本開示の範囲を限定することも意図していないことを理解されたい。本開示の他の特徴は、以下の説明によって容易に理解される。

図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本開示の実施例１によって提供される情報処理方法の概略フローチャートである。本開示の実施例２によって提供されるモデルトレーニング方法の概略フローチャートである。本開示の実施例３によって提供される情報処理方法のフローチャートである。本開示の例示的な実施例によって提供される情報処理装置の概略構成図である。本開示の例示的な実施例によって提供されるモデルトレーニング装置の概略構成図である。本開示の実施例を実現するための例示的な電子機器の概略ブロック図である。

以下、図面と併せて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを認識されたい。同様に、明確及び簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

なお、本開示の技術案では、関連するユーザ個人情報の収集、記憶、使用、加工、伝送、提供、公開などの処理は、いずれも関連する法律法規の規定に合致し、かつ公序良俗に違反しない。

人工知能はコンピュータに人間のある思惟過程と知能行為（学習、推理、思考、計画など）をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能ハードウェア技術は一般的にセンサ、専用人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含む。人工知能ソフトウェア技術は主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習／深層学習、ビッグデータ処理技術、ナレッジグラフ技術などのいくつかの方向を含む。

対話システムの分野では、ソーシャルメディアの評論データに基づいてトレーニングされた大規模な対話モデルが続々と現れている。しかし、ソーシャルメディアの評論シーンと実際の人間の対話シーンとの間にずれがあるため、モデルの生成能力がよくない。

生成式対話モデルは、推論時に複数の候補返答を生成し、その後、生成スコアを使用して返答を評価してソートする。しかし、生成スコアに基づくソート方法では、高品質な返答を効果的に前列に置くことができない。

上記に存在する技術的課題に対して、本開示のいくつかの実施例では、修正返答サンプル文、第２の候補返答サンプル文及びリコール返答サンプル文に基づいてトレーニングして対話モデルを取得し、初期対話サンプル文を初期対話モデルに入力して複数の候補返答サンプル文を取得し、第２の候補返答サンプル文は、複数の候補返答サンプル文のいずれかであり、修正返答サンプル文は、候補返答サンプル文のうちの第１の返答サンプル文を修正して取得された対話の品質の高い文であり、リコール返答サンプル文は、トレーニングサンプル文のうち、初期対話サンプル文と複数の候補返答サンプル文とを除く他のサンプル文であり、修正返答サンプル文、第２の候補返答サンプル文及びリコール返答サンプル文に対して、初期対話モデルをトレーニングし続けることにより、対話の精度の高い対話モデルを取得し、初期対話文を対話モデルに入力して、対話の品質の高いターゲット返答文を取得する。

以下、図面と併せて、本開示の各実施例によって提供される技術案を詳細に説明する。

図１は、本開示の実施例１によって提供される情報処理方法の概略フローチャートである。図１に示すように、当該方法は、以下のステップＳ１０１～１０２を含む。

Ｓ１０１、初期対話文を取得する。
Ｓ１０２、初期対話文をトレーニング済みの対話モデルに入力して、ターゲット返答文を取得する。
対話モデルは、修正返答サンプル文、第２の候補返答サンプル文及びリコール返答サンプル文に基づいてトレーニングして取得されたモデルであり、初期対話サンプル文を初期対話モデルに入力して複数の候補返答サンプル文を取得し、第２の候補返答サンプル文は、複数の候補返答サンプル文のいずれかであり、修正返答サンプル文は、候補返答サンプル文のうちの第１の返答サンプル文を修正して取得された文であり、リコール返答サンプル文は、トレーニングサンプル文のうち、初期対話サンプル文と複数の候補返答サンプル文とを除く他のサンプル文である。

本実施例では、上記方法の実行主体は、サーバまたは端末装置であってもよい。

上記方法の実行主体がサーバである場合、サーバの実現形態は限定されない。例えば、サーバは、汎用サーバ、クラウドサーバ、クラウドホスト、仮想センタなどのサーバ装置であってもよい。サーバの構成は主にプロセッサ、ハードディスク、メモリ、システムバスなど、及び汎用コンピュータアーキテクチャーのタイプを含む。

上記方法の実行主体が端末装置である場合、端末装置の実現形態は限定されない。端末装置は、パーソナルコンピュータ、タブレットコンピュータ、スマートフォン、スマートウェアラブルデバイスのいずれかを含むが、これに限定されない。

本実施例では、修正返答サンプル文、第２の候補返答サンプル文及びリコール返答サンプル文に基づいてトレーニングを行い、対話モデルを取得し、初期対話サンプル文を初期対話モデルに入力して複数の候補返答サンプル文を取得し、第２の候補返答サンプル文は、複数の候補返答サンプル文のいずれかであり、修正返答サンプル文は、候補返答サンプル文のうちの第１の返答サンプル文を修正して取得された対話の品質の高い文であり、リコール返答サンプル文は、トレーニングサンプル文のうち、初期対話サンプル文と複数の候補返答サンプル文とを除く他のサンプル文であり、修正返答サンプル文、第２の候補返答サンプル文及びリコール返答サンプル文に対して、初期対話モデルをトレーニングし続けることにより、対話の精度の高い対話モデルを取得し、初期対話文を取得し、初期対話文を対話モデルに入力して、対話の品質の高いターゲット返答文を取得する。

以下、応用シーンに合わせて本開示の技術案を説明する。

応用シーン１：スマートフォンは、ユーザが音声で入力した初期対話文「今日の天気はどうですか」に応答し、スマートフォンは初期対話文をサーバにアップロードし、サーバは初期対話文をトレーニング済みの対話モデルに入力して、ターゲット返答文「今日は晴れです」を取得し、サーバは、ターゲット返答文をスマートフォンに下り送信し、スマートフォンは音声でターゲット返答文「今日は晴れです」を再生する。

応用シーン２：スマートフォンは、ユーザが音声で入力した初期対話文「今日の天気はどうですか」に応答し、スマートフォンは、ローカルに統合された対話モデルに初期対話文を入力して、ターゲット返答文「今日は晴れです」を取得し、スマートフォンは、ターゲット返答文「今日は晴れです」を音声で再生する。

対話モデルを使用する前に、初期対話モデルをトレーニングして対話モデルを取得する必要がある。以下、対話モデルをトレーニングする過程を説明する。

図２は、本開示の実施例２によって提供されるモデルトレーニング方法の概略フローチャートである。図２に示すように、当該方法は以下のステップＳ２０１～２０４を含む。

Ｓ２０１、初期対話サンプル文を取得する。

Ｓ２０２、初期対話サンプル文を初期対話モデルに入力して、複数の候補返答サンプル文を取得する。

Ｓ２０３、複数の候補返答サンプル文のうちの第１の候補返答サンプル文を修正して、修正返答サンプル文を取得する。

Ｓ２０４、修正返答サンプル文、複数の候補返答サンプル文のうちの第２の候補返答サンプル文及びリコール返答サンプル文に基づいて初期対話モデルをトレーニングして、対話モデルを取得する。
リコール返答サンプル文は、トレーニングサンプル文のうち、初期対話サンプル文と複数の候補返答サンプル文とを除く他のサンプル文である。

上記の対話モデルをトレーニングするためのトレーニング装置は、任意のタイプのコンピュータ装置であってもよく、本開示の実施例はこれに対して限定しない。

なお、初期対話モデルはトレーニング済みのモデルであってもよく、初期対話モデルの精度が低く、初期対話モデルを使用した対話の品質が悪い。

初期対話サンプル文を取得し、初期対話サンプル文を初期対話モデルに入力して、修正返答サンプル文を取得する。複数の候補返答サンプル文のうちの第１の候補返答サンプル文を修正して、修正返答サンプル文を取得し、複数の候補返答サンプル文の中から第２の候補返答サンプル文をランダムに選択し、トレーニングサンプル文のうちの初期対話サンプル文と複数の候補返答サンプル文とを除く他のサンプル文から、リコール返答サンプル文を選択する。修正返答サンプル文、第２の候補返答サンプル文及びリコール返答サンプル文は１つのトレーニングデータセットを構成する。上記のステップを繰り返して、モデルトレーニングのためのトレーニングデータセットを取得する。

なお、初期対話サンプル文は、データセットのカバレッジ範囲を増やすために、例えば、ニュース分野、ソーシャルメディア分野、文学分野及び実写対話分野など、できるだけ異なる分野のデータセットを採用する。

上記の実施例では、複数の候補返答サンプル文のうちの第１の候補返答サンプル文を修正して、修正返答サンプル文を取得する。例えば、第１の候補返答サンプル文に対して、コピー、訂正、または作成などの操作を行い、修正返答サンプル文を取得する。

例えば、ラベリングインターフェースで初期対話サンプル文を入力する操作に応答し、初期対話サンプル文「毎日雨が降って気分が悪くなった」を取得し、初期対話サンプル文を初期対話モデルに入力して、複数の候補返答サンプル文「雨の日は、音楽とチョコレートが似合うよ」、「雨の日は寝るのにぴったりだよ」、「私も気分が悪い、誰も付き合ってくれないから」、「雨の日はいいね」、「私も！雨の日は好きじゃない」、「そうですね、外出できなくなって困っています」及び「そうですね、私も雨の日は嫌いです」を取得する。

複数の候補返答サンプル文のうちの第１の候補返答サンプル文「雨の日は、音楽とチョコレートが似合うよ」を修正して、修正返答サンプル文「雨の日は、音楽とチョコレートが似合うと思いますよ」を取得し、複数の候補返答サンプル文から第２の候補返答サンプル文「雨の日は寝るのにぴったりだよ」をランダムに選択し、トレーニングサンプル文のうちの初期対話サンプル文と複数の候補返答サンプル文とを除く他のサンプル文から、リコール返答サンプル文「今日は晴れです」を選択する。修正返答サンプル文「雨の日は、音楽とチョコレートが似合うよ」、第２の候補返答サンプル文「雨の日は寝るのにぴったりだよ」及びリコール返答サンプル文「今日は晴れです」は１つのトレーニングデータセットを構成する。

上記の実施例では、修正返答サンプル文、複数の候補返答サンプル文のうちの第２の候補返答サンプル文及びリコール返答サンプル文に基づいて初期対話モデルをトレーニングして、対話モデルを取得する。実現可能な一形態としては、修正返答サンプル文、第２の候補返答サンプル文及びリコール返答サンプル文を初期対話モデルの文生成モデルに入力して、実際返答文、修正返答サンプル文の確率、第２の候補返答サンプル文の確率及びリコール返答サンプル文の確率を取得し、実際返答文、修正返答サンプル文の確率、第２の候補返答サンプル文の確率及びリコール返答サンプル文の確率に基づいて初期対話モデルの初期文生成モデルと初期文決定モデルとを共同トレーニングして、対話モデルを取得する。

一実施例では、実際返答文、修正返答サンプル文の確率、第２の候補返答サンプル文の確率及びリコール返答サンプル文の確率に基づいて初期対話モデルの初期文生成モデルと初期文決定モデルとを共同トレーニングして、対話モデルを取得する。実際返答文と修正返答サンプル文とに基づいて、損失関数を決定し、損失関数に基づいて、修正返答サンプル文の確率が第２の候補返答サンプル文の確率より大きく、修正返答サンプル文の確率がリコール返答サンプル文の確率より大きく、第２の候補返答サンプル文の確率がリコール返答サンプル文の確率より大きいことをトレーニングターゲットとして、初期文生成モデルと初期文決定モデルとを共同トレーニングして、対話モデルを取得する。

上記各実施例の説明と併せて、図３は本開示の実施例３によって提供される情報処理方法のフローチャートである。図３に示すように、当該方法は以下のステップＳ３０１～Ｓ３０４を含む。

Ｓ３０１、端末装置は音声入力操作に応答し、初期対話文を取得する。

Ｓ３０２、端末装置は初期対話文をサーバに送信する。

Ｓ３０３、サーバは、初期対話文を受信し、初期対話文を対話モデルに入力して、ターゲット返答文を取得し、ターゲット返答文を端末装置に下り送信する。

Ｓ３０４、端末装置はターゲット返答文を受信して、ターゲット返答文を音声で再生する。

本実施例では、サーバの実現形態は限定されない。例えば、サーバは、汎用サーバ、クラウドサーバ、クラウドホスト、仮想センタなどのサーバ装置であってもよい。サーバの構成は主にプロセッサ、ハードディスク、メモリ、システムバスなど、及び汎用コンピュータアーキテクチャーのタイプを含む。

本実施例では、端末装置の実現形態は限定されない。端末装置は、パーソナルコンピュータ、タブレットコンピュータ、スマートフォン、スマートウェアラブルデバイスのいずれかを含むが、これに限定されない。

本実施例の各ステップの実現形態は上記実施例の説明を参照することができ、本実施例では説明を省略し、同時に、本実施例は、上記の各実施例に対応する部分の有益な効果を取得することができる。

図４は、本開示の例示的な実施例によって提供される情報処理装置４０の概略構成図である。この情報処理装置４０は、取得モジュール４１と入力モジュール４２を含む。

取得モジュール４１は、初期対話文を取得する。

入力モジュール４２は、初期対話文をトレーニング済みの対話モデルに入力して、ターゲット返答文を取得する。
対話モデルは、修正返答サンプル文、第２の候補返答サンプル文及びリコール返答サンプル文に基づいてトレーニングして取得されたモデルであり、初期対話サンプル文を初期対話モデルに入力して複数の候補返答サンプル文を取得し、第２の候補返答サンプル文は、複数の候補返答サンプル文のいずれかであり、修正返答サンプル文は、候補返答サンプル文のうちの第１の返答サンプル文を修正して取得された文であり、リコール返答サンプル文は、トレーニングサンプル文のうち、初期対話サンプル文と複数の候補返答サンプル文とを除く他のサンプル文である。

選択的に、入力モジュール４２は、初期対話文をトレーニング済みの対話モデルに入力して、ターゲット返答文を取得する場合、
対話モデルの内部で、初期対話文を対話モデルの文生成モデルに入力して、複数の候補返答文と各候補返答文の確率とを取得し、
複数の候補返答文と各候補返答文の確率とを対話モデルの文決定モデルに入力して、ターゲット返答文を取得する。

選択的に、入力モジュール４２は、複数の候補返答文と各候補返答文の確率とを対話モデルの文決定モデルに入力して、ターゲット返答文を取得する場合、
複数の候補返答文と各候補返答文の確率とを文決定モデルに入力し、複数の候補返答文の中から、最も確率の高いターゲット返答文を選択する。

図５は、本開示の例示的な実施例によって提供されるモデルトレーニング装置５０の概略構成図である。このモデルトレーニング装置５０は、文取得モジュール５１、文入力モジュール５２、修正モジュール５３及びトレーニングモジュール５４を含み、
文取得モジュール５１は、初期対話サンプル文を取得し、
文入力モジュール５２は、初期対話サンプル文を初期対話モデルに入力して、複数の候補返答サンプル文を取得し、
修正モジュール５３は、複数の候補返答サンプル文のうちの第１の候補返答サンプル文を修正して、修正返答サンプル文を取得し、
トレーニングモジュール５４は、修正返答サンプル文、複数の候補返答サンプル文のうちの第２の候補返答サンプル文及びリコール返答サンプル文に基づいて初期対話モデルをトレーニングして、対話モデルを取得し、
リコール返答サンプル文がトレーニングサンプル文のうちの初期対話サンプル文と複数の候補返答サンプル文とを除く他のサンプル文である。

選択的に、トレーニングモジュール５４は、修正返答サンプル文、複数の候補返答サンプル文のうちの第２の候補返答サンプル文及びリコール返答サンプル文に基づいて初期対話モデルをトレーニングして、対話モデルを取得する場合、
修正返答サンプル文、第２の候補返答サンプル文及びリコール返答サンプル文を初期対話モデルの文生成モデルに入力して、実際返答文、修正返答サンプル文の確率、第２の候補返答サンプル文の確率及びリコール返答サンプル文の確率を取得し、
実際返答文、修正返答サンプル文の確率、第２の候補返答サンプル文の確率及びリコール返答サンプル文の確率に基づいて初期対話モデルの初期文生成モデルと初期文決定モデルとを共同トレーニングして、対話モデルを取得する。

選択的に、トレーニングモジュール５４は、実際返答文、修正返答サンプル文の確率、第２の候補返答サンプル文の確率及びリコール返答サンプル文の確率に基づいて初期対話モデルの初期文生成モデルと初期文決定モデルとを共同トレーニングして、対話モデルを取得する場合、
実際返答文と修正返答サンプル文とに基づいて、損失関数を決定し、
損失関数に基づいて、修正返答サンプル文の確率が第２の候補返答サンプル文の確率より大きく、修正返答サンプル文の確率がリコール返答サンプル文の確率より大きく、第２の候補返答サンプル文の確率がリコール返答サンプル文の確率より大きいことをトレーニングターゲットとして、初期文生成モデルと初期文決定モデルとを共同トレーニングして、対話モデルを取得する。

上記実施例の装置について、その各モジュールの操作を実行する具体的な方式は、当該方法に関する実施例においてすでに詳細に説明したが、ここでは詳細に説明しない。

本開示の実施例によれば、本開示は、電子機器および読み取り可能な記憶媒体をさらに提供する。
本開示の実施例によれば、本開示は、コンピュータプログラムをさらに提供し、コンピュータプログラムがプロセッサによって実行される場合、本開示によって提供される情報処理方法またはモデルトレーニング方法を実現する。

図６は、本開示の実施例を実行するための例示的な電子機器６００の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタル処理、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部品、それらの接続と関係、およびそれらの機能は、単なる例であり、本明細書の説明および／または求められる本開示の実現を制限することを意図したものではない。

図６に示すように、電子機器６００は、読み取り専用メモリ（ＲＯＭ）６０２に記憶されているコンピュータプログラムまたは記憶ユニット６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたコンピュータプログラムに従って様々な適切な動作および処理を実行できる計算ユニット６０１を含む。ＲＡＭ６０３には、電子機器６００の動作に必要な各種のプログラムやデータも記憶されてもよい。計算ユニット６０１、ＲＯＭ６０２、およびＲＡＭ６０３は、バス６０４を介して互いに接続されている。バス６０４には、入力／出力（Ｉ／Ｏ）インターフェース６０５も接続されている。

電子機器６００の複数のコンポーネントはＩ／Ｏインターフェース６０５に接続され、キーボード、マウスなどの入力ユニット６０６、各タイプのディスプレイ、スピーカなどの出力ユニット６０７、磁気ディスク、光ディスクなどの記憶ユニット６０８、およびネットワークカード、モデム、無線通信トランシーバなどの通信ユニット６０９を含む。通信ユニット６０９は、電子機器６００が、インターネットなどのコンピュータネットワークおよび／または各種の電信ネットワークを介して他のデバイスと情報／データを交換することを可能にする。

計算ユニット６０１は、処理および計算能力を有する様々な汎用および／または専用の処理コンポーネントであってもよい。計算ユニット６０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィック処理ユニット（ＧＰＵ）、各種の専用の人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する各種の計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、およびいずれかの適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット６０１は、上記に記載された各方法及び処理、例えば、情報処理方法とモデルトレーニング方法を実行する。例えば、いくつかの実施例では、情報処理方法とモデルトレーニング方法を、記憶ユニット６０８などの機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現することができる。いくつかの実施例では、コンピュータプログラムの一部または全部は、ＲＯＭ６０２および／または通信ユニット６０９を介して電子機器６００にロードおよび／またはインストールすることができる。コンピュータプログラムがＲＡＭ６０３にロードされ、計算ユニット６０１によって実行される場合、上記に記載された情報処理方法とモデルトレーニング方法の１つまたは複数のステップが実行されてもよい。代替的に、他の実施例では、計算ユニット６０１は情報処理方法とモデルトレーニング方法を実行するように、他のいずれかの適切な方式（例えば、ファームウェアを介して）によって構成されてもよい。

本明細書で上記記載のシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックス・プログラマブル・ロジック・デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行および／または解釈されることができ、当該プログラマブルプロセッサは、特定用途向け又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、データおよび命令を当該ストレージシステム、当該少なくとも１つの入力装置、および当該少なくとも１つの出力装置に伝送することができる。

本開示の方法を実行するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行された際に、フローチャートおよび／またはブロック図に規定された機能／操作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されるか、部分的に機械上で実行されるか、スタンドアロンソフトウェアパッケージとして、部分的に機械上で実行され、部分的にリモート機械上で実行され又は完全にリモート機械又はサーバ上で実行されてもよい。

本開示のコンテクストでは、機械読み取り可能な媒体は、命令実行システム、装置、またはデバイスによって使用されるために、又は命令実行システム、装置、またはデバイスと組み合わせて使用するためのプログラムを含むか、又は記憶することができる有形の媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体または機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又はデバイス、または上記コンテンツの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のラインに基づく電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記コンテンツの任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されるシステム及び技術を実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、ビジョンフィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力、または、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステムおよび技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインターフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインターフェース又は当該ウェブブラウザによってここで説明されるシステムおよび技術の実施形態とインタラクションできる）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムで実行することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークを含む。

コンピュータシステムは、クライアントとサーバを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける１つのホスト製品であり、従来の物理ホストとＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」，または「ＶＰＳ」と省略する）に存在する管理の難しさ、ビジネス拡張性の弱いという欠陥を解決した。サーバは分散システムのサーバであってもよく、ブロックチェーンを組み込んだサーバであってもよい。

なお、上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本開示に記載の各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要求と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができると理解されたい。任意の本開示の精神と原則内で行われる修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

情報処理方法であって、
初期対話文を取得するステップと、
前記初期対話文をトレーニング済みの対話モデルに入力して、ターゲット返答文を取得するステップと、を含み、
前記対話モデルは、修正返答サンプル文、第２の候補返答サンプル文及びリコール返答サンプル文に基づいてトレーニングして取得されたモデルであり、初期対話サンプル文を初期対話モデルに入力して複数の候補返答サンプル文を取得し、前記第２の候補返答サンプル文は、前記複数の候補返答サンプル文のいずれかであり、前記修正返答サンプル文は、前記候補返答サンプル文のうちの第１の返答サンプル文を修正して取得された文であり、前記リコール返答サンプル文は、トレーニングサンプル文のうち、前記初期対話サンプル文と前記複数の候補返答サンプル文とを除く他のサンプル文である、
ことを特徴とする情報処理方法。
前記初期対話文をトレーニング済みの対話モデルに入力して、ターゲット返答文を取得するステップは、
前記対話モデルの内部で、前記初期対話文を前記対話モデルの文生成モデルに入力して、複数の候補返答文と各前記候補返答文の確率とを取得するステップと、
前記複数の候補返答文と各前記候補返答文の確率とを前記対話モデルの文決定モデルに入力して、ターゲット返答文を取得するステップと、を含む、
ことを特徴とする請求項１に記載の情報処理方法。
前記複数の候補返答文と各前記候補返答文の確率とを前記対話モデルの文決定モデルに入力して、ターゲット返答文を取得するステップは、
前記複数の候補返答文と各前記候補返答文の確率とを前記文決定モデルに入力し、前記複数の候補返答文の中から、最も確率の高いターゲット返答文を選択するステップと、を含む、
ことを特徴とする請求項２に記載の情報処理方法。
モデルトレーニング方法であって、
初期対話サンプル文を取得するステップと、
前記初期対話サンプル文を初期対話モデルに入力して、複数の候補返答サンプル文を取得するステップと、
前記複数の候補返答サンプル文のうちの第１の候補返答サンプル文を修正して、修正返答サンプル文を取得するステップと、
前記修正返答サンプル文、前記複数の候補返答サンプル文のうちの第２の候補返答サンプル文及びリコール返答サンプル文に基づいて前記初期対話モデルをトレーニングして、対話モデルを取得するステップと、を含み、
前記リコール返答サンプル文は、トレーニングサンプル文のうち、前記初期対話サンプル文と前記複数の候補返答サンプル文とを除く他のサンプル文である、
ことを特徴とするモデルトレーニング方法。
前記修正返答サンプル文、前記複数の候補返答サンプル文のうちの第２の候補返答サンプル文及びリコール返答サンプル文に基づいて前記初期対話モデルをトレーニングして、対話モデルを取得するステップは、
前記修正返答サンプル文、前記第２の候補返答サンプル文及び前記リコール返答サンプル文を前記初期対話モデルの文生成モデルに入力して、実際返答文、修正返答サンプル文の確率、第２の候補返答サンプル文の確率及びリコール返答サンプル文の確率を取得するステップと、
前記実際返答文、前記修正返答サンプル文の確率、前記第２の候補返答サンプル文の確率及び前記リコール返答サンプル文の確率に基づいて、前記初期対話モデルの初期文生成モデルと初期文決定モデルとを共同トレーニングして、前記対話モデルを取得するステップと、を含む、
ことを特徴とする請求項４に記載のモデルトレーニング方法。
前記実際返答文、前記修正返答サンプル文の確率、前記第２の候補返答サンプル文の確率及び前記リコール返答サンプル文の確率に基づいて、前記初期対話モデルの前記初期文生成モデルと初期文決定モデルとを共同トレーニングして、前記対話モデルを取得するステップは、
前記実際返答文と前記修正返答サンプル文とに基づいて、損失関数を決定するステップと、
前記損失関数に基づいて、前記修正返答サンプル文の確率が前記第２の候補返答サンプル文の確率より大きく、前記修正返答サンプル文の確率が前記リコール返答サンプル文の確率より大きく、前記第２の候補返答サンプル文の確率が前記リコール返答サンプル文の確率より大きいことをトレーニングターゲットとして、前記初期文生成モデルと前記初期文決定モデルとを共同トレーニングして、前記対話モデルを取得するステップと、を含む、
ことを特徴とする請求項５に記載のモデルトレーニング方法。
情報処理装置であって、
初期対話文を取得する取得モジュールと、
前記初期対話文をトレーニング済みの対話モデルに入力して、ターゲット返答文を取得する入力モジュールと、を含み、
前記対話モデルは、修正返答サンプル文、第２の候補返答サンプル文及びリコール返答サンプル文に基づいてトレーニングして取得されたモデルであり、初期対話サンプル文を初期対話モデルに入力して複数の候補返答サンプル文を取得し、前記第２の候補返答サンプル文は、前記複数の候補返答サンプル文のいずれかであり、前記修正返答サンプル文は、前記候補返答サンプル文のうちの第１の返答サンプル文を修正して取得された文であり、前記リコール返答サンプル文は、トレーニングサンプル文のうち、前記初期対話サンプル文と前記複数の候補返答サンプル文とを除く他のサンプル文である、
ことを特徴とする情報処理装置。
前記入力モジュールは、前記初期対話文をトレーニング済みの対話モデルに入力して、ターゲット返答文を取得する場合、
前記対話モデルの内部で、前記初期対話文を前記対話モデルの文生成モデルに入力して、複数の候補返答文と各前記候補返答文の確率とを取得し、
前記複数の候補返答文と各前記候補返答文の確率とを前記対話モデルの文決定モデルに入力して、ターゲット返答文を取得する、
ことを特徴とする請求項７に記載の情報処理装置。
前記入力モジュールは、前記複数の候補返答文と各前記候補返答文の確率とを前記対話モデルの文決定モデルに入力して、ターゲット返答文を取得する場合、
前記複数の候補返答文と各前記候補返答文の確率とを前記文決定モデルに入力し、前記複数の候補返答文の中から、最も確率の高いターゲット返答文を選択する、
ことを特徴とする請求項８に記載の情報処理装置。
モデルトレーニング装置であって、
初期対話サンプル文を取得する文取得モジュールと、
前記初期対話サンプル文を初期対話モデルに入力して、複数の候補返答サンプル文を取得する文入力モジュールと、
前記複数の候補返答サンプル文のうちの第１の候補返答サンプル文を修正して、修正返答サンプル文を取得する修正モジュールと、
前記修正返答サンプル文、前記複数の候補返答サンプル文のうちの第２の候補返答サンプル文及びリコール返答サンプル文に基づいて前記初期対話モデルをトレーニングして、対話モデルを取得するトレーニングモジュールと、を含み、
前記リコール返答サンプル文は、トレーニングサンプル文のうち、前記初期対話サンプル文と前記複数の候補返答サンプル文とを除く他のサンプル文である、
ことを特徴とするモデルトレーニング装置。
前記トレーニングモジュールは、前記修正返答サンプル文、前記複数の候補返答サンプル文のうちの第２の候補返答サンプル文及びリコール返答サンプル文に基づいて前記初期対話モデルをトレーニングして、対話モデルを取得する場合、
前記修正返答サンプル文、前記第２の候補返答サンプル文及び前記リコール返答サンプル文を前記初期対話モデルの文生成モデルに入力して、実際返答文、修正返答サンプル文の確率、第２の候補返答サンプル文の確率及びリコール返答サンプル文の確率を取得し、
前記実際返答文、前記修正返答サンプル文の確率、前記第２の候補返答サンプル文の確率及び前記リコール返答サンプル文の確率に基づいて、前記初期対話モデルの初期文生成モデルと初期文決定モデルとを共同トレーニングして、前記対話モデルを取得する、
ことを特徴とする請求項１０に記載のモデルトレーニング装置。
前記トレーニングモジュールは、前記実際返答文、前記修正返答サンプル文の確率、前記第２の候補返答サンプル文の確率及び前記リコール返答サンプル文の確率に基づいて、前記初期対話モデルの前記初期文生成モデルと初期文決定モデルとを共同トレーニングして、前記対話モデルを取得する場合、
前記実際返答文と前記修正返答サンプル文とに基づいて、損失関数を決定し、
前記損失関数に基づいて、前記修正返答サンプル文の確率が前記第２の候補返答サンプル文の確率より大きく、前記修正返答サンプル文の確率が前記リコール返答サンプル文の確率より大きく、前記第２の候補返答サンプル文の確率が前記リコール返答サンプル文の確率より大きいことをトレーニングターゲットとして、前記初期文生成モデルと前記初期文決定モデルとを共同トレーニングして、前記対話モデルを取得する、
ことを特徴とする請求項１１に記載のモデルトレーニング装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記少なくとも１つのプロセッサが請求項１～３または４～６のいずれかに記載の方法を実行できるように、前記命令は前記少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～３または４～６のいずれかに記載の方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムは、プロセッサによって実行される場合、請求項１～３または４～６のいずれかに記載の方法のステップを実現する、
ことを特徴とするコンピュータプログラム。