JP2022020574A

JP2022020574A - ユーザ対話における情報処理方法、装置、電子デバイス及び記憶媒体

Info

Publication number: JP2022020574A
Application number: JP2021114780A
Authority: JP
Inventors: グオ、ジェン; Zhen Guo; ウ、ウェンクアン; Wenquan Wu; リウ、ザンイ; Zhanyi Liu
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-07-20
Filing date: 2021-07-12
Publication date: 2022-02-01
Anticipated expiration: 2041-07-12
Also published as: CN112000781A; JP7247442B2; CN112000781B; EP3944097A1; KR20220011083A; US20220019747A1

Abstract

【課題】ユーザに完全に依存して応答内容を生成することではなく、ユーザの対話における応答内容をインテリジェントに生成することができ、ユーザ対話の場面における情報処理の柔軟性を向上させ、ユーザの対話場面のインテリジェント性能を向上させることができる、ユーザ対話における情報処理方法、装置、電子デバイス及び記憶媒体を提供する。【解決手段】ユーザ対話における情報処理方法は、第１ユーザと第２ユーザとの対話における対話前文情報を取得Ｓ１０１し、第１ユーザの採用した目標対話ポリシーを取得Ｓ１０２し、目標対話ポリシーと対話前文情報に基づいて、事前に訓練された話術生成モデルを用いて対応する初期応答内容を生成Ｓ１０３し、第１ユーザと第２ユーザとの対話画面に初期応答内容を表示するように、第１ユーザが位置するクライアントに初期応答内容を送信するＳ１０４。【選択図】図１

Description

本開示は、コンピュータ技術分野に関し、特に人工知能分野及び自然言語処理分野に関し、具体的にユーザ対話における情報処理方法、装置、電子デバイス及び記憶媒体に関する。

ユーザとユーザとの対話に基づいて実現されるユーザ対話場面において、ユーザとのより良いチャットは、ユーザが常に追求してきた課題である。友人同士の付き合い、仕事でのコミュニケーション、人生のパートナーの追求にかかわらず、相手の声に正確に耳を傾け、適切な時間と場面で適切なフィードバックを与える必要がある。

しかし、既存のユーザ対話場面では、対話の双方が機械などの知的デバイスではなくユーザであるため、すべての対話過程が完全にユーザに依存しており、対話過程が硬直しており、知的性が非常に劣る。

上述した技術的課題を解決するために、本開示は、ユーザ対話における情報処理方法、装置、電子デバイス、及び記憶媒体を提供する。

本開示の一態様によれば、第1ユーザと第2ユーザとの対話における対話前文情報を取得することと、前記第1ユーザの採用した目標対話ポリシーを取得することと、前記目標対話ポリシー及び前記対話前文情報に基づいて、事前に訓練された話術生成モデルを使用して対応する初期応答内容を生成することと、前記第1ユーザと前記第2ユーザとの対話画面に前記初期応答内容を表示するように前記第1ユーザが位置するクライアントに前記初期応答内容を送信することと、を含むユーザ対話における情報処理方法を提供する。

本開示の別の態様によれば、第1ユーザと第2ユーザとの対話における対話前文情報を取得する情報取得モジュールと、前記第1ユーザの採用した目標対話ポリシーを取得するポリシー取得モジュールと、前記目標対話ポリシー及び前記対話前文情報に基づいて、予め訓練された話術生成モデルを使用して対応する初期応答内容を生成する生成モジュールと、前記第1ユーザと前記第2ユーザとの対話画面に前記初期応答内容を表示するように前記第1ユーザが位置するクライアントに前記初期応答内容を送信する送信モジュールと、を備えるユーザ対話における情報処理装置を提供する。

本開示の別の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに上述の方法を実行させる電子デバイスを提供する。

本開示の別の態様によれば、コンピュータに上述した方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体を提供する。

本開示の技術によれば、ユーザに完全に依存して応答内容を生成することではなく、ユーザの対話における応答内容をインテリジェントに生成することができ、ユーザの対話場面における情報処理の柔軟性を向上させ、ユーザの対話場面のインテリジェント性能を向上させることができる。

理解すべきなのは、本セクションで説明される内容は、本開示の実施形態の肝心又は重要な特徴を標識することを意図しておらず、本開示の範囲を制限することを意図していない。本開示の他の特徴は、以下の説明により容易に理解される。

図面は、本開示をより良く理解するためのものであり、本開示を限定しない。ここで、
本開示の第1実施形態に係る概略図である。本開示の第2実施形態に係る概略図である。本開示の第3実施形態に係る概略図である。本開示の第4実施形態に係る概略図である。本開示の実施形態の上述の方法を実施するための電子デバイスのブロック図である。

以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。

図1は本開示の第1実施形態に係る概略図である。図1に示すように、本実施形態は、ユーザ対話における情報処理方法を提供し、具体的に以下のステップを含むことができる。

S101において、第1ユーザと第2ユーザとの対話における対話前文情報を取得する。

S102において、第1ユーザの採用した目標対話ポリシーを取得する。

S103において、目標対話ポリシーと対話前文情報に基づいて、事前に訓練された話術生成モデルを用いて対応する初期応答内容を生成する。

S104において、第1ユーザと第2ユーザとの対話画面に初期応答内容を表示するように、第1ユーザが位置するクライアントに初期応答内容を送信する。

本実施形態のユーザ対話における情報処理方法の実行主体は、ユーザ対話における情報処理装置であってもよい。この装置は、ユーザとユーザとの対話に基づいて実現されるユーザ対話システムに設置され、ユーザ対話における情報の処理を実現してユーザ対話システムのインテリジェント性能を向上させることができる。

本実施形態のユーザ対話システムは、既存のヒューマンマシン対話システムとは異なり、様々なインスタント・コミュニケーション・アプリケーション・システムであってよい。例えば、ヒューマンマシン対話は人工知能（Artificial Intelligence；AI）の領域における比較的に成熟した技術で、対話の理解、計画、生成などの技術を実現することができる。現在、スマートカスタマーサービス及び各種の特殊な場面に対応するスマートサービス設備を設置し、ヒューマンマシン対話を介してサービスを提供することができる。すなわち、ヒューマンマシン対話システムは、通常、固定された場面に基づいて構成されており、ある固定された場面にのみ適用することができる。一方、ユーザ対話システムでは対話の双方がユーザであり、どの場面にも制約されないため、ユーザ対話システムがオープンなシステムに適している。したがって、ある場面のヒューマンマシン対話システムにおけるある技術を直接にユーザ対話システムに応用することは、必ずしも適用可能ではない。

また、ユーザ対話システムのニーズを考慮すると、ユーザが相手の対話に応答する際には、個人の能力など様々な面で影響を受けることで、ユーザが相手を快適にするような応答内容を生成することができない。これに基づき、本実施形態ではヒューマンマシン対話のインテリジェント性能を参照し、ユーザ対話システムにおいて、ユーザが直接に参照して使用できるように知能的に応答内容を生成する機能を設けることで、ユーザ対話における応答内容生成の柔軟性を豊かにすることができ、ユーザ対話におけるインテリジェント性能を向上させることができる。

具体的には、まず、第1ユーザと第2ユーザとの対話における対話前文情報を取得する必要がある。本実施形態では、第1ユーザと第2ユーザとを対話の双方として、第1ユーザ側で初期応答内容を生成することを例に挙げる。ここで、第1ユーザ及び第2ユーザは、対話の双方のユーザにより使用されるアカウントを意味することができる。具体的には、ユーザ対話システムのサーバから現在の第1ユーザと第2ユーザとの対話における対話前文情報を取得することができる。本実施形態の対話前文情報は、第2ユーザの直近の情報を含むことができる。或いは、前文の場面に対する理解を容易にするために、第1ユーザと第2ユーザの双方の直近の少なくとも1つの情報を含むこともできる。

本実施形態において第1ユーザが採用する目標対話ポリシーを取得することは、第1ユーザ側の対話において初期応答内容に採用される対話ポリシーを生成する。本実施形態の選択可能な対話ポリシーは、肯定、否定、婉曲拒否、話題の変更、及び少なくとも1つのパターンの対話ポリシーであってもよい。具体的には、各対話ポリシーは、その話術的特性を有する。たとえば、パターンの対話ポリシーとは、あるポリシーを用いて故意に相手に罠を仕掛けたり、相手を罠に陥れるようにしたりするポリシーなどである。例えば、罠の設定方法は、パターンによって異なる場合がある。また、本実施形態のパターンの対話ポリシーは、通常に後続の複数の対話でサポートされる必要がある。

次に、取得された第1ユーザにより採用された目標ポリシー及び第1ユーザと第2ユーザとの対話における対話前文情報を、事前に訓練された話術生成モデルに入力し、当該話術生成モデルにより対応する初期応答内容を生成することができる。この話術生成モデルは、ニューラルネットワークに基づいて予め訓練して得ることができる。訓練過程において、この話術生成モデルは、大量の訓練データに基づいて、どのように様々なポリシーと対応する対話前文情報に基づいて対応する応答内容を生成するかを学習することができる。このようにして、このステップが使用されるとき、当該話術生成モデルは、入力された目標ポリシー及び対話前文情報に基づいて、対応する初期応答内容を生成することができる。この初期応答内容は、対話前文情報と目標ポリシーの両方を参照しているため、生成された初期応答内容の正確性を効果的に保証することができる。

最後に、第1ユーザと第2ユーザとの対話画面において初期応答内容を表示するように、第1ユーザが位置するクライアントに初期応答内容を送信する。これにより、第1ユーザは当該初期応答内容を参照することができる。第1ユーザがチャットで当該初期応答内容を採用することに同意する場合、当該初期応答内容をチャットダイアログにコピーして送信をクリックすることにより、第2ユーザが第1ユーザとの対話画面に当該初期応答内容を見えるようにすることができる。第1ユーザがこの初期応答内容を更に調整したい場合に、この初期応答内容をチャットダイアログにコピーしてから編集し、編集後に送信をクリックすることができる。

例えば、ユーザ対話システムのクライアントの画面上に、ポリシー選択モジュールを表示したり、ユーザが選択できる複数のポリシーを直接に表示したりすることができる。ユーザが利用する際には、いずれかのポリシーを目標ポリシーとして選択し、応答内容生成ボタンをクリックすることができる。この場合に、ユーザ対話システムのサーバ側の情報処理装置は、第1ユーザと第2ユーザとの対話における対話前文情報を取得し、第1ユーザが選択した目標対話ポリシーを取得し、目標対話ポリシーと対話前文情報に基づいて、事前に訓練された話術生成モデルを用いて、対応する初期応答内容を生成し、第1ユーザと前記第2ユーザとの対話画面に初期応答内容を表示するように第1ユーザが位置するクライアントに初期応答内容を送信することができる。

本実施形態に係るユーザ対話における情報処理方法は、第1ユーザと第2ユーザとの対話における対話前文情報を取得し、第1ユーザが採用した目標対話ポリシーを取得し、目標対話ポリシーと対話前文情報に基づいて、事前に訓練された話術生成モデルを用いて対応する初期応答内容を生成し、第1ユーザと第2ユーザとの対話画面に初期応答内容を表示するように、第1ユーザが位置するクライアントに初期応答内容を送信する。本実施形態の技術案は、ユーザに完全に依存して応答内容を生成することではなく、ユーザの対話における応答内容をインテリジェントに生成することができ、ユーザの対話場面における情報処理の柔軟性を高め、ユーザの対話場面のインテリジェント性能を高めることができる。

図2は本開示の第2実施形態に係る概略図である。図2に示すように、本実施の形態のユーザ対話における情報処理方法は、上述した図1に示した実施形態の技術案に加えて、本開示の技術案をより詳細に説明する。図2に示すように、本実施形態に係るユーザ対話における情報処理方法は、具体的に以下のステップを含むことができる。

S201において、第1ユーザと第2ユーザとの対話における対話前文情報を取得する。

S202において、事前に訓練された対話ポリシー予測モデル、及び第1ユーザと第2ユーザの対話履歴情報を用いて、目標対話ポリシーを予測する。

当該ステップS202は、上述の図1に示された実施形態におけるステップS102の一実施形態である。具体的には、その対話ポリシー予測モデルは、ニューラルネットワークモデルに基づいて予め訓練されて得ることができる。ここで、第1ユーザと第2ユーザの対話履歴情報は、現在の対話場面における、現在の対話の前の直近の少なくとも1ペアの対話情報を含むことができる。ここで、1ペアの対話情報は、第1ユーザの1つの対話と第2ユーザの1つの対話とを含む。対話ポリシー予測モデルは、第1ユーザと第2ユーザの対話履歴情報に基づいて、両者の対話内容を理解し、更に現在の対話履歴内容に基づいて、効果的な目標対話ポリシーを予測することができる。

本実施形態の当該対話ポリシーモデルは、訓練時に大量のペアの対話履歴情報と対応する標識された目標対話ポリシーとを用いて、当該対話ポリシーモデルを目標対話ポリシーを正確に予測できるまで継続的に訓練して良い。

また、オプションとして、上述した図1に示された実施形態のステップS102は、予め設定された対話ポリシーセットから第1ユーザにより選択された目標対話ポリシーを取得してもよい。例えば、対話画面において対話ポリシーセットにおける複数の対話ポリシーが設定されており、第1ユーザは対話画面からある対話ポリシーを目標対話ポリシーとしてクリックして選択することができる。ユーザ対話システムのサーバは、当該第1ユーザの選択を検出すると、予め設定された対話ポリシーセットから当該第1ユーザにより選択された目標対話ポリシーを取得することができる。

S203において、目標対話ポリシーと対話前文情報に基づいて、事前に訓練された話術生成モデルを用いて、対応する初期応答内容を生成する。

S204において、初期応答内容を目標応答内容としてスタイル変換する。

この時点で、ユーザは当該目標応答内容をダイアログボックスにコピーし、送信をクリックすることができる。これにより、第2ユーザはそのユーザの目標応答内容を見ることができる。

本実施形態のスタイル変換は、予め設定されたモジュールを用いて実現されてもよく、予め設定されたスタイル変換モデルを用いて実現されてもよい。例えば、本実施形態のスタイル変換は、ダサい情話スタイル、ユーモラスなスタイル、方言バージョンのスタイルなどを含むことができる。具体的には、対応するスタイル変換テンプレートにおいて、対応するスタイルの言語特性を設定することができ、更に初期応答内容を、対応するスタイル特性の言語特性を有する目標応答内容に変換することができる。

あるいは、本実施形態では、各スタイルに対応するスタイル変換モデルを予め訓練してもよい。スタイル変換モデルはニューラルネットワークモデルに基づいて予め訓練して得られる。このスタイルのスタイル変換モデルは、訓練時に、大量のペアの共通記述言語材料と対応する当該スタイルの言語材料とを用いて訓練することにより、当該スタイル変換モデルが使用時に初期応答内容を受信した後に、当該初期応答内容を当該スタイルの目標応答内容に変換することができるように、当該スタイル変換モデルに当該スタイルの言語記述を学習することができる。

また、オプションとして、上記ステップS204における目標応答内容は、文字の形である。実際の応用では、目標応答内容はピクチャや動画の形でもよい。例えば、オプションとして、本実施形態は、以下のステップをさらに含むことができる。

（a1）初期応答内容に基づいてピクチャ生成を行うことにより、目標応答内容として初期応答内容のキーワード情報を持つピクチャを生成し、又は（b1）初期応答内容に基づいて動画生成を行うことにより、目標応答内容として初期応答内容のキーワード情報を持つ動画を生成する。

オプションとして、本実施形態のピクチャ生成は、ピクチャ生成テンプレート又はピクチャ生成モデルを用いて実現されてもよい。

まず、キーワード抽出モデルを用いて初期応答内容からキーワードを抽出した後に、抽出したキーワードに基づいてピクチャ生成を行うことができる。ピクチャ生成テンプレートを用いてピクチャを生成する場合には、1つのピクチャ生成テンプレートを選択した後に、そのピクチャ生成テンプレートにキーワードを埋め込み、ピクチャ生成テンプレートにおけるピクチャ情報をそのキーワードの意味に一致するように調整することができる。

ピクチャ生成モデルを用いてピクチャを生成する場合、そのピクチャ生成モデルにキーワードを入力すると、当該ピクチャ生成モデルはそのキーワードに基づいて適切なピクチャを生成して出力することができる。このピクチャ生成モデルは、ニューラルネットワークモデルに基づいて予め訓練された。訓練の際には、大量のペアのキーワードと対応するピクチャを用いることにより、ピクチャ生成モデルがどのようなキーワードがどのようなピクチャを用いて記述されて適切かを学習するようにしても良い。これにより、使用時にそのピクチャ生成モデルにそのキーワードが入力された場合に、そのピクチャ生成モデルはすでに学習された情報に基づいて、どのようなピクチャを用いればそのキーワードを正確に表すことができるのかを予見することができる。

説明すべきなのは、本実施の形態において生成されるピクチャには、キーワードそのものの文字を持っても良く、キーワードと同じ意味の情報を持っても良い。

ステップ（b1）はステップ（a1）の実現方式と同様に、キーワード抽出モデルを用いて初期応答内容におけるキーワードを先に抽出することも可能である。そして、あらかじめ設定された動画生成テンプレートや動画生成モデルに基づいて、初期応答内容のキーワード情報を持つ動画を生成して目標応答内容とすることができる。その実現過程は上記のステップ（a1）と同様であるが、違いは動画が連続した複数の画像により構成される動的な効果であることだけにある。その動画生成テンプレートは上記ピクチャ生成テンプレートの関連記述を参照し、動画生成モデルは上記ピクチャ生成モデルの関連記述を参照することができるため、ここでは再度言及しない。

本実施形態の当該ステップ（a1）又は（b1）は、ステップS204の代わりに、異なる形式の目標応答内容を採用して、ユーザの対話のチャット内容を豊かにし、そのインテリジェント性能を高めることができる。

S205において、第1ユーザと第2ユーザの対話画面に目標応答内容を表示するために、第1ユーザが位置するクライアントに目標応答内容を送信する。

S206において、初期応答内容のキーワードに基づいて、アニメ生成モデルを用いて対応するアニメを生成する。

S207において、第1ユーザと第2ユーザの対話画面にアニメを表示するように、第1ユーザが位置するクライアントに生成されたアニメを送信する。

ステップS206～S207もオプションとして、上述したステップS204～S205と同時に存在してもよい。説明すべきなのは、上記ステップS204～S205で最終的に生成される目標応答内容は、第1ユーザと第2ユーザとの対話画面のダイアログに表示される。一方、このステップS206～S207では、対話画面の表示をより素晴らしくし、ユーザの使用体験を向上させるように、対話画面を豊かにする。

例えば、初期応答内容のキーワードに「走る」が含まれていれば、アニメ生成モデルは、キャラクタがランニングするアニメを生成することができる。一方、初期応答内容のキーワードに「愛」が含まれていれば、アニメ生成モデルはキャラクタが愛を表現したアニメを生成することができる。もし初期応答内容のキーワードに「あなたを想う」ことが含まれていれば、アニメ生成モデルはキャラクタがあなたを想うことを表現したアニメを生成することができる。

本実施形態のアニメ生成モデルも、ニューラルネットワークに基づいて予め訓練された。訓練を行う際には、大量のペアのキーワードと対応するアニメを用いて当該アニメ生成モデルを訓練することにより、当該アニメ生成モデルがどのようなキーワードがどのようなアニメを用いて表現されているかを学習することができる。

さらにオプションとして、本実施形態では、以下のステップをさらに含むことができる。

（a2）感情分析モデルを用いて、第1ユーザと第2ユーザとの対話履歴情報に基づいて、第2ユーザの感情情報を分析し、第1ユーザが位置するクライアントに第2ユーザの感情情報を送信して第1ユーザと第2ユーザとの対話画面に表示する。

例えば、第1ユーザと第2ユーザとの対話において、第1ユーザが対話中に他のことに忙殺されている場合、第2ユーザの対話内容から第2ユーザの感情を注意深く分析していない可能性がある。このとき、本実施形態の感情分析モデルは、第1ユーザと第2ユーザとの対話履歴情報に基づいて、第2ユーザの感情情報をリアルタイムで分析することができる。例えば、ユーザの感情がポジティブであるか、ネガティブであるかを含むことができる。ポジティブであれば、第2ユーザが第1ユーザとチャットすることを非常に好むことを意味する。ネガティブであれば、第2ユーザが他のことで忙しくしている可能性があり、現在チャットをしたいと思っているわけではないことを示す。このとき、第1ユーザは、対話画面からこの第2ユーザの感情情報を見ることができ、第2ユーザがネガティブであることを見ると、対話を迅速に終了することができる。一方、第2ユーザがポジティブであれば、対話を継続することができる。

説明すべきなのは、この感情分析モデルは、第1ユーザと第2ユーザの各対話履歴をリアルタイムで分析し、すべての対話履歴に対する感情分析を実現することができる。各対話履歴は、第1ユーザと第2ユーザのそれぞれの一つの文を含む少なくとも1ペアの対話情報を含むことができる。例えば、この感情分析モデルは、分析された第2ユーザの感情情報を対話画面に表示し、例えば対応する対話履歴の側面に表示することにより、ユーザがクリックすれば見ることができる。或いは、表示効果を豊かにするために、第2ユーザの感情情報をより直感的に表示するために異なる色を使用することもできる。

（b2）話題関心度分析モデルを用いて、第1ユーザと第2ユーザとの対話履歴情報に基づいて、第2ユーザが現在の話題に関心を持っているか否かを分析し、第2ユーザが現在の話題に関心を持っているか否かを第1ユーザが位置するクライアントに送信し、第1ユーザと第2ユーザとの対話画面に表示する。

同様に、第1ユーザと第2ユーザとの対話において、第1ユーザが第2ユーザが現在の話題に関心を持っているか否かを分析したい場合には、第2ユーザの各文の応答内容を注意深く分析する必要がある。ユーザが注意深く分析したくない場合には、本実施形態の話題関心度分析モデルを用いて、第2ユーザが現在の話題に関心を持っているか否かを分析してもよい。

オプションとして、本実施形態では、第1ユーザと第2ユーザとのリアルタイムのチャット中に、ユーザ対話システムのサーバは、チャット内容に関連する話題に基づいて対話履歴情報を区分することができる。本実施形態の対話履歴情報は、1つの話題の対話履歴情報である。本実施形態の話題関心度分析モデルは、対話履歴情報における第1ユーザと第2ユーザとの対話前文情報に基づいて、第2ユーザが現在の話題に関心を持っているか否かを分析し、分析結果を第1ユーザが位置するクライアントに送信して第1ユーザと第2ユーザとの対話画面に表示することができる。これにより、第1ユーザは、分析結果に基づいて、第2ユーザと現在の話題を継続する必要があるか否かを決定することができ、第2ユーザが現在の話題に興味がないことに気づいた場合には、速やかに話題を入れ替えることができ、更にユーザの対話のインテリジェント性能を高めることができる。

同様に、第1ユーザと第2ユーザとのチャット中に、話題関心度分析モデルを用いて、第2ユーザが現在の話題に関心を持っているか否かをリアルタイムに分析し、分析結果を第1ユーザ側における第2ユーザとの対話画面にリアルタイムに表示することができる。

さらに、オプションとして、本実施形態では、（c2）話題予測モデルを用いて、第1ユーザと第2ユーザとの対話履歴情報に基づいて、第2ユーザが関心を持つ目標話題を予測し、第2ユーザが関心を持つ目標話題を第1ユーザが位置するクライアントに送信し、第1ユーザと第2ユーザとの対話画面に表示するステップをさらに含むことができる。

本実施形態では、話題予測モデルを用いて、第2ユーザが興味を持ちそうな話題を予測して第1ユーザ側における第2ユーザとの対話画面にリアルタイムに表示するようにしてもよい。これにより、第1ユーザに第2ユーザが興味を持つ話題に変えて第2ユーザと対話することができることを提示可能であり、ユーザの対話のインテリジェント性能をさらに高めることができる。

説明すべきなのは、上記ステップ（a2）～（c2）は、上述した図2に示した実施形態のステップS201～S206と優先順位の関係はない。ステップ（a2）～（c2）の各ステップは、それぞれ独立して実施されてもよく、相互に組み合わせてもよく、リアルタイムに第1ユーザと第2ユーザとの対話履歴情報に基づいて、リアルタイムに分析又は予測し、分析結果又は予測結果をリアルタイムに第1ユーザが位置するクライアントに送信して、第1ユーザと第2ユーザとの対話画面に表示してよい。これにより、第1ユーザは、これらの情報をリアルタイムに取得し、分析結果や予測結果を参照して第2ユーザとチャットを行うことにより、ユーザの対話のインテリジェント性能をさらに高めることができる。

例えば、本実施形態の前記全てのモデルはニューラルネットワークモデルである。すべてのモデルの訓練は、1段階の訓練のみを経て完成しても良く、事前訓練（Pre-training）及び微調整（Fine-tuning）という2段階の訓練を経て完成しても良い。

本実施形態のユーザ対話における情報処理方法は、上述の技術方案を採用することにより、ユーザ対話の場面において、いくつかのモデルを使用してインテリジェントな分析と予測を実現することにより、ユーザ対話におけるユーザも分析と予測の結果に基づいてより効果的な対話を行うことができ、ユーザ対話の場面を効果的に豊かにし、ユーザ対話における処理の柔軟性を高め、ユーザ対話におけるインテリジェント性能を高め、ユーザ対話の効率を高めることができる。

図3は本開示の第3実施形態に係る概略図である。本実施形態は、第1ユーザと第2ユーザとの対話における対話前文情報を取得する情報取得モジュール301と、第1ユーザにより採用された目標対話ポリシーを取得するポリシー取得モジュール302と、目標対話ポリシー及び対話前文情報に基づいて、事前に訓練された話術生成モデルを用いて対応する初期応答内容を生成する生成モジュール303と、第1ユーザと第2ユーザとの対話画面に初期応答内容を表示するように、第1ユーザが位置するクライアントに初期応答内容を送信する送信モジュール304と、を備えるユーザ対話における情報処理装置300を提供する。

本実施の形態のユーザ対話における情報処理装置300は、上記モジュールを用いてユーザ対話における情報処理を実現する実現原理及び技術的効果は、上記関連方法の実施形態の実現と同様であり、詳細は上記関連方法の実施形態の記載を参照でき、ここでは再度言及しない。

図4は本開示の第4実施形態に係る概略図である。図4に示すように、本実施形態のユーザ対話における情報処理装置300は、上述した図3に示した実施形態の技術案に加えて、本開示の技術案をより詳細に説明する。

本実施形態に係るユーザ対話における情報処理装置300において、ポリシー取得モジュール302は、第1ユーザにより予め設定された対話ポリシーセットから選択された目標対話ポリシーを取得し、或いは、予め訓練された対話ポリシー予測モデルと、第1ユーザと第2ユーザとの対話履歴情報とを用いて、目標対話ポリシーを予測する。

さらにオプションとして、本実施形態のユーザ対話における情報処理装置300は、初期応答内容を目標応答内容としてスタイル変換するスタイル変換モジュール305と、目標応答内容として、初期応答内容に基づいてピクチャ生成を行って初期応答内容のキーワード情報を持つピクチャを生成するピクチャ生成モジュール306、或いは、目標応答内容として、初期応答内容に基づいて動画生成を行って初期応答内容のキーワード情報を持つ動画を生成する動画生成モジュール307と、を更に備える。

さらにオプションとして、本実施形態のユーザ対話における情報処理装置300は、初期応答内容のキーワードに基づいて、アニメ生成モデルを用いて対応するアニメを生成するアニメ生成モジュール308と、更に第1ユーザと第2ユーザとの対話画面にアニメを表示するように、生成されたアニメを第1ユーザが位置するクライアントに送信する送信モジュール304とを更に備える。

さらにオプションとして、本実施形態のユーザ対話における情報処理装置300は、感情分析モデルを用いて、第1ユーザと第2ユーザとの対話履歴情報に基づいて、第2ユーザの感情情報を分析し、及び/又は、話題関心度分析モデルを用いて、第1ユーザと第2ユーザとの対話履歴情報に基づいて、第2ユーザが現在の話題に関心を持っているか否かを分析する分析モジュール309と、更に第2ユーザの感情情報を第1ユーザが位置するクライアントに送信して第1ユーザと第2ユーザとの対話画面に表示し、及び/又は、第2ユーザが現在の話題に関心を持っているかどうかを第1ユーザが位置するクライアントに送信して第1ユーザと第2ユーザとの対話画面に表示する送信モジュール304と、を更に備える。

さらにオプションとして、本実施形態のユーザ対話における情報処理装置300は、話題予測モデルを用いて、第1ユーザと第2ユーザとの対話履歴情報に基づいて、第2ユーザが関心を持つ目標話題を予測する予測モジュール310と、更に第2ユーザが関心を持つ目標話題を第1ユーザが位置するクライアントに送信して第1ユーザと第2ユーザとの対話画面に表示する送信モジュール304と、を備える。

本実施形態のユーザ対話における情報処理装置300は、上記モジュールを用いてユーザ対話における情報処理を実現する実現原理及び技術的効果は、上記関連方法の実施形態の実現と同様であり、詳細は上記関連方法の実施形態の記載を参照でき、ここでは再度言及しない。

本開示の実施形態によれば、本開示は更に、電子デバイス及び可読記憶媒体を提供する。

図5は、本開示の実施形態における上述の方法を実現する電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び／又は請求される本開示の実現を限定することが意図されない。

図5に示すように、この電子デバイスは、一つ又は複数のプロセッサ501、メモリ502、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置（例えば、インターフェースに結合される表示装置）にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び／又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する（例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする）。図5において、一つのプロセッサ501を例とする。

メモリ502は、本開示で提供される非一時的コンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも１つのプロセッサが本願に提供されたユーザ対話における情報処理方法を実行するように、前記少なくとも１つのプロセッサに実行可能なコマンドが記憶されている。本開示の非一時的コンピュータ可読記憶媒体は、本願に提供されたユーザ対話における情報処理方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。

メモリ502は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム、モジュール、例えば、本開示の実施例におけるユーザ対話における情報処理方法に対応するプログラムコマンド/モジュール（例えば、図3及び図4に示される関連モジュール）を記憶するために用いられる。プロセッサ501は、メモリ502に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例におけるユーザ対話における情報処理方法を実現する。

メモリ502は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域はユーザ対話における情報処理方法を実現する電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ502は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ502は、プロセッサ501に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介してユーザ対話における情報処理方法を実現する電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。

ユーザ対話における情報処理方法を実現する当該電子デバイスは、更に、入力装置503と出力装置504とを備えても良い。プロセッサ501、メモリ502、入力装置503及び出力装置504は、バス又は他の手段により接続されても良く、図5においてバスによる接続を例とする。

入力装置503は、入力された数字又はキャラクタ情報を受信し、電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置504は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含むことができる。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオードディスプレイ（ＬＥＤ）、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。

本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び／又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される）は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び／又はオブジェクト向けプログラミング言語、及び／又はアセンブリ／機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び／又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス）を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び／又はデータを提供するために用いられる任意の信号を指す。

ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス（例えば、マウスや、トラックボール）を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック）であり得、ユーザからの入力は、任意の形態で（音響、音声又は触覚による入力を含む）受信され得る。

本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア構成要素を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド構成要素を含むコンピューティングシステム（例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる）、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク（「ＬＡＮ」）、ワイド・エリア・ネットワーク（「ＷＡＮ」）、インターネットワークを含む。

コンピュータシステムは、クライアントとサーバを含み得る。クライアントとサーバは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。

本開示の実施形態に係る技術案によれば、第1ユーザと第2ユーザとの対話における対話前文情報を取得し、第1ユーザにより採用された目標対話ポリシーを取得し、目標対話ポリシーと対話前文情報に基づいて、事前に訓練された話術生成モデルを用いて対応する初期応答内容を生成し、第1ユーザと第2ユーザとの対話画面に初期応答内容を表示するように第1ユーザが位置するクライアントに初期応答内容を送信する。本実施形態の方案によれば、ユーザに完全に依存して応答内容を生成することではなく、ユーザ対話における応答内容をインテリジェントに生成することができ、ユーザの対話場面における情報処理の柔軟性を高め、ユーザの対話場面のインテリジェント性能を高めることができる。

本開示の実施形態に係る技術案によれば、上述の技術方案を採用することにより、ユーザ対話の場面において、いくつかのモデルを使用してインテリジェントな分析と予測を実現することにより、ユーザ対話におけるユーザが分析と予測の結果に基づいてより効果的な対話を行うことができ、ユーザ対話の場面を効果的に豊かにし、ユーザ対話における処理の柔軟性を高め、ユーザ対話におけるインテリジェント性能を高め、ユーザ対話の効率を高めることができる。

以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。

前記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。

Claims

ユーザ対話における情報処理方法であって、
第1ユーザと第2ユーザとの対話における対話前文情報を取得することと、
前記第1ユーザの採用した目標対話ポリシーを取得することと、
前記目標対話ポリシー及び前記対話前文情報に基づいて、事前に訓練された話術生成モデルを使用して、対応する初期応答内容を生成することと、
前記第1ユーザと前記第2ユーザとの対話画面に前記初期応答内容を表示するように、前記第1ユーザが位置するクライアントに前記初期応答内容を送信することと、を含む、
方法。
前記第1ユーザの採用した目標対話ポリシーを取得することは、
前記第1ユーザが予め設定された対話ポリシーセットから選択した、前記目標対話ポリシーを取得すること、又は、
予め訓練された対話ポリシー予測モデルと、前記第1ユーザと前記第2ユーザとの対話履歴情報とを用いて、前記目標対話ポリシーを予測すること、を含む、
請求項1に記載の方法。
前記目標対話ポリシー及び前記対話前文情報に基づいて、事前に訓練された話術生成モデルを使用して、対応する初期応答内容を生成することの後、
前記初期応答内容を目標応答内容としてスタイル変換することと、
目標応答内容として、前記初期応答内容に基づいてピクチャ生成を行って前記初期応答内容のキーワード情報を持つピクチャを生成すること、又は、
目標応答内容として、前記初期応答内容に基づいて動画生成を行って前記初期応答内容のキーワード情報を持つ動画を生成すること、とをさらに含む、
請求項1に記載の方法。
前記目標対話ポリシー及び前記対話前文情報に基づいて、事前に訓練された話術生成モデルを使用して、対応する初期応答内容を生成することの後、
前記初期応答内容のキーワードに基づいて、アニメ生成モデルを用いて対応するアニメを生成することと、
前記第1ユーザと前記第2ユーザとの対話画面に前記アニメを表示するように、生成された前記アニメを前記第1ユーザが位置するクライアントに送信することと、をさらに含む、
請求項1に記載の方法。
感情分析モデルを用いて、前記第1ユーザと前記第2ユーザとの対話履歴情報に基づいて、前記第2ユーザの感情情報を分析し、前記第2ユーザの感情情報を前記第1ユーザが位置するクライアントに送信して前記第1ユーザと前記第2ユーザとの対話画面に表示すること、及び/又は
話題関心度分析モデルを用いて、前記第1ユーザと前記第2ユーザとの対話履歴情報に基づいて、前記第2ユーザが現在の話題に関心を持っているか否かを分析し、前記第2ユーザが現在の話題に関心を持っているか否かを前記第1ユーザが位置するクライアントに送信して前記第1ユーザと前記第2ユーザとの対話画面に表示すること、をさらに含む、
請求項1～4のいずれか1項に記載の方法。
話題予測モデルを用いて、前記第1ユーザと前記第2ユーザとの対話履歴情報に基づいて、前記第2ユーザが関心を持っている目標話題を予測し、前記第2ユーザが関心を持っている目標話題を前記第1ユーザが位置するクライアントに送信して前記第1ユーザと前記第2ユーザとの対話画面に表示する、ことをさらに含む、
請求項1～4のいずれか1項に記載の方法。
ユーザ対話における情報処理装置であって、
第1ユーザと第2ユーザとの対話における対話前文情報を取得する情報取得モジュールと、
前記第1ユーザの採用した目標対話ポリシーを取得するポリシー取得モジュールと、
前記目標対話ポリシー及び前記対話前文情報に基づいて、事前に訓練された話術生成モデルを使用して、対応する初期応答内容を生成する生成モジュールと、
前記第1ユーザと前記第2ユーザとの対話画面に前記初期応答内容を表示するように、前記第1ユーザが位置するクライアントに前記初期応答内容を送信する送信モジュールと、を備える、
装置。
前記ポリシー取得モジュールは、
前記第1ユーザが予め設定された対話ポリシーセットから選択した、前記目標対話ポリシーを取得し、又は
予め訓練された対話ポリシー予測モデルと、前記第1ユーザと前記第2ユーザとの対話履歴情報とを用いて前記目標対話ポリシーを予測する、
請求項7に記載の装置。
前記初期応答内容を目標応答内容としてスタイル変換するスタイル変換モジュールと、
目標応答内容として、前記初期応答内容に基づいてピクチャ生成を行って前記初期応答内容のキーワード情報を持つピクチャを生成するピクチャ生成モジュール、又は
目標応答内容として、前記初期応答内容に基づいて動画生成を行って前記初期応答内容のキーワード情報を持つ動画を生成する動画生成モジュール、とをさらに備える、
請求項7に記載の装置。
アニメ生成モジュールをさらに備え、
前記アニメ生成モジュールは、前記初期応答内容のキーワードに基づいて、アニメ生成モデルを用いて対応するアニメを生成し、
前記送信モジュールは、更に、前記第1ユーザと前記第2ユーザとの対話画面に前記アニメを表示するように、生成された前記アニメを前記第1ユーザが位置するクライアントに送信する、
請求項7に記載の装置。
感情分析モデルを用いて、前記第1ユーザと前記第2ユーザとの対話履歴情報に基づいて、前記第2ユーザの感情情報を分析し、及び/又は、話題関心度分析モデルを用いて、前記第1ユーザと前記第2ユーザとの対話履歴情報に基づいて、前記第2ユーザが現在の話題に関心を持っているかどうかを分析する分析モジュールを更に備え、
前記送信モジュールは、更に、前記第2ユーザの感情情報を前記第1ユーザが位置するクライアントに送信して前記第1ユーザと前記第2ユーザとの対話画面に表示し、及び/又は、前記第2ユーザが現在の話題に関心を持っているかどうかを前記第1ユーザが位置するクライアントに送信して前記第1ユーザと前記第2ユーザとの対話画面に表示する、
請求項7～10のいずれか1項に記載の装置。
話題予測モデルを用いて、前記第1ユーザと前記第2ユーザとの対話履歴情報に基づいて、前記第2ユーザが関心を持つ目標話題を予測する予測モジュールを更に備え、
前記送信モジュールは、更に、前記第1ユーザが位置するクライアントに前記第2ユーザが関心を持つ前記目標話題を送信して前記第1ユーザと前記第2ユーザとの対話画面に表示する、
請求項7～10のいずれか1項に記載の装置。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されたメモリと、を備え、
前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1～6のいずれか１項に記載の方法を実行させる電子デバイス。
コンピュータに請求項1～6のいずれか1項に記載の方法を実行させるためのコンピュータコマンドが記憶された非一時的なコンピュータ可読記憶媒体。
コンピュータに請求項1～6のいずれか1項に記載の方法を実行させるためのプログラム。