JP6949931B2

JP6949931B2 - 情報を生成するための方法および装置

Info

Publication number: JP6949931B2
Application number: JP2019230878A
Authority: JP
Inventors: リハオワン; ジャンビンヘ; シカンコン; ジャンセンツァイ
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-12-20
Publication date: 2021-10-13
Anticipated expiration: 2039-12-20
Also published as: US20200412773A1; CN110288683B; CN110288683A; KR20210001856A; JP2021009670A

Description

本開示の実施形態は、コンピューター技術の分野に関し、特に、情報を生成するための方法および装置に関する。

現在、インテリジェントサービスがさまざまな分野に適用されている。例えば、インテリジェントカスタマーサービスや電話ロボットなどの適用シナリオでは、ユーザーと使用する端末は、テキストダイアログボックスまたは簡単な音声で対話することができる。このタイプのインタラクションは伝統的で鈍く、人間化とユーザーエクスペリエンスの程度は貧弱である。擬似ポートレートテクノロジーは、３次元擬似ポートレートをレンダリングすることにより、インテリジェントサービスに対してより便利なエクスペリエンスを提供することができる。これにより、ユーザーと３次元擬似ポートレート間の擬人化の相互作用が強化される。従来の擬似ポートレート技術は高い擬人化効果を持っているが、それらのほとんどは依然としてスクリプト化された適用シナリオにとどまっており、指示された内容に基づいて、事前に設定されたアクションにしか応答できず、ユーザーの感情や意図を理解する能力が弱いため、対話プロセス中にユーザーに提供する応答はユーザーの実際のニーズを満たせない場合がある。

本開示の実施形態は、情報を生成するための方法および装置を提案する。

第１の態様では、本開示の実施形態は、情報を生成するための方法であって、該方法は、クライアントによってインスタントコミュニケーションを通じて送信されたユーザーの映像と音声を受信するステップと、前記映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成するステップと、前記ユーザー識別情報とテキスト応答情報に基づいて、３次元擬似ポートレートに対する制御パラメーターと応答音声を生成するステップと、前記制御パラメーターと応答音声に基づいて、アニメーションエンジンを通じて前記３次元擬似ポートレートの映像を生成するステップと、前記クライアントが前記ユーザーに提示できるように前記３次元擬似ポートレートの映像をインスタントコミュニケーションにより前記クライアントに送信するステップと、を含む情報を生成するための方法を提供する。

いくつかの実施形態において、前記映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成するステップは、前記映像を識別してユーザー識別情報を取得し、前記音声を識別してテキスト情報を取得することと、履歴ユーザー識別情報と履歴テキスト情報を含む関連情報を取得することと、前記ユーザー識別情報、前記テキスト情報および前記関連情報に基づいてテキスト応答情報を生成することと、を含む。

いくつかの実施形態において、前記方法は、前記ユーザー識別情報と前記テキスト情報を関連付けて、現在のセッションについて設定されたセッション情報のセットに記憶するステップをさらに含む。

いくつかの実施形態において、前記関連情報を取得することは、前記セッション情報のセットから関連情報を取得することを含む。

いくつかの実施形態において、前記ユーザー識別情報は、ユーザーの表情を含み、前記ユーザー識別情報とテキスト応答情報に基づいて、３次元擬似ポートレートに対する制御パラメーターと応答音声を生成するステップは、前記テキスト応答情報に基づいて応答音声を生成することと、前記ユーザーの表情と前記応答音声に基づいて３次元擬似ポートレートに対する制御パラメーターを生成することと、を含む。

第２の態様では、本開示の実施形態は、情報を生成するための装置であって、該装置は、クライアントによってインスタントコミュニケーションを通じて送信されたユーザーの映像と音声を受信するように構成された受信ユニットと、前記映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成するように構成された第１生成ユニットと、前記ユーザー識別情報とテキスト応答情報に基づいて、３次元擬似ポートレートに対する制御パラメーターと応答音声を生成するように構成された第２生成ユニットと、前記制御パラメーターと応答音声に基づいて、アニメーションエンジンを通じて前記３次元擬似ポートレートの映像を生成するように構成された第３生成ユニットと、前記クライアントが前記ユーザーに提示できるように前記３次元擬似ポートレートの映像をインスタントコミュニケーションにより前記クライアントに送信するように構成された送信ユニットと、を含む情報を生成するための装置を提供する。

いくつかの実施形態において、前記第１生成ユニットは、前記映像を識別してユーザー識別情報を取得し、前記音声を識別してテキスト情報を取得するように構成された識別ユニットと、履歴ユーザー識別情報と履歴テキスト情報を含む関連情報を取得するように構成された取得ユニットと、前記ユーザー識別情報、前記テキスト情報および前記関連情報に基づいてテキスト応答情報を生成するように構成された情報生成ユニットと、を含む。

いくつかの実施形態において、前記装置は、前記ユーザー識別情報と前記テキスト情報を関連付けて、現在のセッションについて設定されたセッション情報のセットに記憶するように構成された記憶ユニットをさらに含む。

いくつかの実施形態において、前記取得ユニットはさらに前記セッション情報のセットから関連情報を取得するように構成されている。

いくつかの実施形態において、前記ユーザー識別情報はユーザーの表情を含み、前記第２生成ユニットはさらに、前記テキスト応答情報に基づいて応答音声を生成し、前記ユーザーの表情と前記応答音声に基づいて、３次元擬似ポートレートに対する制御パラメーターを生成するように構成されている。

第３の態様では、本開示の実施形態は、サーバーであって、該サーバーは１つまたは複数のプロセッサと、１つまたは複数のプログラムが格納されている記憶装置と、を含み、前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに第１の態様のいずれか一つの実施形態に記載の方法を実施させるサーバーを提供する。

第４の態様では、本開示の実施形態は、コンピュータープログラムが格納されているコンピューター可読媒体であって、該コンピュータープログラムがプロセッサによって実行されると、第１の態様のいずれか一つの実施形態に記載の方法を実施するコンピューター可読媒体を提供する。

本開示の実施形態によって提供される情報を生成する方法および装置は、まず、クライアントがインスタントコミュニケーションを通じて送信したユーザーの映像と音声を受信する。そして、映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成する。さらに、ユーザー識別情報とテキスト応答情報に基づいて３次元擬似ポートレートに対する制御パラメーターと応答音声を生成する。その後、制御パラメーターと応答音声に基づいて、アニメーションエンジンを通じて前記３次元擬似ポートレートの映像を生成する。最後に、クライアントがユーザーに提示できるように３次元擬似ポートレートの映像をインスタントコミュニケーションによりクライアントに送信する。これにより、３次元擬似ポートレートの映像生成とレンダリング作業がバックエンドサーバーに配置されるため、クライアントへの占用が減少し、クライアントの応答速度が向上する。また、クライアントとバックエンドサーバー間の対話はインスタントコミュニケーションを通じて実現され、クライアントとバックエンドサーバー間のリアルタイムの対話が改善され、クライアントの応答速度がさらに向上する。

以下の図面を参照しながら行った非限定的な実施形態に関する詳細な説明を読むと、本開示の他の特徴、目的、および利点はより明らかになるであろう。
本開示の実施形態が適用され得る例示的なシステムアーキテクチャ図である。本開示による情報を生成するための方法の一実施形態のフローチャートである。本開示による情報を生成するための方法の一適用シナリオの概略図である。本開示による情報を生成するための方法の別の実施形態のフローチャートである。本開示による情報を生成するための装置の一実施形態の構造概略図である。本開示の実施形態を実施するサーバーに適するコンピューターシステムの構造概略図である。

以下、添付の図面と実施形態を参照しながら本開示をさらに詳しく説明する。本明細書に記載される特定の実施形態は、関連する発明の説明に供するためのものであって、該発明に対する限定でないことを理解されたい。また、説明の便宜上、関連する発明に関連する部分しか図面に示されていないことにも留意されたい。

本開示の実施形態および実施形態の特徴は、矛盾しない前提で、相互に組み合わせることができることに留意されたい。以下、図面および実施形態を参照して、本開示を詳細に説明する。

図１は、本開示の実施形態が適用され得る情報を生成する方法または情報を生成する装置の例示的なシステムアーキテクチャ１００を示している。

図１に示されるように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３と、ネットワーク１０４と、サーバー１０５と、を含むことができる。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバー１０５との間の通信リンクのための媒体を提供する。ネットワーク１０４は、有線、無線通信リンク、光ファイバーケーブルなどのさまざまなタイプの接続を含むことができる。

ユーザーは、端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバー１０５と対話し、メッセージを送受信することなどができる。チャットボットアプリケーション、ウェブブラウザアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントコミュニケーションツールなどのさまざまな通信クライアントアプリケーションを、端末装置１０１、１０２、および１０３にインストールすることができる。

端末装置１０１、１０２、１０３は、ハードウェアであってもよく、ソフトウェアであってもよい。端末装置１０１、１０２、１０３がハードウェアである場合、ディスプレイ画面、映像キャプチャデバイス（カメラなど）、音声キャプチャデバイス（例えば、マイク）などを含むさまざまな電子機器であり得、スマートフォン、タブレット、ラップトップ、デスクトップなどを含むがこれらに限定されない。端末装置１０１、１０２、１０３がソフトウェアである場合、上記の電子機器にインストールされることが可能である。それは複数のソフトウェアもしくはソフトウェアモジュール（例えば、分散サービスを提供するため）としても、または単一のソフトウェアもしくはソフトウェアモジュールとしても実施されることが可能である。ここでは特に限定されない。

サーバー１０５は、端末装置１０１、１０２、１０３に表示される３次元擬似ポートレートにサポートを提供するバックグラウンドサーバーなど、さまざまなサービスを提供するサーバーであり得る。バックグラウンドサーバーは、受信された映像や音声などのデータを分析するなどの処理を行い、処理結果（例えば、３次元擬似ポートレートの映像）を端末装置１０１、１０２、１０３にフィードバックすることができる。

サーバー１０５は、ハードウェアであってもよく、ソフトウェアであってもよいことに留意されたい。サーバー１０５がハードウェアである場合、複数のサーバーで構成される分散サーバークラスターとしても、単一のサーバーとしても実施されることが可能である。サーバー１０５がソフトウェアである場合、複数のソフトウェアもしくはソフトウェアモジュール（例えば、分散サービスを提供するため）としても、または単一のソフトウェアもしくはソフトウェアモジュールとしても実施されることが可能である。ここでは特に限定されない。

図１の端末装置、ネットワーク、およびサーバーの数は、単なる例示であることを理解されたい。実施のニーズに応じて、任意の数の端末装置、ネットワーク、およびサーバーが存在する可能性がある。

本開示の実施形態によって提供される情報を生成するための方法は、一般にサーバー１０５によって実行されるため、情報を生成するための装置は一般にサーバー１０５に配置されることに留意されたい。

引き続き図２を参照すると、本開示による情報を生成するための方法の一実施形態のフロー２００が示されている。情報を生成するための方法は、次のステップを含む。

ステップ２０１：クライアントがインスタントコミュニケーションを通じて送信したユーザーの映像と音声を受信する。

本実施形態では、情報を生成するための方法の実行主体（例えば、図１に示されるサーバー１０５）は、有線接続または無線接続を介してクライアントからユーザーの映像と音声を受信することができる。ここで、ユーザーの映像と音声は、クライアントがインスタントコミュニケーションを通じて送信したものであり得る。例えば、インスタントコミュニケーションは、リアルタイム通信（Ｒｅａｌ-ｔｉｍｅｃｏｍｍｕｎｉｃａｔｉｏｎ，ＲＴＣ）、Ｗｅｂリアルタイム通信（ＷｅｂＲｅａｌ-ｔｉｍｅｃｏｍｍｕｎｉｃａｔｉｏｎ，ＷｅｂＲＴＣ）などによって実施されることができる。

一般的に、ユーザーは、端末（例えば、図１に示される端末装置１０１、１０２、１０３）にインストールされたクライアントを使用して情報のやり取りを実行できる。クライアントは、ユーザーの映像、音声、およびその他の情報をリアルタイムで収集し、収集した映像、音声などの情報をインスタントコミュニケーションを通じてリアルタイムで実行主体に送信できる。ここで、実行主体は、クライアントにサポートを提供するバックエンドサーバーである場合がある。このようにして、バックエンドサーバーはユーザーの映像、音声などの情報をリアルタイムで処理できる。

ステップ２０２：映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成する。

本実施形態では、実行主体は、ステップ２０１で取得した映像と音声に基づいて、ユーザー識別情報とテキスト応答情報を生成することができる。具体的には、実行主体は、まず、前記映像の映像フレームに対して、性別識別、年齢識別、表情識別、姿勢識別、ジェスチャ識別、服装識別などのさまざまな処理を実行することにより、ユーザー識別情報を取得することができる。そして、実行主体は、上記の音声に対してさまざまな処理を行うことができる。例えば、実行主体は、まず、上記の音声に対して音声識別を実行して、音声に対応するテキスト情報を取得することができる。その後、実行主体は、ユーザー識別情報と音声に対応するテキスト情報に基づいてテキスト応答情報を生成することができる。例えば、実行主体内にはチャットボット（ＣｈａｔＢｏｔ）が実行されていることが可能である。その結果、実行主体はユーザー識別情報と音声に対応するテキスト情報を該チャットボットに送信し、該チャットボットによってテキスト応答情報をフィードバックさせることができる。

ここで、チャットボットは、ダイアログまたはテキストを介して会話するコンピュータープログラムであり、人間の会話をシミュレートすることができる。チャットボットは、顧客サービス、情報取得などの実用的な目的に使用できる。情報が入力されると、チャットボットは受信した情報と事前に設定された応答ロジックに基づいてテキスト応答情報を生成できる。また、チャットボットは、事前に設定された条件が満たされると、事前に設定されたロジックに基づいて、受信した情報を含むリクエストを事前に設定されたデバイスに送信することもできる。このようにして、このデバイスを使用するユーザー（例えば、専門的なサービス担当者）は、リクエストに含まれる情報に基づいてテキスト応答情報を生成し、生成されたテキスト応答情報をチャットボットにフィードバックすることができる。

ステップ２０３：ユーザー識別情報とテキスト応答情報に基づいて、３次元擬似ポートレートに対する制御パラメーターと応答音声を生成する。

本実施形態では、実行主体は、ユーザー識別情報とテキスト応答情報に基づいて、３次元擬似ポートレートに対する制御パラメーターと応答音声を生成することができる。具体的には、実行主体は、ＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ，テキスト読み上げ機能）を介して、テキスト応答情報を応答音声に変換することができる。例えば、テキスト応答情報を応答音声に変換する際に、実行主体は、ユーザー識別情報に基づいて、変換された応答音声のピッチ、スピーチレート、音色（例えば、男性の声、女性の声、子供の声）などの特定の特性を設定することができる。ここで、ユーザー識別情報と応答音声の特性との対応関係を、実行主体に予め記憶することができる。例えば、若いユーザーの場合、応答音声のスピーチレートを遅く設定することができる。その後、実行主体は、ユーザー識別情報と応答音声に基づいて、３次元擬似ポートレートに対する制御パラメーターを生成することができる。ここで、３次元擬似ポートレートは、ＵＥ４（ＵｎｒｅａｌＥｎｇｉｎｅ４、アンリアルエンジン４）、Ｍａｙａ、Ｕｎｉｔｙ３Ｄなどを含むがこれらに限定されないアニメーションエンジンを通じて開発されたものであり得る。３次元擬似ポートレートの駆動は、事前に定義された多数のパラメーターによって制御されることが可能である。例えば、ユーザー識別情報と３次元擬似ポートレートの顔部表情との対応規則、音声と３次元擬似ポートレートの口の形の変化や手足の動きなどとの対応規則などを実行主体に予め設定することができる。このようにして、実行主体は、ユーザー識別情報と応答音声に基づいて、３次元擬似ポートレート駆動のパラメーターを決定することができる。

本実施形態のいくつかのオプションの実施方法では、前記ユーザー識別情報はユーザーの表情を含み得る。また、上記のステップ２０３は、具体的には次のように実行されることができる。

まず、テキスト応答情報に基づいて応答音声を生成する。

この実施方法では、実行主体はＴＴＳを通じてテキスト応答情報を応答音声に変換することができる。例えば、ＴＴＳを通じてテキスト応答情報を応答音声に変換する際に、実行主体は、ユーザー識別情報に基づいて、変換された応答音声のピッチ、スピーチレート、音色（例えば、男性の声、女性の声、子供の声）などの特定の特性を設定することができる。

そして、ユーザーの表情と応答音声に基づいて、３次元擬似ポートレートに対する制御パラメーターを生成する。

この実施方法では、実行主体は表情識別することでユーザーの表情を識別することができる。例えば、喜び、怒り、驚き、恐怖、嫌悪、悲しみなどのさまざまな表情を識別することができる。実行主体は、ユーザーの表情と応答音声に基づいて、３次元擬似ポートレートに対する制御パラメーターを生成することができる。例えば、ユーザーの表情と３次元擬似ポートレートの表情との対応規則、音声と３次元擬似ポートレートの口の形の変化や手足の動きなどとの対応規則などを実行主体に予め設定することができる。このようにして、ユーザー識別情報と応答音声に基づいて、３次元擬似ポートレート駆動のパラメーターを決定することができる。

ステップ２０４：制御パラメーターと応答音声に基づいて、レンダリングエンジンを通じて３次元擬似ポートレートの映像を生成する。

本実施形態では、実行主体は、ステップ２０３で生成された制御パラメーターと応答音声をアニメーションエンジンに送信することができる。アニメーションエンジンは、受信した制御パラメーターと応答音声に基づいてリアルタイムで３次元擬似ポートレートの映像（アニメーション）をレンダリングし、レンダリングされたリアルタイム映像を実行主体に送信することができる。ここで、アニメーションエンジンを通じてレンダリングされた３次元擬似ポートレートの映像は、音声を含む映像である。

ステップ２０５：クライアントがユーザーに提示できるように３次元擬似ポートレートの映像をインスタントコミュニケーションによりクライアントに送信する。

本実施形態では、実行主体は、クライアントがユーザーに提示できるようにステップ２０４で生成された３次元擬似ポートレートの映像をインスタントコミュニケーションによりクライアントに送信することができる。

引き続き図３を参照すると、図３は、本実施形態による情報を生成するための方法の一適用シナリオの概略図である。図３の適用シナリオでは、サーバー３０１は、まず、クライアント３０２がインスタントコミュニケーションを通じて送信したユーザーの映像と音声を受信する。そして、サーバー３０１は、映像と音声に基づいて、ユーザー識別情報とテキスト応答情報を生成する。さらに、サーバー３０１は、生成されたユーザー識別情報とテキスト応答情報に基づいて、３次元擬似ポートレートに対する制御パラメーターと応答音声を生成する。その後、サーバー３０１は、制御パラメーターと応答音声に基づいて、アニメーションエンジンを通じて３次元擬似ポートレートの映像を生成する。最後に、サーバー３０１は、クライアント３０２がユーザーに提示できるように３次元擬似ポートレートの映像をインスタントコミュニケーションによりクライアント３０２に送信することができる。

本開示の上記の実施形態によって提供される方法は、バックエンドサーバーを通じて、クライアントによって収集されたユーザーの映像と音声を分析処理し、ユーザー識別情報とテキスト応答情報を取得し、３次元擬似ポートレートの映像を生成し、３次元擬似ポートレートの映像をクライアントに送信する。これにより、この３次元擬似ポートレートの映像の生成とレンダリング作業がバックエンドサーバーに配置されるため、クライアントへの占用が減少し、クライアントの応答速度が向上する。また、クライアントとバックエンドサーバー間の対話はインスタントコミュニケーションを通じて実現され、クライアントとバックエンドサーバー間のリアルタイムの対話が改善され、クライアントの応答速度がさらに向上する。

さらに図４を参照すると、情報を生成するための方法の別の実施形態のフロー４００が示されている。この情報を生成するための方法のプロセス４００は、次のステップを含む。

ステップ４０１：クライアントがインスタントコミュニケーションを通じて送信したユーザーの映像と音声を受信する。

本実施形態では、ステップ４０１は、図２に示された実施形態のステップ２０１に似ているため、詳細な説明はここで省略する。

ステップ４０２：映像を識別してユーザー識別情報を取得し、音声を識別してテキスト情報を取得する。

本実施形態では、実行主体は、ステップ４０１で受信した映像の映像フレームに対して性別識別、年齢識別、表情識別、姿勢識別、ジェスチャ識別、服装識別などのさまざまな処理を実行することにより、ユーザー識別情報を取得することができる。実行主体はさらに、ステップ４０１で受信した音声に対して音声識別を実行することにより、音声に対応するテキスト情報を取得することができる。

ステップ４０３：関連情報を取得する。

本実施形態では、実行主体は関連情報を取得することができる。本明細書の関連情報は、履歴ユーザー識別情報と履歴テキスト情報を含み得る。ここで、履歴ユーザー識別情報と履歴テキスト情報は、クライアントが送信したユーザーの履歴映像と履歴音声に基づいて生成され得る。ここで、ユーザーの履歴映像や履歴音声は、ステップ４０１で受信したユーザーの映像や音声とコンテキスト関係を有し得る。例えば、同じセッション（Ｓｅｓｓｉｏｎ）のコンテキストに当たる。ここで、ユーザーが使用するクライアントがサーバー（つまり、実行主体）と対話するときにセッションが作成される。

本実施形態のいくつかのオプションの実施方法では、上記の情報を生成するための方法は、ユーザー識別情報とテキスト情報を関連付けて現在のセッションについて設定されたセッション情報のセットに記憶するステップをさらに含み得る。

この実施方法では、実行主体は、ステップ４０２で取得したユーザー識別情報とテキスト情報を関連付けて、現在のセッションについて設定されたセッション情報のセットに記憶することができる。実際には、クライアントが情報（映像、音声などを含み得る）を実行主体に送信するたびに、実行主体はこの情報にセッション識別子（ｓｅｓｓｉｏｎＩＤ）が含まれているかどうかを判断する。含まれていない場合、実行主体はこの情報に対して１つのセッション識別子を生成し、このセッションプロセスで生成されたさまざまな情報と該セッション識別子を関連付けて、セッション情報のセットに記憶する。含まれており、かつ含まれているセッション識別子の有効期限が切れていない場合、情報を記憶したり、情報を取得したりすることなど、このセッション識別子に対応するセッション情報のセットを直接使用することができる。

いくつかのオプションの実施方法では、上記のステップ４０３は、具体的に次のように実行され得る。セッション情報のセットから関連情報を取得する。

この実施方法では、実行主体は、上記のセッション情報のセットから関連情報を取得することができる。例えば、実行主体は、前記セッション情報のセットにおける最後に記憶された、事前に設定された個数の情報を関連情報として取得することができる。

ステップ４０４：ユーザー識別情報、テキスト情報、および関連情報に基づいてテキスト応答情報を生成する。

本実施形態では、実行主体は、ユーザー識別情報、テキスト情報、および関連情報に基づいてテキスト応答情報を生成することができる。ここで、実行主体は、実行中のチャットボットにユーザー識別情報、テキスト情報、及び関連情報を送信することができる。このようにして、チャットボットはユーザー識別情報、テキスト情報、および関連情報を包括的に分析することにより、より正確なテキスト応答情報を生成することができる。

ステップ４０５：ユーザー識別情報とテキスト応答情報に基づいて、３次元擬似ポートレートに対する制御パラメーターと応答音声を生成する。

本実施形態では、ステップ４０５は、図２に示された実施形態のステップ２０３に似ているため、詳細な説明はここで省略する。

ステップ４０６：制御パラメーターと応答音声に基づいて、アニメーションエンジンを通じて前記３次元擬似ポートレートの映像を生成する。

本実施形態では、ステップ４０６は、図２に示された実施形態のステップ２０４に似ているため、詳細な説明はここで省略する。

ステップ４０７：クライアントがユーザーに提示できるように３次元擬似ポートレートの映像をインスタントコミュニケーションによりクライアントに送信する。

本実施形態では、ステップ４０７は、図２に示された実施形態のステップ２０５に似ているため、詳細な説明はここで省略する。

図４から分かるように、本実施形態における情報を生成するための方法のフロー４００は、図２に対応する実施形態と比較して、「関連情報を取得して、ユーザー識別情報、テキスト情報、および関連情報に基づいてテキスト応答情報を生成する」ステップを強調している。したがって、実施形態で説明された解決手段がユーザー識別情報、テキスト情報、および関連情報を包括的に分析できるため、生成されたテキスト応答情報はより正確になり、ユーザーに対する３次元擬似ポートレートの応答はより正確になり、ユーザーエクスペリエンスは向上する。

さらに図５を参照すると、上記のさまざまな図に示された方法の実施として、本開示は、図２に示された方法の実施形態に対応する情報を生成するための装置の実施形態を提供する。この装置は、さまざまな電子機器に適用できる。

図５に示されるように、本実施形態の情報生成装置５００は、受信ユニット５０１と、第１生成ユニット５０２と、第２生成ユニット５０３と、第３生成ユニット５０４と、送信ユニット５０５と、を含む。受信ユニット５０１は、クライアントがインスタントコミュニケーションにより送信したユーザーの映像と音声を受信するように構成されている。第１生成ユニット５０２は、上記の映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成するように構成されている。第２生成ユニット５０３は、上記のユーザー識別情報とテキスト応答情報に基づいて、３次元擬似ポートレートに対する制御パラメーターと応答音声を生成するように構成されている。第３生成ユニット５０４は、上記の制御パラメーターと応答音声に基づいて、アニメーションエンジンを通じて上記の３次元擬似ポートレートの映像を生成するように構成されている。送信ユニット５０５は、上記のクライアントが上記のユーザーに提示できるように上記の３次元擬似ポートレートの映像をインスタントコミュニケーションにより上記のクライアントに送信するように構成されている。

本実施形態では、情報生成装置５００の受信ユニット５０１、第１生成ユニット５０２、第２生成ユニット５０３、第３生成ユニット５０４、および送信ユニット５０５の具体的な処理とその技術的効果は、図２に対応する実施形態におけるステップ２０１、ステップ２０２、ステップ２０３、ステップ２０４、およびステップ２０５の関連説明を参照することができ、詳細な説明はここで省略する。

本実施形態のいくつかのオプションの実施方法では、上記の第１生成ユニット５０２は、上記の映像を識別してユーザー識別情報を取得し、上記の音声を識別してテキスト情報を取得するように構成された識別ユニットと、履歴ユーザー識別情報と履歴テキスト情報を含む関連情報を取得するように構成された取得ユニットと、上記のユーザー識別情報、上記のテキスト情報、および上記の関連情報に基づいてテキスト応答情報を生成するように構成された情報生成ユニットと、を含む。

本実施形態のいくつかのオプションの実施方法では、上記の装置５００は、上記のユーザー識別情報と上記のテキスト情報を関連付けて、現在のセッションについて設定されたセッション情報のセットに記憶するように構成された記憶ユニット（図示せず）をさらに含む。

本実施形態のいくつかのオプションの実施方法では、上記の取得ユニットはさらに上記のセッション情報のセットから関連情報を取得するように構成されている。

本実施形態のいくつかのオプションの実施方法では、上記のユーザー識別情報はユーザーの表情を含み、上記の第２生成ユニット５０３はさらに、上記のテキスト応答情報に基づいて応答音声を生成し、上記のユーザーの表情と上記の応答音声に基づいて、３次元擬似ポートレートに対する制御パラメーターを生成するように構成されている。

さらに図６を参照すると、図６は本開示の実施形態の実施に適する電子機器（例えば、図１のサーバー）６００の構造概略図を示している。図６に示されるサーバーは単なる一例であり、本開示の実施形態の機能および使用範囲に如何なる制限も課すべきではない。

図６に示されるように、電子機器６００は、読み取り専用メモリ（ＲＯＭ）６０２に記憶されたプログラムまたは記憶装置６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされたプログラムにより、さまざまな適切な動作および処理を実行できる処理装置（例えば、中央処理装置、グラフィックスプロセッサなど）６０１を含み得る。ＲＡＭ６０３には、電子機器６００の動作に必要な各種プログラムやデータも記憶されている。処理装置６０１、ＲＯＭ６０２、およびＲＡＭ６０３は、バス６０４を介して相互に接続されている。入出力（Ｉ/Ｏ）インターフェース６０５もバス６０４に接続されている。

一般的に、Ｉ/Ｏインターフェース６０５に接続できる装置は、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープなどの入力装置６０６と、液晶ディスプレイ（ＬＣＤ）、スピーカー、バイブレーターなどの出力装置６０７と、磁気テープ、ハードディスクなどの記憶装置６０８と、通信装置６０９と、を含む。通信装置６０９は、電子機器６００が他の装置と無線または有線で通信してデータを交換することを可能にする。図６はさまざまな装置を有する電子機器６００を示しているが、図示された装置のすべてを実施または有する必要はないことを理解されたい。代替的により多いまたはより少ない装置が実施されてもよい。図６に示される各ブロックは、１つの装置を表すことも、必要に応じて複数の装置を表すこともできる。

特に、本開示の実施形態によると、以上、フローチャートを参照して説明されたプロセスは、コンピューターソフトウェアプログラムとして実施され得る。例えば、本開示の実施形態には、コンピューター可読媒体に記憶されたコンピュータープログラムを含むコンピュータープログラム製品が含まれる。該コンピュータープログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。そのような実施形態では、該コンピュータープログラムは、通信装置６０９を介してネットワークからダウンロードしてインストールするか、記憶装置６０８からインストールするか、またはＲＯＭ６０２からインストールすることができる。該コンピュータープログラムが処理装置６０１によって実行されると、本開示の実施形態の方法において定義された上述の機能を実行する。

本開示の実施形態で説明されたコンピューター可読媒体は、コンピューター可読信号媒体、コンピューター可読記憶媒体、またはこれらの２つの任意の組み合わせであり得ることに留意されたい。コンピューター可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置もしくは装置、または上記の任意の組み合わせであり得るが、これらに限定されない。コンピューター可読記憶媒体のより具体的な例は、１つまたは複数のワイヤを有する電気接続、ポータブルコンピューターディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記の任意の適切な組み合わせを含むが、これらに限定されない。本開示の実施形態では、コンピューター可読記憶媒体は、プログラムを含むまたは記憶する任意の有形の媒体であり得る。該プログラムは、命令実行システム、装置またはデバイスによって、またはそれらに関連して使用されることができる。本開示の実施形態では、コンピューター可読信号媒体はベースバンドで、またはキャリアの一部として伝播されるデータ信号を含み得る。コンピューター可読信号媒体には、コンピューターで読み取り可能なプログラムコードが記憶されている。そのような伝播されるデータ信号は、電磁信号、光信号、または上記の任意の適切な組み合わせを含むがこれらに限定されないさまざまな形態をとることができる。コンピューター可読信号媒体はさらに、命令実行システム、装置、またはデバイスによってまたはそれらに関連して使用されるプログラムを送信、伝播、または伝送できる、コンピューター可読記憶媒体以外の任意のコンピューター可読媒体であり得る。コンピューター可読媒体に記憶されているプログラムコードは、ワイヤ、光ファイバーケーブル、ＲＦ（無線周波数）など、または上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって送信され得る。

上記のコンピューター可読媒体は、上記の電子機器に含まれていてもよく、別個に存在して、該電子機器に組み込まれていなくてもよい。上記のコンピューター可読媒体には、１つまたは複数のプログラムが記憶されており、上記の１つまたは複数のプログラムが電子機器によって実行されると、該電子機器は、クライアントがインスタントコミュニケーションを通じて送信したユーザーの映像と音声を受信し、上記の映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成し、上記のユーザー識別情報とテキスト応答情報に基づいて、３次元擬似ポートレートに対する制御パラメーターと応答音声を生成し、上記の制御パラメーターと応答音声に基づいて、アニメーションエンジンを通じて上記の３次元擬似ポートレートの映像を生成し、上記のクライアントが上記のユーザーに提示できるように上記の３次元擬似ポートレートの映像をインスタントコミュニケーションにより上記のクライアントに送信する。

本開示の実施形態の動作を実行するためのコンピュータープログラムコードは、１つまたは複数のプログラミング言語、またはそれらの組み合わせで書くことができる。プログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語や、「Ｃ」言語または類似するプログラミング言語などの従来の手続き型プログラミング言語を含む。プログラムコードは、完全にユーザーのコンピューター上で実行されることも、部分的にユーザーのコンピューター上で実行されることも、スタンドアロンソフトウェアパッケージとして実行されることも、部分的にユーザーのコンピューター上で実行されながら部分的にリモートコンピューター上で実行されることも、または完全にリモートコンピューターまたはサーバー上で実行されることもできる。リモートコンピューターの場合、リモートコンピューターは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザーのコンピューターに接続されることができる。または、外部のコンピューターに接続されることができる（例えば、インターネットサービスプロバイダーによるインターネット経由で接続される）。

図に示されるフローチャートおよびブロック図は、本出願のさまざまな実施形態に係るシステム、方法、およびコンピュータープログラム製品の実施可能なアーキテクチャ、機能、および動作を示している。ここで、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。該モジュール、プログラムセグメント、またはコードの一部は、指定されたロジック関数を実施するための１つまたは複数の実行可能な命令を含む。また、いくつかの代替的な実施形態では、ブロックに記載されている機能は、図面に示されているものとは異なる順序で発生する場合があることにも留意されたい。例えば、連続して表されている２つのブロックは、実際にほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。これは関連する機能によって決まる。また、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定された機能または動作を実行する専用のハードウェアベースのシステムで実施できることや、専用のハードウェアとコンピューターの命令の組み合わせで実施できることにも留意されたい。

本出願の実施形態において説明されたユニットは、ソフトウェアまたはハードウェアによって実施され得る。説明されたユニットはプロセッサに内蔵されてもよい。例えば、「受信ユニットと、第１生成ユニットと、第２生成ユニットと、第３生成ユニットと、送信ユニットと、を含むプロセッサ」と説明されることができる。ここで、これらのユニットの名称は、ユニット自体に対する制限を構成しない場合がある。例えば、受信ユニットは、「クライアントがインスタントコミュニケーションを通じて送信したユーザーの映像と音声を受信するユニット」と説明されることもできる。

上記の説明は、あくまでも本出願の好ましい実施形態および応用技術原理の説明にすぎない。本出願に係る発明の範囲は、上記の技術的特徴の特定の組み合わせによって形成された技術的解決手段に限定されず、上記の発明の構想から逸脱しない範囲で上記の技術的特徴またはその同等の技術的特徴の任意の組み合わせによって形成されたその他の技術的解決手段、例えば、上記の特徴と本出願に開示された同様の機能を有する技術的特徴（それらに限定されない）とが相互に代替することによって形成された技術的解決手段もカバーしていることを当業者は理解すべきである。

Claims

クライアントによってインスタントコミュニケーションを通じて送信されたユーザーの映像と音声を受信するステップと、
前記映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成するステップと、
前記ユーザー識別情報とテキスト応答情報に基づいて、３次元擬似ポートレートに対する制御パラメーターと応答音声を生成するステップと、
前記制御パラメーターと応答音声に基づいて、アニメーションエンジンを通じて前記３次元擬似ポートレートの映像を生成するステップと、
前記クライアントが前記ユーザーに提示できるように前記３次元擬似ポートレートの映像をインスタントコミュニケーションにより前記クライアントに送信するステップと、を含む情報を生成するための方法。
前記映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成するステップは、
前記映像を識別してユーザー識別情報を取得し、前記音声を識別してテキスト情報を取得することと、
履歴ユーザー識別情報と履歴テキスト情報を含む関連情報を取得することと、
前記ユーザー識別情報、前記テキスト情報および前記関連情報に基づいてテキスト応答情報を生成することと、を含む請求項１に記載の方法。
前記方法は、前記ユーザー識別情報と前記テキスト情報を関連付けて、現在のセッションについて設定されたセッション情報のセットに記憶するステップをさらに含む請求項２に記載の方法。
前記関連情報を取得することは、前記セッション情報のセットから関連情報を取得することを含む請求項３に記載の方法。
前記ユーザー識別情報は、ユーザーの表情を含み、
前記ユーザー識別情報とテキスト応答情報に基づいて、３次元擬似ポートレートに対する制御パラメーターと応答音声を生成するステップは、
前記テキスト応答情報に基づいて応答音声を生成することと、
前記ユーザーの表情と前記応答音声に基づいて３次元擬似ポートレートに対する制御パラメーターを生成することと、を含む請求項１に記載の方法。
クライアントによってインスタントコミュニケーションを通じて送信されたユーザーの映像と音声を受信するように構成された受信ユニットと、
前記映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成するように構成された第１生成ユニットと、
前記ユーザー識別情報とテキスト応答情報に基づいて、３次元擬似ポートレートに対する制御パラメーターと応答音声を生成するように構成された第２生成ユニットと、
前記制御パラメーターと応答音声に基づいて、アニメーションエンジンを通じて前記３次元擬似ポートレートの映像を生成するように構成された第３生成ユニットと、
前記クライアントが前記ユーザーに提示できるように前記３次元擬似ポートレートの映像をインスタントコミュニケーションにより前記クライアントに送信するように構成された送信ユニットと、を含む情報を生成するための装置。
前記第１生成ユニットは、
前記映像を識別してユーザー識別情報を取得し、前記音声を識別してテキスト情報を取得するように構成された識別ユニットと、
履歴ユーザー識別情報と履歴テキスト情報を含む関連情報を取得するように構成された取得ユニットと、
前記ユーザー識別情報、前記テキスト情報および前記関連情報に基づいてテキスト応答情報を生成するように構成された情報生成ユニットと、を含む請求項６に記載の装置。
前記装置は、前記ユーザー識別情報と前記テキスト情報を関連付けて、現在のセッションについて設定されたセッション情報のセットに記憶するように構成された記憶ユニットをさらに含む請求項７に記載の装置。
前記取得ユニットはさらに前記セッション情報のセットから関連情報を取得するように構成されている請求項８に記載の装置。
前記ユーザー識別情報はユーザーの表情を含み、
前記第２生成ユニットはさらに、
前記テキスト応答情報に基づいて応答音声を生成し、
前記ユーザーの表情と前記応答音声に基づいて、３次元擬似ポートレートに対する制御パラメーターを生成するように構成されている請求項６に記載の装置。
１つまたは複数のプロセッサと、
１つまたは複数のプログラムが格納されている記憶装置と、を含み、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに請求項１〜５のいずれか１項に記載の方法を実施させるサーバー。
コンピュータープログラムが格納されているコンピューター可読媒体であって、前記コンピュータープログラムがプロセッサによって実行されると、請求項１〜５のいずれか１項に記載の方法を実施するコンピューター可読媒体。
コンピュータープログラムであって、
前記コンピュータープログラムがプロセッサにより実行されると、請求項１〜５のいずれか１項に記載の方法を実現する、コンピュータープログラム。