JP6949931B2 - 情報を生成するための方法および装置 - Google Patents

情報を生成するための方法および装置 Download PDF

Info

Publication number
JP6949931B2
JP6949931B2 JP2019230878A JP2019230878A JP6949931B2 JP 6949931 B2 JP6949931 B2 JP 6949931B2 JP 2019230878 A JP2019230878 A JP 2019230878A JP 2019230878 A JP2019230878 A JP 2019230878A JP 6949931 B2 JP6949931 B2 JP 6949931B2
Authority
JP
Japan
Prior art keywords
information
text
user identification
user
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019230878A
Other languages
English (en)
Other versions
JP2021009670A (ja
Inventor
リハオ ワン
リハオ ワン
ジャンビン ヘ
ジャンビン ヘ
シカン コン
シカン コン
ジャンセン ツァイ
ジャンセン ツァイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021009670A publication Critical patent/JP2021009670A/ja
Application granted granted Critical
Publication of JP6949931B2 publication Critical patent/JP6949931B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/908Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1822Conducting the conference, e.g. admission, detection, selection or grouping of participants, correlating users to one or more conference sessions, prioritising transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/16Arrangements for providing special services to substations
    • H04L12/18Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
    • H04L12/1813Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
    • H04L12/1827Network arrangements for conference optimisation or adaptation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/02User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/10Multimedia information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)

Description

本開示の実施形態は、コンピューター技術の分野に関し、特に、情報を生成するための方法および装置に関する。
現在、インテリジェントサービスがさまざまな分野に適用されている。例えば、インテリジェントカスタマーサービスや電話ロボットなどの適用シナリオでは、ユーザーと使用する端末は、テキストダイアログボックスまたは簡単な音声で対話することができる。このタイプのインタラクションは伝統的で鈍く、人間化とユーザーエクスペリエンスの程度は貧弱である。擬似ポートレートテクノロジーは、3次元擬似ポートレートをレンダリングすることにより、インテリジェントサービスに対してより便利なエクスペリエンスを提供することができる。これにより、ユーザーと3次元擬似ポートレート間の擬人化の相互作用が強化される。従来の擬似ポートレート技術は高い擬人化効果を持っているが、それらのほとんどは依然としてスクリプト化された適用シナリオにとどまっており、指示された内容に基づいて、事前に設定されたアクションにしか応答できず、ユーザーの感情や意図を理解する能力が弱いため、対話プロセス中にユーザーに提供する応答はユーザーの実際のニーズを満たせない場合がある。
本開示の実施形態は、情報を生成するための方法および装置を提案する。
第1の態様では、本開示の実施形態は、情報を生成するための方法であって、該方法は、クライアントによってインスタントコミュニケーションを通じて送信されたユーザーの映像と音声を受信するステップと、前記映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成するステップと、前記ユーザー識別情報とテキスト応答情報に基づいて、3次元擬似ポートレートに対する制御パラメーターと応答音声を生成するステップと、前記制御パラメーターと応答音声に基づいて、アニメーションエンジンを通じて前記3次元擬似ポートレートの映像を生成するステップと、前記クライアントが前記ユーザーに提示できるように前記3次元擬似ポートレートの映像をインスタントコミュニケーションにより前記クライアントに送信するステップと、を含む情報を生成するための方法を提供する。
いくつかの実施形態において、前記映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成するステップは、前記映像を識別してユーザー識別情報を取得し、前記音声を識別してテキスト情報を取得することと、履歴ユーザー識別情報と履歴テキスト情報を含む関連情報を取得することと、前記ユーザー識別情報、前記テキスト情報および前記関連情報に基づいてテキスト応答情報を生成することと、を含む。
いくつかの実施形態において、前記方法は、前記ユーザー識別情報と前記テキスト情報を関連付けて、現在のセッションについて設定されたセッション情報のセットに記憶するステップをさらに含む。
いくつかの実施形態において、前記関連情報を取得することは、前記セッション情報のセットから関連情報を取得することを含む。
いくつかの実施形態において、前記ユーザー識別情報は、ユーザーの表情を含み、前記ユーザー識別情報とテキスト応答情報に基づいて、3次元擬似ポートレートに対する制御パラメーターと応答音声を生成するステップは、前記テキスト応答情報に基づいて応答音声を生成することと、前記ユーザーの表情と前記応答音声に基づいて3次元擬似ポートレートに対する制御パラメーターを生成することと、を含む。
第2の態様では、本開示の実施形態は、情報を生成するための装置であって、該装置は、クライアントによってインスタントコミュニケーションを通じて送信されたユーザーの映像と音声を受信するように構成された受信ユニットと、前記映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成するように構成された第1生成ユニットと、前記ユーザー識別情報とテキスト応答情報に基づいて、3次元擬似ポートレートに対する制御パラメーターと応答音声を生成するように構成された第2生成ユニットと、前記制御パラメーターと応答音声に基づいて、アニメーションエンジンを通じて前記3次元擬似ポートレートの映像を生成するように構成された第3生成ユニットと、前記クライアントが前記ユーザーに提示できるように前記3次元擬似ポートレートの映像をインスタントコミュニケーションにより前記クライアントに送信するように構成された送信ユニットと、を含む情報を生成するための装置を提供する。
いくつかの実施形態において、前記第1生成ユニットは、前記映像を識別してユーザー識別情報を取得し、前記音声を識別してテキスト情報を取得するように構成された識別ユニットと、履歴ユーザー識別情報と履歴テキスト情報を含む関連情報を取得するように構成された取得ユニットと、前記ユーザー識別情報、前記テキスト情報および前記関連情報に基づいてテキスト応答情報を生成するように構成された情報生成ユニットと、を含む。
いくつかの実施形態において、前記装置は、前記ユーザー識別情報と前記テキスト情報を関連付けて、現在のセッションについて設定されたセッション情報のセットに記憶するように構成された記憶ユニットをさらに含む。
いくつかの実施形態において、前記取得ユニットはさらに前記セッション情報のセットから関連情報を取得するように構成されている。
いくつかの実施形態において、前記ユーザー識別情報はユーザーの表情を含み、前記第2生成ユニットはさらに、前記テキスト応答情報に基づいて応答音声を生成し、前記ユーザーの表情と前記応答音声に基づいて、3次元擬似ポートレートに対する制御パラメーターを生成するように構成されている。
第3の態様では、本開示の実施形態は、サーバーであって、該サーバーは1つまたは複数のプロセッサと、1つまたは複数のプログラムが格納されている記憶装置と、を含み、前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに第1の態様のいずれか一つの実施形態に記載の方法を実施させるサーバーを提供する。
第4の態様では、本開示の実施形態は、コンピュータープログラムが格納されているコンピューター可読媒体であって、該コンピュータープログラムがプロセッサによって実行されると、第1の態様のいずれか一つの実施形態に記載の方法を実施するコンピューター可読媒体を提供する。
本開示の実施形態によって提供される情報を生成する方法および装置は、まず、クライアントがインスタントコミュニケーションを通じて送信したユーザーの映像と音声を受信する。そして、映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成する。さらに、ユーザー識別情報とテキスト応答情報に基づいて3次元擬似ポートレートに対する制御パラメーターと応答音声を生成する。その後、制御パラメーターと応答音声に基づいて、アニメーションエンジンを通じて前記3次元擬似ポートレートの映像を生成する。最後に、クライアントがユーザーに提示できるように3次元擬似ポートレートの映像をインスタントコミュニケーションによりクライアントに送信する。これにより、3次元擬似ポートレートの映像生成とレンダリング作業がバックエンドサーバーに配置されるため、クライアントへの占用が減少し、クライアントの応答速度が向上する。また、クライアントとバックエンドサーバー間の対話はインスタントコミュニケーションを通じて実現され、クライアントとバックエンドサーバー間のリアルタイムの対話が改善され、クライアントの応答速度がさらに向上する。
以下の図面を参照しながら行った非限定的な実施形態に関する詳細な説明を読むと、本開示の他の特徴、目的、および利点はより明らかになるであろう。
本開示の実施形態が適用され得る例示的なシステムアーキテクチャ図である。 本開示による情報を生成するための方法の一実施形態のフローチャートである。 本開示による情報を生成するための方法の一適用シナリオの概略図である。 本開示による情報を生成するための方法の別の実施形態のフローチャートである。 本開示による情報を生成するための装置の一実施形態の構造概略図である。 本開示の実施形態を実施するサーバーに適するコンピューターシステムの構造概略図である。
以下、添付の図面と実施形態を参照しながら本開示をさらに詳しく説明する。本明細書に記載される特定の実施形態は、関連する発明の説明に供するためのものであって、該発明に対する限定でないことを理解されたい。また、説明の便宜上、関連する発明に関連する部分しか図面に示されていないことにも留意されたい。
本開示の実施形態および実施形態の特徴は、矛盾しない前提で、相互に組み合わせることができることに留意されたい。以下、図面および実施形態を参照して、本開示を詳細に説明する。
図1は、本開示の実施形態が適用され得る情報を生成する方法または情報を生成する装置の例示的なシステムアーキテクチャ100を示している。
図1に示されるように、システムアーキテクチャ100は、端末装置101、102、103と、ネットワーク104と、サーバー105と、を含むことができる。ネットワーク104は、端末装置101、102、103とサーバー105との間の通信リンクのための媒体を提供する。ネットワーク104は、有線、無線通信リンク、光ファイバーケーブルなどのさまざまなタイプの接続を含むことができる。
ユーザーは、端末装置101、102、103を使用してネットワーク104を介してサーバー105と対話し、メッセージを送受信することなどができる。チャットボットアプリケーション、ウェブブラウザアプリケーション、ショッピングアプリケーション、検索アプリケーション、インスタントコミュニケーションツールなどのさまざまな通信クライアントアプリケーションを、端末装置101、102、および103にインストールすることができる。
端末装置101、102、103は、ハードウェアであってもよく、ソフトウェアであってもよい。端末装置101、102、103がハードウェアである場合、ディスプレイ画面、映像キャプチャデバイス(カメラなど)、音声キャプチャデバイス(例えば、マイク)などを含むさまざまな電子機器であり得、スマートフォン、タブレット、ラップトップ、デスクトップなどを含むがこれらに限定されない。端末装置101、102、103がソフトウェアである場合、上記の電子機器にインストールされることが可能である。それは複数のソフトウェアもしくはソフトウェアモジュール(例えば、分散サービスを提供するため)としても、または単一のソフトウェアもしくはソフトウェアモジュールとしても実施されることが可能である。ここでは特に限定されない。
サーバー105は、端末装置101、102、103に表示される3次元擬似ポートレートにサポートを提供するバックグラウンドサーバーなど、さまざまなサービスを提供するサーバーであり得る。バックグラウンドサーバーは、受信された映像や音声などのデータを分析するなどの処理を行い、処理結果(例えば、3次元擬似ポートレートの映像)を端末装置101、102、103にフィードバックすることができる。
サーバー105は、ハードウェアであってもよく、ソフトウェアであってもよいことに留意されたい。サーバー105がハードウェアである場合、複数のサーバーで構成される分散サーバークラスターとしても、単一のサーバーとしても実施されることが可能である。サーバー105がソフトウェアである場合、複数のソフトウェアもしくはソフトウェアモジュール(例えば、分散サービスを提供するため)としても、または単一のソフトウェアもしくはソフトウェアモジュールとしても実施されることが可能である。ここでは特に限定されない。
図1の端末装置、ネットワーク、およびサーバーの数は、単なる例示であることを理解されたい。実施のニーズに応じて、任意の数の端末装置、ネットワーク、およびサーバーが存在する可能性がある。
本開示の実施形態によって提供される情報を生成するための方法は、一般にサーバー105によって実行されるため、情報を生成するための装置は一般にサーバー105に配置されることに留意されたい。
引き続き図2を参照すると、本開示による情報を生成するための方法の一実施形態のフロー200が示されている。情報を生成するための方法は、次のステップを含む。
ステップ201:クライアントがインスタントコミュニケーションを通じて送信したユーザーの映像と音声を受信する。
本実施形態では、情報を生成するための方法の実行主体(例えば、図1に示されるサーバー105)は、有線接続または無線接続を介してクライアントからユーザーの映像と音声を受信することができる。ここで、ユーザーの映像と音声は、クライアントがインスタントコミュニケーションを通じて送信したものであり得る。例えば、インスタントコミュニケーションは、リアルタイム通信(Real-time communication,RTC)、Webリアルタイム通信(Web Real-time communication,WebRTC)などによって実施されることができる。
一般的に、ユーザーは、端末(例えば、図1に示される端末装置101、102、103)にインストールされたクライアントを使用して情報のやり取りを実行できる。クライアントは、ユーザーの映像、音声、およびその他の情報をリアルタイムで収集し、収集した映像、音声などの情報をインスタントコミュニケーションを通じてリアルタイムで実行主体に送信できる。ここで、実行主体は、クライアントにサポートを提供するバックエンドサーバーである場合がある。このようにして、バックエンドサーバーはユーザーの映像、音声などの情報をリアルタイムで処理できる。
ステップ202:映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成する。
本実施形態では、実行主体は、ステップ201で取得した映像と音声に基づいて、ユーザー識別情報とテキスト応答情報を生成することができる。具体的には、実行主体は、まず、前記映像の映像フレームに対して、性別識別、年齢識別、表情識別、姿勢識別、ジェスチャ識別、服装識別などのさまざまな処理を実行することにより、ユーザー識別情報を取得することができる。そして、実行主体は、上記の音声に対してさまざまな処理を行うことができる。例えば、実行主体は、まず、上記の音声に対して音声識別を実行して、音声に対応するテキスト情報を取得することができる。その後、実行主体は、ユーザー識別情報と音声に対応するテキスト情報に基づいてテキスト応答情報を生成することができる。例えば、実行主体内にはチャットボット(Chat Bot)が実行されていることが可能である。その結果、実行主体はユーザー識別情報と音声に対応するテキスト情報を該チャットボットに送信し、該チャットボットによってテキスト応答情報をフィードバックさせることができる。
ここで、チャットボットは、ダイアログまたはテキストを介して会話するコンピュータープログラムであり、人間の会話をシミュレートすることができる。チャットボットは、顧客サービス、情報取得などの実用的な目的に使用できる。情報が入力されると、チャットボットは受信した情報と事前に設定された応答ロジックに基づいてテキスト応答情報を生成できる。また、チャットボットは、事前に設定された条件が満たされると、事前に設定されたロジックに基づいて、受信した情報を含むリクエストを事前に設定されたデバイスに送信することもできる。このようにして、このデバイスを使用するユーザー(例えば、専門的なサービス担当者)は、リクエストに含まれる情報に基づいてテキスト応答情報を生成し、生成されたテキスト応答情報をチャットボットにフィードバックすることができる。
ステップ203:ユーザー識別情報とテキスト応答情報に基づいて、3次元擬似ポートレートに対する制御パラメーターと応答音声を生成する。
本実施形態では、実行主体は、ユーザー識別情報とテキスト応答情報に基づいて、3次元擬似ポートレートに対する制御パラメーターと応答音声を生成することができる。具体的には、実行主体は、TTS(Text To Speech,テキスト読み上げ機能)を介して、テキスト応答情報を応答音声に変換することができる。例えば、テキスト応答情報を応答音声に変換する際に、実行主体は、ユーザー識別情報に基づいて、変換された応答音声のピッチ、スピーチレート、音色(例えば、男性の声、女性の声、子供の声)などの特定の特性を設定することができる。ここで、ユーザー識別情報と応答音声の特性との対応関係を、実行主体に予め記憶することができる。例えば、若いユーザーの場合、応答音声のスピーチレートを遅く設定することができる。その後、実行主体は、ユーザー識別情報と応答音声に基づいて、3次元擬似ポートレートに対する制御パラメーターを生成することができる。ここで、3次元擬似ポートレートは、UE4(Unreal Engine4、アンリアルエンジン4)、Maya、Unity 3Dなどを含むがこれらに限定されないアニメーションエンジンを通じて開発されたものであり得る。3次元擬似ポートレートの駆動は、事前に定義された多数のパラメーターによって制御されることが可能である。例えば、ユーザー識別情報と3次元擬似ポートレートの顔部表情との対応規則、音声と3次元擬似ポートレートの口の形の変化や手足の動きなどとの対応規則などを実行主体に予め設定することができる。このようにして、実行主体は、ユーザー識別情報と応答音声に基づいて、3次元擬似ポートレート駆動のパラメーターを決定することができる。
本実施形態のいくつかのオプションの実施方法では、前記ユーザー識別情報はユーザーの表情を含み得る。また、上記のステップ203は、具体的には次のように実行されることができる。
まず、テキスト応答情報に基づいて応答音声を生成する。
この実施方法では、実行主体はTTSを通じてテキスト応答情報を応答音声に変換することができる。例えば、TTSを通じてテキスト応答情報を応答音声に変換する際に、実行主体は、ユーザー識別情報に基づいて、変換された応答音声のピッチ、スピーチレート、音色(例えば、男性の声、女性の声、子供の声)などの特定の特性を設定することができる。
そして、ユーザーの表情と応答音声に基づいて、3次元擬似ポートレートに対する制御パラメーターを生成する。
この実施方法では、実行主体は表情識別することでユーザーの表情を識別することができる。例えば、喜び、怒り、驚き、恐怖、嫌悪、悲しみなどのさまざまな表情を識別することができる。実行主体は、ユーザーの表情と応答音声に基づいて、3次元擬似ポートレートに対する制御パラメーターを生成することができる。例えば、ユーザーの表情と3次元擬似ポートレートの表情との対応規則、音声と3次元擬似ポートレートの口の形の変化や手足の動きなどとの対応規則などを実行主体に予め設定することができる。このようにして、ユーザー識別情報と応答音声に基づいて、3次元擬似ポートレート駆動のパラメーターを決定することができる。
ステップ204:制御パラメーターと応答音声に基づいて、レンダリングエンジンを通じて3次元擬似ポートレートの映像を生成する。
本実施形態では、実行主体は、ステップ203で生成された制御パラメーターと応答音声をアニメーションエンジンに送信することができる。アニメーションエンジンは、受信した制御パラメーターと応答音声に基づいてリアルタイムで3次元擬似ポートレートの映像(アニメーション)をレンダリングし、レンダリングされたリアルタイム映像を実行主体に送信することができる。ここで、アニメーションエンジンを通じてレンダリングされた3次元擬似ポートレートの映像は、音声を含む映像である。
ステップ205:クライアントがユーザーに提示できるように3次元擬似ポートレートの映像をインスタントコミュニケーションによりクライアントに送信する。
本実施形態では、実行主体は、クライアントがユーザーに提示できるようにステップ204で生成された3次元擬似ポートレートの映像をインスタントコミュニケーションによりクライアントに送信することができる。
引き続き図3を参照すると、図3は、本実施形態による情報を生成するための方法の一適用シナリオの概略図である。図3の適用シナリオでは、サーバー301は、まず、クライアント302がインスタントコミュニケーションを通じて送信したユーザーの映像と音声を受信する。そして、サーバー301は、映像と音声に基づいて、ユーザー識別情報とテキスト応答情報を生成する。さらに、サーバー301は、生成されたユーザー識別情報とテキスト応答情報に基づいて、3次元擬似ポートレートに対する制御パラメーターと応答音声を生成する。その後、サーバー301は、制御パラメーターと応答音声に基づいて、アニメーションエンジンを通じて3次元擬似ポートレートの映像を生成する。最後に、サーバー301は、クライアント302がユーザーに提示できるように3次元擬似ポートレートの映像をインスタントコミュニケーションによりクライアント302に送信することができる。
本開示の上記の実施形態によって提供される方法は、バックエンドサーバーを通じて、クライアントによって収集されたユーザーの映像と音声を分析処理し、ユーザー識別情報とテキスト応答情報を取得し、3次元擬似ポートレートの映像を生成し、3次元擬似ポートレートの映像をクライアントに送信する。これにより、この3次元擬似ポートレートの映像の生成とレンダリング作業がバックエンドサーバーに配置されるため、クライアントへの占用が減少し、クライアントの応答速度が向上する。また、クライアントとバックエンドサーバー間の対話はインスタントコミュニケーションを通じて実現され、クライアントとバックエンドサーバー間のリアルタイムの対話が改善され、クライアントの応答速度がさらに向上する。
さらに図4を参照すると、情報を生成するための方法の別の実施形態のフロー400が示されている。この情報を生成するための方法のプロセス400は、次のステップを含む。
ステップ401:クライアントがインスタントコミュニケーションを通じて送信したユーザーの映像と音声を受信する。
本実施形態では、ステップ401は、図2に示された実施形態のステップ201に似ているため、詳細な説明はここで省略する。
ステップ402:映像を識別してユーザー識別情報を取得し、音声を識別してテキスト情報を取得する。
本実施形態では、実行主体は、ステップ401で受信した映像の映像フレームに対して性別識別、年齢識別、表情識別、姿勢識別、ジェスチャ識別、服装識別などのさまざまな処理を実行することにより、ユーザー識別情報を取得することができる。実行主体はさらに、ステップ401で受信した音声に対して音声識別を実行することにより、音声に対応するテキスト情報を取得することができる。
ステップ403:関連情報を取得する。
本実施形態では、実行主体は関連情報を取得することができる。本明細書の関連情報は、履歴ユーザー識別情報と履歴テキスト情報を含み得る。ここで、履歴ユーザー識別情報と履歴テキスト情報は、クライアントが送信したユーザーの履歴映像と履歴音声に基づいて生成され得る。ここで、ユーザーの履歴映像や履歴音声は、ステップ401で受信したユーザーの映像や音声とコンテキスト関係を有し得る。例えば、同じセッション(Session)のコンテキストに当たる。ここで、ユーザーが使用するクライアントがサーバー(つまり、実行主体)と対話するときにセッションが作成される。
本実施形態のいくつかのオプションの実施方法では、上記の情報を生成するための方法は、ユーザー識別情報とテキスト情報を関連付けて現在のセッションについて設定されたセッション情報のセットに記憶するステップをさらに含み得る。
この実施方法では、実行主体は、ステップ402で取得したユーザー識別情報とテキスト情報を関連付けて、現在のセッションについて設定されたセッション情報のセットに記憶することができる。実際には、クライアントが情報(映像、音声などを含み得る)を実行主体に送信するたびに、実行主体はこの情報にセッション識別子(sessionID)が含まれているかどうかを判断する。含まれていない場合、実行主体はこの情報に対して1つのセッション識別子を生成し、このセッションプロセスで生成されたさまざまな情報と該セッション識別子を関連付けて、セッション情報のセットに記憶する。含まれており、かつ含まれているセッション識別子の有効期限が切れていない場合、情報を記憶したり、情報を取得したりすることなど、このセッション識別子に対応するセッション情報のセットを直接使用することができる。
いくつかのオプションの実施方法では、上記のステップ403は、具体的に次のように実行され得る。セッション情報のセットから関連情報を取得する。
この実施方法では、実行主体は、上記のセッション情報のセットから関連情報を取得することができる。例えば、実行主体は、前記セッション情報のセットにおける最後に記憶された、事前に設定された個数の情報を関連情報として取得することができる。
ステップ404:ユーザー識別情報、テキスト情報、および関連情報に基づいてテキスト応答情報を生成する。
本実施形態では、実行主体は、ユーザー識別情報、テキスト情報、および関連情報に基づいてテキスト応答情報を生成することができる。ここで、実行主体は、実行中のチャットボットにユーザー識別情報、テキスト情報、及び関連情報を送信することができる。このようにして、チャットボットはユーザー識別情報、テキスト情報、および関連情報を包括的に分析することにより、より正確なテキスト応答情報を生成することができる。
ステップ405:ユーザー識別情報とテキスト応答情報に基づいて、3次元擬似ポートレートに対する制御パラメーターと応答音声を生成する。
本実施形態では、ステップ405は、図2に示された実施形態のステップ203に似ているため、詳細な説明はここで省略する。
ステップ406:制御パラメーターと応答音声に基づいて、アニメーションエンジンを通じて前記3次元擬似ポートレートの映像を生成する。
本実施形態では、ステップ406は、図2に示された実施形態のステップ204に似ているため、詳細な説明はここで省略する。
ステップ407:クライアントがユーザーに提示できるように3次元擬似ポートレートの映像をインスタントコミュニケーションによりクライアントに送信する。
本実施形態では、ステップ407は、図2に示された実施形態のステップ205に似ているため、詳細な説明はここで省略する。
図4から分かるように、本実施形態における情報を生成するための方法のフロー400は、図2に対応する実施形態と比較して、「関連情報を取得して、ユーザー識別情報、テキスト情報、および関連情報に基づいてテキスト応答情報を生成する」ステップを強調している。したがって、実施形態で説明された解決手段がユーザー識別情報、テキスト情報、および関連情報を包括的に分析できるため、生成されたテキスト応答情報はより正確になり、ユーザーに対する3次元擬似ポートレートの応答はより正確になり、ユーザーエクスペリエンスは向上する。
さらに図5を参照すると、上記のさまざまな図に示された方法の実施として、本開示は、図2に示された方法の実施形態に対応する情報を生成するための装置の実施形態を提供する。この装置は、さまざまな電子機器に適用できる。
図5に示されるように、本実施形態の情報生成装置500は、受信ユニット501と、第1生成ユニット502と、第2生成ユニット503と、第3生成ユニット504と、送信ユニット505と、を含む。受信ユニット501は、クライアントがインスタントコミュニケーションにより送信したユーザーの映像と音声を受信するように構成されている。第1生成ユニット502は、上記の映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成するように構成されている。第2生成ユニット503は、上記のユーザー識別情報とテキスト応答情報に基づいて、3次元擬似ポートレートに対する制御パラメーターと応答音声を生成するように構成されている。第3生成ユニット504は、上記の制御パラメーターと応答音声に基づいて、アニメーションエンジンを通じて上記の3次元擬似ポートレートの映像を生成するように構成されている。送信ユニット505は、上記のクライアントが上記のユーザーに提示できるように上記の3次元擬似ポートレートの映像をインスタントコミュニケーションにより上記のクライアントに送信するように構成されている。
本実施形態では、情報生成装置500の受信ユニット501、第1生成ユニット502、第2生成ユニット503、第3生成ユニット504、および送信ユニット505の具体的な処理とその技術的効果は、図2に対応する実施形態におけるステップ201、ステップ202、ステップ203、ステップ204、およびステップ205の関連説明を参照することができ、詳細な説明はここで省略する。
本実施形態のいくつかのオプションの実施方法では、上記の第1生成ユニット502は、上記の映像を識別してユーザー識別情報を取得し、上記の音声を識別してテキスト情報を取得するように構成された識別ユニットと、履歴ユーザー識別情報と履歴テキスト情報を含む関連情報を取得するように構成された取得ユニットと、上記のユーザー識別情報、上記のテキスト情報、および上記の関連情報に基づいてテキスト応答情報を生成するように構成された情報生成ユニットと、を含む。
本実施形態のいくつかのオプションの実施方法では、上記の装置500は、上記のユーザー識別情報と上記のテキスト情報を関連付けて、現在のセッションについて設定されたセッション情報のセットに記憶するように構成された記憶ユニット(図示せず)をさらに含む。
本実施形態のいくつかのオプションの実施方法では、上記の取得ユニットはさらに上記のセッション情報のセットから関連情報を取得するように構成されている。
本実施形態のいくつかのオプションの実施方法では、上記のユーザー識別情報はユーザーの表情を含み、上記の第2生成ユニット503はさらに、上記のテキスト応答情報に基づいて応答音声を生成し、上記のユーザーの表情と上記の応答音声に基づいて、3次元擬似ポートレートに対する制御パラメーターを生成するように構成されている。
さらに図6を参照すると、図6は本開示の実施形態の実施に適する電子機器(例えば、図1のサーバー)600の構造概略図を示している。図6に示されるサーバーは単なる一例であり、本開示の実施形態の機能および使用範囲に如何なる制限も課すべきではない。
図6に示されるように、電子機器600は、読み取り専用メモリ(ROM)602に記憶されたプログラムまたは記憶装置608からランダムアクセスメモリ(RAM)603にロードされたプログラムにより、さまざまな適切な動作および処理を実行できる処理装置(例えば、中央処理装置、グラフィックスプロセッサなど)601を含み得る。RAM603には、電子機器600の動作に必要な各種プログラムやデータも記憶されている。処理装置601、ROM602、およびRAM603は、バス604を介して相互に接続されている。入出力(I/O)インターフェース605もバス604に接続されている。
一般的に、I/Oインターフェース605に接続できる装置は、タッチスクリーン、タッチパッド、キーボード、マウス、カメラ、マイク、加速度計、ジャイロスコープなどの入力装置606と、液晶ディスプレイ(LCD)、スピーカー、バイブレーターなどの出力装置607と、磁気テープ、ハードディスクなどの記憶装置608と、通信装置609と、を含む。通信装置609は、電子機器600が他の装置と無線または有線で通信してデータを交換することを可能にする。図6はさまざまな装置を有する電子機器600を示しているが、図示された装置のすべてを実施または有する必要はないことを理解されたい。代替的により多いまたはより少ない装置が実施されてもよい。図6に示される各ブロックは、1つの装置を表すことも、必要に応じて複数の装置を表すこともできる。
特に、本開示の実施形態によると、以上、フローチャートを参照して説明されたプロセスは、コンピューターソフトウェアプログラムとして実施され得る。例えば、本開示の実施形態には、コンピューター可読媒体に記憶されたコンピュータープログラムを含むコンピュータープログラム製品が含まれる。該コンピュータープログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。そのような実施形態では、該コンピュータープログラムは、通信装置609を介してネットワークからダウンロードしてインストールするか、記憶装置608からインストールするか、またはROM602からインストールすることができる。該コンピュータープログラムが処理装置601によって実行されると、本開示の実施形態の方法において定義された上述の機能を実行する。
本開示の実施形態で説明されたコンピューター可読媒体は、コンピューター可読信号媒体、コンピューター可読記憶媒体、またはこれらの2つの任意の組み合わせであり得ることに留意されたい。コンピューター可読記憶媒体は、例えば、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置もしくは装置、または上記の任意の組み合わせであり得るが、これらに限定されない。コンピューター可読記憶媒体のより具体的な例は、1つまたは複数のワイヤを有する電気接続、ポータブルコンピューターディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバー、ポータブルコンパクトディスク読み取り専用メモリ(CD−ROM)、光学記憶装置、磁気記憶装置、または上記の任意の適切な組み合わせを含むが、これらに限定されない。本開示の実施形態では、コンピューター可読記憶媒体は、プログラムを含むまたは記憶する任意の有形の媒体であり得る。該プログラムは、命令実行システム、装置またはデバイスによって、またはそれらに関連して使用されることができる。本開示の実施形態では、コンピューター可読信号媒体はベースバンドで、またはキャリアの一部として伝播されるデータ信号を含み得る。コンピューター可読信号媒体には、コンピューターで読み取り可能なプログラムコードが記憶されている。そのような伝播されるデータ信号は、電磁信号、光信号、または上記の任意の適切な組み合わせを含むがこれらに限定されないさまざまな形態をとることができる。コンピューター可読信号媒体はさらに、命令実行システム、装置、またはデバイスによってまたはそれらに関連して使用されるプログラムを送信、伝播、または伝送できる、コンピューター可読記憶媒体以外の任意のコンピューター可読媒体であり得る。コンピューター可読媒体に記憶されているプログラムコードは、ワイヤ、光ファイバーケーブル、RF(無線周波数)など、または上記の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体によって送信され得る。
上記のコンピューター可読媒体は、上記の電子機器に含まれていてもよく、別個に存在して、該電子機器に組み込まれていなくてもよい。上記のコンピューター可読媒体には、1つまたは複数のプログラムが記憶されており、上記の1つまたは複数のプログラムが電子機器によって実行されると、該電子機器は、クライアントがインスタントコミュニケーションを通じて送信したユーザーの映像と音声を受信し、上記の映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成し、上記のユーザー識別情報とテキスト応答情報に基づいて、3次元擬似ポートレートに対する制御パラメーターと応答音声を生成し、上記の制御パラメーターと応答音声に基づいて、アニメーションエンジンを通じて上記の3次元擬似ポートレートの映像を生成し、上記のクライアントが上記のユーザーに提示できるように上記の3次元擬似ポートレートの映像をインスタントコミュニケーションにより上記のクライアントに送信する。
本開示の実施形態の動作を実行するためのコンピュータープログラムコードは、1つまたは複数のプログラミング言語、またはそれらの組み合わせで書くことができる。プログラミング言語は、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語や、「C」言語または類似するプログラミング言語などの従来の手続き型プログラミング言語を含む。プログラムコードは、完全にユーザーのコンピューター上で実行されることも、部分的にユーザーのコンピューター上で実行されることも、スタンドアロンソフトウェアパッケージとして実行されることも、部分的にユーザーのコンピューター上で実行されながら部分的にリモートコンピューター上で実行されることも、または完全にリモートコンピューターまたはサーバー上で実行されることもできる。リモートコンピューターの場合、リモートコンピューターは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザーのコンピューターに接続されることができる。または、外部のコンピューターに接続されることができる(例えば、インターネットサービスプロバイダーによるインターネット経由で接続される)。
図に示されるフローチャートおよびブロック図は、本出願のさまざまな実施形態に係るシステム、方法、およびコンピュータープログラム製品の実施可能なアーキテクチャ、機能、および動作を示している。ここで、フローチャートまたはブロック図における各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。該モジュール、プログラムセグメント、またはコードの一部は、指定されたロジック関数を実施するための1つまたは複数の実行可能な命令を含む。また、いくつかの代替的な実施形態では、ブロックに記載されている機能は、図面に示されているものとは異なる順序で発生する場合があることにも留意されたい。例えば、連続して表されている2つのブロックは、実際にほぼ並行して実行されてもよく、時には逆の順序で実行されてもよい。これは関連する機能によって決まる。また、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定された機能または動作を実行する専用のハードウェアベースのシステムで実施できることや、専用のハードウェアとコンピューターの命令の組み合わせで実施できることにも留意されたい。
本出願の実施形態において説明されたユニットは、ソフトウェアまたはハードウェアによって実施され得る。説明されたユニットはプロセッサに内蔵されてもよい。例えば、「受信ユニットと、第1生成ユニットと、第2生成ユニットと、第3生成ユニットと、送信ユニットと、を含むプロセッサ」と説明されることができる。ここで、これらのユニットの名称は、ユニット自体に対する制限を構成しない場合がある。例えば、受信ユニットは、「クライアントがインスタントコミュニケーションを通じて送信したユーザーの映像と音声を受信するユニット」と説明されることもできる。
上記の説明は、あくまでも本出願の好ましい実施形態および応用技術原理の説明にすぎない。本出願に係る発明の範囲は、上記の技術的特徴の特定の組み合わせによって形成された技術的解決手段に限定されず、上記の発明の構想から逸脱しない範囲で上記の技術的特徴またはその同等の技術的特徴の任意の組み合わせによって形成されたその他の技術的解決手段、例えば、上記の特徴と本出願に開示された同様の機能を有する技術的特徴(それらに限定されない)とが相互に代替することによって形成された技術的解決手段もカバーしていることを当業者は理解すべきである。

Claims (13)

  1. クライアントによってインスタントコミュニケーションを通じて送信されたユーザーの映像と音声を受信するステップと、
    前記映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成するステップと、
    前記ユーザー識別情報とテキスト応答情報に基づいて、3次元擬似ポートレートに対する制御パラメーターと応答音声を生成するステップと、
    前記制御パラメーターと応答音声に基づいて、アニメーションエンジンを通じて前記3次元擬似ポートレートの映像を生成するステップと、
    前記クライアントが前記ユーザーに提示できるように前記3次元擬似ポートレートの映像をインスタントコミュニケーションにより前記クライアントに送信するステップと、を含む情報を生成するための方法。
  2. 前記映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成するステップは、
    前記映像を識別してユーザー識別情報を取得し、前記音声を識別してテキスト情報を取得することと、
    履歴ユーザー識別情報と履歴テキスト情報を含む関連情報を取得することと、
    前記ユーザー識別情報、前記テキスト情報および前記関連情報に基づいてテキスト応答情報を生成することと、を含む請求項1に記載の方法。
  3. 前記方法は、前記ユーザー識別情報と前記テキスト情報を関連付けて、現在のセッションについて設定されたセッション情報のセットに記憶するステップをさらに含む請求項2に記載の方法。
  4. 前記関連情報を取得することは、前記セッション情報のセットから関連情報を取得することを含む請求項3に記載の方法。
  5. 前記ユーザー識別情報は、ユーザーの表情を含み、
    前記ユーザー識別情報とテキスト応答情報に基づいて、3次元擬似ポートレートに対する制御パラメーターと応答音声を生成するステップは、
    前記テキスト応答情報に基づいて応答音声を生成することと、
    前記ユーザーの表情と前記応答音声に基づいて3次元擬似ポートレートに対する制御パラメーターを生成することと、を含む請求項1に記載の方法。
  6. クライアントによってインスタントコミュニケーションを通じて送信されたユーザーの映像と音声を受信するように構成された受信ユニットと、
    前記映像と音声に基づいてユーザー識別情報とテキスト応答情報を生成するように構成された第1生成ユニットと、
    前記ユーザー識別情報とテキスト応答情報に基づいて、3次元擬似ポートレートに対する制御パラメーターと応答音声を生成するように構成された第2生成ユニットと、
    前記制御パラメーターと応答音声に基づいて、アニメーションエンジンを通じて前記3次元擬似ポートレートの映像を生成するように構成された第3生成ユニットと、
    前記クライアントが前記ユーザーに提示できるように前記3次元擬似ポートレートの映像をインスタントコミュニケーションにより前記クライアントに送信するように構成された送信ユニットと、を含む情報を生成するための装置。
  7. 前記第1生成ユニットは、
    前記映像を識別してユーザー識別情報を取得し、前記音声を識別してテキスト情報を取得するように構成された識別ユニットと、
    履歴ユーザー識別情報と履歴テキスト情報を含む関連情報を取得するように構成された取得ユニットと、
    前記ユーザー識別情報、前記テキスト情報および前記関連情報に基づいてテキスト応答情報を生成するように構成された情報生成ユニットと、を含む請求項6に記載の装置。
  8. 前記装置は、前記ユーザー識別情報と前記テキスト情報を関連付けて、現在のセッションについて設定されたセッション情報のセットに記憶するように構成された記憶ユニットをさらに含む請求項7に記載の装置。
  9. 前記取得ユニットはさらに前記セッション情報のセットから関連情報を取得するように構成されている請求項に記載の装置。
  10. 前記ユーザー識別情報はユーザーの表情を含み、
    前記第2生成ユニットはさらに、
    前記テキスト応答情報に基づいて応答音声を生成し、
    前記ユーザーの表情と前記応答音声に基づいて、3次元擬似ポートレートに対する制御パラメーターを生成するように構成されている請求項6に記載の装置。
  11. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムが格納されている記憶装置と、を含み、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1〜5のいずれか1項に記載の方法を実施させるサーバー。
  12. コンピュータープログラムが格納されているコンピューター可読媒体であって、前記コンピュータープログラムがプロセッサによって実行されると、請求項1〜5のいずれか1項に記載の方法を実施するコンピューター可読媒体。
  13. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜5のいずれか1項に記載の方法を実現する、コンピュータプログラム。
JP2019230878A 2019-06-28 2019-12-20 情報を生成するための方法および装置 Active JP6949931B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910573596.7 2019-06-28
CN201910573596.7A CN110288683B (zh) 2019-06-28 2019-06-28 用于生成信息的方法和装置

Publications (2)

Publication Number Publication Date
JP2021009670A JP2021009670A (ja) 2021-01-28
JP6949931B2 true JP6949931B2 (ja) 2021-10-13

Family

ID=68020013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019230878A Active JP6949931B2 (ja) 2019-06-28 2019-12-20 情報を生成するための方法および装置

Country Status (4)

Country Link
US (1) US20200412773A1 (ja)
JP (1) JP6949931B2 (ja)
KR (1) KR20210001856A (ja)
CN (1) CN110288683B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114268599A (zh) * 2021-12-21 2022-04-01 北京青云科技股份有限公司 即时通信连接的建立与即时通信方法、装置、设备及介质
CN115187727B (zh) * 2022-06-29 2023-06-13 北京百度网讯科技有限公司 一种虚拟面部图像的生成方法、装置、设备及存储介质
CN115225829A (zh) * 2022-07-14 2022-10-21 北京京东尚科信息技术有限公司 一种视频生成方法及装置、计算机可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10445115B2 (en) * 2013-04-18 2019-10-15 Verint Americas Inc. Virtual assistant focused user interfaces
CN104461525B (zh) * 2014-11-27 2018-01-23 韩慧健 一种可自定义的智能咨询平台生成***
CN104681023A (zh) * 2015-02-15 2015-06-03 联想(北京)有限公司 一种信息处理方法及电子设备
US11373100B2 (en) * 2016-11-29 2022-06-28 Microsoft Technology Licensing, Llc Using various artificial intelligence entities as advertising media
US20180342095A1 (en) * 2017-03-16 2018-11-29 Motional LLC System and method for generating virtual characters
WO2019060889A1 (en) * 2017-09-25 2019-03-28 Ventana 3D, Llc ARTIFICIAL INTELLIGENCE (IA) CHARACTER SYSTEM CAPABLE OF NATURAL VERBAL AND VISUAL INTERACTIONS WITH A HUMAN BEING
CN108573053B (zh) * 2018-04-24 2021-11-30 百度在线网络技术(北京)有限公司 信息推送方法、装置和***

Also Published As

Publication number Publication date
US20200412773A1 (en) 2020-12-31
CN110288683B (zh) 2024-05-28
CN110288683A (zh) 2019-09-27
KR20210001856A (ko) 2021-01-06
JP2021009670A (ja) 2021-01-28

Similar Documents

Publication Publication Date Title
JP7104683B2 (ja) 情報を生成する方法および装置
US11158102B2 (en) Method and apparatus for processing information
US11308671B2 (en) Method and apparatus for controlling mouth shape changes of three-dimensional virtual portrait
JP7208952B2 (ja) 対話モデルを生成するための方法及び装置
JP7225188B2 (ja) ビデオを生成する方法および装置
JP6949931B2 (ja) 情報を生成するための方法および装置
JP6971292B2 (ja) 段落と映像を整列させるための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラム
WO2022170848A1 (zh) 人机交互方法、装置、***、电子设备以及计算机介质
CN112364144B (zh) 交互方法、装置、设备和计算机可读介质
CN114581980A (zh) 用于生成说话人像视频和训练人脸渲染模型的方法、装置
CN113850898A (zh) 场景渲染方法及装置、存储介质及电子设备
CN117632109A (zh) 虚拟数字助手构建方法、装置、电子设备以及存储介质
CN111312243B (zh) 设备交互方法和装置
CN115222857A (zh) 生成虚拟形象的方法、装置、电子设备和计算机可读介质
CN109840072A (zh) 信息处理方法和装置
CN115022328A (zh) 服务器集群以及服务器集群的测试方法、装置和电子设备
Huang et al. Toward a Universal Platform for Integrating Embodied Conversational Agent Components
CN115393476A (zh) 有声表情的生成方法、装置和设备
CN116245974A (zh) 基于语音的绘制方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200217

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210824

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210922

R150 Certificate of patent or registration of utility model

Ref document number: 6949931

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150