JP2022530726A

JP2022530726A - インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体

Info

Publication number: JP2022530726A
Application number: JP2021529000A
Authority: JP
Inventors: 文岩 ▲呉▼; 潜溢 ▲呉▼; 晨 ▲錢▼; 宇欣王
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-03-31
Filing date: 2020-11-18
Publication date: 2022-07-01
Also published as: CN113672194A; TW202139052A; CN111459454A; CN111459454B; WO2021196646A1; KR20210124182A

Abstract

本発明は、インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体を開示し、前記方法は、音声セグメントに含まれている音声フレームのシーケンスを取得することと、前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも１つの局所エリアの制御パラメータを取得することと、取得した前記制御パラメータに基づいて前記インタラクティブ対象の少なくとも１つの局所エリアの姿態を制御することと、を含む。【選択図】図２

Description

＜関連出願の互いに引用＞
本発明は、出願日が２０２０年３月３１日であり、出願番号が２０２０１０２４７２７６５である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照として本願に組み入れられる。
本発明は、コンピュータ技術の分野に関し、具体的には、インタラクティブ対象駆動方法、装置、デバイス、及び記録媒体に関する。

ヒューマンコンピュータインタラクションは、主にキーストローク、タッチ、音声入力によって、表示スクリーンに画像、テキスト、または、仮想人物を現わして応答を行う。現在、仮想人物は、主に音声アシスタントを基に改良して得られたものである。

本発明の実施例は、インタラクティブ対象駆動の解決策を提供する。

本発明の１態様によると、インタラクティブ対象駆動方法を提供し、前記方法は、音声セグメントに含まれている音声フレームのシーケンスを取得することと、前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも１つの局所エリアの制御パラメータを取得することと、取得した前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御することと、を含む。

本発明によって提供される任意の実施形態に結合すると、前記方法は、前記音声セグメントに基づいて、前記インタラクティブ対象を展示する表示デバイスが、音声出力および／またはテキスト展示を実行するように、制御することをさらに含む。

本発明によって提供される任意の実施形態に結合すると、前記インタラクティブ対象の局所エリアの制御パラメータは、前記局所エリアの姿態制御ベクトルを含み、前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも１つの局所エリアの制御パラメータを取得することは、前記音声フレームのシーケンスに対応する第１音響特徴シーケンスを取得することと、前記第１音響特徴シーケンスに基づいて、少なくとも１つの音声フレームに対応する音響特徴を取得することと、前記音響特徴に対応する前記インタラクティブ対象の少なくとも１つの局所エリアの姿態制御ベクトルを取得することと、を含む。

本発明によって提供される任意の実施形態に結合すると、前記第１音響特徴シーケンスは、前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含み、前記第１音響特徴シーケンスに基づいて、少なくとも１つの音声フレームに対応する音響特徴を取得することは、所定の長さの時間ウィンドウおよび所定の歩幅で、前記第１音響特徴シーケンスに対してスライディングウィンドウを実行して、前記時間ウィンドウ内の音響特徴ベクトルを対応する前記少なくとも１つの音声フレームの音響特徴として設定し、前記スライディングウィンドウが完成されて得られた複数の前記音響特徴に基づいて、第２音響特徴シーケンスを得ることを含む。

本発明によって提供される任意の実施形態に結合すると、前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御することは、前記第２音響特徴シーケンスに対応する姿態制御ベクトルのシーケンスを取得することと、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御することと、を含む。

本発明によって提供される任意の実施形態に結合すると、前記音響特徴に対応する前記インタラクティブ対象の少なくとも１つの局所エリアの姿態制御ベクトルを取得することは、前記音響特徴を事前にトレーニングされたリカレントニューラルネットワークに入力して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも１つの局所エリアの前記姿態制御ベクトルを得ることを含む。

本発明によって提供される任意の実施形態に結合すると、前記リカレントニューラルネットワークは、音響特徴サンプルを利用してトレーニングして得られたものであり、前記方法は、音響特徴サンプルを取得することをさらに含み、具体的には、１つのキャラクターが音声を出すビデオセグメントを取得し、前記ビデオセグメントから該当する音声セグメントを抽出し、前記ビデオセグメントに対してサンプリングを実行して前記キャラクターを含む複数の第１画像フレームを取得し、前記音声セグメントに対してサンプリングを実行して、複数の音声フレームを得ることと、前記第１画像フレームに対応する前記音声フレームの音響特徴を取得することと、前記第１画像フレームを前記インタラクティブ対象を含む第２画像フレームに変換し、前記第２画像フレームに対応する少なくとも１つの局所エリアの姿態制御ベクトル値を取得することと、前記姿態制御ベクトル値に対して、前記第１画像フレームに対応する前記音響特徴に対してラベリングを行って、前記音響特徴サンプルを得ることと、を含む。

本発明によって提供される任意の実施形態に結合すると、前記方法は、前記音響特徴サンプルに基づいて初期リカレントニューラルネットワークに対してトレーニングを実行して、ネットワーク損失の変化が収束条件を満たした後に前記リカレントニューラルネットワークをトレーニングして得ることをさらに含み、ここで、前記ネットワーク損失は、前記リカレントニューラルネットワークによって予測して得られた前記少なくとも１つの局所エリアの前記姿態制御ベクトル値とラベリングした前記姿態制御ベクトル値との間の差異を含む。

本発明の１態様によると、インタラクティブ対象駆動装置を提供し、前記装置は、音声セグメントに含まれている音声フレームのシーケンスを取得するための第１取得ユニットと、前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも１つの局所エリアの制御パラメータを取得するための第２取得ユニットと、取得した前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニットと、を備える。

本発明の１態様によると、電子デバイスを提供し、前記デバイスは、メモリとプロセッサとを備え、前記メモリには、プロセッサによって運行可能なコンピュータ命令が記憶されており、前記プロセッサは、前記コンピュータ命令が実行されると、本発明によって提供される任意の実施形態に記載のインタラクティブ対象駆動方法を実現する。

本発明の１態様によると、コンピュータプログラムが記憶されているコンピュータ可読記録媒体を提供し、前記コンピュータプログラムプログラムがプロセッサによって実行されると、本発明によって提供される任意の実施形態に記載のインタラクティブ対象駆動方法が実現される。

本発明の１つまたは複数の実施例のインタラクティブ対象駆動方法、装置、デバイス、および、コンピュータ可読記録媒体によると、音声セグメントに含まれている音声フレームのシーケンスを取得し、音声フレームのシーケンスに基づいてインタラクティブ対象の少なくとも１つの局所エリアの制御パラメータ値を確定して、前記インタラクティブ対象の姿態を制御することによって、前記インタラクティブ対象が前記音声セグメントにマッチングされる姿態をとるようにし、目標対象がインタラクティブ対象と交流していると感じるようにして、目標対象のインタラクティブ対象とのインタラクティブ体験を向上させた。

以下、本発明の１つまたは複数の実施例または先行技術での技術的解決策をより明確に説明するために、実施例または先行技術の記述で使用する必要がある図面を簡単に紹介する。以下の記述中の図面は、本発明の１つまたは複数の実施例に記載のいくつかの実施例に過ぎず、当業者にとって創造的な作業なしでこれら図面に基づいてその他の図面をさらに得ることができることは、明らかである。
本発明の少なくとも１つの実施例によって提供されるインタラクティブ対象駆動方法中の表示デバイスの模式図である。本発明の少なくとも１つの実施例によって提供されるインタラクティブ対象駆動方法のフローチャートである。本発明の少なくとも１つの実施例によって提供される音声フレームのシーケンスに対して特徴コーディングを行う過程の模式図である。本発明の少なくとも１つの実施例によって提供されるインタラクティブ対象駆動装置の構成の模式図である。本発明の少なくとも１つの実施例によって提供される電子デバイスの構成を示す模式図である。

ここで例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明が図面を言及している場合、特に明記しない限り、異なる図面における同一の数字は、同一または類似な要素を示す。以下の例示的な実施例で叙述される実施形態は、本発明と一致するすべての実施形態を代表しない。逆に、それらは、添付された特許請求の範囲に記載された、本発明のいくつかの態様と一致する装置及び方法の例に過ぎない。

本明細書中の「および／または」という用語は、ただ、関連オブジェクトの関連関係を叙述し、例えば、Ａおよび／またはＢは、Ａが単独的に存在すること、ＡとＢが同時に存在すること、および、Ｂが単独的に存在することのような、３種の関係が存在することができることを意味する。また、本明細書中の「少なくとも１種」という用語は、複数種の中の任意の１種、または、複数種の中の少なくとも２種の任意の組み合わせを意味し、例えば、Ａ、Ｂ、Ｃの中の少なくとも１種を含むことは、Ａ、Ｂ、および、Ｃから構成されたセットの中から選択した任意１つまたは複数の要素を意味する。

本発明の少なくとも１つの実施例は、インタラクティブ対象駆動方法を提供し、前記駆動方法は、端末デバイスまたはサーバなどの電子デバイスによって実行され得る。前記端末デバイスは、固定端末または移動端末であり得、たとえば、携帯電話、タブレットコンピュータ、ゲームコンソール、デスクトップコンピュータ、広告機、オールインワン器、車載端末などである。前記サーバは、ローカルサーバまたはクラウドサーバなどを含み、前記方法は、さらに、プロセッサによってメモリに記憶されているコンピュータ可読命令を呼び出す方式によって実現され得る。

本発明の実施例において、インタラクティブ対象は、目標対象とインタラクティブを行うことができる任意の仮想キャラクターであり得る。１実施例において、インタラクティブ対象は、仮想人物であり、さらに、仮想動物、仮想物品、漫画キャラクターなどの、インタラクティブ機能を実現できる他の仮想キャラクターであり得る。インタラクティブ対象の表示形式は、２Ｄまたは３Ｄであるが、本発明はこれに対して限定しない。前記目標対象は、ユーザ、ロボット、またはその他のスマートデバイスであり得る。前記インタラクティブ対象の前記目標対象とのインタラクティブ方式は、能動的インタラクティブ方式または受動的インタラクティブ方式であり得る。１例において、目標対象により、ジェスチャまたは肢体動作を行うことによって要求を発して、能動的インタラクティブ方式によってインタラクティブ対象をトリガしてインタラクティブを行うことができる。もう１例において、インタラクティブ対象により、能動的に挨拶して、目標対象が動作などを行うようにプロンプトする方式によって、目標対象が受動的方式によってインタラクティブ対象とインタラクティブを行うようにすることができる。

前記インタラクティブ対象は、端末デバイスを利用して展示することができ、前記端末デバイスは、テレビ、表示機能を有するオールインワン器、プロジェクター、仮想現実（ＶｉｒｔｕａｌＲｅａｌｉｔｙ、ＶＲ）デバイス、拡張現実（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ、ＡＲ）デバイスなどであり得、本発明は端末デバイスの具体的な形態に対して限定しない。

図１は、本発明の少なくとも１つの実施例によって提供される表示デバイスを示す。図１に示したように、当該表示デバイスは、透明表示スクリーンを有し、透明表示スクリーンに立体画像を表示することによって、立体効果を有する仮想シーンおよびインタラクティブ対象を現わすことができる。たとえば、図１の透明表示スクリーンに表示されたインタラクティブ対象は、仮想漫画人物を含む。いくつかの実施例において、本発明に記載の端末デバイスは、上記の透明表示スクリーンを有する表示デバイスであってもよく、表示デバイスに、メモリとプロセッサと配置されており、メモリに、プロセッサによって運行可能なコンピュータ命令が記憶されており、前記プロセッサにより、前記コンピュータ命令が実行されるときに本発明によって提供されるインタラクティブ対象駆動方法を実現することによって、透明表示スクリーンに表示されたインタラクティブ対象を駆動して目標対象と交流または応答を行うようにすることができる。

いくつかの実施例において、インタラクティブ対象が音声を出力するように駆動するための音声駆動データに応答して、インタラクティブ対象は、目標対象に対して指定された音声を発することができる。端末デバイスは、端末デバイスの周辺の目標対象の動作、表情、身分、好みなどに基づいて、音声駆動データを生成することによって、インタラクティブ対象が指定された音声を発して交流または応答を行うように駆動することで、目標対象に対して擬人化サービスを提供することができる。音声駆動データは、その他の方式によって生成されてもよく、たとえば、サーバによって生成して端末デバイスに送信してもよいことを説明する必要がある。

インタラクティブ対象が目標対象とインタラクティブを行う過程において、当該音声駆動データに基づいてインタラクティブ対象が指定された音声を発するように駆動するときに、前記インタラクティブ対象が当該指定された音声と同期化された顔部の動作を行うように駆動することができなく、インタラクティブ対象が音声を発するときに鈍く不自然になり、目標対象のインタラクティブ対象とのインタラクティブ体験に影響を与える可能性がある。これに基づいて、本発明の少なくとも１つの実施例は、インタラクティブ対象駆動方法を提出して、目標対象のインタラクティブ対象とのインタラクティブの体験を向上させる。

図２は、本発明の少なくとも１つの実施例に係るインタラクティブ対象駆動方法を示すフローチャートであり、図２に示したように、前記方法は、ステップ２０１～ステップ２０３を含む。

ステップ２０１において、音声セグメントに含まれている音声フレームのシーケンスを取得する。

前記音声セグメントは、前記インタラクティブ対象の音声駆動データに対応する音声セグメントであり得、前記音声駆動データは、オーディオデータ（音声データ）、テキストなどを含み得る。前記音声駆動データは、サーバまたは端末デバイスによりインタラクティブ対象とインタラクティブを行う目標対象の動作、表情、身分、好みなどに基づいて生成した駆動データであってもよいし、端末デバイスにより内部メモリから呼び出した音声駆動データであってもよい。本発明は、当該音声駆動データの取得方式に対して限定しない。

本発明の実施例において、前記音声セグメントに対して周波数分割処理を実行して、前記音声セグメントに含まれている音声フレームのシーケンスを得ることができる。前記音声セグメントに対して周波数分割処理を実行することは、前記音声セグメントを複数の音声フレームに分割し、各音声フレームを時間順に配列して音声フレームのシーケンスを形成することであり得る。周波数分割処理を実行して得られた音声フレームに含まれているサンプリング点数（持続時間）、および、フレームシフト（フレーム間のオーバーラップ程度）は、インタラクティブ対象に対する駆動要求によって決定されることができ、本発明は、これに対して限定しない。

図３は、本発明の少なくとも１つの実施例によって提供されるインタラクティブ対象駆動方法を示す模式図である。音声セグメント信号に対してセグメント分割／周波数分割処理を行って得られた音声フレームのシーケンスは、図３に示すようである。

ステップ２０２において、前記音声フレームのシーケンスに対応する、インタラクティブ対象の少なくとも１つの局所エリアの制御パラメータ値を、取得する。

前記局所エリアは、インタラクティブ対象の全体（顔部および／または体を含む）を分割することによって得られる。顔部の１つまたは複数の局所エリアの制御は、インタラクティブ対象の一連の顔部の表情または動作に対応され、たとえば、目部エリアの制御は、インタラクティブ対象の開眼、閉眼、まばたき、視角変換などの顔部の動作に対応され得、また、たとえば口部エリアの制御は、インタラクティブ対象の閉口、異なる程度の開口などの顔部の動作に対応され得る。体の１つまたは複数の局所エリアの制御は、インタラクティブ対象の一連の肢体動作に対応され得、たとえば、腿部エリアの制御は、インタラクティブ対象の歩行、ジャンプ、蹴りなどの動作に対応され得る。

前記インタラクティブ対象の局所エリアの制御パラメータは、前記局所エリアの姿態制御ベクトルを含む。各局所エリアの姿態制御ベクトルは、前記インタラクティブ対象の前記局所エリアが動作を行うように駆動するために用いられる。異なる姿態制御ベクトル値は、異なる動作または動作度合いに対応される。たとえば、口部エリアの姿態制御ベクトルの場合、その１組の姿態制御ベクトル値は、前記インタラクティブ対象の口部がわずかに開けるようにすることができ、もう１組の姿態制御ベクトル値は、前記インタラクティブ対象の口部がより広く開けるようにすることができる。異なる姿態制御ベクトル値に基づいて前記インタラクティブ対象を駆動することによって、該当する局所エリアが異なる動作または異なる度合いの動作を行うように駆動することができる。

局所エリアは、制御する必要があるインタラクティブ対象の動作に基づいて選択することができ、たとえば前記インタラクティブ対象の顔部と肢体とが同時に動作を行うように制御する必要がある場合、すべての局所エリアの姿態制御ベクトルを取得することができ、前記インタラクティブ対象の表情を制御する必要がある場合、前記顔部に対応する局所エリアの姿態制御ベクトルを取得することができる。

本発明の実施例において、前記音声フレームのシーケンスの音響特徴に基づいて、インタラクティブ対象の少なくとも１つの局所エリアの制御パラメータ値を確定してもよいし、前記音声フレームのシーケンスのその他の特徴に基づいて制御パラメータ値を確定してもよい。

本発明の実施例において、音声フレームのシーケンスの一部の特徴とインタラクティブ対象の制御パラメータ値との間の対応関係を予め構築することができ、前記音声フレームのシーケンスを得た場合、対応する制御パラメータ値を得ることができる。前記音声フレームのシーケンスとマッチングされる前記インタラクティブ対象の制御パラメータ値を取得する具体的な方法は、後続で詳細に説明する。

ステップ２０３において、取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御する。

ここで、姿態制御ベクトル値などの前記制御パラメータ値は、前記音声セグメントに含まれている音声フレームのシーケンスとマッチングされる。たとえば、前記インタラクティブ対象を展示する表示デバイスが現在前記音声セグメントを出力している場合、または、現在前記音声セグメントに該当するテキストを展示している場合、インタラクティブ対象が行う姿態は、出力する音声および／または展示するテキストと同期化されており、したがって、目標対象に、前記インタラクティブ対象が現在話しているような感覚を与える。

本発明の実施例において、音声セグメントに含まれている音声フレームのシーケンスを取得し、音声フレームのシーケンスに基づいてインタラクティブ対象の少なくとも１つの局所エリアの制御パラメータ値を確定して、前記インタラクティブ対象の姿態を制御することによって、前記インタラクティブ対象が前記音声セグメントにマッチングされる姿態をとるようにし、目標対象がインタラクティブ対象と交流していると感じるようにして、目標対象のインタラクティブ体験を向上させた。

いくつかの実施例において、前記方法は、ローカルサーバまたはクラウドサーバなどを含むサーバに適用され、前記サーバは、音声セグメントを処理して、前記インタラクティブ対象の制御パラメータ値を生成し、前記制御パラメータ値に基づいて３次元レンダリングエンジンを利用してレンダリングして、前記インタラクティブ対象の動画を得る。前記サーバは、前記動画を端末に送信して展示することによって、目標対象に対して交流または応答を行うことができ、さらに、前記動画をクラウドに送信することによって、端末がクラウドから前記動画を取得して、目標対象に対して交流または応答を行うようにすることができる。サーバは、前記インタラクティブ対象の制御パラメータ値を生成した後に、さらに、前記制御パラメータ値を端末に送信することによって、端末が、レンダリング、動画の生成、および、展示の過程を実行するようにする。

いくつかの実施例において、前記方法は、端末に適用され、前記端末は、音声セグメントを処理して、前記インタラクティブ対象の制御パラメータ値を生成し、前記制御パラメータ値に基づいて３次元レンダリングエンジンを利用してレンダリングして、前記インタラクティブ対象の動画を得ることができる。前記端末は、前記動画を展示して目標対象に対して交流または応答を行うことができる。

いくつかの実施例において、前記音声セグメントに基づいて、前記インタラクティブ対象を展示する表示デバイスが、音声出力および／またはテキスト展示を実行するように、制御することができる。また、音声出力および／またはテキスト展示を実行する同時に、前記制御パラメータ値に基づいて前記表示デバイス展示された前記インタラクティブ対象の姿態を制御することができる。

本発明の実施例において、前記制御パラメータ値が前記音声セグメントの音声フレームのシーケンスとマッチングされるため、前記音声セグメントに基づいて出力する音声および／またはテキストと、前記制御パラメータ値に基づいて制御するインタラクティブ対象の姿態とが、同期に行われる場合、インタラクティブ対象が行う姿態と出力する音声および／または展示するテキストとが、同期化され、目標対象に、前記インタラクティブ対象が現在話しているような感覚を与える。

いくつかの実施例において、前記インタラクティブ対象の少なくとも１つの局所エリアの制御パラメータが姿態制御ベクトルを含む場合、以下の方式によって姿態制御ベクトルを得ることができる。

まず、前記音声フレームのシーケンスに対応する音響特徴シーケンスを取得する。ここで、後続で言及される音響特徴シーケンスと区分するために、前記音声フレームのシーケンスに対応する音響特徴シーケンスを第１音響特徴シーケンスと呼ぶ。

本発明の実施例において、音響特徴は、音声感情に関連する特徴であり得、たとえば基本周波数特徴、共通ピーク特徴、メル周波数ケプストラム係数（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｆｆｉｃｉｅｎｔ、ＭＦＣＣ）などであり得る。

前記第１音響特徴シーケンスは、音声フレームのシーケンスの全体に対して処理をおこなって得られたものであり、ＭＦＣＣ特徴の例を挙げると、前記音声フレームのシーケンス中の各音声フレームに対して、ウィンドウ処理、高速フーリエ変換、フィルタリング、対数処理、および離散コサイン処理を実行することによって、各音声フレームに対応するＭＦＣＣ係数を得ることができる。

前記第１音響特徴シーケンスは、音声フレームのシーケンスの全体に対して処理を行って得られたものであるため、音声セグメントの全体の音響特徴を反映した。

本発明の実施例において、前記第１音響特徴シーケンスは、前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含む。ＭＦＣＣの例を挙げると、前記第１音響特徴シーケンスは、各音声フレームのＭＦＣＣ係数を含む。前記音声フレームのシーケンスに基づいて得られた第１音響特徴シーケンスは、図３に示したようである。

次に、前記第１音響特徴シーケンスに基づいて、少なくとも１つの音声フレームに対応する音響特徴を取得する。

前記第１音響特徴シーケンスが前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含む場合、前記少なくとも１つの音声フレームに対応する同じ数の特徴ベクトルを前記音声フレームの音響特徴とすることができる。ここで、上記の同じ数の特徴ベクトルは、１つの特徴行列を形成することができ、当該特徴行列が前記少なくとも１つの音声フレームに対応する音響特徴である。

図３を例とすると、前記第１音響特徴シーケンス中のＮ個の特徴ベクトルは、対応するＮ個の音声フレームの音響特徴を形成し、ここで、Ｎは正の整数である。前記第１音響特徴シーケンスは、複数の音響特徴を含み得、各前記音響特徴に対応する音声フレーム同士の間は、部分的に重複されてもよい。

最後に、前記音響特徴に対応する前記インタラクティブ対象の少なくとも１つの局所エリアの姿態制御ベクトルを取得する。

得られた少なくとも１つの音声フレームに対応する音響特徴に基づいて、少なくとも１つの局所エリアの姿態制御ベクトルを取得することができる。局所エリアは、制御する必要があるインタラクティブ対象の動作に基づいて選択することができ、たとえば前記インタラクティブ対象の顔部と肢体とが同時に動作を行うように制御する必要がある場合、すべての局所エリアの姿態制御ベクトルを取得することができ、前記インタラクティブ対象の表情を制御する必要がある場合、前記顔部に対応する局所エリアの姿態制御ベクトルを取得することができる。

音声セグメントを再生する同時に、前記第１音響特徴シーケンスによって得られた各音響特徴に対応する姿態制御ベクトルに基づいて前記インタラクティブ対象が動作を行うように駆動することによって、端末デバイスを利用して音声を出力する同時に、インタラクティブ対象が出力する音声にマッチングされる動作を行うようにすることができる。当該動作は、顔部の動作、表情、および、肢体動作などを含み、したがって、目標対象に、インタラクティブ対象が現在話しているような感覚を与える。また、前記姿態制御ベクトルが出力される音声の音響特徴に関連されるため、前記姿態制御ベクトルに基づいて駆動することによって、インタラクティブ対象の表情と肢体動作に感情的な要素を持たせることができ、インタラクティブ対象が話している過程がより自然で鮮やかにし、目標対象の前記インタラクティブ対象とのインタラクティブ体験を向上させた。

いくつかの実施例において、前記第１音響特徴シーケンス上でスライディングウィンドウを実行する方式によって、前記少なくとも１つの音声フレームに対応する音響特徴を取得することができる。

所定の長さの時間ウィンドウおよび所定の歩幅で、前記第１音響特徴シーケンスに対してスライディングウィンドウを実行して、前記時間ウィンドウ内の音響特徴ベクトルを対応する同じ数の音声フレームの音響特徴とすることによって、これら音声フレームに共同に対応する音響特徴を得ることができる。スライディングウィンドウが完了された後に得られた複数の音響特徴に基づいて、第２音響特徴シーケンスを得ることができる。

図３に示したインタラクティブ対象駆動方法の例を挙げると、前記音声フレームのシーケンスは毎秒１００個の音声フレームを含み、前記時間ウィンドウの長さは１ｓであり、歩幅は０.０４ｓである。前記第１音響特徴シーケンス中の各特徴ベクトルが音声フレームに対応するので、これに応じて、前記第１音響特徴シーケンスも同様に毎秒１００個の特徴ベクトルを含むことになる。前記第１音響特徴シーケンス上でスライディングウィンドウを実行する過程において、毎回前記時間ウィンドウ内の１００個の特徴ベクトルを得て、対応する１００個の音声フレームの音響特徴とする。前記第１音響特徴シーケンス上で０.０４ｓの歩幅で前記時間ウィンドウを移動して、１番目から１００番目の音声フレームに対応する音響特徴１、および、４番目から１０４番目の音声フレームに対応する音響特徴２をそれぞれ得、類推により、第１音響特徴をトラバースした後に、音響特徴１、音響特徴２、…、音響特徴Ｍを得て、第２音響特徴シーケンスを得る。ここで、Ｍは正の整数であり、その数値は、音声フレームシーケンスのフレーム数（第１音響特徴シーケンス中の特徴ベクトルの数）、時間ウィンドウの長さ、および、歩幅によって決定される。

音響特徴１、音響特徴２、…、音響特徴Ｍに基づいて、該当する姿態制御ベクトル１、姿態制御ベクトル２、…、姿態制御ベクトルＭをそれぞれ得ることができ、したがって、姿態制御ベクトルのシーケンスを得ることができる。

図３に示したように、前記姿態制御ベクトルのシーケンスと前記第２音響特徴シーケンスとは時間的に整列され、前記第２音響特徴シーケンス中の音響特徴１、音響特徴２、…、音響特徴Ｍは、それぞれ、前記第１音響特徴シーケンス中のＮ個の特徴ベクトルに基づいて得られるため、前記音声フレームを再生する同時に、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象が動作を行うように駆動することができる。

１番目の時間ウィンドウの所定の時点で音響特徴を出力し始めると仮定すると、前記所定の時点の前の姿態制御ベクトルをデフォルト値に設定することができ、すなわち、音声フレームシーケンスを再生し始めたばかりのとき、前記インタラクティブ対象がデフォルトの動作を実行するようにし、前記所定の時点に後に、第１音響特徴シーケンスに基づいて得られた姿態制御ベクトルのシーケンスを利用して前記インタラクティブ対象が動作を行うように駆動し始める。

図３の例を挙げると、ｔ０時点で音響特徴１を出力し始め、歩幅に対応する時間０.０４ｓを間隔として音響特徴を出力し、ｔ１時点で音響特徴２を出力し始め、ｔ２時点で音響特徴３を出力し始め、…、ｔ（Ｍ-１）時点で音響特徴Ｍを出力する。これに対応して、ｔｉ～ｔ（ｉ+１）時間帯に対応するのは、特徴ベクトル（ｉ+１）であり、ここで、ｉは（Ｍ-１）よりも小さい整数であり、ｔ０時点の前では、姿態制御ベクトルがデフォルト姿態制御ベクトルである。

本発明の実施例において、前記音声セグメントを再生する同時に、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象が動作を行うように駆動することによって、インタラクティブ対象の動作が出力する音声と同期されるようにして、目標対象に、前記インタラクティブ対象が現在話しているような感覚を与えて、目標対象のインタラクティブ対象とのインタラクティブ体験を向上させた。

前記時間ウィンドウの長さは、前記音響特徴に含まれている情報量に関連される。時間ウィンドウの長さが大きいほど、含まれている情報量が多く、前記インタラクティブ対象を駆動して行う動作と音声との間の関連性が強い。時間ウィンドウがスライディングされる歩幅は、姿態制御ベクトルを取得する時間の間隔（頻度）に関連され、すなわち、インタラクティブ対象が動作を行うように駆動する頻度に関連される。実際のインタラクティブシナリオに応じて前記時間ウィンドウの長さおよび歩幅を設定することによって、インタラクティブ対象が行う表情および動作と音声との間の関連性がより強くようにし、より鮮やかで自然にする。

いくつかの実施例において、前記音響特徴は、Ｌ個の次元のメル周波数ケプストラム係数ＭＦＣＣを含み、ここで、Ｌは正の整数である。ＭＦＣＣは、音声信号のエネルギーの異なる周波数範囲における分布を表し、前記音声フレームのシーケンス中の複数の音声フレームデータを周波数領域に変換し、Ｌ個のサブバンドを含むメルフィルターを利用して、Ｌ個の次元のＭＦＣＣを得ることができる。音声セグメントのＭＦＣＣに基づいて姿態制御ベクトルを取得することによって、前記姿態制御ベクトルに基づいて前記インタラクティブ対象が顔部の動作および肢体動作を行うように駆動して、インタラクティブ対象の表情および肢体動作に感情的な要素を持たせることができ、インタラクティブ対象が話している過程がより自然で鮮やかにし、目標対象のインタラクティブ体験を向上させた。

いくつかの実施例において、前記音響特徴を事前にトレーニングされたリカレントニューラルネットワークに入力して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも１つの局所エリアの姿態制御ベクトルを取得することができる。前記リカレントニューラルネットワークは、時間リカレントニューラルネットワークであり、入力された音響特徴の過去情報を学習し、音響特徴シーケンスに基づいて前記少なくとも１つの局所エリアの姿態制御ベクトルを出力することができる。ここで、前記音響特徴シーケンスは、第１音響特徴シーケンスと第２音響特徴シーケンスとを含む。

本発明の実施例において、事前にトレーニングされたリカレントニューラルネットワークを利用して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも１つの局所エリアの姿態制御ベクトルを取得し、音響特徴の過去特徴情報および現在特徴情報を融合することによって、過去姿態制御ベクトルが現在姿態制御ベクトルの変化に影響を与えるようにして、インタラクティブ人物の表情変化および肢体動作をよりスムーズで自然にする。

いくつかの実施例において、以下の方式によって前記リカレントニューラルネットワークに対してトレーニングを実行することができる。

まず、音響特徴サンプルを取得し、ここで、前記音響特徴サンプルには真の値がラベリングされており、前記真の値は前記インタラクティブ対象の少なくとも１つの局所エリアの姿態制御ベクトル値である。

音響特徴サンプルを得た後に、前記音響特徴サンプルに基づいて初期リカレントニューラルネットワークに対してトレーニングを実行して、ネットワーク損失の変化が収束条件を満たした後に前記リカレントニューラルネットワークをトレーニングして得、ここで、前記ネットワーク損失は、前記リカレントニューラルネットワークによって予測して得られた前記少なくとも１つの局所エリアの姿態制御ベクトル値と前記真の値との間の差異を含む。

いくつかの実施例において、以下の方法によって音響特徴サンプルを取得する。

まず、１つのキャラクターが音声を出すビデオセグメントを取得し、前記ビデオセグメントから該当する音声セグメントを抽出する。たとえば、実在の人物が現在話しているビデオセグメントを取得することができる。

次に、第１サンプリング周期に従って前記ビデオセグメントに対してサンプリングを実行して前記キャラクターを含む複数の第１画像フレームを取得し、第２サンプリング周期に従って前記音声セグメントに対してサンプリングを実行して、複数の音声フレームを得る。

ここで、前記第２サンプリング周期は、前記第１サンプリング周期よりも小さく、すなわち、音声セグメントに対してサンプリングを実行する頻度がビデオセグメントに対してサンプリングを実行する頻度よりも高いので、１つの第１画像フレームが少なくとも１つの音声フレームの音響特徴に対応されるようにする。

その後、前記第１画像フレームに対応する少なくとも１つの音声フレームに対応する音響特徴を取得する。トレーニング過程において１つの第１画像フレームに対応される音声フレームの数は、前述した駆動過程において取得した音響特徴に対応する音声フレームの数と同じであり、また、トレーニング過程において音響特徴を取得する方法は、前述した駆動過程と同じであることに注意する必要がある。

続いて、前記第１画像フレームを、前記インタラクティブ対象を含む第２画像フレームに変換し、前記第２画像フレームに対応する少なくとも１つの局所エリアの姿態制御ベクトル値を取得する。ここで、当該姿態制御ベクトル値は、すべての局所エリアの姿態制御ベクトル値を含んでもよいし、その中の一部の局所エリアの姿態制御ベクトル値を含んでもよい。

前記第１画像フレームに実在の人物が含まれている画像フレームの例を挙げると、当該実在の人物の画像フレームを、インタラクティブ対象によって示されたキャラクターを含む第２画像フレームに変換することができる。前記実在の人物の各局所エリアの姿態制御ベクトルは、前記インタラクティブ対象の各局所エリアの姿態制御ベクトルに対応されるため、第２画像フレーム中のインタラクティブ対象の各局所エリアの姿態制御ベクトルを取得することができる。

最後、前記姿態制御ベクトル値に対して、前記第１画像フレームに対応する音響特徴に対してラベリングを行って、音響特徴サンプルを得る。

本発明の実施例において、１つのキャラクターのビデオセグメントを、対応する複数の第１画像フレームおよび複数の音声フレームに分割し、実在の人物を含む第１画像フレームを、インタラクティブ対象を含む第２画像フレームに変換して、少なくとも１つの音声フレームの音響特徴に対応する姿態制御ベクトルを取得することによって、音響特徴と姿態制御ベクトルとの対応性がより良くようにし、高い品質の音響特徴サンプルを得、インタラクティブ対象の動作が対応するキャラクターの実在の動作に近くなるようにする。

図４は、本発明の少なくとも１つの実施例に係るインタラクティブ対象駆動装置の構成を示す模式図であり、図４に示したように、当該装置は、音声セグメントに含まれている音声フレームのシーケンスを取得するための第１取得ユニット４０１と、前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも１つの局所エリアの制御パラメータを取得するための第２取得ユニット４０２と、取得した前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニット４０３と、を備え得る。

いくつかの実施例において、前記装置は、前記音声セグメントに基づいて、前記インタラクティブ対象を展示する表示デバイスが、音声出力および／またはテキスト展示を実行するように、制御するための出力ユニットをさらに備える。

いくつかの実施例において、前記インタラクティブ対象の局所エリアの制御パラメータは、前記局所エリアの姿態制御ベクトルを含み、前記第２取得ユニットは、具体的に、前記音声フレームのシーケンスに対応する第１音響特徴シーケンスを取得し、前記第１音響特徴シーケンスに基づいて、少なくとも１つの音声フレームに対応する音響特徴を取得し、前記音響特徴に対応する前記インタラクティブ対象の少なくとも１つの局所エリアの姿態制御ベクトルを取得する。

いくつかの実施例において、前記第１音響特徴シーケンスは、前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含み、前記第１音響特徴シーケンスに基づいて少なくとも１つの音声フレームに対応する音響特徴を取得するときに、前記第２取得ユニットは、具体的に、前記第２音響特徴シーケンスに対応する姿態制御ベクトルのシーケンスを取得し、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御する。

いくつかの実施例において、前記駆動ユニットは、具体的に、前記第２音響特徴シーケンスに対応する姿態制御ベクトルのシーケンスを取得し、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御する。

いくつかの実施例において、前記音響特徴に対応する前記インタラクティブ対象の少なくとも１つの局所エリアの姿態制御ベクトルを取得するときに、前記第２取得ユニットは、具体的に、前記音響特徴を事前にトレーニングされたリカレントニューラルネットワークに入力して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも１つの局所エリアの姿態制御ベクトルを得る。

いくつかの実施例において、前記リカレントニューラルネットワークは、音響特徴サンプルを利用してトレーニングして得られたものであり、前記インタラクティブ対象駆動装置は、サンプル取得ユニットをさらに備え、当該サンプル取得ユニットは、取得したビデオセグメントから、前記キャラクターが音声を出す音声セグメントを抽出し、前記ビデオセグメントに対してサンプリングを実行して前記キャラクターを含む複数の第１画像フレームを取得し、前記音声セグメントに対してサンプリングを実行して、複数の音声フレームを得、前記第１画像フレームに対応する前記音声フレームの音響特徴を取得し、前記第１画像フレームを前記インタラクティブ対象を含む第２画像フレームに変換し、前記第２画像フレームに対応する少なくとも１つの局所エリアの姿態制御ベクトル値を取得し、前記姿態制御ベクトル値に対して、前記第１画像フレームに対応する音響特徴に対してラベリングを行って、音響特徴サンプルを得る。

いくつかの実施例において、前記装置は、トレーニングユニットをさらに備え、当該トレーニングユニットは、前記音響特徴サンプルに基づいて初期リカレントニューラルネットワークに対してトレーニングを実行して、ネットワーク損失の変化が収束条件を満たした後に前記リカレントニューラルネットワークをトレーニングして得、ここで、前記ネットワーク損失は、前記初期リカレントニューラルネットワークによって予測して得られた前記少なくとも１つの局所エリアの姿態制御ベクトル値と、ラベリングした姿態制御ベクトル値と、の間の差異を含む。

本発明の少なくとも１つの実施例は、電子デバイスをさらに提供し、図５に示したように、前記デバイスは、メモリとプロセッサとを備える。メモリは、プロセッサによって実行できる命令を記憶し、前記命令が実行されるときに、プロセッサが本発明の任意の１実施例に記載のインタラクティブ対象駆動方法を実現するようにする。

本発明の少なくとも１つの実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体をさらに提供し、前記コンピュータプログラムがプロセッサによって実行されるときに、前記プロセッサが本発明の任意の１実施例に記載のインタラクティブ対象駆動方法を実現するようにする。

当業者は、本発明の１つまたは複数の実施例は、方法、システム、または、コンピュータプログラム製品として提供することができることを了解すべきである。したがって、本発明の１つまたは複数の実施例は、完全なハードウェアの実施例、完全なソフトウェアの実施例、または、ソフトウェアとハードウェアを組み合わせる実施例の形式を使用することができる。また、本発明の１つまたは複数の実施例は、コンピュータ利用可能なプログラムコードを含む１つまたは複数のコンピュータ利用可能な記憶媒体（ディスクメモリ、ＣＤ－ＲＯＭ、光学メモリなどを含むが、これらに限定されない）上で実施されるコンピュータプログラム製品の形式を使用することができる。

本発明における各実施例は、いずれも、漸進的な方式を使用して叙述され、各実施例同士の間の同一または類似な部分は互いに参照することができ、各々の実施例では他の実施例との異なるところに焦点を合わせて説明した。特に、データ処理デバイスの実施例の場合、基本的に方法の実施例と類似であるため、比較的に的に簡単に叙述したが、関連するところは方法の実施例の部分の説明を参照すればよい。

上記で本発明の特定の実施例を叙述した。他の実施例は、添付する「特許請求の範囲」の範囲内にいる。いくつかの場合、特許請求の範囲に記載の行為またはステップは、実施例と異なる順序に従って実行されることができ、このときにも依然として期待する結果が実現されることができる。また、図面で描かれた過程は、期待する結果するために、必ずとしても、示された特定の順序または連続的な順序を必要としない。いくつかの実施形態において、マルチタスク処理および並列処理も可能であるか、または、有益であり得る。

本発明における主題および機能操作の実施例は、デジタル電子回路、有形コンピュータソフトウェアまたはファームウェア、本発明に開示される構成およびその構造的同等物を含むコンピュータハードウェア、または、それらの１つまたは複数の組み合わせで、実現されることができる。本発明における主題の実施例は、１つまたは複数のコンピュータプログラムとして実現されることができ、すなわち、有形の非一時的プログラムキャリア上に符号化されて、データ処理装置によって実行されるか、または、データ処理装置の操作を制御するための、コンピュータプログラム命令中の１つまたは複数のモジュールとして実現されることができる。代替的または追加的に、プログラム命令は、手動で生成する伝播信号上に符号化されることができ、例えば、機械が生成する電気信号、光信号、または、電磁信号に符号化されることができる。当該信号は、情報を符号化して適切な受信機装置に伝送して、データ処理装置によって実行されるようにするために、生成される。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムにまたはシリアルアクセスメモリデバイス、または、それらの１つまたは複数の組み合わせであり得る。

本発明における処理と論理フローは、１つまたは複数のコンピュータプログラムを実行する１つまたは複数のプログラム可能なコンピュータによって実行されることができ、入力データに基づいて操作を実行して出力を生成することによって該当する機能を実行する。前記処理と論理フローは、さらに、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（専用集積回路）などの専用論理回路によって実行されることができ、また、装置も専用論理回路として実現されることができる。

コンピュータプログラムの実行に適したコンピュータは、例えば、汎用、および／または、専用マイクロプロセッサ、または、いかなる他の種類の中央処理ユニットを含む。一般的に、中央処理ユニットは、読み取り専用メモリ、および／または、ランダムアクセスメモリから、命令とデータを受信することになる。コンピュータの基本コンポーネントは、命令を実施または実行するための中央処理ユニット、および、命令とデータを記憶するための１つまたは複数のメモリデバイスを含む。一般的に、コンピュータは、磁気ディスク、磁気光学ディスク、または、光学ディスクなどの、データを記憶するための１つまたは複数の大容量記憶デバイスをさらに含むか、または、操作可能に当該大容量記憶デバイスと結合されてデータを受信するかまたはデータを伝送するか、または、その両方を兼有する。しかしながら、コンピュータは、必ずとして、このようなデバイスを有するわけではない。なお、コンピュータは、もう１デバイスに埋め込まれることができ、例えば、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルオーディオまたはビデオおプレーヤー、ゲームコンソール、グローバルポジショニングシステム（ＧＰＳ）レジーバー、または、汎用シリアルバス（ＵＳＢ）フラッシュドライブなどのポータブル記憶デバイスに埋め込まれることができ、これらデバイスはいくつかの例に過ぎない。

コンピュータプログラム命令とデータの記憶に適したコンピュータ可読媒体は、すべての形式の不揮発性メモリ、媒介、および、メモリデバイスを含み、例えば、半導体メモリデバイス（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、および、フラッシュデバイス）、磁気ディスク（例えば、内部ハードディスクまたは移動可能ディスク）、磁気光学ディスク、および、ＣＤＲＯＭ、および、ＤＶＤ－ＲＯＭディスクを含む。プロセッサとメモリは、専用論理回路によって補完されるかまたは専用論理回路に組み込まれることができる。

本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの１つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせるまたはサブ組み合わせる変形に向けることができる。

したがって、主題の特定の実施例がすでに叙述された。他の実施例は、添付する「特許請求の範囲」の範囲内にある。場合によっては、特許請求の範囲に記載されている動作は、異なる順序によって実行されても、依然として期待する結果が実現されることができる。なお、図面で描かれた処理は、期待する結果を実現するために、必ずとして、示めされた特定の順序または順次を必要としない。一部の実現において、マルチタスクおよび並列処理が有益である可能性がある。

上記は、本発明のいくつかの実施例に過ぎず、本発明を限定するために使用されるものではない。本発明の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも本発明の範囲に含まれるべきである。

Claims

インタラクティブ対象駆動方法であって、
音声セグメントに含まれている音声フレームのシーケンスを取得することと、
前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも１つの局所エリアの制御パラメータ値を取得することと、
取得した前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することと、を含む
ことを特徴とするインタラクティブ対象駆動方法。
前記音声セグメントに基づいて、前記インタラクティブ対象を展示する表示デバイスが、音声出力および／またはテキスト展示を実行するように、制御することをさらに含む
ことを特徴とする請求項１に記載のインタラクティブ対象駆動方法。
前記インタラクティブ対象の局所エリアの制御パラメータは、前記局所エリアの姿態制御ベクトルを含み、
前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも１つの局所エリアの制御パラメータを取得することは、
前記音声フレームのシーケンスに対応する第１音響特徴シーケンスを取得することと、
前記第１音響特徴シーケンスに基づいて、少なくとも１つの音声フレームに対応する音響特徴を取得することと、
前記音響特徴に対応する前記インタラクティブ対象の少なくとも１つの局所エリアの姿態制御ベクトルを取得することと、を含む
ことを特徴とする請求項１または２に記載のインタラクティブ対象駆動方法。
前記第１音響特徴シーケンスは、前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含み、
前記第１音響特徴シーケンスに基づいて、少なくとも１つの音声フレームに対応する音響特徴を取得することは、
所定の長さの時間ウィンドウおよび所定の歩幅で、前記第１音響特徴シーケンスに対してスライディングウィンドウを実行して、前記時間ウィンドウ内の音響特徴ベクトルを対応する前記少なくとも１つの音声フレームの音響特徴として設定し、前記スライディングウィンドウが完成されて得られた複数の前記音響特徴に基づいて、第２音響特徴シーケンスを得ることを含み、
取得した前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御することは、
前記第２音響特徴シーケンスに対応する姿態制御ベクトルのシーケンスを取得することと、
前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御することと、を含む
ことを特徴とする請求項３に記載のインタラクティブ対象駆動方法。
前記音響特徴に対応する前記インタラクティブ対象の少なくとも１つの局所エリアの姿態制御ベクトルを取得することは、
前記音響特徴を事前にトレーニングされたリカレントニューラルネットワークに入力して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも１つの局所エリアの前記姿態制御ベクトルを得ることを含む
ことを特徴とする請求項３に記載のインタラクティブ対象駆動方法。
前記リカレントニューラルネットワークは、音響特徴サンプルを利用してトレーニングして得られたものであり、
前記音響特徴サンプルを得ることは、
１つのキャラクターが音声を出すビデオセグメントを取得し、前記ビデオセグメントから前記キャラクターが音声を出す音声セグメントを抽出し、前記ビデオセグメントに対してサンプリングを実行して前記キャラクターを含む複数の第１画像フレームを取得し、前記音声セグメントに対してサンプリングを実行して、複数の音声フレームを得ることと、
前記第１画像フレームに対応する前記音声フレームの音響特徴を取得することと、
前記第１画像フレームを前記インタラクティブ対象を含む第２画像フレームに変換し、前記第２画像フレームに対応する少なくとも１つの局所エリアの姿態制御ベクトル値を取得することと、
前記姿態制御ベクトル値に対して、前記第１画像フレームに対応する前記音響特徴に対してラベリングを行って、前記音響特徴サンプルを得ることと、を含む
ことを特徴とする請求項５に記載のインタラクティブ対象駆動方法。
前記音響特徴サンプルに基づいて初期リカレントニューラルネットワークに対してトレーニングを実行して、ネットワーク損失の変化が収束条件を満たした後に前記リカレントニューラルネットワークをトレーニングして得ることをさらに含み、
前記ネットワーク損失は、前記リカレントニューラルネットワークによって予測して得られた前記少なくとも１つの局所エリアの前記姿態制御ベクトル値とラベリングした前記姿態制御ベクトル値との間の差異を含む
ことを特徴とする請求項６に記載のインタラクティブ対象駆動方法。
インタラクティブ対象駆動装置であって、
音声セグメントに含まれている音声フレームのシーケンスを取得するための第１取得ユニットと、
前記音声フレームのシーケンスに対応するインタラクティブ対象の少なくとも１つの局所エリアの制御パラメータを取得するための第２取得ユニットと、
取得した前記制御パラメータに基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニットと、を備える
ことを特徴とするインタラクティブ対象駆動装置。
前記音声セグメントに基づいて、前記インタラクティブ対象を展示する表示デバイスが、音声出力および／またはテキスト展示を実行するように、制御するための出力ユニットをさらに備える
ことを特徴とする請求項８に記載のインタラクティブ対象駆動装置。
前記インタラクティブ対象の局所エリアの制御パラメータは、前記局所エリアの姿態制御ベクトルを含み、
前記第２取得ユニットは、
前記音声フレームのシーケンスに対応する第１音響特徴シーケンスを取得し、
前記第１音響特徴シーケンスに基づいて、少なくとも１つの音声フレームに対応する音響特徴を取得し、
前記音響特徴に対応する前記インタラクティブ対象の少なくとも１つの局所エリアの姿態制御ベクトルを取得する
ことを特徴とする請求項８または９に記載のインタラクティブ対象駆動装置。
前記第１音響特徴シーケンスは、前記音声フレームのシーケンス中の各音声フレームに対応する音響特徴ベクトルを含み、
前記第１音響特徴シーケンスに基づいて少なくとも１つの音声フレームに対応する音響特徴を取得するときに、
前記第２取得ユニットは、
所定の長さの時間ウィンドウおよび所定の歩幅で、前記第１音響特徴シーケンスに対してスライディングウィンドウを実行して、前記時間ウィンドウ内の音響特徴ベクトルを対応する前記少なくとも１つの音声フレームの音響特徴として設定し、スライディングウィンドウが完成されて得られた複数の前記音響特徴に基づいて、第２音響特徴シーケンスを得、
前記駆動ユニットは、
前記第２音響特徴シーケンスに対応する姿態制御ベクトルのシーケンスを取得し、
前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象の姿態を制御する
ことを特徴とする請求項１０に記載のインタラクティブ対象駆動装置。
前記音響特徴に対応する前記インタラクティブ対象の少なくとも１つの局所エリアの姿態制御ベクトルを取得するときに、前記第２取得ユニットは、前記音響特徴を事前にトレーニングされたリカレントニューラルネットワークに入力して、前記音響特徴に対応する前記インタラクティブ対象の少なくとも１つの局所エリアの前記姿態制御ベクトルを得る
ことを特徴とする請求項１０に記載のインタラクティブ対象駆動装置。
前記リカレントニューラルネットワークは、音響特徴サンプルを利用してトレーニングして得られたものであり、
前記インタラクティブ対象駆動装置は、サンプル取得ユニットをさらに備え、
当該サンプル取得ユニットは、
１つのキャラクターが音声を出すビデオセグメントを取得し、前記ビデオセグメントから該当する音声セグメントを抽出し、前記ビデオセグメントに対してサンプリングを実行して前記キャラクターを含む複数の第１画像フレームを取得し、前記音声セグメントに対してサンプリングを実行して、複数の音声フレームを得、
前記第１画像フレームに対応する前記音声フレームの音響特徴を取得し、
前記第１画像フレームを前記インタラクティブ対象を含む第２画像フレームに変換し、前記第２画像フレームに対応する少なくとも１つの局所エリアの姿態制御ベクトル値を取得し、
前記姿態制御ベクトル値に対して、前記第１画像フレームに対応する前記音響特徴に対してラベリングを行って、前記音響特徴サンプルを得る
ことを特徴とする請求項１２に記載のインタラクティブ対象駆動装置。
トレーニングユニットをさらに備え、
当該トレーニングユニットは、前記音響特徴サンプルに基づいて初期リカレントニューラルネットワークに対してトレーニングを実行して、ネットワーク損失の変化が収束条件を満たした後に前記リカレントニューラルネットワークをトレーニングして得、
前記ネットワーク損失は、前記リカレントニューラルネットワークによって予測して得られた前記少なくとも１つの局所エリアの前記姿態制御ベクトル値とラベリングした前記姿態制御ベクトル値との間の差異を含む
ことを特徴とする請求項１３に記載のインタラクティブ対象駆動装置。
電子デバイスであって、メモリとプロセッサとを備え、
前記メモリには、プロセッサによって運行可能なコンピュータ命令が記憶されており、
前記プロセッサは、前記コンピュータ命令が実行されると、請求項１乃至７の中のいずれか１項に記載の方法を実現する
ことを特徴とする電子デバイス。
コンピュータプログラムが記憶されているコンピュータ可読記録媒体であって、
前記コンピュータプログラムがプロセッサによって実行されると、請求項１乃至７の中のいずれか１項に記載の方法が実現される
ことを特徴とするコンピュータ可読記録媒体。