JP7227395B2

JP7227395B2 - インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体

Info

Publication number: JP7227395B2
Application number: JP2021556973A
Authority: JP
Inventors: 子隆 ▲張▼; 文岩 ▲呉▼; 潜溢 ▲呉▼; ▲親▼▲親▼ ▲許▼
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-03-31
Filing date: 2020-11-18
Publication date: 2023-02-21
Anticipated expiration: 2040-11-18
Also published as: TWI760015B; WO2021196645A1; JP2022531072A; TW202138970A; KR20210129713A; CN111459452A; CN111459452B

Description

本発明は、コンピュータ技術分野に関し、具体的には、インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体に関する。

＜関連出願の相互引用＞
本発明は、出願番号が２０２０１０２４６１１２０であり、出願日が２０２０年３月３１日である中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が援用により本願に組み入れられる。

人間とコンピュータの相互作用は、主に、キーストローク、タッチ、および音声によって入力し、表示スクリーンに画像、テキスト、または仮想キャラクターを表示して応答する。現在、仮想キャラクターは主に音声アシスタントに基づいて改善されたものであり、デバイスの音声を出力するだけである。

本発明の実施例は、インタラクティブ対象の駆動の技術的解決策を提供する。

本発明の１態様によると、表示デバイスに展示されているインタラクティブ対象の駆動方法を提供し、前記方法は、前記インタラクティブ対象の駆動データを取得し、前記駆動データの駆動モードを確定することと、前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することと、前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することと、を含む。

本発明によって提供される任意の実施形態に結合して、前記方法は、前記駆動データに基づいて、前記表示デバイス出力音声を制御し、および／または、テキストを展示することをさらに含む。

本発明によって提供される任意の実施形態に結合して、前記駆動データに対応する駆動モードを確定することは、前記駆動データのタイプに基づいて、前記駆動データに対応する音声データシーケンスを取得することであって、前記音声データシーケンスは複数の音声データ単位を含むことと、前記音声データ単位に含まれている目標データが検出されたことに応答して、前記駆動データの駆動モードを第１駆動モードとして確定することであって、前記目標データは前記インタラクティブ対象の所定の制御パラメータ値に対応することと、を含み、前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、前記第１駆動モードに応答して、前記目標データに対応する前記所定の制御パラメータ値を前記インタラクティブ対象の制御パラメータ値として使用することを含む。

本発明によって提供される任意の実施形態に結合して、前記目標データは、キー単語またはキー文字を含み、前記キー単語または前記キー文字は、前記インタラクティブ対象の所定の動作の所定の制御パラメータ値に対応し、または、前記目標データは、音節を含み、前記音節は、前記インタラクティブ対象の所定の口形状動作の所定の制御パラメータ値に対応する。

本発明によって提供される任意の実施形態に結合して、前記駆動データに対応する駆動モードを確定することは、前記駆動データのタイプに基づいて、前記駆動データに対応する音声データシーケンスを取得することであって、前記音声データシーケンスは複数の音声データ単位を含むことと、前記音声データ単位に含まれている目標データが検出されないと、前記駆動データの駆動モードを第２駆動モードとして確定し、前記目標データは、前記インタラクティブ対象の所定の制御パラメータ値に対応する。前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、前記第２駆動モードに応答して、前記音声データシーケンス中の少なくとも１つの音声データ単位の特徴情報を取得することと、前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を取得することと、を含む。

本発明によって提供される任意の実施形態に結合して、前記音声データシーケンスは、音素シーケンスを含み、前記音声データシーケンス中の少なくとも１つの音声データ単位の特徴情報を取得することは、前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンス対応する第１コードシーケンスを得ることと、前記第１コードシーケンスに基づいて少なくとも１つの音素に対応する特徴コードを取得することと、前記特徴コードに基づいて前記少なくとも１つの音素の特徴情報を得ることと、を含む。

本発明によって提供される任意の実施形態に結合して、前記音声データシーケンスは、音声フレームシーケンスを含み、前記音声データシーケンス中の少なくとも１つの音声データ単位の特徴情報を取得することは、前記音声フレームシーケンス対応する第１音響特徴シーケンスを取得することであって、前記第１音響特徴シーケンスは、前記音声フレームシーケンス中の各音声フレームに対応する音響特徴ベクトルを含むことと、前記第１音響特徴シーケンスに基づいて少なくとも１つの音声フレームに対応する音響特徴ベクトルを取得することと、前記音響特徴ベクトルに基づいて前記少なくとも１つの音声フレームに対応する特徴情報を得ることと、を含む。

本発明によって提供される任意の実施形態に結合して、前記インタラクティブ対象の制御パラメータは、顔部姿態パラメータを含み、前記顔部姿態パラメータは、顔部筋肉制御係数を含み、前記顔部筋肉制御係数は、少なくとも１つの顔部筋肉の運動状態を制御するために使用され、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、前記駆動データに基づいて前記インタラクティブ対象の顔部筋肉制御係数を取得することを含み、前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することは、取得した顔部筋肉制御係数に基づいて前記インタラクティブ対象が前記駆動データにマッチングする顔部動作を行うように前記インタラクティブ対象を駆動することを含む。

本発明によって提供される任意の実施形態に結合して、前記方法は、前記顔部姿態パラメータに関連している体姿態の駆動データを取得することと、前記顔部姿態パラメータ値に関連している体姿態の駆動データに基づいて前記インタラクティブ対象が肢体動作を行うように駆動することと、をさらに含む。

本発明によって提供される任意の実施形態に結合して、前記インタラクティブ対象の制御パラメータ値は、前記インタラクティブ対象の少なくとも１つの部分的領域の制御ベクトルを含み、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、前記駆動データに基づいて前記インタラクティブ対象の少なくとも１つの部分的領域の制御ベクトルを取得することを含み、前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することは、取得した前記少なくとも１つの部分的領域の制御ベクトルに基づいて前記インタラクティブ対象の顔部動作および／または肢体動作を制御することを含む。

本発明によって提供される任意の実施形態に結合して、前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を取得することは、前記特徴情報を事前に訓練されたリカレントニューラルネットワークに入力して、前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を得ることを含む。

本発明の１態様によると、表示デバイスに展示されているインタラクティブ対象の駆動装置を提供し、前記装置は、前記インタラクティブ対象の駆動データを取得し、前記駆動データの駆動モードを確定するための第１取得ユニットと、前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得するための第２取得ユニットと、前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニットと、を備える。

本発明の１態様によると、電子デバイスを提供し、当該電子デバイスは、前記デバイスメモリとプロセッサとを備え、前記メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、前記プロセッサは、前記コンピュータ命令が実行されるときに、実現本発明によって提供される任意の実施形態に記載のインタラクティブ対象の駆動方法を実行する。

本発明の１態様によると、コンピュータプログラムが記憶されているコンピュータ可読記録媒体を提供し、前記コンピュータプログラムがプロセッサによって実行されるときに、本発明によって提供される任意の実施形態に記載のインタラクティブ対象の駆動方法が実行される。

本発明の１つのまたは複数の実施例のインタラクティブ対象の駆動方法、装置、デバイス、及びコンピュータ可読記憶媒体によると、前記インタラクティブ対象の駆動データの駆動モードに基づいて、前記インタラクティブ対象の制御パラメータ値を取得することによって、前記インタラクティブ対象の姿態を制御する。ここで、互いに異なる駆動モードに対して互いに異なる方法に従って該当するインタラクティブ対象の制御パラメータ値を取得し、インタラクティブ対象が前記駆動データの内容および／または対応する音声にマッチングされる姿態を展示するようにして、目標対象にインタラクティブ対象と交流しているような感覚を与え、目標対象のインタラクティブ対象とのインタラクティブ体験を改善した。

以下、本明細書の１つまたは複数の実施例または先行技術での技術的解決策をより明確に説明するために、実施例または先行技術の説明に使用する必要のある図面を簡単に紹介する。明らかに、以下に説明する図面は、本明細書の１つまたは複数の実施例に記載のいくつかの実施例に過ぎず、当業者は創造的な作業なしにこれら図面に基づいて他の図面を得ることができる。
本発明の少なくとも１つの実施例によって提供されるインタラクティブ対象の駆動方法中の表示デバイスの模式図である。本発明の少なくとも１つの実施例によって提供されるインタラクティブ対象の駆動方法のフローチャートである。本発明の少なくとも１つの実施例によって提供される音素シーケンスに対して特徴エンコーディングを実行する過程の模式図である。本発明の少なくとも１つの実施例によって提供される音素シーケンスに基づいて制御パラメータ値を得る過程の模式図である。本発明の少なくとも１つの実施例によって提供される音声フレームシーケンスに基づいて制御パラメータ値を得る過程の模式図である。本発明の少なくとも１つの実施例によって提供されるインタラクティブ対象の駆動装置の構成の模式図である。本発明の少なくとも１つの実施例によって提供される電子デバイスの構成の模式図である。

以下、例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明が図面を言及している場合、特に明記しない限り、異なる図面における同一の数字は、同一または類似な要素を示す。以下の例示的な実施例で叙述される実施形態は、本発明と一致するすべての実施形態を代表しない。逆に、それらは、添付された特許請求の範囲に記載された、本発明のいくつかの態様と一致する装置及び方法の例に過ぎない。

本明細書における「および／または」という用語は、ただ関連対象の関連関係を説明するものであり、３つの関係が存在できることを示し、たとえば、Ａおよび／またはＢは、Ａが単独に存在すること、ＡとＢが同時に存在すること、および、Ｂが単独に存在することのような３つの関係が存在する。また、本明細書における「少なくとも１種」という用語は、複数種類の中の任意の１種または複数種類の中の少なくとも２種の任意の組み合わせを示し、たとえば、Ａ、Ｂ、Ｃの中の少なくとも１種を含むことは、Ａ、Ｂ、および、Ｃから構成されたセットから選択した任意の１つまたは複数の要素を含むことを示す。

本発明の少なくとも１つの実施例は、インタラクティブ対象の駆動方法を提供し、前記駆動方法は、端末デバイスまたはサーバなどの電子デバイスによって実行され得る。前記端末デバイスは、携帯電話、タブレットパソコン、ゲーム機、デスクトップパソコン、広告機、オールインワン機、車載端末などの、固定端末または移動端末であり得る。前記サーバは、ローカルサーバまたはクラウドサーバなどを含む。前記方法は、プロセッサによりメモリに記憶されているコンピュータ可読命令を呼び出す方法によって実現されることができる。

本発明の実施例において、インタラクティブ対象は、目標対象とインタラクティブを実行できる任意の仮想イメージであり得る。１実施例において、インタラクティブ対象は、仮想キャラクターであり得、さらに、仮想動物、仮想物品、漫画イメージなどの、インタラクティブ機能を実現できる他の仮想イメージであり得る。インタラクティブ対象の表示形式は、２Ｄまたは３Ｄであるが、本発明はこれに対して限定しない。前記目標対象は、ユーザ、ロボット、またはその他のスマートデバイスであり得る。前記インタラクティブ対象の前記目標対象とのインタラクティブ方法は、能動的インタラクティブ方法または受動的インタラクティブ方法であり得る。１例において、目標対象により、ジェスチャまたは肢体動作を行うことによって要求を発して、能動的インタラクティブ方法によってインタラクティブ対象をトリガしてインタラクティブを行うことができる。もう１例において、インタラクティブ対象により、能動的に挨拶して、目標対象が動作などを行うようにプロンプトする方法によって、目標対象が受動的方法によってインタラクティブ対象とインタラクティブを行うようにすることができる。

前記インタラクティブ対象は、端末デバイスを利用して展示することができ、前記端末デバイスは、テレビ、表示機能を有するオールインワン器、プロジェクター、仮想現実（ＶｉｒｔｕａｌＲｅａｌｉｔｙ、ＶＲ）デバイス、拡張現実（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ、ＡＲ）デバイスなどであり得、本発明は端末デバイスの具体的な形態に対して限定しない。

図１は、本発明の少なくとも１つの実施例によって提供される表示デバイスを示す。図１に示すように、当該表示デバイスは、透明表示スクリーンを有し、透明表示スクリーンに立体画像を表示することによって、立体効果を有する仮想シーンおよびインタラクティブ対象を現わすことができる。たとえば、図１の透明表示スクリーンに表示されたインタラクティブ対象は、仮想漫画人物を含む。いくつかの実施例において、本発明に記載の端末デバイスは、上記の透明表示スクリーンを有する表示デバイスであってもよく、表示デバイスに、メモリとプロセッサと配置されており、メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、前記プロセッサは、前記コンピュータ命令が実行されるときに、本発明によって提供されるインタラクティブ対象の駆動方法を実現することによって、透明表示スクリーンに表示されたインタラクティブ対象を駆動して目標対象と交流または応答を行うようにすることができる。

いくつかの実施例において、インタラクティブ対象が音声を出力するように駆動するための音声駆動データに応答して、インタラクティブ対象は、目標対象に対して指定された音声を発することができる。端末デバイスは、端末デバイスの周辺の目標対象の動作、表情、身分、好みなどに基づいて、音声駆動データを生成することによって、インタラクティブ対象が指定された音声を発して交流または応答を行うように駆動することで、目標対象に対して擬人化サービスを提供することができる。音声駆動データは、その他の方法によって生成されてもよく、たとえば、サーバによって生成して端末デバイスに送信してもよいことを説明する必要がある。

インタラクティブ対象が目標対象とインタラクティブを行う過程において、当該音声駆動データに基づいてインタラクティブ対象が指定された音声を発するように駆動するときに、前記インタラクティブ対象が当該指定された音声と同期化された顔部の動作を行うように駆動することができなく、インタラクティブ対象が音声を発するときに鈍く不自然になり、目標対象のインタラクティブ対象とのインタラクティブ体験に影響を与える可能性がある。これに鑑みて、本発明の少なくとも１つの実施例は、インタラクティブ対象駆動方法を提出して、目標対象のインタラクティブ対象とのインタラクティブの体験を向上させる。

図２は、本発明の少なくとも１つの実施例に係るインタラクティブ対象の駆動方法のフローチャートであり、前記インタラクティブ対象は、表示デバイスに展示されており、図２に示すように、前記方法は、ステップ２０１～ステップ２０３を含む。

ステップ２０１において、前記インタラクティブ対象の駆動データを取得し、前記駆動データの駆動モードを確定する。

本発明の実施例において、前記音声駆動データは、オーディオデータ（音声データ）、テキストなどを含み得る。前記音声駆動データは、サーバまたは端末デバイスによりインタラクティブ対象とインタラクティブを行う目標対象の動作、表情、身分、好みなどに基づいて生成した駆動データであってもよいし、端末デバイスにより直接取得した内部メモリから呼び出した音声駆動データであってもよい。本発明は、当該音声駆動データの取得方法に対して限定しない。

前記駆動データのタイプおよび前記駆動データ中に含まれている情報に基づいて、前記駆動データの駆動モードを確定することができる。

１例において、前記駆動データのタイプに基づいて前記駆動データに対応する音声データシーケンスを取得することができ、ここで、前記音声データシーケンスは複数の音声データ単位を含む。ここで、前記音声データ単位は、文字または単語を単位として構成されてもよいし、音素または音節を単位として構成されてもよい。テキストタイプの駆動データに対応して、前記駆動データに対応する文字シーケンス、単語シーケンスなどを得ることができ、オーディオタイプの駆動データに対応して、前記駆動データに対応する音素シーケンス、音節シーケンス、音声フレームシーケンスなどを得ることができる。１実施例において、オーディオデータとテキストデータとは、互いに変換されることができる。たとえば、オーディオデータをテキストデータに変換してから音声データ単位の分割を実行し、または、テキストデータをオーディオデータに変換してから音声データ単位の分割を実行することができ、本発明はこれに対して限定しない。

前記音声データ単位に含まれている目標データが検出された場合、前記駆動データの駆動モードを第１駆動モードとして確定することができ、ここで、前記目標データは、インタラクティブ対象の所定の制御パラメータ値に対応する。

前記目標データは、設定されたキー単語またはキー文字などであり得、前記キー単語または前記キー文字は、インタラクティブ対象の所定の動作の所定の制御パラメータ値に対応する。

本発明の実施例において、事前に各々の目標データに、所定の動作をマッチングさせる。各所定の動作は、該当する制御パラメータ値によって制御して実現される。したがって、各目標データと所定の動作の制御パラメータ値とは、マッチングされる。キー単語が「手振り」である例をとると、前記音声データ単位がテキストの形の「手振り」および／または音声の形の「手振り」を含む場合、前記駆動データが目標データを含むと確定することができる。

例示的に、前記目標データは、音節を含み、前記音節は、前記インタラクティブ対象の所定の口形状動作の所定の制御パラメータ値に対応する。

前記目標データに対応する音節は、事前に分割された互いに異なる音節タイプに属し、また、前記互いに異なる音節タイプは、互いに異なる所定の口形状にマッチングされる。ここで、音節は、少なくとも１つの音素を組み合わせて形成して音声単位を含む。前記音節は、ピンイン言語の音節および非ピンイン言語（たとえば中国語である）の音節を含み得る。互いに異なる音節タイプは、発音動作と一致するか基本的に一致する音節であり、互いに異なる音節タイプは、インタラクティブ対象の互いに異なる動作に対応する。１実施例において、互いに異なる音節タイプは、インタラクティブ対象が話すときの互いに異なる所定の口形状に対応し、すなわち、互いに異なる発音動作に対応する。この場合、互いに異なる音節タイプは、それぞれ互いに異なる所定の口形状の制御パラメータ値にマッチングする。たとえば、ピンインである「ｍａ」、「ｍａｎ」、「ｍａｎｇ」などのタイプの音節は、その発音動作が基本的に一致するため、同一のタイプに見なすことができ、いずれも、インタラクティブ対象が話すときの「口が開いている」の口形状の制御パラメータ値に対応する。

前記音声データ単位に含まれている目標データが検出されなかった場合、前記駆動データの駆動モードを第２駆動モードとして確定することができ、ここで、前記目標データはインタラクティブ対象の所定の制御パラメータ値に対応する。

当業者は、上述した第１駆動モードと第２駆動モードは例に過ぎず、本発明の実施例は具体的な駆動モードを限定しないことを理解すべきである。

ステップ２０２において、前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得する。

駆動データのさまざまな駆動モードに対して、該当する方式を採用して前記インタラクティブ対象の制御パラメータ値を取得することができる。

１例において、ステップ２０１で確定した第１駆動モードに応答して、前記目標データに対応する前記所定の制御パラメータ値を前記インタラクティブ対象の制御パラメータ値として使用することができる。たとえば、第１駆動モードに対して、前記音声データシーケンスに含まれている目標データ（たとえば「手振り」である）に対応する所定の制御パラメータ値を、前記インタラクティブ対象の制御パラメータ値として使用することができる。

１例において、ステップ２０１で確定した第２駆動モードに応答して、前記音声データシーケンス中の少なくとも１つの音声データ単位の特徴情報を取得し、前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を取得することができる。つまり、音声データシーケンスに含まれている目標データが検出されないと、前記音声データ単位の特徴情報に基づいて対応する制御パラメータ値を取得することができる。前記特徴情報は、前記音声データシーケンスに対して特徴エンコーディングを実行して得られた音声データ単位の特徴情報、前記音声データシーケンスの音響特徴情報に基づいて得られた音声データ単位の特徴情報などを含み得る。

ステップ２０３において、前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御する。

いくつかの実施例において、前記インタラクティブ対象の制御パラメータは、顔部姿態パラメータを含み、前記顔部姿態パラメータは、顔部筋肉制御係数を含み、当該顔部筋肉制御係数は、少なくとも１つの顔部筋肉の運動状態を制御するために使用される。１実施例において、前記駆動データに基づいて前記インタラクティブ対象の顔部筋肉制御係数を取得し、取得した顔部筋肉制御係数に基づいて前記インタラクティブ対象が前記駆動データにマッチングする顔部動作を行うように前記インタラクティブ対象を駆動することができる。

いくつかの実施例において、前記インタラクティブ対象の制御パラメータ値は、前記インタラクティブ対象の少なくとも１つの部分的領域の制御ベクトルを含む。１実施例において、前記駆動データに基づいて前記インタラクティブ対象の少なくとも１つの部分的領域の制御ベクトルを取得することができ、取得した前記少なくとも１つの部分的領域の制御ベクトルに基づいて前記インタラクティブ対象の顔部動作および／または肢体動作を制御するができる。

前記インタラクティブ対象の駆動データの駆動モードに基づいて、前記インタラクティブ対象の制御パラメータ値を取得することによって、前記インタラクティブ対象の姿態を制御する。ここで、互いに異なる駆動モードに対して、互いに異なる方式によって該当するインタラクティブ対象の制御パラメータ値を取得することによって、インタラクティブ対象が前記駆動データの内容および／または対応する音声にマッチングする姿態を展示するようにして、目標対象にインタラクティブ対象と交流しているような感覚を与え、目標対象のインタラクティブ対象とのインタラクティブ体験を改善した。

いくつかの実施例において、さらに、前記駆動データに基づいて、前記表示デバイス出力音声を制御し、および／または、テキストを展示することができる。また、音声の出力および／またはテキストの展示の同時に、前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することができる。

本発明の実施例において、制御パラメータ値と前記駆動データとがマッチングされるため、前記駆動データに基づく音声の出力および／またはテキストの展示が、前記制御パラメータ値に基づく制御インタラクティブ対象の姿態とが、同期化される場合、インタラクティブ対象が行った姿態と出力した音声および／または展示したテキストも同期化されるため、目標対象に前記インタラクティブ対象と交流しているような感覚を与える。

いくつかの実施例において、前記音声データシーケンスは、音素シーケンスを含む。前記駆動データがオーディオデータを含むことに応答して、オーディオデータを複数のオーディオフレームに分割し、オーディオフレームの状態に基づいてオーディオフレームを組み合わせて音素を形成することができる。前記オーディオデータに基づいて形成した各音素は、音素シーケンスを形成する。ここで、音素は、音声の自然的な属性に基づいて分割した最小の音声単位であり、実在の人物の１つの発音動作が１つの音素を形成することができる。前記駆動データがテキストであることに応答して、前記テキストに含まれている形態素に基づいて、前記形態素に対応する音素を得ることによって、該当する音素シーケンスを得ることができる。

いくつかの実施例において、以下の方法によって、前記音声データシーケンス中の少なくとも１つの音声データ単位の特徴情報を取得することができ、前記方法は、前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンス対応する第１コードシーケンスを得ることと、前記第１コードシーケンスに基づいて少なくとも１つの音素に対応する特徴コードを取得することと、前記特徴コードに基づいて前記少なくとも１つの音素の特徴情報を得ることと、を含む。

図３は、音素シーケンスに対して特徴エンコーディングを実行する過程を示す模式図である。図３に示すように、音素シーケンス３１０は、音素ｊ、ｉ１、ｊ、ｉｅ４（簡素化のために、一部の音素のみを示す）を含み、各々の音素ｊ、ｉ１、ｉｅ４に対してそれぞれ対応するコードシーケンス３２１、３２２、３２３を得る。各々のコードシーケンスにおいて、前記音素が対応されている時点に対応するコード値を第１数値として設定し（たとえば１に設定する）、前記音素が対応されていない時点に対応するコード値を第２数値として設定する（たとえば０に設定する）。コードシーケンス３２１の例をとると、音素シーケンス３１０において音素ｊがいる時点で、コードシーケンス３２１の値が第１数値である１であり、音素ｊがない時点で、コードシーケンス３２１の値が第２数値である０に設定される。すべてのコードシーケンス３２１、３２２、３２３によって完全なコードシーケンス３２０が構成される。

音素ｊ、ｉ１、ｉｅ４にそれぞれ対応するコードシーケンス３２１、３２２、３２３のコード値、および、当該３つのコードシーケンス中に対応する音素の時間長さに基づいて、つまり、コードシーケンス３２１におけるｊの時間長さ、コードシーケンス３２２におけるｉ１の時間長さ、および、コードシーケンス３２３におけるｉｅ４の時間長さに基づいて、コードシーケンス３２１、３２２、３２３の特徴情報を得ることができる。

たとえば、ガウスフィルターを利用してそれぞれ前記コードシーケンス３２１、３２２、３２３中の音素ｊ、ｉ１、ｉｅ４の時間における連続値に対してガウス畳み込み操作を実行して、前記コードシーケンスの特徴情報を得ることができる。つまり、ガウスフィルターを利用して音素の時間における連続値に対してガウス畳み込み操作を実行することによって、各々のコードシーケンス中のコード値が第２数値から第１数値または第１数値から第２数値の変化の段階がスムーズになるようにする。各々のコードシーケンス３２１、３２２、３２３に対してそれぞれガウス畳み込み操作を実行することによって、各々のコードシーケンスの特徴値を得る。ここで、特徴値は特徴情報中のパラメータを構成し、各々のコードシーケンスの特徴情報のセットに基づいて、当該音素シーケンス３１０に対応する特徴情報３３０を得る。当業者は、各々のコードシーケンスに対して他の操作を実行して前記コードシーケンスの特徴情報を得ることができ、本発明はこれに対して限定しないことを理解すべきである。

本発明の実施例において、音素シーケンス中各々の音素の時間長さに基づいて前記コードシーケンスの特徴情報を得ることによって、コードシーケンスの変化の段階がスムーズになるようにする。たとえば、コードシーケンスの値は、０と１に加えて、中間状態の値であってもよく、たとえば０．２、０．３などであり得る。これら中間状態の値に基づいて取得した姿態パラメータ値は、インタラクティブ人物の姿態の変化がよりスムーズで自然になるようにし、特に、インタラクティブ人物の表情の変化をよりスムーズで自然になるようにして、目標対象のインタラクティブ体験を改善した。

いくつかの実施例において、前記顔部姿態パラメータは、顔部筋肉制御係数を含み得る。

人間の顔の運動は、解剖学の観点から、さまざまな顔の筋肉の協調的な変形の結果である。したがって、インタラクティブ対象の顔筋肉を分割して顔筋肉モデルを得、分割して得られた各筋肉（領域）に対して対応する顔筋肉制御係数に基づいてその運動を制御し、つまり、各筋肉に対して収縮／拡張制御を実行して、インタラクティブ人物の顔がさまざまな表情を行うようにすることができる。前記顔筋肉モデルの各々の筋肉に対して、筋肉が位置している顔位置および筋肉自身の運動特徴に基づいて、異なる筋肉制御係数に対応する運動状態を設定することができる。たとえば、上唇の筋肉の場合、その制御係数の数値の範囲は０～１であり、当該範囲内の異なる数値は上唇の筋肉の異なる収縮／拡張状態に対応され、当該数値を変更することによって、口部の縦方向の開閉を実現することができる。口の筋肉の左隅の場合、その制御係数の数値の範囲は０～１であり、当該範囲内の異なる数値は口の筋肉の左隅の収縮／拡張状態に対応され、当該数値を変更することによって、口部の横方向の変化を実現することができる。

音素シーケンスに基づいて音声を出力する同時に、前記音素シーケンスに対応する顔筋肉制御係数に基づいて前記インタラクティブ対象が顔表情を行うように駆動して、表示デバイスが音声を出力するときに、インタラクティブ対象が同時に当該音声を発する表情を行うようにすることによって、目標対象に当該インタラクティブ対象が話している感覚を与え、目標対象のインタラクティブ体験を改善した。

いくつかの実施例において、前記インタラクティブ対象の顔動作と体姿態とを関連付けることができる。つまり、当該顔動作に対応する顔姿態パラメータ値と前記体姿態とを関連付けることができ、前記体姿態は、肢体動作、ジェスチャ動作、歩き姿態などを含み得る。

インタラクティブ対象を駆動する過程で、前記顔姿態パラメータ値に関連する体姿態の駆動データを取得し、前記音素シーケンスに基づいて音声を出力する同時に、前記顔姿態パラメータ値に関連する体姿態の駆動データに基づいて、前記インタラクティブ対象が肢体動作を行うように前記インタラクティブ対象を駆動する。つまり、前記インタラクティブ対象の音声駆動データに基づいて前記インタラクティブ対象が顔動作を行うように駆動する同時に、さらに、当該顔動作に対応する顔姿態パラメータ値に基づいて関連付けられる体姿態の駆動データを取得して、音声を出力するときに、インタラクティブ対象が同期に該当する顔動作および肢体動作を行うように駆動することによって、インタラクティブ対象の発話状態がより鮮やかで自然であるになるようにし、目標対象のインタラクティブ体験を改善した。

音声の出力は連続性を維持する必要があるため、１実施例において、音素シーケンス上で時間ウィンドウを移動させ、毎回の移動過程で時間ウィンドウ内の音素を出力する。ここで、所定の時間長さを毎回の移動時間ウィンドウのステップサイズとして設定する。たとえば、時間ウィンドウの長さを１秒に設定し、所定の時間長さを０．１秒に設定することができる。時間ウィンドウ内の音素を出力する同時に、時間ウィンドウの所定の位置の音素または音素の特徴情報に対応する姿態パラメータ値を取得し、前記姿態パラメータ値を利用して前記インタラクティブ対象の姿態を制御する。当該所定の位置は、時間ウィンドウの開始位置からの所定の時間長さの位置であり、たとえば、時間ウィンドウの長さを１ｓに設定する場合、当該所定の位置は、時間ウィンドウの開始位置からの０．５ｓの位置であり得る。時間ウィンドウを移動するたびに、時間ウィンドウ内の音素を出力する同時に、時間ウィンドウの所定の位置に対応する姿態パラメータ値でインタラクティブ対象の姿態を制御することによって、インタラクティブ対象の姿態と出力される音声とが同期化されるようにし、目標対象に前記インタラクティブ対象と話している感覚を与える。

所定の時間長さを変更することによって、姿態パラメータ値を取得する時間間隔（頻度）を変更することができ、したがって、インタラクティブ対象が姿態を行う頻度を変更することができる。実際のインタラクティブのシーンに応じて当該所定の時間長さを設定することができ、インタラクティブ対象の姿態の変化がより自然になるようにすることができる。

いくつかの実施例において、インタラクティブ対象の少なくとも１つの部分的領域の制御ベクトルを得ることによって前記インタラクティブ対象の姿態を制御することができる。

前記局部領域は、インタラクティブ対象の全体（顔および／または体を含む）を分割して得られたものである。顔の１つまたは複数の局部領域の制御は、インタラクティブ対象の一連の顔表情または動作に対応され得る。たとえば、目部領域の制御は、インタラクティブ対象の開目、閉目、ウィンク、視角変換などの顔動作に対応され得る。また、たとえば、口部領域の制御は、インタラクティブ対象の閉口、異なる程度の開口などの顔動作に対応され得る。体のその中の１つまたは複数の局部領域の制御は、インタラクティブ対象の一連の肢体動作に対応され得る。たとえば、足部領域の制御は、インタラクティブ対象歩行、ジャンプ、蹴りなどの動作に対応され得る。

前記インタラクティブ対象の局部領域の制御パラメータは、前記局部領域の姿態制御ベクトルを含む。各々の局部領域の姿態制御ベクトルは、前記インタラクティブ対象の前記局部領域の動作を駆動するために使用される。異なる姿態制御ベクトル値は、異なる動作または動作振幅に対応される。たとえば、口部領域の姿態制御ベクトルの場合、その１組の姿態制御ベクトル値は、前記インタラクティブ対象が口部をわずかに開くようにすることができ、もう１組の姿態制御ベクトル値は、前記インタラクティブ対象が口部を大きく開くようにすることができる。異なる姿態制御ベクトル値で前記インタラクティブ対象を駆動することによって、該当する局部領域が異なる動作または異なる振幅の動作を行うようにすることができる。

局部領域は、制御する必要があるインタラクティブ対象の動作に基づいて選択することができ、たとえば、前記インタラクティブ対象の顔と肢体が同時に動作を行う制御する必要がある場合には、全ての局部領域の姿態制御ベクトル値を取得することができ、前記インタラクティブ対象の表情を制御する必要がある場合には、前記顔に対応する局部領域の姿態制御ベクトル値を取得することができる。

いくつかの実施例において、前記第１コードシーケンス上でウィンドウスライディングを実行する方法によって、少なくとも１つの音素に対応する特徴コードを取得することができる。ここで、前記第１コードシーケンスは、ガウス畳み込み操作を通じた後のコードシーケンスであり得る。

所定の長さの時間ウィンドウおよび所定のステップサイズで、前記コードシーケンスに対してウィンドウスライディングを実行し、前記時間ウィンドウ内の特徴コードを対応する少なくとも１つの音素の特徴コードとして設定し、ウィンドウスライディングが完了した後に、得られた複数の特徴コードに基づいて第２コードシーケンスを得ることができる。図４に示すように、第１コードシーケンス３２０またはスムーズした後の第１コードシーケンス４３０上で、所定の長さの時間ウィンドウをスライディングして、特徴コード１、特徴コード２、および、特徴コード３をそれぞれ得ることができ、以下同様である。第１コードシーケンスをトラバースした後、特徴コード１、特徴コード２、特徴コード３、…、特徴コードＭを得ることによって、第２コードシーケンス４４０を得る。ここで、Ｍは正の整数であり、その数値は、第１コードシーケンスの長さ、時間ウィンドウの長さ、および、時間ウィンドウをスライディングするステップサイズに応じて決定される。

特徴コード１、特徴コード２、特徴コード３、…、特徴コードＭに基づいて、該当する姿態制御ベクトル１、姿態制御ベクトル２、姿態制御ベクトル３、…、姿態制御ベクトルＭをそれぞれ得ることができ、したがって、姿態制御ベクトルのシーケンス４５０を得る。

姿態制御ベクトルのシーケンス４５０と第２コードシーケンス４４０とは、時間的に整列される。前記第２コードシーケンス中の各々の特徴コードが音素シーケンス中の少なくとも１つの音素に基づいて得たものであるため、姿態制御ベクトルのシーケンス４５０中の各々の制御ベクトルも同様に音素シーケンス中の少なくとも１つの音素に基づいて得たものである。テキストデータに対応する音素シーケンスを再生する同時に、前記姿態制御ベクトルのシーケンスに基づいて前記インタラクティブ対象が動作を行うように駆動すると、駆動インタラクティブ対象がテキスト内容に対応する音声を発するようにする同時に、音声に同期化された動作を行うようにすることができ、目標対象に前記インタラクティブ対象と話している感覚を与える、目標対象のインタラクティブ体験を改善した。

１番目の時間ウィンドウの所定のタイミングから特徴コードを出力し始めると仮定すると、前記所定のタイミングの前の姿態制御ベクトル値をデフォルト値に設定することができ、つまり、音素シーケンスを最初に再生するときに、前記インタラクティブ対象がデフォルトの動作を行うようにし、前記所定のタイミングの後で第１コードシーケンスに基づいて得られた姿態制御ベクトルのシーケンスを利用して前記インタラクティブ対象が動作を行うように駆動し始める。図４を例にとると、ｔ０のタイミングで特徴コード１を出力し始め、ｔ０のタイミングの前に対応するのはデフォルトの姿態制御ベクトルである。

前記時間ウィンドウの長さは、前記特徴コードに含まれている情報の量に関連している。時間ウィンドウに含まれている情報の量がより大きい場合、前記リカレントニューラルネットワーク処理を通じてより均一な結果を出力することになる。時間ウィンドウの長さが大き過ぎると、インタラクティブ対象が話すときの表情が一部の文字に対応できなくなる。時間ウィンドウの長さが小さ過ぎると、インタラクティブ対象が話すときの表情が硬く見えるようになる。したがって、時間ウィンドウの時間長さは、テキストデータに対応する音素が持続する最小時間によって確定することによって、前記インタラクティブ対象を駆動して行った動作が音声とより強い関連性を有するようにする。

時間ウィンドウをスライディングするステップサイズは、姿態制御ベクトルを取得する時間間隔（頻度）に関連しており、つまり、駆動インタラクティブ対象が動作を行う頻度に関連している。実際のインタラクティブのシーンに応じて、前記時間ウィンドウの長さおよびステップサイズを設定することによって、インタラクティブ対象が行う表情および動作と音声との関連性がより強くて、また、より鮮やかで自然になるようにする。

いくつかの実施例において、前記音素シーケンス中の音素間の時間間隔が所定の閾値よりも大きい場合、前記局部領域の所定の姿態制御ベクトルに基づいて、前記インタラクティブ対象が動作を行うように駆動する。つまり、インタラクティブ人物の発話の停頓がより長いと、前記インタラクティブ対象が所定の動作を行うように駆動する。たとえば、出力する音声の停頓がより長いときに、インタラクティブ対象が微笑の表情を行うか、または体を少し振るようにすることによって、停頓がより長いときにインタラクティブ対象が表情なしで直立していることを回避し、インタラクティブ対象が発話する過程がより自然でスムーズになるようにし、目標対象のインタラクティブ対象とのインタラクティブエクスペリエンスを改善した。

いくつかの実施例において、前記音声データシーケンスは、音声フレームシーケンスを含み、前記音声データシーケンス中の少なくとも１つの音声データ単位の特徴情報を取得することは、前記音声フレームシーケンス対応する第１音響特徴シーケンスを取得することであって、前記第１音響特徴シーケンスは、前記音声フレームシーケンス中の各音声フレームに対応する音響特徴ベクトルを含むことと、前記第１音響特徴シーケンスに基づいて少なくとも１つの音声フレームに対応する音響特徴ベクトルを取得することと、前記音響特徴ベクトルに基づいて前記少なくとも１つの音声フレームに対応する特徴情報を得ることと、を含む。

本発明の実施例において、前記音声フレームシーケンスの音響特徴に基づいて、インタラクティブ対象の少なくとも１つの部分的領域の制御パラメータを確定してもよいし、前記音声フレームシーケンスの他の特徴に基づいて制御パラメータを確定してもよい。

まず、前記音声フレームシーケンス対応する音響特徴シーケンスを取得する。ここで、後続で言及される音響特徴シーケンスと区別するために、前記音声フレームシーケンスに対応する音響特徴シーケンスを第１音響特徴シーケンスと呼ぶ。

本発明の実施例において、音響特徴は、基本周波数特徴、共通ピーク特徴、メル周波数係数（ＭｅｌＦｒｅｑｕｅｎｃｙＣｏｆｆｉｃｉｅｎｔ、ＭＦＣＣ）などのような、音声情感に関連する特徴であり得る。

前記第１音響特徴シーケンスは、音声フレームシーケンスの全体に対して処理を実行して得たものであり、ＭＦＣＣ特徴の例をとると、前記音声フレームシーケンス中の各々の音声フレームに対して、ウィンドウ、高速フーリエ変換、フィルタリング、対数処理、離散コサイン処理を実行して、各々の音声フレームに対応するＭＦＣＣ係数を得る。

前記第１音響特徴シーケンスは、音声フレームシーケンスの全体に対して処理を実行して得たものであり、音声データシーケンスの全体の音響特徴を反映した。

本発明の実施例において、前記第１音響特徴シーケンスは、前記音声フレームシーケンス中の各音声フレームに対応する音響特徴ベクトルを含む。ＭＦＣＣの例をとると、前記第１音響特徴シーケンスは、各音声フレームのＭＦＣＣ係数を含む。前記音声フレームシーケンスに基づいて得られた第１音響特徴シーケンスは、図５に示すとおりである。

続いて、前記第１音響特徴シーケンスに基づいて少なくとも１つの音声フレームに対応する音響特徴を取得する。

前記第１音響特徴シーケンスが前記音声フレームシーケンス中の各音声フレームに対応する音響特徴ベクトルを含む場合、前記少なくとも１つの音声フレームに対応する同じ数の特徴ベクトルを前記音声フレームの音響特徴として利用することができる。ここで、上述した同じ数の特徴ベクトルは、１つの特徴マトリックスを形成することができ、当該特徴マトリックスが前記少なくとも１つの音声フレームの音響特徴である。

図５の例をとると、前記第１音響特徴シーケンス中のＮ個の特徴ベクトルによって対応するＮ個の音声フレームの音響特徴を形成し、ここで、Ｎは正の整数である。前記第１音響特徴マトリックスは、複数の音響特徴を含み得、ここで、各々の前記音響特徴に対応する音声フレーム間は一部が重複する場合がある。

最後に、前記音響特徴に対応する前記インタラクティブ対象の少なくとも１つの部分的領域の制御ベクトルを取得する。

得られた少なくとも１つの音声フレームに対応する音響特徴に対して、少なくとも１つの部分的領域の制御ベクトルを取得することができる。部分的領域は、制御する必要があるインタラクティブ対象の動作に基づいて選択することができる。たとえば、前記インタラクティブ対象の顔部および肢体が同時に動作を行うように制御する必要がある場合には、全部の部分的領域の制御ベクトルを取得することができ、前記インタラクティブ対象の表情を制御する必要がある場合には、前記顔部に対応する部分的領域の制御ベクトルを取得することができる。

音声データシーケンスを再生する同時に、前記第１音響特徴シーケンスによって得られた各々の音響特徴に対応する制御ベクトルに基づいて前記インタラクティブ対象が動作を行う駆動することによって、端末デバイスが音声を出力する同時に、インタラクティブ対象が出力された音声にマッチングされる動作を行うようにすることができ、ここで、当該動作は、顔部動作、表情、肢体動作などを含む。したがって、目標対象に当該インタラクティブ対象が話している感覚を与えることができる。前記制御ベクトルが出力される音声の音響特徴に関連しているため、前記制御ベクトルに基づいて駆動することによって、インタラクティブ対象の表情と肢体動作に感情的な要素が加わり、インタラクティブ対象が発話する過程がより自然で鮮やかになるようにし、目標対象のインタラクティブ体験を改善した。

いくつかの実施例において、前記第１音響特徴シーケンスにおいてウィンドウスライディングを実行の方法によって、前記少なくとも１つの音声フレームに対応する音響特徴を取得することができる。

所定の長さの時間ウィンドウと所定のステップサイズで、前記第１音響特徴シーケンスに対してウィンドウスライディングを実行して、前記時間ウィンドウ内の音響特徴ベクトルを対応する同じ数の音声フレームの音響特徴に設定することによって、これら音声フレームに共同に対応される音響特徴を得ることができる。ウィンドウスライディングを完了した後に、得られた複数の音響特徴に基づいて第２音響特徴シーケンスを得ることができる。

図５に示したインタラクティブ対象の駆動方法の例をとると、前記音声フレームシーケンスは、１秒あたり１００個の音声フレームが含まれ、前記時間ウィンドウの長さは１ｓであり、ステップサイズは０．０４ｓである。前記第１音響特徴シーケンス中の各特徴ベクトルは音声フレームに対応され、これに応じて、前記第１音響特徴シーケンスも、１秒同様に１００個の特徴ベクトルが含まれる。前記第１音響特徴シーケンスにおいてウィンドウスライディングを実行する過程において、前記時間ウィンドウ内の１００個の特徴ベクトルを得るたびに、得られた１００個の特徴ベクトルを対応する１００個の音声フレームの音響特徴に設定する。前記第１音響特徴シーケンスにおいて０．０４ｓのステップサイズで前記時間ウィンドウを移動することで、それぞれ第１～１００個の音声フレームに対応する音響特徴１、および、第４～１０４音声フレームに対応する音響特徴２を得、類推により、第１音響特徴に対する処理を完了した後、音響特徴１、音響特徴２、…、音響特徴Ｍを得、したがって、第２音響特徴シーケンスを得る。ここで、Ｍは、正の整数であり、その数値は、音声フレームシーケンスのフレーム数（第１音響特徴シーケンス中の特徴ベクトルの数）、時間ウィンドウの長さ、および、ステップサイズによって、確定される。

音響特徴１、音響特徴２、…、音響特徴Ｍに基づいて、該当する制御ベクトル１、制御ベクトル２、…、制御ベクトルＭをそれぞれ得ることができ、したがって、制御ベクトルのシーケンスを得ることができる。

図５に示すように、前記制御ベクトルのシーケンスは、前記第２音響特徴シーケンスと時間上で整列され、前記第２音響特徴シーケンス中の音響特徴１、音響特徴２、…、音響特徴Ｍは、それぞれ前記第１音響特徴シーケンス中のＮ個の特徴ベクトルに基づいて得られ、したがって、前記音声フレームを再生する同時に、前記制御ベクトルのシーケンスに基づいて前記インタラクティブ対象が動作を行うように駆動することができる。

１番目の時間ウィンドウの所定のタイミングに音響特徴の出力を開始すると仮定すると、前記所定のタイミングの前の制御ベクトルをデフォルト値に設定することができ、つまり、音声フレームシーケンスを再生したばかりのときに、前記インタラクティブ対象がデフォルトの動作を行うようにし、前記所定のタイミングの後に第１音響特徴シーケンスに基づいて得られた制御ベクトルのシーケンスを利用して前記インタラクティブ対象が動作を行う駆動し始める。

図５の例をとると、ｔ０タイミングで音響特徴１の出力を開始し、ステップサイズに対応する時間０．０４ｓを間隔として音響特徴を出力し、ｔ１タイミングで音響特徴２の出力を開始し、ｔ２タイミングで音響特徴３の出力を開始し、…、ｔ（Ｍ－１）タイミングで音響特徴Ｍを出力する。これに対して、ｔｉ～ｔ（ｉ＋１）時間帯には、特徴ベクトル（ｉ＋１）が対応され、ここで、ｉは（Ｍ－１）未満の整数である。ただし、ｔ０タイミングの前には、制御ベクトルはデフォルト制御ベクトルである。

本発明の実施例において、前記音声データシーケンスを再生する同時に、前記制御ベクトルのシーケンスに基づいて前記インタラクティブ対象が動作を行うように駆動することによって、インタラクティブ対象の動作が出力する音声に同期化されるようにし、目標対象に前記インタラクティブ対象が話している感覚を与え、目標対象のインタラクティブ対象とのインタラクティブ体験を改善した。

前記時間ウィンドウの長さは、前記音響特徴に含まれている情報量に関連している。時間ウィンドウの長さが大きいほど、含まれている情報が多く、前記インタラクティブ対象を駆動して行う動作と音声の関連性もより強い。時間ウィンドウスライディングのステップサイズは、制御ベクトルを取得する時間間隔（頻度）に関連しており、つまり、インタラクティブ対象が動作を行うように駆動する頻度に関連している。実際のインタラクティブシーンに応じて前記時間ウィンドウの長さおよびステップサイズを設定することができ、インタラクティブ対象が表情および動作と音声の関連性がより強くなるようにし、より鮮やかで自然である。

いくつかの実施例において、前記音響特徴は、Ｌ個の次元のメル周波数係数ＭＦＣＣを含み、ここで、Ｌは正の整数である。ＭＦＣＣは、音声信号のエネルギーの頻度の範囲における分布である。前記音声フレームシーケンス中の複数の音声フレームデータを周波数領域に変換し、Ｌ個のサブ領域を含むメルフィルターを利用して、Ｌ個の次元のＭＦＣＣを得る。音声データシーケンスのＭＦＣＣに基づいて制御ベクトルを取得し、前記制御ベクトルに基づいて前記インタラクティブ対象が顔部動作と肢体動作を実行するように駆動することによって、インタラクティブ対象の表情と肢体動作に感情的な要素が加わり、インタラクティブ対象が話している過程より自然で鮮やかになるようにし、したがって、目標対象のインタラクティブ対象とのインタラクティブ体験を改善する。

いくつかの実施例において、前記音声データ単位の特徴情報を事前に訓練されたリカレントニューラルネットワークに入力して、前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を得ることを含む。前記リカレントニューラルネットワークは、時間リカレントニューラルネットワークであり、入力された特徴情報の履歴情報を学習し、音声単位シーケンスに基づいて制御パラメータを出力することができる。たとえば、当該制御パラメータは、顔部姿態制御パラメータ、または、少なくとも１つの部分的領域の制御ベクトルであり得る。

本発明の実施例において、事前に訓練されたリカレントニューラルネットワークを利用して前記音声データ単位の特徴情報に対応する制御パラメータを取得し、関連性がある履歴特徴情報と現在特徴情報とを融合することによって、履歴制御パラメータが現在制御パラメータの変化に対して影響を与えるようにすることによって、インタラクティブ人物の表情変化と肢体動作がよりスムーズで自然になるようにする。

いくつかの実施例において、以下の方法によって前記リカレントニューラルネットワークを訓練することができる。

まず、特徴情報サンプルを取得する。たとえば、以下の方法によって前記特徴情報サンプルを取得することができる。

キャラクターを発した音声のビデオセグメントを取得し、前記ビデオセグメント中からキャラクターの該当する音声セグメントを抽出する。たとえば、実在の人物が話しているビデオセグメントを取得することができる。前記ビデオセグメントに対してサンプリングを実行して複数の前記キャラクターの第１画像フレームを取得することができる。また、前記音声セグメントに対してサンプリングを実行して、複数の音声フレームを得ることができる。

前記第１画像フレームに対応する前記音声フレームに含まれている音声データ単位に基づいて、前記音声フレームに対応する特徴情報を取得することができる。

前記第１画像フレームを前記インタラクティブ対象が含まれた第２画像フレームに変換して、前記第２画像フレームに対応する前記インタラクティブ対象の制御パラメータ値を取得することができる。

前記制御パラメータ値に基づいて、前記第１画像フレームに対応する特徴情報をラベリングして、特徴情報サンプルを得ることができる。

いくつかの実施例において、前記特徴情報は、音素の特徴コードを含み、前記制御パラメータは、顔部筋肉制御係数を含む。上述した特徴情報サンプルを取得する方法によって、得られた顔部筋肉制御係数を利用して、前記第１画像フレームに対応する音素の特徴エンコーディングをラベリングして、音素の特徴コードに対応する特徴情報サンプルを得ることができる。

いくつかの実施例において、前記特徴情報は、音素の特徴コードを含み、前記制御パラメータは、前記インタラクティブ対象の少なくとも１つの部分的な制御ベクトルを含む。上述した特徴情報サンプルを取得する方法によって、得られた少なくとも１つの部分的な制御ベクトルを利用して、前記第１画像フレームに対応する音素の特徴コードをラベリングして、音素の特徴エンコーディングに対応する特徴情報サンプルを得ることができる。

いくつかの実施例において、前記特徴情報は、音声フレームの音響特徴を含み、前記制御パラメータは、前記インタラクティブ対象の少なくとも１つの部分的な制御ベクトルを含む。上述した特徴情報サンプルを取得する方法によって、得られた少なくとも１つの部分的な制御ベクトルを利用して、前記第１画像フレームに対応する音声フレームの音響特徴をラベリングして、音声フレームの音響特徴に対応する特徴情報サンプルを得ることができる。

当業者は、前記特徴情報サンプルは、上記に記載に限定されず、各々のタイプの音声データ単位のさまざまな特徴に対応して、該当する特徴情報サンプルを得ることができることを理解すべきである。

前記特徴情報サンプルを得た後に、前記特徴情報サンプルに基づいて初期リカレントニューラルネットワークを訓練し、ネットワークの損失の変化が収束条件を満たすと、前記リカレントニューラルネットワーク訓練して得る。前記ネットワーク損失は、前記リカレントニューラルネットワークが予測して得た制御パラメータ値とラベリングした制御パラメータ値との間の差異を含む。

本発明の実施例において、キャラクターのビデオセグメントを対応する複数の第１画像フレームと複数の音声フレームに分割し、実在の人物が含まれた第１画像フレームをインタラクティブ対象が含まれた第２画像フレームに変換して、少なくとも１つの音声フレームの特徴情報に対応する制御パラメータ値を取得することによって、特徴情報と制御パラメータ値との対応性がより良くなるようにし、高品質の特徴情報サンプルを得、インタラクティブ対象の姿態が対応するキャラクターの実在の姿態に近くなるようにする。

図６は、本発明の少なくとも１つの実施例に係るインタラクティブ対象の駆動装置の構成を示す模式図であり、図６に示すように、当該装置は、前記インタラクティブ対象の駆動データを取得し、前記駆動データの駆動モードを確定するための第１取得ユニット６０１と、前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得するための第２取得ユニット６０２と、前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニット６０３と、を備える。

いくつかの実施例において、前記装置は、前記駆動データに基づいて、前記表示デバイス出力音声を制御し、および／または、テキストを展示するための出力ユニットをさらに備える。

いくつかの実施例において、前記駆動データに対応する駆動モードを確定するときに、前記第１取得ユニットは、具体的に、前記駆動データのタイプに基づいて、前記駆動データに対応する音声データシーケンスを取得し、ここで、前記音声データシーケンスは複数の音声データ単位を含み、また、前記音声データ単位に含まれている目標データが検出されると、前記駆動データの駆動モードを第１駆動モードとして確定し、ここで、前記目標データは、インタラクティブ対象の所定の制御パラメータ値に対応し、また、前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、前記第１駆動モードに応答して、前記目標データに対応する前記所定の制御パラメータ値を前記インタラクティブ対象の制御パラメータ値として使用することを含む。

いくつかの実施例において、前記目標データは、キー単語またはキー文字を含み、前記キー単語または前記キー文字は、インタラクティブ対象の所定の動作の所定の制御パラメータ値に対応し、または、前記目標データは、音節を含み、前記音節は、前記インタラクティブ対象の所定の口形状動作の所定の制御パラメータ値に対応する。

いくつかの実施例において、前記駆動データの駆動モードを認識するときに、前記第１取得ユニットは、具体的に、前記駆動データのタイプに基づいて、前記駆動データに対応する音声データシーケンスを取得し、ここで、前記音声データシーケンスは複数の音声データ単位を含み、また、前記音声データ単位に含まれている目標データが検出されないと、前記駆動データの駆動モードを第２駆動モードとして確定し、ここで、前記目標データは、インタラクティブ対象の所定の制御パラメータ値に対応し、また、前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、前記第２駆動モードに応答して、前記音声データシーケンス中の少なくとも１つの音声データ単位の特徴情報を取得することと、前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を取得することと、を含む。

いくつかの実施例において、前記音声データシーケンスは、音素シーケンスを含み、前記音声データシーケンス中の少なくとも１つの音声データ単位の特徴情報を取得するときに、前記第２取得ユニットは、具体的に、前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンス対応する第１コードシーケンスを得、前記第１コードシーケンスに基づいて少なくとも１つの音素に対応する特徴コードを取得し、前記特徴コードに基づいて前記少なくとも１つの音素の特徴情報を得る。

いくつかの実施例において、前記音声データシーケンスは、音声フレームシーケンスを含み、前記音声データシーケンス中の少なくとも１つの音声データ単位の特徴情報を取得するときに、前記第２取得ユニットは、具体的に、前記音声フレームシーケンス対応する第１音響特徴シーケンスを取得し、ここで、前記第１音響特徴シーケンスは、前記音声フレームシーケンス中の各音声フレームに対応する音響特徴ベクトルを含み、また、前記第１音響特徴シーケンスに基づいて少なくとも１つの音声フレームに対応する音響特徴ベクトルを取得し、前記音響特徴ベクトルに基づいて前記少なくとも１つの音声フレームに対応する特徴情報を得る。

いくつかの実施例において、前記インタラクティブ対象の制御パラメータは、顔部姿態パラメータを含み、前記顔部姿態パラメータは、顔部筋肉制御係数を含み、当該顔部筋肉制御係数は、少なくとも１つの顔部筋肉の運動状態を制御するために使用され、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得するときに、前記第２取得ユニットは、具体的に、前記駆動データに基づいて前記インタラクティブ対象の顔部筋肉制御係数を取得し、前記駆動ユニットは、具体的に、取得した顔部筋肉制御係数に基づいて前記インタラクティブ対象が前記駆動データにマッチングする顔部動作を行うように前記インタラクティブ対象を駆動し、また、前記装置は、前記顔部姿態パラメータに関連している体姿態の駆動データを取得し、前記顔部姿態パラメータ値に関連している体姿態の駆動データに基づいて前記インタラクティブ対象が肢体動作を行うように駆動するための肢体駆動ユニットをさらに備える。

いくつかの実施例において、前記インタラクティブ対象の制御パラメータは、前記インタラクティブ対象の少なくとも１つの部分的領域の制御ベクトルを含み、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得するときに、前記第２取得ユニットは、具体的に、前記駆動データに基づいて前記インタラクティブ対象の少なくとも１つの部分的領域の制御ベクトルを取得し、前記駆動ユニットは、具体的に、取得した前記少なくとも１つの部分的領域の制御ベクトルに基づいて前記インタラクティブ対象の顔部動作および／または肢体動作を制御する。

本発明の１態様によると、電子デバイスを提供し、前記デバイスメモリとプロセッサとを備え、前記メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、前記プロセッサは、前記コンピュータ命令が実行されるときに、本発明によって提供される任意の実施形態に記載のインタラクティブ対象の駆動方法を実現する。

本発明の１態様によると、コンピュータプログラムが記憶されているコンピュータ可読記録媒体を提供し、前記プログラムがプロセッサによって実行されるときに、本発明によって提供される任意の実施形態に記載のインタラクティブ対象の駆動方法が実現される。

本明細書の少なくとも１つの実施例は、電子デバイスをさらに提供し、図７に示すように、前記デバイスは、メモリとプロセッサとを備え、メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、プロセッサは、前記コンピュータ命令が実行されるときに、本発明の任意の実施例に記載のインタラクティブ対象の駆動方法を実現する。

本明細書少なくとも１つの実施例は、コンピュータプログラムが記憶されているコンピュータ可読記録媒体をさらに提供し、前記プログラムがプロセッサによって実行されるときに、本発明の任意の実施例に記載のインタラクティブ対象の駆動方法が実現される。

当業者は、本発明の１つまたは複数の実施例は、方法、システム、または、コンピュータプログラム製品として提供することができることを了解すべきである。したがって、本発明の１つまたは複数の実施例は、完全なハードウェアの実施例、完全なソフトウェアの実施例、または、ソフトウェアとハードウェアを組み合わせた実施例の形式を使用することができる。また、本発明の１つまたは複数の実施例は、コンピュータ利用可能なプログラムコードを含む１つまたは複数のコンピュータ利用可能な記録媒体（ディスクメモリ、ＣＤ－ＲＯＭ、光学メモリなどを含むが、これらに限定されない）上で実施されるコンピュータプログラム製品の形式を使用することができる。

本発明における各実施例は、いずれも、漸進的な方法を使用して叙述され、各実施例同士の間の同一または類似な一部は互いに参照することができ、各々の実施例では他の実施例との異なるところに焦点を合わせて説明した。特に、データ処理デバイスの実施例の場合、基本的に方法の実施例と類似であるため、比較的に的に簡単に叙述したが、関連するところは方法の実施例の一部の説明を参照すればよい。

上記で本発明の特定の実施例を叙述した。他の実施例は、添付する「特許請求の範囲」の範囲内にいる。いくつかの場合、特許請求の範囲に記載の行為またはステップは、実施例と異なる順序に従って実行されることができ、このときにも依然として期待する結果が実現されることができる。また、図面で描かれた過程は、期待する結果するために、必ずとしても、示された特定の順序または連続的な順序を必要としない。いくつかの実施形態において、マルチタスク処理および並列処理も可能であるか、または、有益であり得る。

本発明における主題および機能操作の実施例は、デジタル電子回路、有形コンピュータソフトウェアまたはファームウェア、本発明に開示される構成およびその構造的同等物を含むコンピュータハードウェア、または、それらの１つまたは複数の組み合わせで、実現されることができる。本発明における主題の実施例は、１つまたは複数のコンピュータプログラムとして実現されることができ、すなわち、有形の非一時的プログラムキャリア上に符号化されて、データ処理装置によって実行されるか、または、データ処理装置の操作を制御するための、コンピュータプログラム命令中の１つまたは複数のモジュールとして実現されることができる。代替的または追加的に、プログラム命令は、手動で生成する伝播信号上に符号化されることができ、例えば、機械が生成する電気信号、光信号、または、電磁信号に符号化されることができる。当該信号は、情報を符号化して適切な受信機装置に伝送して、データ処理装置によって実行されるようにするために、生成される。コンピュータ記録媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムにまたはシリアルアクセスメモリデバイス、または、それらの１つまたは複数の組み合わせであり得る。

本発明における処理と論理フローは、１つまたは複数のコンピュータプログラムを実行する１つまたは複数のプログラム可能なコンピュータによって実行されることができ、入力データに基づいて操作を実行して出力を生成することによって該当する機能を実行する。前記処理と論理フローは、さらに、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（専用集積回路）などの専用論理回路によって実行されることができ、また、装置も専用論理回路として実現されることができる。

コンピュータプログラムの実行に適したコンピュータは、例えば、汎用、および／または、専用マイクロプロセッサ、または、いかなる他の種類の中央処理ユニットを含む。一般的に、中央処理ユニットは、読み取り専用メモリ、および／または、ランダムアクセスメモリから、命令とデータを受信することになる。コンピュータの基本コンポーネントは、命令を実施または実行するための中央処理ユニット、および、命令とデータを記憶するための１つまたは複数のメモリデバイスを含む。一般的に、コンピュータは、磁気ディスク、磁気光学ディスク、または、光学ディスクなどの、データを記憶するための１つまたは複数の大容量記憶デバイスをさらに含むか、または、操作可能に当該大容量記憶デバイスと結合されてデータを受信するかまたはデータを伝送するか、または、その両方を兼有する。しかしながら、コンピュータは、必ずとして、このようなデバイスを有するわけではない。なお、コンピュータは、もう１デバイスに埋め込まれることができ、例えば、携帯電話、パーソナルデジタルアシスタント（ＰＤＡ）、モバイルオーディオまたはビデオおプレーヤー、ゲームコンソール、グローバルポジショニングシステム（ＧＰＳ）レジーバー、または、汎用シリアルバス（ＵＳＢ）フラッシュドライブなどのポータブル記憶デバイスに埋め込まれることができ、これらデバイスはいくつかの例に過ぎない。

コンピュータプログラム命令とデータの記憶に適したコンピュータ可読媒体は、すべての形式の不揮発性メモリ、媒介、および、メモリデバイスを含み、例えば、半導体メモリデバイス（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、および、フラッシュデバイス）、磁気ディスク（例えば、内部ハードディスクまたは移動可能ディスク）、磁気光学ディスク、および、ＣＤＲＯＭ、および、ＤＶＤ－ＲＯＭディスクを含む。プロセッサとメモリは、専用論理回路によって補完されるかまたは専用論理回路に組み込まれることができる。

本発明は、多くの具体的な実施の細部を含むが、これらを本発明の範囲または保護しようとする範囲を限定するものとして解釈すべきではなく、主に本発明のいくつかの実施例の特徴を叙述するために使用される。本発明の複数の実施例中の特定の特徴は、単一の実施例に組み合わせて実施されることもできる。他方、単一の実施例中の各種の特徴は、複数の実施例で別々に実施されるかまたはいかなる適切なサブ組み合わせで実施されることもできる。なお、特徴が上記のように特定の組み合わせで役割を果たし、また最初からこのように保護すると主張したが、保護すると主張した組み合わせからの１つまたは複数の特徴は、場合によって当該組み合わせから除外されることができ、また保護すると主張した組み合わせはサブ組み合わせまたはサブ組み合わせからの変形に向けることができる。

類似的に、図面で特定の順序に従って操作を描いたが、これはこれら操作を示した特定の順序にしたがって実行するかまたは順次に実行するように要求するか、または、例示したすべての操作が実行されることによって期待する結果が実現されると要求することであると理解すべきではない。場合によっては、マルチタスクおよび並列処理が有利である可能性がある。なお、上記の実施例中の各種のシステムモジュールとコンポーネントの分離は、すべての実施例でいずれもこのように分離されなければならないと理解すべきではないし、また、叙述したプログラムコンポーネントとシステムは、一般的に、一緒に単一のソフトウェア製品に統合されるか、または、複数のソフトウェア製品にパッケージされることができることを理解すべきである。

したがって、主題の特定の実施例がすでに叙述された。他の実施例は、添付する「特許請求の範囲」の範囲内にある。場合によっては、特許請求の範囲に記載されている動作は、異なる順序によって実行されても、依然として期待する結果が実現されることができる。なお、図面で描かれた処理は、期待する結果を実現するために、必ずとして、示めされた特定の順序または順次を必要としない。一部の実現において、マルチタスクおよび並列処理が有益である可能性がある。

上記は、本発明のいくつかの実施例に過ぎず、本発明を限定するために使用されるものではない。本発明の精神と原則の範囲内で行われたいかなる修正、同等の置換、改良などは、いずれも本発明の１つまたは複数の実施例の範囲に含まれるべきである。

Claims

表示デバイスに展示されているインタラクティブ対象の駆動方法であって、
前記インタラクティブ対象の駆動データを取得し、前記駆動データの駆動モードを確定することと、
前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することと、
前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することと、を含み、
前記駆動データに対応する駆動モードを確定することは、
前記駆動データのタイプに基づいて、前記駆動データに対応する音声データシーケンスを取得することであって、前記音声データシーケンスは複数の音声データ単位を含むことと、
前記音声データ単位に含まれている目標データが検出されたことに応答して、前記駆動データの駆動モードを第１駆動モードとして確定することであって、前記目標データは前記インタラクティブ対象の所定の制御パラメータ値に対応することと、
前記音声データ単位に含まれている前記目標データが検出されなかったことに応答して、前記駆動データの駆動モードを第２駆動モードとして確定することと、を含み、
前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、
前記第１駆動モードに応答して、前記目標データに対応する前記所定の制御パラメータ値を前記インタラクティブ対象の制御パラメータ値として使用することと、
前記第２駆動モードに応答して、前記音声データシーケンス中の少なくとも１つの音声データ単位の特徴情報を取得すると共に、前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を取得することと、を含む、
ことを特徴とするインタラクティブ対象の駆動方法。
前記駆動データに基づいて、前記表示デバイス出力音声を制御し、および／または、テキストを展示することをさらに含む
ことを特徴とする請求項１に記載のインタラクティブ対象の駆動方法。
前記目標データは、キー単語またはキー文字を含み、前記キー単語または前記キー文字は、前記インタラクティブ対象の所定の動作の所定の制御パラメータ値に対応し、または、
前記目標データは、音節を含み、前記音節は、前記インタラクティブ対象の所定の口形状動作の所定の制御パラメータ値に対応する
ことを特徴とする請求項１に記載のインタラクティブ対象の駆動方法。
前記音声データシーケンスは、音素シーケンスを含み、
前記音声データシーケンス中の少なくとも１つの音声データ単位の特徴情報を取得することは、
前記音素シーケンスに対して特徴エンコーディングを実行して、前記音素シーケンス対応する第１コードシーケンスを得ることと、
前記第１コードシーケンスに基づいて少なくとも１つの音素に対応する特徴コードを取得することと、
前記特徴コードに基づいて前記少なくとも１つの音素の特徴情報を得ることと、を含む
ことを特徴とする請求項１に記載のインタラクティブ対象の駆動方法。
前記音声データシーケンスは、音声フレームシーケンスを含み、
前記音声データシーケンス中の少なくとも１つの音声データ単位の特徴情報を取得することは、
前記音声フレームシーケンス対応する第１音響特徴シーケンスを取得することであって、前記第１音響特徴シーケンスは、前記音声フレームシーケンス中の各音声フレームに対応する音響特徴ベクトルを含むことと、
前記第１音響特徴シーケンスに基づいて少なくとも１つの音声フレームに対応する音響特徴ベクトルを取得することと、
前記音響特徴ベクトルに基づいて前記少なくとも１つの音声フレームに対応する特徴情報を得ることと、を含む
ことを特徴とする請求項１に記載のインタラクティブ対象の駆動方法。
前記インタラクティブ対象の制御パラメータは、顔部姿態パラメータを含み、前記顔部姿態パラメータは、顔部筋肉制御係数を含み、前記顔部筋肉制御係数は、少なくとも１つの顔部筋肉の運動状態を制御するために使用され、
前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、
前記駆動データに基づいて前記インタラクティブ対象の顔部筋肉制御係数を取得することを含み、
前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することは、
取得した顔部筋肉制御係数に基づいて前記インタラクティブ対象が前記駆動データにマッチングする顔部動作を行うように前記インタラクティブ対象を駆動することを含む
ことを特徴とする請求項１から５のいずれか１項に記載のインタラクティブ対象の駆動方法。
前記顔部姿態パラメータに関連している体姿態の駆動データを取得することと、
前記顔部姿態パラメータ値に関連している体姿態の駆動データに基づいて前記インタラクティブ対象が肢体動作を行うように駆動することと、をさらに含む
ことを特徴とする請求項６に記載のインタラクティブ対象の駆動方法。
前記インタラクティブ対象の制御パラメータは、前記インタラクティブ対象の少なくとも１つの部分的領域の制御ベクトルを含み、
前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、
前記駆動データに基づいて前記インタラクティブ対象の少なくとも１つの部分的領域の制御ベクトルを取得することを含み、
前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御することは、
取得した前記少なくとも１つの部分的領域の制御ベクトルに基づいて前記インタラクティブ対象の顔部動作および／または肢体動作を制御することを含む
ことを特徴とする請求項１から７のいずれか１項に記載のインタラクティブ対象の駆動方法。
前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を取得することは、
前記特徴情報を事前に訓練されたリカレントニューラルネットワークに入力して、前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を得ることを含む
ことを特徴とする請求項１に記載のインタラクティブ対象の駆動方法。
表示デバイスに展示されているインタラクティブ対象の駆動装置であって、
前記インタラクティブ対象の駆動データを取得し、前記駆動データの駆動モードを確定するための第１取得ユニットと、
前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得するための第２取得ユニットと、
前記制御パラメータ値に基づいて前記インタラクティブ対象の姿態を制御するための駆動ユニットと、を備え、
前記駆動データに対応する駆動モードを確定することは、
前記駆動データのタイプに基づいて、前記駆動データに対応する音声データシーケンスを取得することであって、前記音声データシーケンスは複数の音声データ単位を含むことと、
前記音声データ単位に含まれている目標データが検出されたことに応答して、前記駆動データの駆動モードを第１駆動モードとして確定することであって、前記目標データは前記インタラクティブ対象の所定の制御パラメータ値に対応することと、
前記音声データ単位に含まれている前記目標データが検出されなかったことに応答して、前記駆動データの駆動モードを第２駆動モードとして確定することと、を含み、
前記駆動モードに応答して、前記駆動データに基づいて前記インタラクティブ対象の制御パラメータ値を取得することは、
前記第１駆動モードに応答して、前記目標データに対応する前記所定の制御パラメータ値を前記インタラクティブ対象の制御パラメータ値として使用することと、
前記第２駆動モードに応答して、前記音声データシーケンス中の少なくとも１つの音声データ単位の特徴情報を取得すると共に、前記特徴情報に対応する前記インタラクティブ対象の制御パラメータ値を取得することと、を含む、
ことを特徴とするインタラクティブ対象の駆動装置。
電子デバイスであって、
メモリとプロセッサとを備え、
前記メモリは、プロセッサ上で運行可能なコンピュータ命令を記憶し、
前記プロセッサは、前記コンピュータ命令が実行されるときに、請求項１から９のいずれか１項に記載の方法を実行する
ことを特徴とする電子デバイス。
コンピュータプログラムが記憶されているコンピュータ可読記録媒体であって、
前記コンピュータプログラムがプロセッサによって実行されるときに、請求項１から９のいずれか１項に記載の方法が実行される
ことを特徴とするコンピュータ可読記録媒体。