JP2015125613A

JP2015125613A - アニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラム

Info

Publication number: JP2015125613A
Application number: JP2013269943A
Authority: JP
Inventors: 伸也高山; Shinya Takayama; 有希永井; Yuki Nagai; 建鋒徐; Kenho Jo; 茂之酒澤; Shigeyuki Sakasawa
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2013-12-26
Filing date: 2013-12-26
Publication date: 2015-07-06

Abstract

【課題】キャラクタの台詞における開始時刻及び終了時刻、長さ、内容に応じて、キャラクタのアニメーションを生成する。
【解決手段】本発明のアニメーション生成装置は、台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成装置であって、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整する時間長調整部４０−６、を備える。
【選択図】図２

Description

本発明は、台詞の開始時刻および終了時刻、長さ、内容に応じて、キャラクタのアニメーションを生成する技術に関する。

従来から、予め規定されたフォーマットに従って生成された画像や音声等の電気信号を生成する技術が知られている。例えば、特許文献１に開示されている技術では、複数トラックに記録された音響信号を異なる位置関係で複数再生することで、各信号間の位相ズレを解消させた再生信号を再生成し、音響再生を良好に行うことのできるデータフォーマットを提供する。

また、特許文献２に開示されている技術では、テレビ電話の通話で送られてくる画像信号及び音声情報に基づいて、情報端末上に生成されたキャラクタを自動的に生成することのできるデータフォーマットを提供する。

特許第５００３３２７号明細書特開２００７−２７９７７６号公報

しかしながら、特許文献１に開示されている技術では、複数トラックに記録された音響信号間の同期のズレは解消できるが、画像信号を用いるキャラクタを生成することはできない。

また、特許文献２に開示されている技術では、入力される音声信号の音素情報応じてキャラクタの口形を変化させた画像信号を生成することができるが、全身動作や表情変化等の複雑なアニメーションにおける画像信号を音声信号に応じて生成することは困難である。

本発明は、このような事情に鑑みてなされたものであり、キャラクタの台詞における開始時刻及び終了時刻、長さ、内容に応じて、キャラクタのアニメーションを生成することができるアニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラムを提供することを目的とする。

（１）上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明のアニメーション生成装置は、台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成装置であって、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整する時間長調整部を備えることを特徴とする。

このように、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するので、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。

（２）また、本発明のアニメーション生成装置は、前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータを、感情付きのキャラクタのアニメーションデータに変更する感情付与部を更に備えることを特徴とする。

このように、前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータを、感情付きのキャラクタのアニメーションデータに変更するので、キャラクタのアニメーションの感情表現を豊かにすることが可能となる。

（３）また、本発明のアニメーション生成装置は、入力された音声データを認識して台詞を示すテキストデータを生成する台詞テキスト生成部を更に備えることを特徴とする。

このように、入力された音声データを認識して台詞を示すテキストデータを生成するので、テキストデータの入力のみならず、直接音声を入力することも可能となる。

（４）また、本発明のアニメーション生成装置は、入力された音声データの有音区間を検出して台詞の開始時刻および前記台詞の終了時刻を特定する台詞時刻判定部を更に備えることを特徴とする。

このように、入力された音声データの有音区間を検出して台詞の開始時刻および前記台詞の終了時刻を特定するので、音声を入力した場合であっても台詞データを生成することが可能となる。

（５）また、本発明のアニメーション生成装置は、前記台詞を示すテキストデータの意味内容を認識し、前記キャラクタのアニメーションデータを生成するアニメーション生成部を更に備えることを特徴とする。

このように、前記台詞を示すテキストデータの意味内容を認識し、前記キャラクタのアニメーションデータを生成するので、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。

（６）また、本発明のアニメーション生成装置は、前記台詞を示すテキストデータの感情分類または感情強度を解析し、前記台詞に対応するキャラクタの感情を示す感情データを生成する感情生成部を更に備えることを特徴とする。

このように、前記台詞を示すテキストデータの感情分類または感情強度を解析し、前記台詞に対応するキャラクタの感情を示す感情データを生成するので、台詞に応じた感情をキャラクタのアニメーションに付与することが可能となる。

（７）また、本発明のアニメーション生成装置において、前記キャラクタのアニメーションデータは、前記キャラクタのボーン（bone）またはポリゴン（polygon）の任意の時刻における空間座標を示すデータであることを特徴とする。

このように、前記キャラクタのアニメーションデータは、前記キャラクタのボーン（bone）またはポリゴン（polygon）の任意の時刻における空間座標を示すデータであるので、台詞に応じた複雑なアニメーションを持つキャラクタを生成することができる。

（８）また、本発明のアニメーション生成装置は、前記キャラクタのアニメーションデータを再生して、台詞の音声およびアニメーション画像を出力するキャラクタ再生部を更に備えることを特徴とする。

このように、前記キャラクタのアニメーションデータを再生して、台詞の音声およびアニメーション画像を出力するので、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。

（９）また、本発明のデータフォーマットは、台詞の音声出力を伴うキャラクタのアニメーションのデータフォーマットであって、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データに適合するように、キャラクタのアニメーションデータの時間長が調整されたことを特徴とする。

（１０）また、本発明のデータフォーマットは、前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータが、感情付きのキャラクタのアニメーションデータに変更されたことを特徴とする。

（１１）また、本発明のアニメーション生成方法は、台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成方法であって、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力するステップと、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するステップと、を少なくとも含むことを特徴とする。

（１２）また、本発明のプログラムは、台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成装置のプログラムであって、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力する処理と、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整する処理と、の一連の処理をコンピュータに実行させることを特徴とする。

本発明によれば、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。

本実施形態に係るキャラクタアニメーション生成装置の概略構成を示す図である。本実施形態に係るキャラクタアニメーション生成装置１の機能を示すブロック図である。本実施形態に係るキャラクタアニメーション生成装置の動作を示すフローチャートである。テキストデータ、開始時刻および終了時刻から構成される台詞データを示す図である。アニメーションデータを示す図である。感情データを示す図である。本実施形態に係るデータフォーマットを示す図である。

本発明の実施形態に係るキャラクタアニメーション生成装置は、台詞である音声信号を入力し、入力された音声信号を時系列で記録した音声データに基づいて台詞のテキストデータおよび台詞の開始時刻及び終了時刻を時系列で生成する。この生成された台詞のテキストデータ及び台詞の開始時刻及び終了時刻に基づいてキャラクタのアニメーションデータを時系列で生成する。アニメーションデータには感情データを伴っていても良く、生成された感情データに基づいてアニメーションデータに感情を付与し、台詞の開始時刻及び終了時刻に基づいてアニメーションデータの時間長を調整する。この生成された台詞の開始時刻及び終了時刻に応じて、音声データにおける音声信号及び生成されたアニメーションデータにおける画像信号を生成する。これにより、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタを生成することができる。また、アニメーションデータとしてキャラクタの任意のボーンまたはポリゴンの空間座標を制御した画像信号を生成するので、台詞に応じた複雑なアニメーションを持つキャラクタを生成することができる。

図１は、本実施形態に係るキャラクタアニメーション生成装置の概略構成を示す図である。キャラクタアニメーション生成装置１は、マイクロフォン１０と、スピーカ２０、ディスプレイ３０と、ＰＣ（Personal Computer）４０とから構成されている。そして、マイクロフォン１０によりＰＣ４０に音声データ５０が入力される。なお、図１では、マイクロフォン１０が、ＰＣ４０に接続されているが、本発明の技術的思想は、これに限定されるわけではなく、任意手段によりＰＣに対して音声データが入力されれば十分である。

ＰＣ４０は、ケーブル４０ａを介してキャラクタアニメーション生成装置としてのスピーカ２０及びディスプレイ３０に接続されている。ＰＣ４０では、台詞として入力された音声信号を時系列で記録した音声データ５０に基づいて台詞のテキストデータまたは台詞の開始時刻及び終了時刻を時系列で生成する。また、生成された台詞のテキストデータ及び台詞の開始時刻及び終了時刻に基づいてキャラクタのアニメーションデータ及び感情データを時系列で生成する。さらに、生成された感情データに基づいてアニメーションデータに感情を付与すると共に生成された台詞の開始時刻及び終了時刻に基づいてアニメーションデータの時間長を調整する。

そして、ＰＣ４０は、生成された台詞の開始時刻及び終了時刻に応じて、音声データにおける音声信号を随時スピーカ２０に発信する。一方、ＰＣ４０は、生成されたアニメーションデータにおける画像信号を随時ディスプレイ３０に発信する。その際、ＰＣ４０において生成された画像はディスプレイ３０にＡ１として映写される。なお、本発明の実施形態に係るキャラクタアニメーション生成装置では、音声データにおける音声信号またはアニメーションデータにおける画像信号をスピーカ２０またはディスプレイ３０に発信しなくても構わない。

図２は、本実施形態に係るキャラクタアニメーション生成装置の機能を示すブロック図である。ＰＣ４０の台詞テキスト生成部４０−１は、マイクロフォン１０により台詞として入力された音声信号を時系列で記録した音声データ５０を認識して、台詞のテキストデータ６０−１を時系列で生成する。また、ＰＣ４０の台詞時刻判定部４０−２は、音声データ５０の有音区間を検出して、台詞の開始時刻及び終了時刻６０−２を時系列で判定する。また、ＰＣ４０のアニメーション生成部４０−３は、台詞のテキストデータ６０−１の内容を解析して、台詞の開始時刻及び終了時刻６０−２毎に、キャラクタのアニメーションデータ７０を時系列で生成する。

また、ＰＣ４０の感情生成部４０−４は、台詞のテキストデータ６０−１の内容を解析して、キャラクタの感情データ８０を時系列で生成する。また、ＰＣ４０の感情付与部４０−５は、感情データ８０に応じて、アニメーションデータ７０を変換する。また、ＰＣ４０の時間長調整部４０−６は、台詞の開始時刻及び終了時刻６０−２に基づいて、アニメーションデータ７０を変換する。また、ＰＣ４０のキャラクタ再生部４０−７は、台詞の開始時刻及び終了時刻６０−２に応じて、音声データ５０における音声信号及び生成されたアニメーションデータ７０における画像信号を再生する。

図３は、本実施形態に係るキャラクタアニメーション生成装置の動作を示すフローチャートである。初めに、ＰＣ４０に、マイクロフォン１０により音声信号を入力し、入力された音声信号を時系列で記録して音声データ５０を形成する（ステップＳ１）。次に、ＰＣ４０において、音声データ５０を認識して、台詞のテキストデータを時系列で生成する（ステップＳ２）。

次に、ＰＣ４０において、音声データ５０の有音区間を検出して、台詞の開始時刻及び終了時刻６０−２を時系列で判定する（ステップＳ３）。音声データ５０において、音圧レベルが閾値より大きい状況が一定時間以上継続した場合、該当区間を有音区間とし、区間の先頭を台詞の開始時刻、区間の終端を台詞の終了時刻と判定する。また、ステップＳ２で生成された台詞のテキストデータを、判定された台詞の開始時刻から終了時刻までを１つの単位として、台詞のテキストデータ６０−１に分割する。

次に、ＰＣ４０において、ステップＳ３で分割された台詞のテキストデータ６０−１の内容を解析して、ステップＳ３で判定された台詞の開始時刻及び終了時刻６０−２毎に、「目を閉じる」「お辞儀する」「手を挙げる」等のキャラクタのアニメーションデータ７０を時系列で生成する（ステップＳ４）。本実施形態では、キャラクタの全身動作または表情変化の際のアニメーションデータと、日本語辞書などの代表的な単語データベースに存在する各単語をパラメータとして算出した各アニメーションデータにおける類似度パラメータ、のペアで構成されるアニメーションデータベースを用意する。

なお、ここで言うアニメーションデータは、キャラクタの全てのボーンまたはポリゴンが任意の時刻において何れの空間位置座標に存在するかが記述されている。台詞のテキストデータ６０−１における類似度パラメータを算出し、アニメーションデータベースの中にある全てのアニメーションデータにおける類似度パラメータとのコサイン類似度を求め、最も値の大きいアニメーションデータをキャラクタのアニメーションデータ７０として時系列で生成する。

次に、ＰＣ４０において、ステップＳ３で分割された台詞のテキストデータ６０−１の内容を解析して、感情分類及び強度から構成されるキャラクタの感情データ８０を時系列で生成する（ステップＳ５）。ここでは、入力される台詞のテキストデータ６０−１が単語列の場合を説明するが、本発明の技術的思想は、単語に限定されるわけではなく、句であっても文であっても良い。本実施形態では、感情分類とそれぞれの強度から構成される感情語データベースを使用する。

なお、感情語データベースは、日本語辞書などの大量の単語データベースに存在する全ての単語に対して、人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の９つがどれくらいの割合で存在するか規定し、それぞれの感情強度を０〜１の範囲で、０．１刻みに１０段階で指定して、予め形成されている。また、入力される台詞のテキストデータ６０−１が句または文である場合は、単語の場合と同様に、句または文に全体における感情分類とそれぞれの強度から構成される感情句データベースまたは感情文データベースを使用すれば良い。ここで、「喜び」の強度をＳ_１、「悲しみ」の強度をＳ_２、「怒り」の強度をＳ_３、「嫌悪」の強度をＳ_４、「恐怖」の強度をＳ_５、「罪」の強度をＳ_６、「恥」の強度をＳ_７、「興味」の強度をＳ_８、「驚き」の強度をＳ_９と表す。ただし、次式を満たすものとする。

そして、入力される台詞のテキストデータ６０−１と一致または類似する単語を感情語データベースの中から検索し、その単語における感情分類と強度を抽出し、感情データ８０を生成する。すなわち、台詞のテキストデータ６０−１における感情分類は、次式のように、９次元のベクトルで示される。

また、入力される台詞のテキストデータ６０−１における全体強度Ｗは、次式で表わされる。

例えば、台詞のテキストデータ６０−１として、「泣き笑い」を入力すると、次式が感情データ８０として生成される。

次に、ＰＣ３０において、感情データ８０に応じてアニメーションデータ７０を変換し、キャラクタの全身動作または表情変化に感情を付与する（ステップＳ６）。まず、アニメーションデータ７０にキャラクタにおける任意のボーンの空間座標が時系列で記録されている場合について述べる。本実施形態では、予め収録された全ての全身動作または表情変化における無感情のアニメーションデータ及び各感情分類のアニメーションデータを学習させ、無感情のアニメーションデータから各感情分類のアニメーションデータへの変換を予め定義し、ステップＳ４で生成されたアニメーションデータ７０を、ステップＳ５で生成された感情データ８０に応じて合成変換することで、キャラクタの全身動作または表情変化に感情を付与する。

本明細書では、一例として、主成分分析を用いてキャラクタの全身動作または表情変化に感情を付与するが、本発明の技術的思想は、主成分分析に限定されるわけでなく、非線形状態空間写像や機械学習等、別の方法を用いて全身動作または表情変化に感情を付与しても良い。まず、無感情及び人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の９つの感情の全身動作または表情変化におけるアニメーションデータを収録等により予め複数用意し、学習用データベースに登録しておく。登録された全ての無感情のアニメーションデータ及び各感情分類のアニメーションデータを学習し、線形回帰手法により、無感情のアニメーションデータから各感情分類のアニメーションデータに変換するためのパラメータを算出する。

すなわち、予め用意された全身動作または表情変化をｍ（ｍ＝１，２，…）とすると、全身動作または表情変化ｍにおける無感情のアニメーションデータの第ｊ主成分座標の微分値ｋ^ｊ（ｍ）を用いて、次式により線形回帰演算を行って、変換パラメータａ^ｊ _ｉ、ｂ^ｊ _ｉを算出する。

ただし、ｑ^ｊ _ｉ（ｍ）は全身動作または表情変化ｍにおける各感情のアニメーションデータの第ｊ主成分座標の微分値を示しており、ｉ＝１は感情分類が「喜び」の場合を、ｉ＝２は感情分類が「悲しみ」の場合を、ｉ＝３は感情分類が「怒り」の場合を、ｉ＝４は感情分類が「嫌悪」の場合を、ｉ＝５は感情分類が「恐怖」の場合を、ｉ＝６は感情分類が「罪」の場合を、ｉ＝７は感情分類が「恥」の場合を、ｉ＝８は感情分類が「興味」の場合を、ｉ＝９は感情分類が「驚き」の場合をそれぞれ表す。次に、ステップＳ５で生成された感情データ８０に対応する変換パラメータａ^ｊ _ｉ、ｂ^ｊ _ｉを用いて、ステップＳ４で生成されたアニメーションデータ７０を合成変換し、キャラクタの全身動作または表情変化に感情を付与する。すなわち、感情が付与されたアニメーションデータ７０の第ｊ主成分座標の微分値ｐ^ｊ（ｍ）は、次式のようになる。

時系列で記録されたアニメーションデータ７０の全てに対して同様の操作を実行し、アニメーションデータ７０を再生成する。

次に、アニメーションデータ７０にキャラクタにおける任意のポリゴンの空間座標が時系列で記録されている場合について述べる。本実施形態では、ステップＳ４で生成されたアニメーションデータ７０を、ステップＳ５で生成された感情データ８０に応じて合成変換することで、キャラクタの全身動作または表情変化に感情を付与する。まず、人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の９つの感情の全身動作または表情変化におけるアニメーションデータに対して、無感情のアニメーションデータからの変化量を予め定義しておく。ここで、アニメーションデータの中のあるポリゴンＰの座標に対して、「喜び」における無感情との差分を（Ｘ_１，Ｙ_１，Ｚ_１）、「悲しみ」における無感情との差分を（Ｘ_２，Ｙ_２，Ｚ_２）、「怒り」における無感情との差分を（Ｘ_３，Ｙ_３，Ｚ_３）、「嫌悪」における無感情との差分を（Ｘ_４，Ｙ_４，Ｚ_４）、「恐怖」における無感情との差分を（Ｘ_５，Ｙ_５，Ｚ_５）、「罪」における無感情との差分を（Ｘ_６，Ｙ_６，Ｚ_６）、「恥」における無感情との差分を（Ｘ_７，Ｙ_７，Ｚ_７）、における無感情との差分を（Ｘ_８，Ｙ_８，Ｚ_８）、「驚き」における無感情との差分を（Ｘ_９，Ｙ_９，Ｚ_９）、と表す。

そして、ステップＳ５で生成された感情データ８０に応じて、ステップＳ４で生成されたアニメーションデータ７０を合成変換し、キャラクタの全身動作または表情変化に感情を付与する。すなわち、アニメーションデータ７０におけるＰの座標を（Ｘ_０，Ｙ_０，Ｚ_０）とすると、感情が付与されたアニメーションデータ７０におけるＰの座標（Ｘ_Ｅ，Ｙ_Ｅ，Ｚ_Ｅ）は、次式で表わされる。

次に、ＰＣ４０において、ステップＳ３で判定された台詞の開始時刻及び終了時刻６０−２に基づいて、ステップＳ４またはステップＳ６で生成されたアニメーションデータ７０を変換し、アニメーションデータ７０の時間長を調整する（ステップＳ７）。本実施形態では、キャラクタの一連の全身動作または表情変化におけるアニメーションデータ内のボーンまたはポリゴンの空間座標を「開始部」「主要部」「収束部」等の動きの内容に応じて予め分割して、それらの境界となる時刻をキーフレームと指定し、キーフレーム間の遷移が規定された「アニメーショングラフ」を用いて、アニメーションデータ７０を変換する。

本明細書では、一例として、アニメーショングラフを用いてアニメーションデータ７０の時間長を調整するが、本発明の技術的思想は、アニメーショングラフに限定されるわけではなく、機械学習やHidden Markov Model等の確率モデルも用いてアニメーションデータ７０の時間長を調整しても良い。まず、ステップＳ４で用意されたアニメーションデータベースにおける全てのアニメーションデータに対して、予め「開始部」「主要部」「収束部」を定めてキーフレームを指定し、上述したアニメーショングラフを用意する。

次に、ステップＳ３で判定された台詞の開始時刻及び終了時刻よりステップＳ３で分割された台詞のテキストデータ６０−１の時間長を求める。そして、ステップＳ４またはステップＳ６で生成されたアニメーションデータ７０の時間長に、アニメーションデータ７０における「主要部」の時間長を、台詞の時間長との差分が最も小さくなるように繰り返し加え、繰り返し回数を保持する。最後に、アニメーションデータ７０の「収束部」の直前に、保持された繰り返し回数分だけ「主要部」のアニメーションデータを挿入する形で、アニメーションデータ７０を再生成する。本明細書では、一例として、アニメーションデータにおける「主要部」を繰り返して時間長を調整するが、本発明の技術的思想は、「主要部」の繰り返しに限定されるわけではなく、アニメーションデータの速度制御や「開始部」「収束部」の切り捨て等でアニメーションデータ７０の時間長を調整しても良い。

次に、ＰＣ４０において、ステップＳ３で判定された台詞の開始時刻及び終了時刻６０−２に応じて、音声データ５０における音声信号ステップＳ７で生成されたアニメーションデータ７０における画像信号を生成する（ステップＳ８）。まず、音声データ５０の再生を開始して音声信号の生成を開始すると共に、キャラクタの描画を開始して画像信号の生成を開始する。次に、音声データ５０の再生時刻がステップＳ３で判定された台詞の開始時刻に到達すると、ステップＳ７で生成されたアニメーションデータ７０を反映したキャラクタの描画を開始して画像信号を生成する。

一方、音声データ５０の再生時刻がステップＳ３で判定された台詞の終了時刻に到達すると、アニメーションデータ７０が反映されない標準のキャラクタの描画に戻り画像信号を生成する。時系列で記録された全ての台詞の開始時刻及び終了時刻６０−２に対して、同様の処理を繰り返し、アニメーションデータ７０における画像信号を生成する。最後の台詞の開始時刻及び終了時刻６０−２に対しての処理が終了した後、マイクロフォン１０により入力される音声データ５０が続く場合は、ステップＳ１に戻り、次の音声データ５０に対しての処理を開始する。

最後に、音声データ５０をスピーカ２０から放射すると共に、生成されたキャラクタの画像信号をディスプレイ３０に映写する（ステップＳ９）。

このように、本実施形態によれば、台詞として入力された音声信号を時系列で記録した音声データ５０に基づいて台詞のテキストデータ及び台詞の開始時刻及び終了時刻を時系列で生成する。また、生成された台詞のテキストデータに基づいて台詞の開始時刻及び終了時刻毎にキャラクタのアニメーションデータ及び感情データを時系列で生成する。さらに、生成された感情データに基づいてアニメーションデータに感情を付与すると共に生成された台詞の開始時刻及び終了時刻に基づいてアニメーションデータの時間長を調整する。そして、ＰＣ４０は、生成された台詞の開始時刻及び終了時刻に応じて、音声データにおける音声信号を随時スピーカ２０に発信する。一方、ＰＣ４０は、アニメーションデータにおける画像信号を随時ディスプレイ３０に発信する。これにより、本実施形態では、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタを生成することができる。また、アニメーションデータとしてキャラクタの任意のボーンまたはポリゴンの空間座標を制御した画像信号を生成するので、台詞に応じた複雑なアニメーションを持つキャラクタを生成することができる。

１０マイクロフォン
２０スピーカ
３０ディスプレイ
４０−１台詞テキスト生成部
４０−２台詞時刻判定部
４０−３アニメーション生成部
４０−４感情生成部
４０−５感情付与部
４０−６時間長調整部
４０−７キャラクタ再生部
４０ａケーブル
５０音声データ
６０−１テキストデータ
６０−２開始時刻および終了時刻
７０アニメーションデータ
８０感情データ

Claims

台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成装置であって、
台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整する時間長調整部を備えることを特徴とするアニメーション生成装置。
前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータを、感情付きのキャラクタのアニメーションデータに変更する感情付与部を更に備えることを特徴とする請求項１記載のアニメーション生成装置。
入力された音声データを認識して台詞を示すテキストデータを生成する台詞テキスト生成部を更に備えることを特徴とする請求項１または請求項２記載のアニメーション生成装置。
入力された音声データの有音区間を検出して台詞の開始時刻および前記台詞の終了時刻を特定する台詞時刻判定部を更に備えることを特徴とする請求項１から請求項３のいずれかに記載のアニメーション生成装置。
前記台詞を示すテキストデータの意味内容を認識し、前記キャラクタのアニメーションデータを生成するアニメーション生成部を更に備えることを特徴とする請求項１から請求項４のいずれかに記載のアニメーション生成装置。
前記台詞を示すテキストデータの感情分類または感情強度を解析し、前記台詞に対応するキャラクタの感情を示す感情データを生成する感情生成部を更に備えることを特徴とする請求項１から請求項５のいずれかに記載のアニメーション生成装置。
前記キャラクタのアニメーションデータは、前記キャラクタのボーン（bone）またはポリゴン（polygon）の任意の時刻における空間座標を示すデータであることを特徴とする請求項１から請求項６のいずれかに記載のアニメーション生成装置。
前記キャラクタのアニメーションデータを再生して、台詞の音声およびアニメーション画像を出力するキャラクタ再生部を更に備えることを特徴とする請求項１から請求項７のいずれかに記載のアニメーション生成装置。
台詞の音声出力を伴うキャラクタのアニメーションのデータフォーマットであって、
台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データに適合するように、キャラクタのアニメーションデータの時間長が調整されたことを特徴とするデータフォーマット。
前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータが、感情付きのキャラクタのアニメーションデータに変更されたことを特徴とする請求項９記載のデータフォーマット。
台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成方法であって、
台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力するステップと、
前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するステップと、を少なくとも含むことを特徴とするアニメーション生成方法。
台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成装置のプログラムであって、
台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力する処理と、
前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整する処理と、の一連の処理をコンピュータに実行させることを特徴とするプログラム。