JP2015125613A - アニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラム - Google Patents

アニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラム Download PDF

Info

Publication number
JP2015125613A
JP2015125613A JP2013269943A JP2013269943A JP2015125613A JP 2015125613 A JP2015125613 A JP 2015125613A JP 2013269943 A JP2013269943 A JP 2013269943A JP 2013269943 A JP2013269943 A JP 2013269943A JP 2015125613 A JP2015125613 A JP 2015125613A
Authority
JP
Japan
Prior art keywords
data
animation
character
dialogue
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013269943A
Other languages
English (en)
Inventor
伸也 高山
Shinya Takayama
伸也 高山
有希 永井
Yuki Nagai
有希 永井
建鋒 徐
Kenho Jo
建鋒 徐
茂之 酒澤
Shigeyuki Sakasawa
茂之 酒澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2013269943A priority Critical patent/JP2015125613A/ja
Publication of JP2015125613A publication Critical patent/JP2015125613A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

【課題】キャラクタの台詞における開始時刻及び終了時刻、長さ、内容に応じて、キャラクタのアニメーションを生成する。
【解決手段】本発明のアニメーション生成装置は、台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成装置であって、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整する時間長調整部40−6、を備える。
【選択図】図2

Description

本発明は、台詞の開始時刻および終了時刻、長さ、内容に応じて、キャラクタのアニメーションを生成する技術に関する。
従来から、予め規定されたフォーマットに従って生成された画像や音声等の電気信号を生成する技術が知られている。例えば、特許文献1に開示されている技術では、複数トラックに記録された音響信号を異なる位置関係で複数再生することで、各信号間の位相ズレを解消させた再生信号を再生成し、音響再生を良好に行うことのできるデータフォーマットを提供する。
また、特許文献2に開示されている技術では、テレビ電話の通話で送られてくる画像信号及び音声情報に基づいて、情報端末上に生成されたキャラクタを自動的に生成することのできるデータフォーマットを提供する。
特許第5003327号明細書 特開2007−279776号公報
しかしながら、特許文献1に開示されている技術では、複数トラックに記録された音響信号間の同期のズレは解消できるが、画像信号を用いるキャラクタを生成することはできない。
また、特許文献2に開示されている技術では、入力される音声信号の音素情報応じてキャラクタの口形を変化させた画像信号を生成することができるが、全身動作や表情変化等の複雑なアニメーションにおける画像信号を音声信号に応じて生成することは困難である。
本発明は、このような事情に鑑みてなされたものであり、キャラクタの台詞における開始時刻及び終了時刻、長さ、内容に応じて、キャラクタのアニメーションを生成することができるアニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラムを提供することを目的とする。
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明のアニメーション生成装置は、台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成装置であって、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整する時間長調整部を備えることを特徴とする。
このように、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するので、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。
(2)また、本発明のアニメーション生成装置は、前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータを、感情付きのキャラクタのアニメーションデータに変更する感情付与部を更に備えることを特徴とする。
このように、前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータを、感情付きのキャラクタのアニメーションデータに変更するので、キャラクタのアニメーションの感情表現を豊かにすることが可能となる。
(3)また、本発明のアニメーション生成装置は、入力された音声データを認識して台詞を示すテキストデータを生成する台詞テキスト生成部を更に備えることを特徴とする。
このように、入力された音声データを認識して台詞を示すテキストデータを生成するので、テキストデータの入力のみならず、直接音声を入力することも可能となる。
(4)また、本発明のアニメーション生成装置は、入力された音声データの有音区間を検出して台詞の開始時刻および前記台詞の終了時刻を特定する台詞時刻判定部を更に備えることを特徴とする。
このように、入力された音声データの有音区間を検出して台詞の開始時刻および前記台詞の終了時刻を特定するので、音声を入力した場合であっても台詞データを生成することが可能となる。
(5)また、本発明のアニメーション生成装置は、前記台詞を示すテキストデータの意味内容を認識し、前記キャラクタのアニメーションデータを生成するアニメーション生成部を更に備えることを特徴とする。
このように、前記台詞を示すテキストデータの意味内容を認識し、前記キャラクタのアニメーションデータを生成するので、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。
(6)また、本発明のアニメーション生成装置は、前記台詞を示すテキストデータの感情分類または感情強度を解析し、前記台詞に対応するキャラクタの感情を示す感情データを生成する感情生成部を更に備えることを特徴とする。
このように、前記台詞を示すテキストデータの感情分類または感情強度を解析し、前記台詞に対応するキャラクタの感情を示す感情データを生成するので、台詞に応じた感情をキャラクタのアニメーションに付与することが可能となる。
(7)また、本発明のアニメーション生成装置において、前記キャラクタのアニメーションデータは、前記キャラクタのボーン(bone)またはポリゴン(polygon)の任意の時刻における空間座標を示すデータであることを特徴とする。
このように、前記キャラクタのアニメーションデータは、前記キャラクタのボーン(bone)またはポリゴン(polygon)の任意の時刻における空間座標を示すデータであるので、台詞に応じた複雑なアニメーションを持つキャラクタを生成することができる。
(8)また、本発明のアニメーション生成装置は、前記キャラクタのアニメーションデータを再生して、台詞の音声およびアニメーション画像を出力するキャラクタ再生部を更に備えることを特徴とする。
このように、前記キャラクタのアニメーションデータを再生して、台詞の音声およびアニメーション画像を出力するので、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。
(9)また、本発明のデータフォーマットは、台詞の音声出力を伴うキャラクタのアニメーションのデータフォーマットであって、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データに適合するように、キャラクタのアニメーションデータの時間長が調整されたことを特徴とする。
このように、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するので、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。
(10)また、本発明のデータフォーマットは、前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータが、感情付きのキャラクタのアニメーションデータに変更されたことを特徴とする。
このように、前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータを、感情付きのキャラクタのアニメーションデータに変更するので、キャラクタのアニメーションの感情表現を豊かにすることが可能となる。
(11)また、本発明のアニメーション生成方法は、台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成方法であって、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力するステップと、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するステップと、を少なくとも含むことを特徴とする。
このように、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するので、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。
(12)また、本発明のプログラムは、台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成装置のプログラムであって、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力する処理と、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整する処理と、の一連の処理をコンピュータに実行させることを特徴とする。
このように、台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するので、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。
本発明によれば、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタのアニメーションを生成することができる。
本実施形態に係るキャラクタアニメーション生成装置の概略構成を示す図である。 本実施形態に係るキャラクタアニメーション生成装置1の機能を示すブロック図である。 本実施形態に係るキャラクタアニメーション生成装置の動作を示すフローチャートである。 テキストデータ、開始時刻および終了時刻から構成される台詞データを示す図である。 アニメーションデータを示す図である。 感情データを示す図である。 本実施形態に係るデータフォーマットを示す図である。
本発明の実施形態に係るキャラクタアニメーション生成装置は、台詞である音声信号を入力し、入力された音声信号を時系列で記録した音声データに基づいて台詞のテキストデータおよび台詞の開始時刻及び終了時刻を時系列で生成する。この生成された台詞のテキストデータ及び台詞の開始時刻及び終了時刻に基づいてキャラクタのアニメーションデータを時系列で生成する。アニメーションデータには感情データを伴っていても良く、生成された感情データに基づいてアニメーションデータに感情を付与し、台詞の開始時刻及び終了時刻に基づいてアニメーションデータの時間長を調整する。この生成された台詞の開始時刻及び終了時刻に応じて、音声データにおける音声信号及び生成されたアニメーションデータにおける画像信号を生成する。これにより、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタを生成することができる。また、アニメーションデータとしてキャラクタの任意のボーンまたはポリゴンの空間座標を制御した画像信号を生成するので、台詞に応じた複雑なアニメーションを持つキャラクタを生成することができる。
図1は、本実施形態に係るキャラクタアニメーション生成装置の概略構成を示す図である。キャラクタアニメーション生成装置1は、マイクロフォン10と、スピーカ20、ディスプレイ30と、PC(Personal Computer)40とから構成されている。そして、マイクロフォン10によりPC40に音声データ50が入力される。なお、図1では、マイクロフォン10が、PC40に接続されているが、本発明の技術的思想は、これに限定されるわけではなく、任意手段によりPCに対して音声データが入力されれば十分である。
PC40は、ケーブル40aを介してキャラクタアニメーション生成装置としてのスピーカ20及びディスプレイ30に接続されている。PC40では、台詞として入力された音声信号を時系列で記録した音声データ50に基づいて台詞のテキストデータまたは台詞の開始時刻及び終了時刻を時系列で生成する。また、生成された台詞のテキストデータ及び台詞の開始時刻及び終了時刻に基づいてキャラクタのアニメーションデータ及び感情データを時系列で生成する。さらに、生成された感情データに基づいてアニメーションデータに感情を付与すると共に生成された台詞の開始時刻及び終了時刻に基づいてアニメーションデータの時間長を調整する。
そして、PC40は、生成された台詞の開始時刻及び終了時刻に応じて、音声データにおける音声信号を随時スピーカ20に発信する。一方、PC40は、生成されたアニメーションデータにおける画像信号を随時ディスプレイ30に発信する。その際、PC40において生成された画像はディスプレイ30にA1として映写される。なお、本発明の実施形態に係るキャラクタアニメーション生成装置では、音声データにおける音声信号またはアニメーションデータにおける画像信号をスピーカ20またはディスプレイ30に発信しなくても構わない。
図2は、本実施形態に係るキャラクタアニメーション生成装置の機能を示すブロック図である。PC40の台詞テキスト生成部40−1は、マイクロフォン10により台詞として入力された音声信号を時系列で記録した音声データ50を認識して、台詞のテキストデータ60−1を時系列で生成する。また、PC40の台詞時刻判定部40−2は、音声データ50の有音区間を検出して、台詞の開始時刻及び終了時刻60−2を時系列で判定する。また、PC40のアニメーション生成部40−3は、台詞のテキストデータ60−1の内容を解析して、台詞の開始時刻及び終了時刻60−2毎に、キャラクタのアニメーションデータ70を時系列で生成する。
また、PC40の感情生成部40−4は、台詞のテキストデータ60−1の内容を解析して、キャラクタの感情データ80を時系列で生成する。また、PC40の感情付与部40−5は、感情データ80に応じて、アニメーションデータ70を変換する。また、PC40の時間長調整部40−6は、台詞の開始時刻及び終了時刻60−2に基づいて、アニメーションデータ70を変換する。また、PC40のキャラクタ再生部40−7は、台詞の開始時刻及び終了時刻60−2に応じて、音声データ50における音声信号及び生成されたアニメーションデータ70における画像信号を再生する。
図3は、本実施形態に係るキャラクタアニメーション生成装置の動作を示すフローチャートである。初めに、PC40に、マイクロフォン10により音声信号を入力し、入力された音声信号を時系列で記録して音声データ50を形成する(ステップS1)。次に、PC40において、音声データ50を認識して、台詞のテキストデータを時系列で生成する(ステップS2)。
次に、PC40において、音声データ50の有音区間を検出して、台詞の開始時刻及び終了時刻60−2を時系列で判定する(ステップS3)。音声データ50において、音圧レベルが閾値より大きい状況が一定時間以上継続した場合、該当区間を有音区間とし、区間の先頭を台詞の開始時刻、区間の終端を台詞の終了時刻と判定する。また、ステップS2で生成された台詞のテキストデータを、判定された台詞の開始時刻から終了時刻までを1つの単位として、台詞のテキストデータ60−1に分割する。
次に、PC40において、ステップS3で分割された台詞のテキストデータ60−1の内容を解析して、ステップS3で判定された台詞の開始時刻及び終了時刻60−2毎に、「目を閉じる」「お辞儀する」「手を挙げる」等のキャラクタのアニメーションデータ70を時系列で生成する(ステップS4)。本実施形態では、キャラクタの全身動作または表情変化の際のアニメーションデータと、日本語辞書などの代表的な単語データベースに存在する各単語をパラメータとして算出した各アニメーションデータにおける類似度パラメータ、のペアで構成されるアニメーションデータベースを用意する。
なお、ここで言うアニメーションデータは、キャラクタの全てのボーンまたはポリゴンが任意の時刻において何れの空間位置座標に存在するかが記述されている。台詞のテキストデータ60−1における類似度パラメータを算出し、アニメーションデータベースの中にある全てのアニメーションデータにおける類似度パラメータとのコサイン類似度を求め、最も値の大きいアニメーションデータをキャラクタのアニメーションデータ70として時系列で生成する。
次に、PC40において、ステップS3で分割された台詞のテキストデータ60−1の内容を解析して、感情分類及び強度から構成されるキャラクタの感情データ80を時系列で生成する(ステップS5)。ここでは、入力される台詞のテキストデータ60−1が単語列の場合を説明するが、本発明の技術的思想は、単語に限定されるわけではなく、句であっても文であっても良い。本実施形態では、感情分類とそれぞれの強度から構成される感情語データベースを使用する。
なお、感情語データベースは、日本語辞書などの大量の単語データベースに存在する全ての単語に対して、人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の9つがどれくらいの割合で存在するか規定し、それぞれの感情強度を0〜1の範囲で、0.1刻みに10段階で指定して、予め形成されている。また、入力される台詞のテキストデータ60−1が句または文である場合は、単語の場合と同様に、句または文に全体における感情分類とそれぞれの強度から構成される感情句データベースまたは感情文データベースを使用すれば良い。ここで、「喜び」の強度をS、「悲しみ」の強度をS、「怒り」の強度をS、「嫌悪」の強度をS、「恐怖」の強度をS、「罪」の強度をS、「恥」の強度をS、「興味」の強度をS、「驚き」の強度をSと表す。ただし、次式を満たすものとする。
Figure 2015125613
そして、入力される台詞のテキストデータ60−1と一致または類似する単語を感情語データベースの中から検索し、その単語における感情分類と強度を抽出し、感情データ80を生成する。すなわち、台詞のテキストデータ60−1における感情分類は、次式のように、9次元のベクトルで示される。
Figure 2015125613
また、入力される台詞のテキストデータ60−1における全体強度Wは、次式で表わされる。
Figure 2015125613
例えば、台詞のテキストデータ60−1として、「泣き笑い」を入力すると、次式が感情データ80として生成される。
Figure 2015125613
次に、PC30において、感情データ80に応じてアニメーションデータ70を変換し、キャラクタの全身動作または表情変化に感情を付与する(ステップS6)。まず、アニメーションデータ70にキャラクタにおける任意のボーンの空間座標が時系列で記録されている場合について述べる。本実施形態では、予め収録された全ての全身動作または表情変化における無感情のアニメーションデータ及び各感情分類のアニメーションデータを学習させ、無感情のアニメーションデータから各感情分類のアニメーションデータへの変換を予め定義し、ステップS4で生成されたアニメーションデータ70を、ステップS5で生成された感情データ80に応じて合成変換することで、キャラクタの全身動作または表情変化に感情を付与する。
本明細書では、一例として、主成分分析を用いてキャラクタの全身動作または表情変化に感情を付与するが、本発明の技術的思想は、主成分分析に限定されるわけでなく、非線形状態空間写像や機械学習等、別の方法を用いて全身動作または表情変化に感情を付与しても良い。まず、無感情及び人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の9つの感情の全身動作または表情変化におけるアニメーションデータを収録等により予め複数用意し、学習用データベースに登録しておく。登録された全ての無感情のアニメーションデータ及び各感情分類のアニメーションデータを学習し、線形回帰手法により、無感情のアニメーションデータから各感情分類のアニメーションデータに変換するためのパラメータを算出する。
すなわち、予め用意された全身動作または表情変化をm(m=1,2,…)とすると、全身動作または表情変化mにおける無感情のアニメーションデータの第j主成分座標の微分値k(m)を用いて、次式により線形回帰演算を行って、変換パラメータa 、b を算出する。
Figure 2015125613
ただし、q (m)は全身動作または表情変化mにおける各感情のアニメーションデータの第j主成分座標の微分値を示しており、i=1は感情分類が「喜び」の場合を、i=2は感情分類が「悲しみ」の場合を、i=3は感情分類が「怒り」の場合を、i=4は感情分類が「嫌悪」の場合を、i=5は感情分類が「恐怖」の場合を、i=6は感情分類が「罪」の場合を、i=7は感情分類が「恥」の場合を、i=8は感情分類が「興味」の場合を、i=9は感情分類が「驚き」の場合をそれぞれ表す。次に、ステップS5で生成された感情データ80に対応する変換パラメータa 、b を用いて、ステップS4で生成されたアニメーションデータ70を合成変換し、キャラクタの全身動作または表情変化に感情を付与する。すなわち、感情が付与されたアニメーションデータ70の第j主成分座標の微分値p(m)は、次式のようになる。
Figure 2015125613
時系列で記録されたアニメーションデータ70の全てに対して同様の操作を実行し、アニメーションデータ70を再生成する。
次に、アニメーションデータ70にキャラクタにおける任意のポリゴンの空間座標が時系列で記録されている場合について述べる。本実施形態では、ステップS4で生成されたアニメーションデータ70を、ステップS5で生成された感情データ80に応じて合成変換することで、キャラクタの全身動作または表情変化に感情を付与する。まず、人間の表情形成に用いられる感情分類「喜び」「悲しみ」「怒り」「嫌悪」「恐怖」「罪」「恥」「興味」「驚き」の9つの感情の全身動作または表情変化におけるアニメーションデータに対して、無感情のアニメーションデータからの変化量を予め定義しておく。ここで、アニメーションデータの中のあるポリゴンPの座標に対して、「喜び」における無感情との差分を(X,Y,Z)、「悲しみ」における無感情との差分を(X,Y,Z)、「怒り」における無感情との差分を(X,Y,Z)、「嫌悪」における無感情との差分を(X,Y,Z)、「恐怖」における無感情との差分を(X,Y,Z)、「罪」における無感情との差分を(X,Y,Z)、「恥」における無感情との差分を(X,Y,Z)、における無感情との差分を(X,Y,Z)、「驚き」における無感情との差分を(X,Y,Z)、と表す。
そして、ステップS5で生成された感情データ80に応じて、ステップS4で生成されたアニメーションデータ70を合成変換し、キャラクタの全身動作または表情変化に感情を付与する。すなわち、アニメーションデータ70におけるPの座標を(X,Y,Z)とすると、感情が付与されたアニメーションデータ70におけるPの座標(X,Y,Z)は、次式で表わされる。
Figure 2015125613
時系列で記録されたアニメーションデータ70の全てに対して同様の操作を実行し、アニメーションデータ70を再生成する。
次に、PC40において、ステップS3で判定された台詞の開始時刻及び終了時刻60−2に基づいて、ステップS4またはステップS6で生成されたアニメーションデータ70を変換し、アニメーションデータ70の時間長を調整する(ステップS7)。本実施形態では、キャラクタの一連の全身動作または表情変化におけるアニメーションデータ内のボーンまたはポリゴンの空間座標を「開始部」「主要部」「収束部」等の動きの内容に応じて予め分割して、それらの境界となる時刻をキーフレームと指定し、キーフレーム間の遷移が規定された「アニメーショングラフ」を用いて、アニメーションデータ70を変換する。
本明細書では、一例として、アニメーショングラフを用いてアニメーションデータ70の時間長を調整するが、本発明の技術的思想は、アニメーショングラフに限定されるわけではなく、機械学習やHidden Markov Model等の確率モデルも用いてアニメーションデータ70の時間長を調整しても良い。まず、ステップS4で用意されたアニメーションデータベースにおける全てのアニメーションデータに対して、予め「開始部」「主要部」「収束部」を定めてキーフレームを指定し、上述したアニメーショングラフを用意する。
次に、ステップS3で判定された台詞の開始時刻及び終了時刻よりステップS3で分割された台詞のテキストデータ60−1の時間長を求める。そして、ステップS4またはステップS6で生成されたアニメーションデータ70の時間長に、アニメーションデータ70における「主要部」の時間長を、台詞の時間長との差分が最も小さくなるように繰り返し加え、繰り返し回数を保持する。最後に、アニメーションデータ70の「収束部」の直前に、保持された繰り返し回数分だけ「主要部」のアニメーションデータを挿入する形で、アニメーションデータ70を再生成する。本明細書では、一例として、アニメーションデータにおける「主要部」を繰り返して時間長を調整するが、本発明の技術的思想は、「主要部」の繰り返しに限定されるわけではなく、アニメーションデータの速度制御や「開始部」「収束部」の切り捨て等でアニメーションデータ70の時間長を調整しても良い。
次に、PC40において、ステップS3で判定された台詞の開始時刻及び終了時刻60−2に応じて、音声データ50における音声信号ステップS7で生成されたアニメーションデータ70における画像信号を生成する(ステップS8)。まず、音声データ50の再生を開始して音声信号の生成を開始すると共に、キャラクタの描画を開始して画像信号の生成を開始する。次に、音声データ50の再生時刻がステップS3で判定された台詞の開始時刻に到達すると、ステップS7で生成されたアニメーションデータ70を反映したキャラクタの描画を開始して画像信号を生成する。
一方、音声データ50の再生時刻がステップS3で判定された台詞の終了時刻に到達すると、アニメーションデータ70が反映されない標準のキャラクタの描画に戻り画像信号を生成する。時系列で記録された全ての台詞の開始時刻及び終了時刻60−2に対して、同様の処理を繰り返し、アニメーションデータ70における画像信号を生成する。最後の台詞の開始時刻及び終了時刻60−2に対しての処理が終了した後、マイクロフォン10により入力される音声データ50が続く場合は、ステップS1に戻り、次の音声データ50に対しての処理を開始する。
最後に、音声データ50をスピーカ20から放射すると共に、生成されたキャラクタの画像信号をディスプレイ30に映写する(ステップS9)。
このように、本実施形態によれば、台詞として入力された音声信号を時系列で記録した音声データ50に基づいて台詞のテキストデータ及び台詞の開始時刻及び終了時刻を時系列で生成する。また、生成された台詞のテキストデータに基づいて台詞の開始時刻及び終了時刻毎にキャラクタのアニメーションデータ及び感情データを時系列で生成する。さらに、生成された感情データに基づいてアニメーションデータに感情を付与すると共に生成された台詞の開始時刻及び終了時刻に基づいてアニメーションデータの時間長を調整する。そして、PC40は、生成された台詞の開始時刻及び終了時刻に応じて、音声データにおける音声信号を随時スピーカ20に発信する。一方、PC40は、アニメーションデータにおける画像信号を随時ディスプレイ30に発信する。これにより、本実施形態では、キャラクタの台詞が動的に生成される場合であっても、画像信号と音声信号の同期ズレを解消して、キャラクタを生成することができる。また、アニメーションデータとしてキャラクタの任意のボーンまたはポリゴンの空間座標を制御した画像信号を生成するので、台詞に応じた複雑なアニメーションを持つキャラクタを生成することができる。
10 マイクロフォン
20 スピーカ
30 ディスプレイ
40−1 台詞テキスト生成部
40−2 台詞時刻判定部
40−3 アニメーション生成部
40−4 感情生成部
40−5 感情付与部
40−6 時間長調整部
40−7 キャラクタ再生部
40a ケーブル
50 音声データ
60−1 テキストデータ
60−2 開始時刻および終了時刻
70 アニメーションデータ
80 感情データ

Claims (12)

  1. 台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成装置であって、
    台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力し、前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整する時間長調整部を備えることを特徴とするアニメーション生成装置。
  2. 前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータを、感情付きのキャラクタのアニメーションデータに変更する感情付与部を更に備えることを特徴とする請求項1記載のアニメーション生成装置。
  3. 入力された音声データを認識して台詞を示すテキストデータを生成する台詞テキスト生成部を更に備えることを特徴とする請求項1または請求項2記載のアニメーション生成装置。
  4. 入力された音声データの有音区間を検出して台詞の開始時刻および前記台詞の終了時刻を特定する台詞時刻判定部を更に備えることを特徴とする請求項1から請求項3のいずれかに記載のアニメーション生成装置。
  5. 前記台詞を示すテキストデータの意味内容を認識し、前記キャラクタのアニメーションデータを生成するアニメーション生成部を更に備えることを特徴とする請求項1から請求項4のいずれかに記載のアニメーション生成装置。
  6. 前記台詞を示すテキストデータの感情分類または感情強度を解析し、前記台詞に対応するキャラクタの感情を示す感情データを生成する感情生成部を更に備えることを特徴とする請求項1から請求項5のいずれかに記載のアニメーション生成装置。
  7. 前記キャラクタのアニメーションデータは、前記キャラクタのボーン(bone)またはポリゴン(polygon)の任意の時刻における空間座標を示すデータであることを特徴とする請求項1から請求項6のいずれかに記載のアニメーション生成装置。
  8. 前記キャラクタのアニメーションデータを再生して、台詞の音声およびアニメーション画像を出力するキャラクタ再生部を更に備えることを特徴とする請求項1から請求項7のいずれかに記載のアニメーション生成装置。
  9. 台詞の音声出力を伴うキャラクタのアニメーションのデータフォーマットであって、
    台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データに適合するように、キャラクタのアニメーションデータの時間長が調整されたことを特徴とするデータフォーマット。
  10. 前記台詞に対応するキャラクタの感情を示す感情データを用いて、前記キャラクタのアニメーションデータが、感情付きのキャラクタのアニメーションデータに変更されたことを特徴とする請求項9記載のデータフォーマット。
  11. 台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成方法であって、
    台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力するステップと、
    前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整するステップと、を少なくとも含むことを特徴とするアニメーション生成方法。
  12. 台詞の音声出力を伴うキャラクタのアニメーションを生成するアニメーション生成装置のプログラムであって、
    台詞を示すテキストデータ、前記台詞の開始時刻を示すデータおよび前記台詞の終了時刻を示すデータから構成される台詞データを入力すると共に、キャラクタのアニメーションデータを入力する処理と、
    前記台詞データに基づいて、前記キャラクタのアニメーションデータの時間長を調整する処理と、の一連の処理をコンピュータに実行させることを特徴とするプログラム。

JP2013269943A 2013-12-26 2013-12-26 アニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラム Pending JP2015125613A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013269943A JP2015125613A (ja) 2013-12-26 2013-12-26 アニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013269943A JP2015125613A (ja) 2013-12-26 2013-12-26 アニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2015125613A true JP2015125613A (ja) 2015-07-06

Family

ID=53536273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013269943A Pending JP2015125613A (ja) 2013-12-26 2013-12-26 アニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2015125613A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288077A (zh) * 2018-11-14 2019-09-27 腾讯科技(深圳)有限公司 一种基于人工智能的合成说话表情的方法和相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123191A (ja) * 1998-10-19 2000-04-28 Canon Inc 情報処理装置及び方法及び情報伝送システム
JP2002197488A (ja) * 2000-12-27 2002-07-12 Konami Computer Entertainment Yokyo Inc リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法
JP2003216173A (ja) * 2002-01-28 2003-07-30 Toshiba Corp 合成音声及び映像の同期制御方法、装置及びプログラム
JP3173022U (ja) * 2011-11-01 2012-01-19 サイバークローン株式会社 音声合成を伴う動く画像システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123191A (ja) * 1998-10-19 2000-04-28 Canon Inc 情報処理装置及び方法及び情報伝送システム
JP2002197488A (ja) * 2000-12-27 2002-07-12 Konami Computer Entertainment Yokyo Inc リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法
JP2003216173A (ja) * 2002-01-28 2003-07-30 Toshiba Corp 合成音声及び映像の同期制御方法、装置及びプログラム
JP3173022U (ja) * 2011-11-01 2012-01-19 サイバークローン株式会社 音声合成を伴う動く画像システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288077A (zh) * 2018-11-14 2019-09-27 腾讯科技(深圳)有限公司 一种基于人工智能的合成说话表情的方法和相关装置
CN110288077B (zh) * 2018-11-14 2022-12-16 腾讯科技(深圳)有限公司 一种基于人工智能的合成说话表情的方法和相关装置

Similar Documents

Publication Publication Date Title
US20200279553A1 (en) Linguistic style matching agent
AU2018204246B2 (en) Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
CN106653052B (zh) 虚拟人脸动画的生成方法及装置
Marsella et al. Virtual character performance from speech
CN106486121B (zh) 应用于智能机器人的语音优化方法及装置
JP5967838B2 (ja) 人間型ロボットのジェスチャと音声の同期
KR102116309B1 (ko) 가상 캐릭터와 텍스트의 동기화 애니메이션 출력 시스템
KR20230034423A (ko) 2-레벨 스피치 운율 전송
JP2003271174A (ja) 音声合成方法、音声合成装置、プログラム及び記録媒体、制約情報生成方法及び装置、並びにロボット装置
Bozkurt et al. Multimodal analysis of speech and arm motion for prosody-driven synthesis of beat gestures
Malcangi Text-driven avatars based on artificial neural networks and fuzzy logic
CN111145777A (zh) 一种虚拟形象展示方法、装置、电子设备及存储介质
JP6201212B2 (ja) キャラクタ生成装置およびプログラム
CN112184859B (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
KR101089184B1 (ko) 캐릭터의 발화와 감정표현 제공 시스템 및 방법
US20200193961A1 (en) System for synchronizing speech and motion of character
Aly et al. Multimodal adapted robot behavior synthesis within a narrative human-robot interaction
Bozkurt et al. Affect-expressive hand gestures synthesis and animation
Lin et al. A face robot for autonomous simplified musical notation reading and singing
JP6222465B2 (ja) アニメーション生成装置、アニメーション生成方法およびプログラム
JP2015125613A (ja) アニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラム
CN112907706A (zh) 基于多模态的声音驱动动漫视频生成方法、装置及***
d’Alessandro et al. Reactive statistical mapping: Towards the sketching of performative control with data
US20240242703A1 (en) Information processing device and information processing method for artificial speech generation
US20240221260A1 (en) End-to-end virtual human speech and movement synthesization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170531

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170606