JPH11144073A

JPH11144073A - 画像とスピーチとを整合した符号化／復号化方法及び整合システム

Info

Publication number: JPH11144073A
Application number: JP10222072A
Authority: JP
Inventors: Andrea Basso; バッソアンドレア; Mark Charles Beutnagel; チャールスビュートナゲルマーク; Joern Ostermann; オスターマンジョアン
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1997-08-05
Filing date: 1998-08-05
Publication date: 1999-05-28
Anticipated expiration: 2018-08-05
Also published as: EP0896322A3; US20050119877A1; US6567779B1; US7110950B2; CA2244624A1; JP4783449B2; JP4716532B2; EP0896322B1; EP0896322A2; DE69819624D1; DE69819624T2; US6862569B1; JP2009266240A; CA2244624C

Abstract

(57)【要約】（修正有）【課題】顔面アニメーションのイメージ符号化におい
て、デコーダにて生成される音声との整合が可能な、装
置を提供。【解決手段】フェイシャルアニメーションは、テキス
ト及びフェイシャルアニメーションパラメータの、二つ
のデータ列によって作成でき、入力テキストは、顔面の
口の形状を動かすデコーダ内のテキスト／スピーチコン
バータ５へ伝送され、フェイシャルアニメーションパラ
メータは、エンコーダから顔面位置へ通信チャンネルを
通じ伝送される。テキスト／スピーチコンバータへ伝送
される一連のテキストには、ブックマークと称されるコ
ードが、テキストの言葉の間又は言葉の中に配置され、
エンコーダタイムスタンプを含む。フェイシャルアニメ
ーションパラメータ列も、同じエンコーダタイムスタン
プを含む。システムはブックマークを読み取り、フェイ
シャルアニメーションシステムに、エンコーダタイムス
タンプとリアルタイムタイムスタンプとを供給する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、画像の符号化／復
号化方法及び符号化／復号化システムに関し、より詳細
には、フェイシャルアニメーションを符号化／復号化す
る方法及びシステムに関する。

【０００２】

【従来の技術】ＭＰＥＧ−４のＴＴＳアーキテクチャに
よれば、フェイシャルアニメーション（facial animati
on）は、テキストとフェイシャルアニメーションパラメ
ータ（ＦＡＰ）の２つのデータ列を同時に入力して作成
される。このアーキテクチャにおいて、テキスト入力
は、顔画（フェイス）の口の形を作成するデコーダの音
声合成（ＴＴＳ）コンバータに送られる。ＦＡＰは、通
信チャネルによりエンコーダからフェイス位置に送られ
る。現在、ヴェリフィケーションモデル（ＶＭ）では、
テキスト入力サイドとＦＡＰ入力列との間の同期は、ト
ランスミッタ側で発せられたタイミングにより得られる
とされている。

【０００３】

【発明が解決しようとする課題】しかしながら、このト
ランスミッタは、デコーダＴＴＳのタイミングを知るこ
とができない。したがって、エンコーダは、合成された
単語とフェイシャルアニメーションとの一致を特定する
ことができない。さらに、異なるＴＴＳシステム間で
は、タイミングも異なる。このように、現在では、表情
画（例えば、微笑や表情など）をスピーチ（言語）に合
わせる方法がない。

【０００４】したがって、本発明は、表情画と、デコー
ダで生成されたスピーチとを整合させることのできる、
フェイシャルアニメーション画像の符号化／復号化シス
テム及び符号化／復号化方法の開発に向けられる。

【０００５】

【課題を解決するための手段】本発明では、単語内およ
び単語間に挿入できるブックマークとして知られる符号
を、音声合成（ＴＴＳ）コンバータに送られるテキスト
列に含ませることにより、上記課題を解決する。本発明
によれば、ブックマークは、エンコーダタイムスタンプ
（ＥＴＳ）を有する。音声合成変換の本質によれば、エ
ンコーダタイムスタンプは現実の時間と関連がなく、カ
ウンタとして解釈されるべきである。本発明では、さら
に、フェイシャルアニメーションパラメータ（ＦＡＰ）
列も、テキスト中のブックマークと同一のエンコーダタ
イムスタンプを有している。本発明のシステムは、ブッ
クマークを読み取り、エンコーダタイムスタンプと、Ｔ
ＴＳコンバータのタイミングから作成されたリアルタイ
ムタイムスタンプ（ＲＴＳ）とをフェイシャルアニメー
ションシステムに供給する。最終的に、フェイシャルア
ニメーションシステムは、ブックマークのエンコーダタ
イムスタンプを参照して、的確なフェイシャルアニメー
ションパラメータをリアルタイムタイムスタンプに関連
付ける。なお、エンコーダタイムスタンプと、リアルタ
イムタイムスタンプとのコンフリクトを避けるため、広
範囲のデコーダが機能するようにエンコーダタイムスタ
ンプを選択する必要がある。

【０００６】よって、本発明によれば、少なくとも一つ
の表情画と、テキスト列で示されたスピーチとを含むフ
ェイシャルアニメーションを符号化する方法は、前記少
なくとも一つの表情画に所定の符号を割り当てるステッ
プと、特定の表情画の存在を示す前記所定の符号を前記
テキスト列内に入れるステップとから成る。この所定の
符号は、ＴＴＳ合成器の通常の動作を干渉しない独自の
拡張シーケンスである。

【０００７】上記方法を用いた一実施形態では、表情画
の列に対するポインタとして所定の符号を用いることに
より、テキスト列と表情画列との間の同期関係が示され
る。

【０００８】上記所定の符号の一実施例として、拡張シ
ーケンスがあり、これに表情画の一つを決定する複数ビ
ットが追従する。この場合、所定の符号は、テキスト列
中の単語間、あるいはテキスト列中の文字間に挿入でき
る。

【０００９】本発明によるフェイシャルアニメーション
を符号化する別の方法は、テキスト列を作成するステッ
プと、表情画列を作成するステップと、テキスト列中
に、表情画列中の対応する複数の表情画を指す複数のポ
インタを挿入するステップとを含み、前記複数のポイン
タが前記テキストと表情画との間の同期関係を確立す
る。

【００１０】本発明によれば、スピーチと少なくとも一
つの表情画とを含むフェイシャルアニメーションを復号
化する方法は、表情画の組に対応する所定の符号の組を
求めてテキスト列をモニタするステップと、ビジュアル
デコーダに信号を送信し、前記所定の符号の組の存在が
検出されると特定の表情画をスタートさせるステップと
を含む。

【００１１】本発明によれば、符号化されたアニメーシ
ョンを復号化する装置は、デマルチプレクサと、このデ
マルチプレクサに結合されたテキスト／スピーチコンバ
ータと、テキスト／スピーチコンバータに結合された音
素／ビデオコンバータとを含む。デマルチプレクサは、
符号化されたアニメーションを受信し、テキスト列とフ
ェイシャルアニメーションパラメータ列とを出力する。
前記テキスト列は、フェイシャルアニメーションパラメ
ータの複数の表情画とテキスト列中のテキストとの同期
関係を示す複数の符号を含む。テキスト／スピーチコン
バータは、テキスト列をスピーチに変換し、複数の音
素、及び複数のリアルタイムタイムスタンプと前記複数
の符号を１対１の対応で出力し、これにより前記複数の
リアルタイムタイムスタンプと複数の符号によって前記
複数の表情画と複数の音素との間の同期関係を示す。さ
らに、音素／ビデオコンバータは、前記複数のリアルタ
イムタイムスタンプと複数の符号とに基づき、複数の表
情画を複数の音素と同期させる。

【００１２】上記装置において、前記音素／ビデオコン
バータが、同期化された複数の音素と複数の表情画に基
づき、ワイヤフレーム画像を作成するフェイシャルアニ
メータと、前記デマルチプレクサとフェイシャルアニメ
ータとに結合され、前記ワイヤフレーム画像に基づいて
ビデオイメージを作成するビジュアルデコーダとを含め
ば、特に効果的である。

【００１３】

【発明の実施の形態】本発明によれば、デコーダシステ
ムの同期は、ＦＡ／ＡＰ／ＭＰおよび音声デコーダの入
力においてイベントバッファーによるローカル同期を用
いて達成できる。または、広域的同期制御を用いること
もできる。

【００１４】テキスト中のエンコーダタイムスタンプ
（ＥＴＳ）と、フェイシャルアニメーションパラメータ
（ＦＡＰ）列中のＥＴＳとの間のドリフトは、最大で８
０ｍｓｅｃまで許容される。

【００１５】テキスト列に配置されるブックマークの構
文法の一実施形態としては、例えば＼！Ｍ｛ブックマー
クの内容｝のように、拡張記号に続いてブックマークの
内容を含むことが可能である。ブックマークの内容は、
１６ビット整数タイムスタンプのＥＴＳおよび他の情報
を含む。同じＥＴＳが、対応するＦＡＰ列に加えられ、
同期できるようにする。フェイシャルアニメーションパ
ラメータのクラスは、オプションのＥＴＳを含むよう拡
張されている。

【００１６】絶対クロック基準（ＡＣＲ）が設けられて
いる場合、ドリフト補償処理を実施することができる。
ここで、ＦＡＰ列とテキストとの関係には、マスタ−ス
レーブ概念は存在しないことに留意されたい。顔面イメ
ージがその周囲で起こる視覚的事象に反応する場合など
には、デコーダが、テキストの速度を変動させることも
あるし、顔面アニメーションを変化させることも考えら
れるからである。

【００１７】例えば、第１の顔面イメージがユーザに向
かって話しているところに、新たな顔面イメージが登場
するとする。第１顔面イメージは自然な反応として第２
顔面イメージを見て、微笑みながら、話されるテキスト
の速度を落とす。

【００１８】概ねテキストにより駆動される自律アニメ
ーションフェイシャルアニメーションがテキストによって作成さ
れる場合、顔面の追加的アニメーションに対しては、概
ね３０フレーム／秒の割合でアニメーション化する必要
がないという限定を受ける。特に微笑などの高度な動作
ユニットは、かなり低い割合にて形成されるべきであ
る。更に、デコーダは受信機から厳重な制御を受けるこ
となく、異なる動作間の補間を実施する。

【００１９】本発明は、アニメーション化される動作ユ
ニットと、追加の情報であるブックマークにおける動作
ユニットの表示強度とを含む。連続したブックマークの
間における、動作ユニットおよびそれの表示強度の間を
補間するために、デコーダが必要である。

【００２０】本発明により、テキスト編集プログラムな
どの単純なツールを用いてアニメーションを作成でき、
使用帯域幅を著しく減少することができるという利点が
ある。

【００２１】図１は、本発明が応用される環境を表す。
アニメーションは、エンコーダ１にて作成され符号化さ
れる。符号化されたアニメーションは、通信チャンネル
（または記憶装置）を通じて遠隔目的地に伝送される。
遠隔目的地にて、アニメーションはデコーダ２によって
再形成される。この段階でデコーダ２は、元のアニメー
ションと共に符号化された情報のみを用いて、フェイシ
ャルアニメーションを顔面イメージが話す音声に同期さ
せる必要がある。

【００２２】図２は、本発明に従った動作をするよう構
成された、ＭＰＥＧ−４アーキテクチャのデコーダを示
す。エンコーダ１（図示せず）からの信号は、伝送チャ
ンネル（またはチャンネルとしても形成できる記憶装
置）を通じてデマルチプレクサ（ＤＭＵＸ）３に入力さ
れる。ＤＭＵＸ３は、テキストとビデオデータを分離
し、更に制御情報と補助情報をも分離する。ＤＭＵＸ３
は更に、エンコーダタイムスタンプ（ＥＴＳ）を含むＦ
ＡＰ列を直接、ＦＡ／ＡＰ／ＭＰ４へ出力する。ＦＡ／
ＡＰ／ＭＰ４は、テキスト／スピーチコンバータ（ＴＴ
Ｓ）５、音素／ビデオＦＡＰコンバータ６、合成器７、
およびビジュアルデコーダ８に連結されている。***形
状アナライザ９には、ビジュアルデコーダ８およびＴＴ
Ｓ５が接続されている。ユーザ入力は、合成器７より入
力され、ＴＴＳ５およびＦＡ／ＡＰ／ＭＰ４へ出力され
る。この入力は、始動や停止などの指令を含む。

【００２３】ＴＴＳ５はブックマークを読み取り、音素
に加えて、ＥＴＳとリアルタイムタイムスタンプ（ＲＴ
Ｓ）とを、音素／ビデオＦＡＰコンバータ６へ出力す
る。音素は、ワイヤーフレームイメージの各描画頂点を
正しく配置するために使われる。この時点では、イメー
ジは再現されない。

【００２４】このデータは次に、イメージを再現するビ
ジュアルデコーダ８へ出力される。ビジュアルデコーダ
８は、イメージをビデオ状態にして合成器７へ出力す
る。この段階で、ＥＴＳ／ＲＴＳの組み合わせを有する
音素を、対応するＥＴＳを有するＦＡＰと同期させるこ
とにより、ＦＡＰは音素と整合される。

【００２５】ＭＰＥＧ−４ハイブリッド音声合成（ＴＴ
Ｓ）コンバータ５への入力テキストは、符号化された音
声として音声デコーダ１０へ出力される。このシステム
では、音声デコーダ１０は音声を合成器７に出力し、合
成器７は、ビデオディスプレイ（図示せず）、スピーカ
（図示せず）、およびユーザに対するインターフェース
として作動する。

【００２６】他方、ＤＭＵＸ３から出力されたビデオデ
ータは、ビジュアルデコーダ８へ伝送される。ビジュア
ルデコーダは、ビデオデータとＦＡ／ＡＰ／ＭＰ４から
の出力とに基づいて、複合ビデオ信号を生成する。

【００２７】本発明には、二つの実施形態が挙げられ
る。第一の実施形態においては、テキスト列に配置され
たＥＴＳは、フェイシャルアニメーションを含む。即
ち、ブックマーク（拡張シーケンス）の後には、その時
点で音声と同期されるべき所定のフェイシャルアニメー
ションを表す、１６ビットのコードワードが続く。

【００２８】第二の実施形態としては、テキスト列に配
置されたＥＴＳは、ＦＡＰ列内の特定のフェイシャルア
ニメーションに対する時間的ポインタとして作用させる
こともできる。即ち、拡張シーケンスの後には、ＦＡＰ
列内のある箇所を特定する１６ビットコードが続く。

【００２９】本発明は、アニメーションデータに関連し
て説明されるが、アニメーションデータの代わりに自然
音声データまたはビデオデータを用いることもできる。
詳細に言えば、上述の説明は、アニメーションデータと
音声合成データとを整合させる方法およびシステムにつ
いてであるが、同じ方法およびシステムは、音声合成デ
ータを音声またはビデオに置き換えれば応用できる。少
なくともＴＴＳデータ列に関して言えば、二つのデータ
列の整合は、基礎になるデータとは関係なく実施され
る。

【図面の簡単な説明】

【図１】本発明が応用される環境を表す略図である。

【図２】音声合成変換を用いるＭＰＥＧ−４デコーダ
のアーキテクチャを示す略図である。

【符号の説明】

１エンコーダ、２デコーダ、３ＤＭＵＸ、４Ｆ
Ａ／ＡＰ／ＭＰ、５ＭＰＥＧ−４ハイブリッドＴＴＳコ
ンバータ、６音声／ビデオＦＡＰコンバータ、７合
成器、８ビジュアルデコーダ、９ ***形状アナライ
ザ、１０音声デコーダ。

フロントページの続き (72)発明者マークチャールスビュートナゲルアメリカ合衆国ニュージャージー州メンドハムマウンテンアベニュー 18 (72)発明者ジョアンオスターマンアメリカ合衆国ニュージャージー州レッドバンクウォルナットアベニュー 72

Claims

【特許請求の範囲】

【請求項１】少なくとも一つの表情画と、テキスト列
で示されたスピーチとを含むフェイシャルアニメーショ
ンを符号化する方法であって、前記少なくとも一つの表情画に所定の符号を割り当てる
ステップと、特定の表情画の存在を示す前記所定の符号を前記テキス
ト列内に入れるステップと、から成る符号化方法。
【請求項２】請求項１の方法において、前記所定の符
号は、表情画データ列のポインタとして機能することに
より、テキストデータ列と表情画データ列との間の同期
関係を示すことを特徴とする方法。
【請求項３】請求項１の方法において、前記所定の符
号は拡張シーケンス（escape sequence）を含み、前記
拡張シーケンスは、選択しうる表情画の一つを決定する
複数のビットに追従されることを特徴とする方法。
【請求項４】請求項１の方法において、テキストデー
タ列中の単語の間に前記所定の符号を入れるステップを
さらに含むことを特徴とする方法。
【請求項５】請求項１の方法において、テキストデー
タ列中の文字の間に前記所定の符号を入れるステップを
さらに含むことを特徴とする方法。
【請求項６】請求項１の方法において、テキストデー
タ列中の単語中に前記所定の符号を入れるステップをさ
らに含むことを特徴とする方法。
【請求項７】フェイシャルアニメーションを符号化す
る方法であって、データ列を作成するステップと、表情画列を作成するステップと、データ列中に、表情画列中の対応する複数の表情画を指
す複数のポインタを挿入するステップと、から成り、前記複数のポインタは前記データと表情画と
の間の同期関係を確立することを特徴とする方法。
【請求項８】請求項７の方法において、前記複数のポ
インタのそれぞれはタイムスタンプから成ることを特徴
とする方法。
【請求項９】請求項７の方法において、前記データ列
は、復号化行程においてスピーチに変換されるテキスト
列から成ることを特徴とする方法。
【請求項１０】請求項９の方法において、前記複数の
ポインタの少なくとも一つを、テキスト列の単語間に入
れるステップをさらに含む方法。
【請求項１１】請求項９の方法において、前記複数の
ポインタの少なくとも一つを、テキスト列の音節間に入
れるステップをさらに含む方法。
【請求項１２】請求項７の方法において、前記複数の
ポインタの少なくとも一つを、テキスト列の単語間に入
れるステップをさらに含む方法。
【請求項１３】請求項７の方法において、データ列は
ビデオ列から成ることを特徴とする方法。
【請求項１４】請求項７の方法において、データ列は
オーディオ列から成ることを特徴とする方法。
【請求項１５】スピーチと少なくとも一つの表情画と
を含むフェイシャルアニメーションを復号化する方法で
あって、ａ）表情画の組に対応する所定の符号の組を求めてテキ
スト列をモニタするステップと、ｂ）ビジュアルデコーダに信号を送信し、前記所定の符
号の組の存在が検出されると特定の表情画をスタートさ
せるステップと、から成る方法。
【請求項１６】請求項１５の方法において、前記所定
の符号は、表情画データ列へのポインタとして機能する
ことにより、テキストデータ列と表情画データ列との間
の同期関係を示すことを特徴とする方法。
【請求項１７】請求項１５の方法において、前記所定
の符号は拡張シーケンスから成ることを特徴とする方
法。
【請求項１８】請求項１５の方法において、前記所定
の符号をテキスト列中の単語間に入れるステップをさら
に含む方法。
【請求項１９】請求項１５の方法において、前記所定
の符号をテキスト列中の音素間に入れるステップをさら
に含む方法。
【請求項２０】請求項１５の方法において、前記所定
の符号をテキスト列中の単語内に入れるステップをさら
に含む方法。
【請求項２１】符号化されたアニメーションを復号化
する装置であって、ａ）前記符号化されたアニメーションを受信し、テキス
ト列とフェイシャルアニメーションパラメータ列とを出
力するデマルチプレクサであって、前記テキスト列は、
フェイシャルアニメーションパラメータ中の複数の表情
画とテキスト列中のテキストとの同期関係を示す複数の
符号を含む、デマルチプレクサと、ｂ）前記デマルチプレクサに結合されたテキスト／スピ
ーチコンバータであって、テキスト列をスピーチに変換
し、複数の音素、及び複数のリアルタイムタイムスタン
プと複数の符号を１対１の対応で出力し、前記複数のリ
アルタイムタイムスタンプと複数の符号が前記複数の表
情画と複数の音素との間の同期関係を示す、テキスト／
スピーチコンバータと、ｃ）前記テキスト／スピーチコンバータに結合された音
素／ビデオコンバータであって、前記複数のリアルタイ
ムタイムスタンプと複数の符号とに基づき、複数の表情
画を複数の音素に同期させる音素／ビデオコンバータ
と、から成る装置。
【請求項２２】請求項２１の装置において、前記スピ
ーチとビデオを合成ビデオ信号に変換する合成器（comp
ositor）をさらに含むことを特徴とする装置。
【請求項２３】請求項２１の装置において、前記音素
／ビデオコンバータは、ａ）同期化された複数の音素と複数の表情画に基づき、
ワイヤフレーム画像を作成するフェイシャルアニメータ
と、ｂ）前記デマルチプレクサとフェイシャルアニメータと
に結合され、前記ワイヤフレーム画像に基づいてビデオ
イメージを作成するビジュアルデコーダと、を含むことを特徴とする装置。