JPH11144073A - 画像とスピーチとを整合した符号化/復号化方法及び整合システム - Google Patents

画像とスピーチとを整合した符号化/復号化方法及び整合システム

Info

Publication number
JPH11144073A
JPH11144073A JP10222072A JP22207298A JPH11144073A JP H11144073 A JPH11144073 A JP H11144073A JP 10222072 A JP10222072 A JP 10222072A JP 22207298 A JP22207298 A JP 22207298A JP H11144073 A JPH11144073 A JP H11144073A
Authority
JP
Japan
Prior art keywords
text
facial
predetermined code
facial expression
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10222072A
Other languages
English (en)
Other versions
JP4716532B2 (ja
Inventor
Andrea Basso
バッソ アンドレア
Mark Charles Beutnagel
チャールス ビュートナゲル マーク
Joern Ostermann
オスターマン ジョアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPH11144073A publication Critical patent/JPH11144073A/ja
Application granted granted Critical
Publication of JP4716532B2 publication Critical patent/JP4716532B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Processing Or Creating Images (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 顔面アニメーションのイメージ符号化におい
て、デコーダにて生成される音声との整合が可能な、装
置を提供。 【解決手段】 フェイシャルアニメーションは、テキス
ト及びフェイシャルアニメーションパラメータの、二つ
のデータ列によって作成でき、入力テキストは、顔面の
口の形状を動かすデコーダ内のテキスト/スピーチコン
バータ5へ伝送され、フェイシャルアニメーションパラ
メータは、エンコーダから顔面位置へ通信チャンネルを
通じ伝送される。テキスト/スピーチコンバータへ伝送
される一連のテキストには、ブックマークと称されるコ
ードが、テキストの言葉の間又は言葉の中に配置され、
エンコーダタイムスタンプを含む。フェイシャルアニメ
ーションパラメータ列も、同じエンコーダタイムスタン
プを含む。システムはブックマークを読み取り、フェイ
シャルアニメーションシステムに、エンコーダタイムス
タンプとリアルタイムタイムスタンプとを供給する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、画像の符号化/復
号化方法及び符号化/復号化システムに関し、より詳細
には、フェイシャルアニメーションを符号化/復号化す
る方法及びシステムに関する。
【0002】
【従来の技術】MPEG−4のTTSアーキテクチャに
よれば、フェイシャルアニメーション(facial animati
on)は、テキストとフェイシャルアニメーションパラメ
ータ(FAP)の2つのデータ列を同時に入力して作成
される。このアーキテクチャにおいて、テキスト入力
は、顔画(フェイス)の口の形を作成するデコーダの音
声合成(TTS)コンバータに送られる。FAPは、通
信チャネルによりエンコーダからフェイス位置に送られ
る。現在、ヴェリフィケーションモデル(VM)では、
テキスト入力サイドとFAP入力列との間の同期は、ト
ランスミッタ側で発せられたタイミングにより得られる
とされている。
【0003】
【発明が解決しようとする課題】しかしながら、このト
ランスミッタは、デコーダTTSのタイミングを知るこ
とができない。したがって、エンコーダは、合成された
単語とフェイシャルアニメーションとの一致を特定する
ことができない。さらに、異なるTTSシステム間で
は、タイミングも異なる。このように、現在では、表情
画(例えば、微笑や表情など)をスピーチ(言語)に合
わせる方法がない。
【0004】したがって、本発明は、表情画と、デコー
ダで生成されたスピーチとを整合させることのできる、
フェイシャルアニメーション画像の符号化/復号化シス
テム及び符号化/復号化方法の開発に向けられる。
【0005】
【課題を解決するための手段】本発明では、単語内およ
び単語間に挿入できるブックマークとして知られる符号
を、音声合成(TTS)コンバータに送られるテキスト
列に含ませることにより、上記課題を解決する。本発明
によれば、ブックマークは、エンコーダタイムスタンプ
(ETS)を有する。音声合成変換の本質によれば、エ
ンコーダタイムスタンプは現実の時間と関連がなく、カ
ウンタとして解釈されるべきである。本発明では、さら
に、フェイシャルアニメーションパラメータ(FAP)
列も、テキスト中のブックマークと同一のエンコーダタ
イムスタンプを有している。本発明のシステムは、ブッ
クマークを読み取り、エンコーダタイムスタンプと、T
TSコンバータのタイミングから作成されたリアルタイ
ムタイムスタンプ(RTS)とをフェイシャルアニメー
ションシステムに供給する。最終的に、フェイシャルア
ニメーションシステムは、ブックマークのエンコーダタ
イムスタンプを参照して、的確なフェイシャルアニメー
ションパラメータをリアルタイムタイムスタンプに関連
付ける。なお、エンコーダタイムスタンプと、リアルタ
イムタイムスタンプとのコンフリクトを避けるため、広
範囲のデコーダが機能するようにエンコーダタイムスタ
ンプを選択する必要がある。
【0006】よって、本発明によれば、少なくとも一つ
の表情画と、テキスト列で示されたスピーチとを含むフ
ェイシャルアニメーションを符号化する方法は、前記少
なくとも一つの表情画に所定の符号を割り当てるステッ
プと、特定の表情画の存在を示す前記所定の符号を前記
テキスト列内に入れるステップとから成る。この所定の
符号は、TTS合成器の通常の動作を干渉しない独自の
拡張シーケンスである。
【0007】上記方法を用いた一実施形態では、表情画
の列に対するポインタとして所定の符号を用いることに
より、テキスト列と表情画列との間の同期関係が示され
る。
【0008】上記所定の符号の一実施例として、拡張シ
ーケンスがあり、これに表情画の一つを決定する複数ビ
ットが追従する。この場合、所定の符号は、テキスト列
中の単語間、あるいはテキスト列中の文字間に挿入でき
る。
【0009】本発明によるフェイシャルアニメーション
を符号化する別の方法は、テキスト列を作成するステッ
プと、表情画列を作成するステップと、テキスト列中
に、表情画列中の対応する複数の表情画を指す複数のポ
インタを挿入するステップとを含み、前記複数のポイン
タが前記テキストと表情画との間の同期関係を確立す
る。
【0010】本発明によれば、スピーチと少なくとも一
つの表情画とを含むフェイシャルアニメーションを復号
化する方法は、表情画の組に対応する所定の符号の組を
求めてテキスト列をモニタするステップと、ビジュアル
デコーダに信号を送信し、前記所定の符号の組の存在が
検出されると特定の表情画をスタートさせるステップと
を含む。
【0011】本発明によれば、符号化されたアニメーシ
ョンを復号化する装置は、デマルチプレクサと、このデ
マルチプレクサに結合されたテキスト/スピーチコンバ
ータと、テキスト/スピーチコンバータに結合された音
素/ビデオコンバータとを含む。デマルチプレクサは、
符号化されたアニメーションを受信し、テキスト列とフ
ェイシャルアニメーションパラメータ列とを出力する。
前記テキスト列は、フェイシャルアニメーションパラメ
ータの複数の表情画とテキスト列中のテキストとの同期
関係を示す複数の符号を含む。テキスト/スピーチコン
バータは、テキスト列をスピーチに変換し、複数の音
素、及び複数のリアルタイムタイムスタンプと前記複数
の符号を1対1の対応で出力し、これにより前記複数の
リアルタイムタイムスタンプと複数の符号によって前記
複数の表情画と複数の音素との間の同期関係を示す。さ
らに、音素/ビデオコンバータは、前記複数のリアルタ
イムタイムスタンプと複数の符号とに基づき、複数の表
情画を複数の音素と同期させる。
【0012】上記装置において、前記音素/ビデオコン
バータが、同期化された複数の音素と複数の表情画に基
づき、ワイヤフレーム画像を作成するフェイシャルアニ
メータと、前記デマルチプレクサとフェイシャルアニメ
ータとに結合され、前記ワイヤフレーム画像に基づいて
ビデオイメージを作成するビジュアルデコーダとを含め
ば、特に効果的である。
【0013】
【発明の実施の形態】本発明によれば、デコーダシステ
ムの同期は、FA/AP/MPおよび音声デコーダの入
力においてイベントバッファーによるローカル同期を用
いて達成できる。または、広域的同期制御を用いること
もできる。
【0014】テキスト中のエンコーダタイムスタンプ
(ETS)と、フェイシャルアニメーションパラメータ
(FAP)列中のETSとの間のドリフトは、最大で8
0msecまで許容される。
【0015】テキスト列に配置されるブックマークの構
文法の一実施形態としては、例えば\!M{ブックマー
クの内容}のように、拡張記号に続いてブックマークの
内容を含むことが可能である。ブックマークの内容は、
16ビット整数タイムスタンプのETSおよび他の情報
を含む。同じETSが、対応するFAP列に加えられ、
同期できるようにする。フェイシャルアニメーションパ
ラメータのクラスは、オプションのETSを含むよう拡
張されている。
【0016】絶対クロック基準(ACR)が設けられて
いる場合、ドリフト補償処理を実施することができる。
ここで、FAP列とテキストとの関係には、マスタ−ス
レーブ概念は存在しないことに留意されたい。顔面イメ
ージがその周囲で起こる視覚的事象に反応する場合など
には、デコーダが、テキストの速度を変動させることも
あるし、顔面アニメーションを変化させることも考えら
れるからである。
【0017】例えば、第1の顔面イメージがユーザに向
かって話しているところに、新たな顔面イメージが登場
するとする。第1顔面イメージは自然な反応として第2
顔面イメージを見て、微笑みながら、話されるテキスト
の速度を落とす。
【0018】概ねテキストにより駆動される自律アニメ
ーション フェイシャルアニメーションがテキストによって作成さ
れる場合、顔面の追加的アニメーションに対しては、概
ね30フレーム/秒の割合でアニメーション化する必要
がないという限定を受ける。特に微笑などの高度な動作
ユニットは、かなり低い割合にて形成されるべきであ
る。更に、デコーダは受信機から厳重な制御を受けるこ
となく、異なる動作間の補間を実施する。
【0019】本発明は、アニメーション化される動作ユ
ニットと、追加の情報であるブックマークにおける動作
ユニットの表示強度とを含む。連続したブックマークの
間における、動作ユニットおよびそれの表示強度の間を
補間するために、デコーダが必要である。
【0020】本発明により、テキスト編集プログラムな
どの単純なツールを用いてアニメーションを作成でき、
使用帯域幅を著しく減少することができるという利点が
ある。
【0021】図1は、本発明が応用される環境を表す。
アニメーションは、エンコーダ1にて作成され符号化さ
れる。符号化されたアニメーションは、通信チャンネル
(または記憶装置)を通じて遠隔目的地に伝送される。
遠隔目的地にて、アニメーションはデコーダ2によって
再形成される。この段階でデコーダ2は、元のアニメー
ションと共に符号化された情報のみを用いて、フェイシ
ャルアニメーションを顔面イメージが話す音声に同期さ
せる必要がある。
【0022】図2は、本発明に従った動作をするよう構
成された、MPEG−4アーキテクチャのデコーダを示
す。エンコーダ1(図示せず)からの信号は、伝送チャ
ンネル(またはチャンネルとしても形成できる記憶装
置)を通じてデマルチプレクサ(DMUX)3に入力さ
れる。DMUX3は、テキストとビデオデータを分離
し、更に制御情報と補助情報をも分離する。DMUX3
は更に、エンコーダタイムスタンプ(ETS)を含むF
AP列を直接、FA/AP/MP4へ出力する。FA/
AP/MP4は、テキスト/スピーチコンバータ(TT
S)5、音素/ビデオFAPコンバータ6、合成器7、
およびビジュアルデコーダ8に連結されている。***形
状アナライザ9には、ビジュアルデコーダ8およびTT
S5が接続されている。ユーザ入力は、合成器7より入
力され、TTS5およびFA/AP/MP4へ出力され
る。この入力は、始動や停止などの指令を含む。
【0023】TTS5はブックマークを読み取り、音素
に加えて、ETSとリアルタイムタイムスタンプ(RT
S)とを、音素/ビデオFAPコンバータ6へ出力す
る。音素は、ワイヤーフレームイメージの各描画頂点を
正しく配置するために使われる。この時点では、イメー
ジは再現されない。
【0024】このデータは次に、イメージを再現するビ
ジュアルデコーダ8へ出力される。ビジュアルデコーダ
8は、イメージをビデオ状態にして合成器7へ出力す
る。この段階で、ETS/RTSの組み合わせを有する
音素を、対応するETSを有するFAPと同期させるこ
とにより、FAPは音素と整合される。
【0025】MPEG−4ハイブリッド音声合成(TT
S)コンバータ5への入力テキストは、符号化された音
声として音声デコーダ10へ出力される。このシステム
では、音声デコーダ10は音声を合成器7に出力し、合
成器7は、ビデオディスプレイ(図示せず)、スピーカ
(図示せず)、およびユーザに対するインターフェース
として作動する。
【0026】他方、DMUX3から出力されたビデオデ
ータは、ビジュアルデコーダ8へ伝送される。ビジュア
ルデコーダは、ビデオデータとFA/AP/MP4から
の出力とに基づいて、複合ビデオ信号を生成する。
【0027】本発明には、二つの実施形態が挙げられ
る。第一の実施形態においては、テキスト列に配置され
たETSは、フェイシャルアニメーションを含む。即
ち、ブックマーク(拡張シーケンス)の後には、その時
点で音声と同期されるべき所定のフェイシャルアニメー
ションを表す、16ビットのコードワードが続く。
【0028】第二の実施形態としては、テキスト列に配
置されたETSは、FAP列内の特定のフェイシャルア
ニメーションに対する時間的ポインタとして作用させる
こともできる。即ち、拡張シーケンスの後には、FAP
列内のある箇所を特定する16ビットコードが続く。
【0029】本発明は、アニメーションデータに関連し
て説明されるが、アニメーションデータの代わりに自然
音声データまたはビデオデータを用いることもできる。
詳細に言えば、上述の説明は、アニメーションデータと
音声合成データとを整合させる方法およびシステムにつ
いてであるが、同じ方法およびシステムは、音声合成デ
ータを音声またはビデオに置き換えれば応用できる。少
なくともTTSデータ列に関して言えば、二つのデータ
列の整合は、基礎になるデータとは関係なく実施され
る。
【図面の簡単な説明】
【図1】 本発明が応用される環境を表す略図である。
【図2】 音声合成変換を用いるMPEG−4デコーダ
のアーキテクチャを示す略図である。
【符号の説明】
1 エンコーダ、2 デコーダ、3 DMUX、4 F
A/AP/MP、5MPEG−4ハイブリッドTTSコ
ンバータ、6 音声/ビデオFAPコンバータ、7 合
成器、8 ビジュアルデコーダ、9 ***形状アナライ
ザ、10 音声デコーダ。
フロントページの続き (72)発明者 マーク チャールス ビュートナゲル アメリカ合衆国 ニュージャージー州 メ ンドハム マウンテン アベニュー 18 (72)発明者 ジョアン オスターマン アメリカ合衆国 ニュージャージー州 レ ッド バンク ウォルナット アベニュー 72

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも一つの表情画と、テキスト列
    で示されたスピーチとを含むフェイシャルアニメーショ
    ンを符号化する方法であって、 前記少なくとも一つの表情画に所定の符号を割り当てる
    ステップと、 特定の表情画の存在を示す前記所定の符号を前記テキス
    ト列内に入れるステップと、 から成る符号化方法。
  2. 【請求項2】 請求項1の方法において、前記所定の符
    号は、表情画データ列のポインタとして機能することに
    より、テキストデータ列と表情画データ列との間の同期
    関係を示すことを特徴とする方法。
  3. 【請求項3】 請求項1の方法において、前記所定の符
    号は拡張シーケンス(escape sequence)を含み、前記
    拡張シーケンスは、選択しうる表情画の一つを決定する
    複数のビットに追従されることを特徴とする方法。
  4. 【請求項4】 請求項1の方法において、テキストデー
    タ列中の単語の間に前記所定の符号を入れるステップを
    さらに含むことを特徴とする方法。
  5. 【請求項5】 請求項1の方法において、テキストデー
    タ列中の文字の間に前記所定の符号を入れるステップを
    さらに含むことを特徴とする方法。
  6. 【請求項6】 請求項1の方法において、テキストデー
    タ列中の単語中に前記所定の符号を入れるステップをさ
    らに含むことを特徴とする方法。
  7. 【請求項7】 フェイシャルアニメーションを符号化す
    る方法であって、 データ列を作成するステップと、 表情画列を作成するステップと、 データ列中に、表情画列中の対応する複数の表情画を指
    す複数のポインタを挿入するステップと、 から成り、前記複数のポインタは前記データと表情画と
    の間の同期関係を確立することを特徴とする方法。
  8. 【請求項8】 請求項7の方法において、前記複数のポ
    インタのそれぞれはタイムスタンプから成ることを特徴
    とする方法。
  9. 【請求項9】 請求項7の方法において、前記データ列
    は、復号化行程においてスピーチに変換されるテキスト
    列から成ることを特徴とする方法。
  10. 【請求項10】 請求項9の方法において、前記複数の
    ポインタの少なくとも一つを、テキスト列の単語間に入
    れるステップをさらに含む方法。
  11. 【請求項11】 請求項9の方法において、前記複数の
    ポインタの少なくとも一つを、テキスト列の音節間に入
    れるステップをさらに含む方法。
  12. 【請求項12】 請求項7の方法において、前記複数の
    ポインタの少なくとも一つを、テキスト列の単語間に入
    れるステップをさらに含む方法。
  13. 【請求項13】 請求項7の方法において、データ列は
    ビデオ列から成ることを特徴とする方法。
  14. 【請求項14】 請求項7の方法において、データ列は
    オーディオ列から成ることを特徴とする方法。
  15. 【請求項15】 スピーチと少なくとも一つの表情画と
    を含むフェイシャルアニメーションを復号化する方法で
    あって、 a)表情画の組に対応する所定の符号の組を求めてテキ
    スト列をモニタするステップと、 b)ビジュアルデコーダに信号を送信し、前記所定の符
    号の組の存在が検出されると特定の表情画をスタートさ
    せるステップと、 から成る方法。
  16. 【請求項16】 請求項15の方法において、前記所定
    の符号は、表情画データ列へのポインタとして機能する
    ことにより、テキストデータ列と表情画データ列との間
    の同期関係を示すことを特徴とする方法。
  17. 【請求項17】 請求項15の方法において、前記所定
    の符号は拡張シーケンスから成ることを特徴とする方
    法。
  18. 【請求項18】 請求項15の方法において、前記所定
    の符号をテキスト列中の単語間に入れるステップをさら
    に含む方法。
  19. 【請求項19】 請求項15の方法において、前記所定
    の符号をテキスト列中の音素間に入れるステップをさら
    に含む方法。
  20. 【請求項20】 請求項15の方法において、前記所定
    の符号をテキスト列中の単語内に入れるステップをさら
    に含む方法。
  21. 【請求項21】 符号化されたアニメーションを復号化
    する装置であって、 a)前記符号化されたアニメーションを受信し、テキス
    ト列とフェイシャルアニメーションパラメータ列とを出
    力するデマルチプレクサであって、前記テキスト列は、
    フェイシャルアニメーションパラメータ中の複数の表情
    画とテキスト列中のテキストとの同期関係を示す複数の
    符号を含む、デマルチプレクサと、 b)前記デマルチプレクサに結合されたテキスト/スピ
    ーチコンバータであって、テキスト列をスピーチに変換
    し、複数の音素、及び複数のリアルタイムタイムスタン
    プと複数の符号を1対1の対応で出力し、前記複数のリ
    アルタイムタイムスタンプと複数の符号が前記複数の表
    情画と複数の音素との間の同期関係を示す、テキスト/
    スピーチコンバータと、 c)前記テキスト/スピーチコンバータに結合された音
    素/ビデオコンバータであって、前記複数のリアルタイ
    ムタイムスタンプと複数の符号とに基づき、複数の表情
    画を複数の音素に同期させる音素/ビデオコンバータ
    と、 から成る装置。
  22. 【請求項22】 請求項21の装置において、前記スピ
    ーチとビデオを合成ビデオ信号に変換する合成器(comp
    ositor)をさらに含むことを特徴とする装置。
  23. 【請求項23】 請求項21の装置において、前記音素
    /ビデオコンバータは、 a)同期化された複数の音素と複数の表情画に基づき、
    ワイヤフレーム画像を作成するフェイシャルアニメータ
    と、 b)前記デマルチプレクサとフェイシャルアニメータと
    に結合され、前記ワイヤフレーム画像に基づいてビデオ
    イメージを作成するビジュアルデコーダと、 を含むことを特徴とする装置。
JP22207298A 1997-08-05 1998-08-05 アニメーション復号化装置 Expired - Lifetime JP4716532B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/905,931 US6567779B1 (en) 1997-08-05 1997-08-05 Method and system for aligning natural and synthetic video to speech synthesis
US08/905,931 1997-08-05

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2009135960A Division JP4783449B2 (ja) 1997-08-05 2009-06-05 符号列を整合させる方法および装置、ならびにデコーダ

Publications (2)

Publication Number Publication Date
JPH11144073A true JPH11144073A (ja) 1999-05-28
JP4716532B2 JP4716532B2 (ja) 2011-07-06

Family

ID=25421706

Family Applications (2)

Application Number Title Priority Date Filing Date
JP22207298A Expired - Lifetime JP4716532B2 (ja) 1997-08-05 1998-08-05 アニメーション復号化装置
JP2009135960A Expired - Lifetime JP4783449B2 (ja) 1997-08-05 2009-06-05 符号列を整合させる方法および装置、ならびにデコーダ

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2009135960A Expired - Lifetime JP4783449B2 (ja) 1997-08-05 2009-06-05 符号列を整合させる方法および装置、ならびにデコーダ

Country Status (5)

Country Link
US (3) US6567779B1 (ja)
EP (1) EP0896322B1 (ja)
JP (2) JP4716532B2 (ja)
CA (1) CA2244624C (ja)
DE (1) DE69819624T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100343006B1 (ko) * 2000-06-01 2002-07-02 김상덕 언어 입력형 얼굴 표정 제어방법

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7366670B1 (en) * 1997-08-05 2008-04-29 At&T Corp. Method and system for aligning natural and synthetic video to speech synthesis
US6567779B1 (en) * 1997-08-05 2003-05-20 At&T Corp. Method and system for aligning natural and synthetic video to speech synthesis
JP3720230B2 (ja) * 2000-02-18 2005-11-24 シャープ株式会社 表現データ制御システム、および、それを構成する表現データ制御装置、並びに、そのプログラムが記録された記録媒体
FR2807188B1 (fr) * 2000-03-30 2002-12-20 Vrtv Studios Equipement pour production automatique en temps reel de sequences audiovisuelles virtuelles a partir d'un message textuel et pour la diffusion de telles sequences
KR20030010605A (ko) * 2000-04-19 2003-02-05 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오와 함께 고속 직렬 시각 프리젠테이션을 하기 위한시스템 및 방법
US7149686B1 (en) * 2000-06-23 2006-12-12 International Business Machines Corporation System and method for eliminating synchronization errors in electronic audiovisual transmissions and presentations
US7120583B2 (en) 2000-10-02 2006-10-10 Canon Kabushiki Kaisha Information presentation system, information presentation apparatus, control method thereof and computer readable memory
US8046010B2 (en) 2006-03-07 2011-10-25 Sybase 365, Inc. System and method for subscription management
AU2008100836B4 (en) * 2007-08-30 2009-07-16 Machinima Pty Ltd Real-time realistic natural voice(s) for simulated electronic games
US20090319884A1 (en) * 2008-06-23 2009-12-24 Brian Scott Amento Annotation based navigation of multimedia content
US10248931B2 (en) * 2008-06-23 2019-04-02 At&T Intellectual Property I, L.P. Collaborative annotation of multimedia content
US8225348B2 (en) 2008-09-12 2012-07-17 At&T Intellectual Property I, L.P. Moderated interactive media sessions
US20100070858A1 (en) * 2008-09-12 2010-03-18 At&T Intellectual Property I, L.P. Interactive Media System and Method Using Context-Based Avatar Configuration
US9704177B2 (en) 2008-12-23 2017-07-11 International Business Machines Corporation Identifying spam avatars in a virtual universe (VU) based upon turing tests
US9697535B2 (en) 2008-12-23 2017-07-04 International Business Machines Corporation System and method in a virtual universe for identifying spam avatars based upon avatar multimedia characteristics
US8656476B2 (en) * 2009-05-28 2014-02-18 International Business Machines Corporation Providing notification of spam avatars
KR102117082B1 (ko) 2014-12-29 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4520501A (en) * 1982-10-19 1985-05-28 Ear Three Systems Manufacturing Company Speech presentation system and method
GB8528143D0 (en) * 1985-11-14 1985-12-18 British Telecomm Image encoding & synthesis
US4884972A (en) * 1986-11-26 1989-12-05 Bright Star Technology, Inc. Speech synchronized animation
JP2518683B2 (ja) * 1989-03-08 1996-07-24 国際電信電話株式会社 画像合成方法及びその装置
US5111409A (en) * 1989-07-21 1992-05-05 Elon Gasper Authoring and use systems for sound synchronized animation
JP3036099B2 (ja) * 1991-01-30 2000-04-24 日本電気株式会社 データ管理方法
US5640590A (en) * 1992-11-18 1997-06-17 Canon Information Systems, Inc. Method and apparatus for scripting a text-to-speech-based multimedia presentation
US5878396A (en) * 1993-01-21 1999-03-02 Apple Computer, Inc. Method and apparatus for synthetic speech in facial animation
US5473726A (en) * 1993-07-06 1995-12-05 The United States Of America As Represented By The Secretary Of The Air Force Audio and amplitude modulated photo data collection for speech recognition
US5608839A (en) * 1994-03-18 1997-03-04 Lucent Technologies Inc. Sound-synchronized video system
DE4331710A1 (de) * 1993-09-17 1995-03-23 Sel Alcatel Ag Verfahren und Vorrichtung zum Erstellen und Bearbeiten von Textdokumenten
US5623587A (en) * 1993-10-15 1997-04-22 Kideo Productions, Inc. Method and apparatus for producing an electronic image
US5657426A (en) * 1994-06-10 1997-08-12 Digital Equipment Corporation Method and apparatus for producing audio-visual synthetic speech
JPH08194494A (ja) * 1995-01-13 1996-07-30 Canon Inc 文解析方法および装置
US5634084A (en) * 1995-01-20 1997-05-27 Centigram Communications Corporation Abbreviation and acronym/initialism expansion procedures for a text to speech reader
US5930450A (en) * 1995-02-28 1999-07-27 Kabushiki Kaisha Toshiba Recording medium, apparatus and method of recording data on the same, and apparatus and method of reproducing data from the recording medium
JPH0916195A (ja) * 1995-07-03 1997-01-17 Canon Inc 情報処理装置及びその方法
JPH0922565A (ja) * 1995-07-06 1997-01-21 Sony Corp データ処理装置および方法
US5806036A (en) * 1995-08-17 1998-09-08 Ricoh Company, Ltd. Speechreading using facial feature parameters from a non-direct frontal view of the speaker
US6477239B1 (en) * 1995-08-30 2002-11-05 Hitachi, Ltd. Sign language telephone device
JPH0982040A (ja) * 1995-09-14 1997-03-28 Toshiba Corp 記録媒体とこの記録媒体へのデータの記録装置とその記録方法、その記録媒体からのデータの再生装置とその再生方法
JPH09138767A (ja) * 1995-11-14 1997-05-27 Fujitsu Ten Ltd 感情表現の通信装置
SE519244C2 (sv) * 1995-12-06 2003-02-04 Telia Ab Anordning och metod vid talsyntes
JP3588883B2 (ja) * 1995-12-08 2004-11-17 ヤマハ株式会社 カラオケ装置
US5880731A (en) * 1995-12-14 1999-03-09 Microsoft Corporation Use of avatars with automatic gesturing and bounded interaction in on-line chat session
US5802220A (en) * 1995-12-15 1998-09-01 Xerox Corporation Apparatus and method for tracking facial motion through a sequence of images
US5793365A (en) * 1996-01-02 1998-08-11 Sun Microsystems, Inc. System and method providing a computer user interface enabling access to distributed workgroup members
US5732232A (en) * 1996-09-17 1998-03-24 International Business Machines Corp. Method and apparatus for directing the expression of emotion for a graphical user interface
US5884029A (en) * 1996-11-14 1999-03-16 International Business Machines Corporation User interaction with intelligent virtual objects, avatars, which interact with other avatars controlled by different users
US5963217A (en) * 1996-11-18 1999-10-05 7Thstreet.Com, Inc. Network conference system using limited bandwidth to generate locally animated displays
KR100236974B1 (ko) * 1996-12-13 2000-02-01 정선종 동화상과 텍스트/음성변환기 간의 동기화 시스템
US5812126A (en) * 1996-12-31 1998-09-22 Intel Corporation Method and apparatus for masquerading online
US5920834A (en) 1997-01-31 1999-07-06 Qualcomm Incorporated Echo canceller with talk state determination to control speech processor functional elements in a digital telephone system
US5818463A (en) * 1997-02-13 1998-10-06 Rockwell Science Center, Inc. Data compression for animated three dimensional objects
US5977968A (en) * 1997-03-14 1999-11-02 Mindmeld Multimedia Inc. Graphical user interface to communicate attitude or emotion to a computer program
US5983190A (en) * 1997-05-19 1999-11-09 Microsoft Corporation Client server animation system for managing interactive user interface characters
US6567779B1 (en) * 1997-08-05 2003-05-20 At&T Corp. Method and system for aligning natural and synthetic video to speech synthesis
US6177928B1 (en) * 1997-08-22 2001-01-23 At&T Corp. Flexible synchronization framework for multimedia streams having inserted time stamp
US5907328A (en) * 1997-08-27 1999-05-25 International Business Machines Corporation Automatic and configurable viewpoint switching in a 3D scene

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100343006B1 (ko) * 2000-06-01 2002-07-02 김상덕 언어 입력형 얼굴 표정 제어방법

Also Published As

Publication number Publication date
EP0896322A3 (en) 1999-10-06
US20050119877A1 (en) 2005-06-02
US6567779B1 (en) 2003-05-20
US7110950B2 (en) 2006-09-19
CA2244624A1 (en) 1999-02-05
JP4783449B2 (ja) 2011-09-28
JP4716532B2 (ja) 2011-07-06
EP0896322B1 (en) 2003-11-12
EP0896322A2 (en) 1999-02-10
DE69819624D1 (de) 2003-12-18
DE69819624T2 (de) 2004-09-23
US6862569B1 (en) 2005-03-01
JP2009266240A (ja) 2009-11-12
CA2244624C (en) 2002-05-28

Similar Documents

Publication Publication Date Title
JP4783449B2 (ja) 符号列を整合させる方法および装置、ならびにデコーダ
US6602299B1 (en) Flexible synchronization framework for multimedia streams
US7844463B2 (en) Method and system for aligning natural and synthetic video to speech synthesis
JP3215823B2 (ja) 人間の顔の合成モデルの音声信号駆動アニメーションの方法及び装置
KR100240637B1 (ko) 다중매체와의 연동을 위한 텍스트/음성변환 구현방법 및 그 장치
KR20010072936A (ko) 정보 스트림의 포스트-동기화
CN103902531A (zh) 汉语与外语自动实时语音翻译并标注字幕的音像录播方法
JP2003284010A (ja) 符号化装置及びメディアデータ同期方法
JP2000278136A (ja) 復号装置
JP2910575B2 (ja) 音声信号処理回路と画像・音声デコーダ
JPH1141538A (ja) 音声認識文字表示装置
US6781581B1 (en) Apparatus for interfacing timing information in digital display device
JP2611728B2 (ja) 動画像符号化復号化方式
JP2005309173A (ja) 音声合成制御装置、その方法、そのプログラムおよび音声合成用データ生成装置
CN103905743A (zh) 汉语自动实时标注汉语字幕音像录播方法
KR980007659A (ko) 대사자막 변환 및 입력장치
JPH11231899A (ja) 音声・動画像合成装置及び音声・動画像データベース
JP2002077902A (ja) シーン記述方法及び装置並びに記憶媒体
JPH05130575A (ja) 映像信号入力による音声合成出力装置
JPH03280794A (ja) 文字放送システム
JP2002271738A (ja) 情報処理装置及びその制御方法及びコンピュータプログラム及び記憶媒体
JPH09238335A (ja) 音声信号付き動画像生成方式
JPH1165815A (ja) テキスト音声合成システムのアニメーション表示方法及びテキストデータ通信システムのアニメーション表示方法
KR20080068377A (ko) 디지털 방송 수신기의 립싱크 방법
JPS62269435A (ja) ボコ−ダ方式におけるフレ−ム同期信号の伝送方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050729

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080417

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080520

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080815

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080820

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080922

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080926

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081017

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081022

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081120

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090203

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090605

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090616

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20090717

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110329

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term