JP4078677B2 - 映画のコンピュータ化された自動オーディオビジュアルダビングのための方法 - Google Patents

映画のコンピュータ化された自動オーディオビジュアルダビングのための方法 Download PDF

Info

Publication number
JP4078677B2
JP4078677B2 JP51642397A JP51642397A JP4078677B2 JP 4078677 B2 JP4078677 B2 JP 4078677B2 JP 51642397 A JP51642397 A JP 51642397A JP 51642397 A JP51642397 A JP 51642397A JP 4078677 B2 JP4078677 B2 JP 4078677B2
Authority
JP
Japan
Prior art keywords
actor
movie
frame
mouth
dubber
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP51642397A
Other languages
English (en)
Other versions
JPH11514479A (ja
Inventor
ペレグ サミュエル
コヘン ラン
アブニール ダビド
Original Assignee
イーサム リサーチ デヴェロップメント カンパニー オブ ザ ヘブライ ユニヴァーシティ オブ エルサレム
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from IL11555295A external-priority patent/IL115552A0/xx
Application filed by イーサム リサーチ デヴェロップメント カンパニー オブ ザ ヘブライ ユニヴァーシティ オブ エルサレム filed Critical イーサム リサーチ デヴェロップメント カンパニー オブ ザ ヘブライ ユニヴァーシティ オブ エルサレム
Publication of JPH11514479A publication Critical patent/JPH11514479A/ja
Application granted granted Critical
Publication of JP4078677B2 publication Critical patent/JP4078677B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/022Electronic editing of analogue information signals, e.g. audio or video signals
    • G11B27/028Electronic editing of analogue information signals, e.g. audio or video signals with computer assistance
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S345/00Computer graphics processing and selective visual display systems
    • Y10S345/949Animation processing method
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S345/00Computer graphics processing and selective visual display systems
    • Y10S345/949Animation processing method
    • Y10S345/956Language driven animation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S345/00Computer graphics processing and selective visual display systems
    • Y10S345/949Animation processing method
    • Y10S345/956Language driven animation
    • Y10S345/957Actor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)

Description

技術分野
本発明は、自動オーディオビジュアルダビングのための方法に関する。更に詳細には、前記発明は、ダバーの唇運動の特性的特徴をオリジナルスピーカの口部分にコンピュータ化されたイメージ複写することにより、映画のオーディオ視覚的ダビングのための効率的なコンピュータ化された自動方法に関連する。本発明は、ダビングされたサウンドトラックに対応する新規画像を生成するために、近辺検索の方法、オリジナルスピーカの三次元頭部モデル化、及び、テクスチャマッピング技法を使用する。
本発明は、オリジナルの映画における唇の動きとダビングされた映画のサウンドトラックとの間の相関問題に関する周知の欠点を克服する。
本発明に関係する用語の定義
最初に、本明細書に使用される重要なキーワードについて定義を示す。
行為者(オリジナルの行為者)−俳優、スピーカ、歌手、アニメーションキャラクタ、動物、映画の中の物体、または、静止写真における主題。
オーディオビジュアルダビング−口部分の状態が基準フレームにおけるダバーのそれに出来る限り類似するように、1つ又は複数のフレームにおいて、行為者の口部分を操作すること。
相関関数−2つの画像領域の類似性を表す関数。相関性が高ければ高い程、適合が良好である。
ダバー−目標テキストを話し/語り/歌い/翻訳する1人または複数の人。ダバーは行為者と同一人であり得る。
ダビング−オリジナルのテキスト又はサウンド(静止写真のサイレントトラックの場合を含む)を持つ映画の1つ又は複数のオリジナルサウンドトラックの一部または全体を、目標テキスト、及び/又は、サウンドを含む別のサウンドトラックと置換すること。
エッジディテクタ(縁検出器)−強さ及び/又は色彩の異なる画像領域間の境界を抽出するために用いられる公知の画像処理技法。
顔面パラメータ化−顔面の構造、ロケーション、及び、表情を数値的に表す方法。
頭部モデル−モデルによって生成される正確な表情(即ち、微笑、口幅、顎の開き、等々)を表す多くのパラメータによって制御される顔の三次元ワイヤフレームモデル。
映画(オリジナルの映画)−あらゆる映画(例えば、シネマ風フィルム、広告、ビデオ、アニメーション、静止ビデオ映像、等々)。カメラによって連続的に写真撮影されるか、或いは、アニメーターによって作成された一連の連続した映像(フレームとも呼ばれる)。映画が静止写真である映画の場合には、連続した全ての映像は相互に同じである。連続して速く示された場合には、静止映像の場合を除き、自然運動の幻覚が得られる。大抵の映画は、サウンドトラックがあり、スピーチ、音楽及び/又はサウンドを含み、映像と同期し、特にスピーチは、映像における行為者の唇の動きと同期する。映画はいくつかの技法において実現される。通常の方法は、(a)フィルムに記録する、(b)アナログ電子形式(「ビデオ」)に記録する、(c)デジタル電子形式に記録する、(d)チップ、磁気テープ、磁気ディスク、または光学ディスクに記録する、(e)磁気及び/又は光レーザ装置による読み/書きである。最終的に、本発明の文脈においては、「オリジナルの映画」もまた、本発明によって変更されるオーディオビジュアル映画であり、更なる変更のためのベースとなる。
オリジナルテキスト−映画の作成中に行為者によって話され、或いは、歌われるテキストであって、そのサウンドトラックに記録される。テキストは、スピーカ(話し手)を示すことなく、或いは、スピーカの静止写真を示すことによって背景で語られることもある。
ピクセル(画素)−映像要素。デジタル映像は、画素と呼ばれる点の配列によって構成される。各画素は、対応する映像点における強さの数値および色彩の数値をコード化する。
基準類似フレーム−オリジナルの行為者が、オーディオビジュアルにダビングされる映画に適した所望の口の形状および頭部の姿勢の特徴を有する映像(オリジナルの映画におけるフレーム、他のあらゆる映画におけるフレーム、または、静止写真)。
目標テキスト−行為者のオリジナルの音声テキストに代替するための新しい音声テキスト。目標テキストは、オリジナルの映画にお
いて無言であった行為者に割り当てることもできる。新規テキストは他の言語であっても差し支えなく、この場合を「ダビング」と称する。ただし、本発明は、言語を変えることなく、当該同一言語において、オリジナルの行為者、或いは、ダバーを用いたテキストの置き換えにも関する。目標テキストは、オリジナルのテキストと同じ意味を持っても差し支えないが、反対の、或いは、完全に異なる意味を持つよう修正されても差し支えない。本発明の多くの応用方法の1つによれば、本発明は、行為者が実際に参加することなしに、同一行為者による新規映画の作成のために用いられる。1つ又は複数の静止写真に添付された無効音声テキストに置き換えるために用いられる新規な音声テキストも含まれる。
テクスチャマッピング−三次元ワイヤフレームモデル上にテクスチャをマッピングする、コンピュータグラフィックスにおいて周知の技法である。
二次元投射−モニタ、スクリーン、または、写真フィルムのような二次元ディバイス上に三次元顔モデルを表現した結果を意味する。
発明の背景
映画は、そのオリジナルの言語を熟知していないので、当該映画のサウンドトラックを理解できない視聴者に対して上映されることが望ましい。この問題を解決するには、周知の2つの方法がある。1つの方法においては、所望言語でタイプされたテキストとしてのサブタイトルが映像に追加され、視聴者は、外国の言語のテキストを聞かされると、同時に映像自体の上でその翻訳を読む。この種の読取りは、視聴者の注意を映像から、そして全般的に映画からそらす。別の方法はダビングであり、この場合、オリジナルのテキストを含むオリジナルサウンドトラックは、所望の言語による別のサウンドトラックと置き換えられる。この場合には、サウンドトラックと口の動きとの間に気になるミスマッチがある。
これらの欠点を克服するためにこれまでもいくつかの試みがなされたが、そのいずれも実際に実用化するためには固有の問題があって、商品化されなかった。たとえば、米国特許第4,600,261号においては、定規またはカーソルを用いて口の形状の測定を手動で測定し、各フレーム内において画素を移動させることによって口の形を訂正するする方法が記述されている。本発明の説明から分かるように、本発明に基づいた方法は本質的に異なり、次に示す諸点において遥かに優れている。本発明においては、口の形状のトラッキングは自動的に行われ、手動で行われない。本発明においては、口の形状の変更は、例えばP.EkmanおよびW.V.Friesenが示した方法(「顔面アクションユニットシステム用マニュアル」、Consulting Psychologist Press、Palo Alto 1977)のように、三次元頭部モデルを使用することによって行われる。本発明においては、行為者の口部分は基準類似フレームの口部分を用いて置き換えられる。本発明においては、行為者の口の状態パラメータの代わりにダバーの口の状態パラメータが置き換えられる。
米国特許第4,260,229号は、唇画像を図形的に作成する方法に関する。この米国特許は本発明とは全く異なる。この米国特許においては、話す音声が解析されて、デジタル的にコード化される。本発明においては、音声解析は一切行われず、全く必要ではない。
オーディオビジュアルにダビングされた映画を更に良く見えるようにするために、本発明は、サウンドトラックを目標テキストで置き換えるだけでなく、行為者の口の動きを自動的に変えて、目標テキストに適合させるコンピュータ化された方法を提供する。新しい口の動きは言語学的に正確であり、かつ、行為者の顔の観察可能な全てのパラメータに従い、視覚的に自然に見える。
発明の要約
本発明は、映画のコンピュータ化された自動オーディオビジュアルなダビング方法を提供し、以下に示す過程を有する(図1参照)。
(a)行為者の頭部の、好ましくは正面の映像を有するフレーム、及び、可能であるならばその横顔を有するフレームを映画から選択する過程と、
(b)顔面上に数個の重要な特徴点をマークし、フレームにおけるそれらの場所を測定する過程と、
(c)過程(b)において測定されたデータをモデルの重要特徴点の場所に適合させることによって、行為者の二次元頭部映像へ包括的な三次元頭部モデルを適合させる過程と、
(d)映画全体を通じて、1つのフレームからその後続フレームへ、コンピュータ化された自動的方法において、前記の適合済み三次元頭部モデルパラメータを反復的にトラッキングし、基準類似フレームのライブラリを作成する過程と、
(e)目標テキストを話すダバーの映画を撮影する過程と、
(f)ダバーを用いて、過程(a)、(b)、(c)、及び、(d)を繰り返す過程と、
(g)各パラメータに関するダバーの最小および最大値を、同一パラメータに関する行為者の最小および最大値に対して正規化する過程と、
(h)基準類似フレームを利用し、テクスチャマッピング技法を用いることにより、フレームからフレームへの方式で、二次元の行為者顔面を、その三次元頭部モデル上へマッピングする過程と、
(i)フレームからフレームへの方式で、オリジナルの口パラメータをダバーに関して過程(d)において算定された口パラメータと交換することによって過程(h)で得られたテクスチャマッピングされた三次元モデルを変更し、行為者の口の状態がダバーの口状態と類似するということを除き、オリジナルと同じ値を用いて新規映像に関するパラメトリック記述を得る過程と、
(j)所望の新し口の状態に同じか、非常に類似した口の状態にある行為者の唇部分を映画の1つのフレームから、現行フレームの行為者の頭部モデルの唇部分の上にテクスチャマッピングし、次に、その唇部分を行為者の頭部モデルから現行新規フレームに投射する過程。(この過程は、用途に応じて任意である。)
三次元頭部モデルを使用することにより、行為者が頭部を動かしている場合であってもオーディオビジュアルなダビング過程を制御することが可能である。大抵の用途において、目の端(コーナー)、口角、鼻孔のような顔面上の約15個の重要な特徴点がトラッキング過程において用いられる。視聴者に見えるこれらの特徴点のみが(モデルに関して利用可能な情報を用いて)追跡される。
本発明において、オーディオビジュアルなダビングは、通常、オーディオダビングの使用と共に用いられるが、オリジナルの映画に一切の等価トラックが存在しないオーディオトラックと共に使用しても差し支えない。
本発明に従う方法は、映画的特徴のフィルム、広告、ビデオ、及び、アニメーションのような映画のオーディオビジュアルなダビング用として有用である。映画の全てのフレームが同じである場合に相当する静止写真のビジュアル視覚的ダビングも、本発明によって可能になる。例えば、静止写真は、レポータの静止写真が示されると同時にレポーターの音声が聞える、TVニュースプログラムにおけるこのタイプの映画用に使用される。
従って、本発明によれば、無言の行為者、幼児、動物、及び、生命のない物体であっても、どのような言語でも話すように、オーディオビジュアルにダビング可能である。
我々の発明によれば、アニメーション処理においては、口部分のアニメーションと関連した労苦をかなり節約できる。
更に、本発明は、コンピュータ化されたオーディオビジュアルダビングを操作するためのコンピュータプログラム(付録1参照)を供給する。
本発明はまた、過程d(上記)において作成される基準類似フレームのライブラリにも関する。
発明の詳細な説明
オリジナル映画では、行為者がオリジナルテキストを話しているとすれば、ダバーが別の言語または同じ言語のいずれかにおいて目標テキストを話す、ダバーの映画が作られる。ダバーの映画が撮影され、同時に、ダバーは、オリジナルテキストを目標テキストへ適応させるルーチンダビングを実施する。
本発明は、ダバー映画から目標テキストのサウンドトラックを有し、映像はオリジナル映画の映像でありながら、行為者の口の動きは新規サウンドトラックに対応して修正された新規の映画を作成するためのオリジナル映画における行為者の顔の動きを変えるための方法を提供する。
考察を簡潔にするために、本発明の説明には、電子デジタル形式(画素のアレイから成る)の映像を用いるが、他のあらゆる形式における映画も同様に処理可能である。これらの場合、映画は既存の技法によってデジタル形式に変換され、デジタル形式で処理され、既知の技法によって任意の所望の形式に戻される。
顔の表情は、例えば、EkmanとFriesen(Ekman等)による顔面アクションコード化システム(FACS)のような「アクションユニット」によって表すことができる。アクションユニット(AU)は、筋肉の意識的な作動化に依存する顔の表情の小さな変化を表す(H.Li、P.RoivainenとR.Forchheimerによる「モデルに基づく顔面イメージのコード化における3次元運動」、PAMIにおけるIEEE議事録、15(2)、545−555項1993年)。AU情報は、パラメータ形式で表現される。AUパラメータを用いると、多くの顔の表情を制御することが出来る。パラメータとしては、顔の位置とサイズ、顔面領域のアスペクトレシオ、特定の顔面特徴の位置、及び、更に多くの項目が好まれる。
既に説明したように、本発明の過程の1つは、顔の三次元パラメータ化である。この種のモデルの一例は、約25種のパラメータから成るParkeのモデルであり(Fredric I.Parke、「顔面アニメーションのためのパラメータ化されたモデル」、IEEEコンピュータグラフィックスと応用、12(11)、61−68項、1982年)。顔面パラメータは、3つの主要クラス、即ち、構造パラメータ、位置(ロケーション)パラメータ、及び、表情パラメータに大別することが出来る。
構造パラメータは全ての頭部について固定され、口と目、口と顎の間の距離比率、モデルの幅、顎幅、等々を含む。位置(ロケーション)パラメータは、例えば、空間における三次元回転に関する3つのパラメータ、及び、三次元変換に関する3つのパラメータ(リアルワールドにおける位置)である。表情パラメータは、例えば、口幅、微笑(一例を挙げれば、この場合のパラメータ値は、非常に悲しい口に対して0.0であり、非常に幸せそうな口に対して1.0)、顎の開き、上唇の吊り上がり、下唇の下がり、唇の厚さ、等々である。
本発明は、顔面モデルを用いて、最も近い基準類似フレームを検索することによりダバーの唇の動きに基づいて行為者の唇の動きを自動的に整形するコンピュータプログラム(付録1参照)を基調とする。このコンピュータプログラム(ソフトウェア)或いはこれに類する物は不可欠要素であり、本発明の重要な部分である。本発明に基づく方法は、以下に説明するように、ほぼトラッキング局面と新規映画作成局面に分割される。
I.トラッキング局面
過程1:第1過程は、行為者及びダバー両者について一般的な三次元顔面モデルを個人化することである。一般的な顔面モデルを修正して特定の顔に適合させるためには、幾らかの追加的情報が必要である。一般的モデルを、所定の行為者の顔に適合するように、その初期位置及び設定から、変換、縮尺、及び、伸長しなければならない。これは、例えば口、タッチスクリーン、等のような位置決め装置を用いて、行為者の顔の特徴的箇点、例えば目の端(アイコーナー)、口角(マウスコーナー)、顔の最上部および底部を手動で位置決め(ポイント)することにより実施される。一般に全体で約15個の特徴点が用いられるが、この個数は、仕様に応じて変えてもよい。これらの特徴点は、好ましくは行為者がカメラに対面する映画フレームの1つ(どれでも)にマークされる。次に、コンピュータプログラムが、行為者の顔を映画フレーム上に二次元投射するために必要な正確なモデルパラメータの修正を自動的に算定する。顔の特徴点を使用する他に、精度を増すために、エッジディテクタを用いて算定される頭部の縁に適合するようにモデルを調節することも行う。行為者の横顔が入手可能である場合には、それを用いて顔の彫りの深さや鼻の長さのようないくつかの深さパラメータを設定することが出来る。そうでない場合には、顔の彫りの深さは、実験的に設定された所定の縮尺によって算出される。
過程2:一般的モデルが所望の行為者に関して個人化されると、映画の重要ないくつかのフレーム(キーフレーム)における顔の特徴がマークされる。この種のフレームの個数は、モデルを行為者に区分適合(セグメントフィッチング)する難度に応じて最初の1つのフレームから全てのフレームの約5%と様々で、これらのキーフレームにおいてマークされた顔の特徴を用いることによって、自動トラッキング(後述)の安定化が達成され、これらのキーフレームは、安定かつ連続的なトラッキングを保証する。次に、プログラムは、口のトラッキング用として後で使用するために、いくつかの口の形状例に基づいて較正を行う。最後に、全てのキーフレームに調整された全てのモデルパラメータの値を用いて、特定の行為者に関する口パラメータ(最小および最大値)の範囲が推測される。
過程3:次の過程は、映画全体を通しての行為者の顔の自動トラッキングである。これは、顔面モデルを用いて、次に示す2つの過程において、1つのフレームから、その次のフレームへと実施される。最初に、行為者の二次元顔面が、テクスチャマッピング技法を用いて、三次元顔面モデル上にマップされる。この段階において、モデルは、そのパラメータだけを変えて新規な合成イメージを生み出すように変更できる。これらのイメージは、ほかの点ではオリジナルの映画フレームに非常に類似し、顔面位置、顔面の配向、及び、顔の表情以外は、全て元のままである。解析的または数値的(例えば、最も急な降下アルゴリズム)最小化アルゴリズムを使用することにより、プログラムは、この段階において、その次のフレームにおける行為者の顔部分とテクスチャマップされた顔面モデルの合成された投射との間の相関関数を最大限にするこれらのパラメータを算定する。最も急な降下アルゴリズムは、相関関数を増大する方向にパラメータを増加或いは減少させる。アルゴリズムは、(それが相関性を最大にする時まで)各パラメータに別々に作用するか、或いは、全てのパラメータを一回で修正することが出来る。
過程4:モデルがその次のフレームにおける行為者の頭部にロックされると、口がトラッキングされる。これは、先ず、キーフレーム及び既にトラッキング済みの先行のいくつかのフレームにおける全ての口パラメータをチェックすることによって実施される。そして、より高い相関性を与えるフレームがトラッキングのための最初の推測フレームとして選定される。次に、相関関数が最大化されるまで、大域頭部運動をトラッキングするために用いられると同じ最小化アルゴリズムが使用される。トラッキングされたフレームの顔面モデルを表すパラメータは、後で使用するために、ファイルに記入される。
過程5:過程3及び4を繰り返し、映画全体を処理する。最良の結果を得るためには、このプロセスを最初のフレームから最後のフレームまで直列的に実行する代りに、トラッキングの初期点としてキーフレームを使用することが出来る。連続した2つのキーフレームを利用して、各キーフレームからそれらの間のフレームまでトラッキングすることができる。このようにして、トラッキングの安定性が保たれる。
過程6:上述のトラッキングはダバーの映画にも同様に適用される。
II.新規映画作成局面
この局面は、オーディオビジュアルにダビングした新規な映画を合成するために、オリジナル映画とダバーの映画の両方のトラッキング結果を組み合わせるものである。既に説明したように、オーディオビジュアルにダビングしたこの映画は、オーディオビジュアルにダビングしたこの映画の行為者の顔を除いては、その大部分がオリジナル映画から形成されている。この顔は、既に説明したように、特定の時点におけるダバーの唇、口、及び、頬の形状に適合するように合成された、三次元顔モデル上にテクスチャマップされた顔である。従って、局面Iにおいて説明したようにして算定された顔モデルのパラメータは、オーディオビジュアルにダビングされた新規映画を作成するために使用される。この新規映画においては、オリジナル映画における全てのフレームに関して、口パラメータは、ダバーの口パラメータに修正される。正確な過程は次のとおりである。
過程7:オリジナル映画における全てのフレームに関して、行為者の顔が、オリジナル映画に関して過程3において算定されたパラメータを用いて、該当する顔面モデル上にテクスチャマップされる。過程3において算定されたダバーの口パラメータは、オーディオ視覚的にダビングされた新規な映画用として次のように用いられる。
過程8:行為者の所望される口の形状が既知である場合には、現行フレームの近傍において(時間的には、約0.1から10秒間だけ前方および後方において)、形状またはパラメータが所望の新しい口に最も類似している口に関して、オリジナル映画を探索する。基準類似フレームに関するこの探索は、口の運動を円滑かつ連続的にするために、前のフレームで既に選定済みの口の形状を考慮する。数個(5〜10)の最も適合した口から選定される口は、以前に選定済みの口に時間的に最も近いフレームから選定される。
過程9:過程8において選定された口は、事前に算定されたパラメータを用いて口モデルにテクスチャマップされる。次に、顔モデルパラメータは、所望の口形状に関して変更され、非常に現実的な新規フレームとなり、この新規フレームがオリジナル映画の旧フレームに置き換えられる。プログラムの使用者は、所定場所にテクスチャマップされるべき所望の口部分を選定することが可能である。それは、口の内部であってもよいし、唇を含む口全体であるか、または、更に広い部分であってもよい。この手順により、口の周辺の顔、及び、特に唇が、サウンドトラックに従って整形されると、同時に、オリジナルの行為者の見慣れた顔はそのままである、合成されたイメージが作成される。。過程8を省略してもよいが、その場合には、口の内部は空である。これは、静止映像から発生映画を作成するのに有用であり、この場合には、行為者の基準フレーム類似辞書において、目標に関する唇の形状の近似適合が一切存在しないので、口の内部情報は欠落している。この黒い内部を、視覚的カラー/テクスチャによって充填することも可能である。
過程10:最後に、オリジナルテキスト及びサウンドをダビングされた映画サウンドトラック(目標テキスト)に換える。
本発明によるソフトウェアツールを使用する動画作家は、オリジナル映画とオーディオビジュアルにダビングされた映画の両方において、頭部または口パラメータのうちの任意のパラメータを自由に修正、設定、或いは、固定することが可能であり、過程NM8において説明したように、所定場所にテックスチャマップされるべき特定の口を選定することさえ可能であり、前述の過程のうちの任意の過程において、これらの全てが可能であることに注意されたい。トラッキングプログラムは、高度に対話型であり、使いやすい。
本発明の関係ソフトウェア(付録1参照)は非常に用途が広く、極めて広範なサウンド/テキスト置換えアプリケーションにおいて使用可能であり、その多くのアプリケーションについてはすでに言及済みである。本発明の幾つかのアプリケーションの例を以下に示す。
広告:世界規模で販売される製品のためのオリジナルの広告コマーシャルを操作して、任意の所望の言語における同じコマーシャルを作成することができる。これにより、当該製品を対象とする全ての国または言語のために新規にビデオを作成する必要性が省かれる。
再び撮影しなくても既存のシーンを変更することによって映画を編集することももう1つの可能性である。例えば、映画作成が終了した後で、ディレクタ/エディタが特定のシーンを変更しようとしたり、特定の行為者の或る文を変更しようとする場合である。
本発明は、話されたテキストばかりでなく歌、オペラ、音楽も対象とし、ミュージカルビデオクリップの言語を変更する可能性も開く。
アニメーションの製作は、行為者の口についてラインセグメントを作図し、完全に作図された口を有する代表的な基準類似フレームを含む小さい行為者の映像辞書を作図し、次に、行為者の映像辞書において見られるように、これらのリップラインセグメントをダバーの対応する唇の形状によって置き換えることによって支援される。
一般に、映画のオーディオビジュアルな自動ダビングのための方法の応用には以下のものが含まれる。即ち、通常の映画、漫画、ドキュメンタリ、広告、ニュース、教育プログラム、法廷ドキュメンテーション、演説、講義、歴史的ドキュメンテーションと、公聴委員会、ホームビデオ、スポーツイベント、娯楽イベント、オペラ、ミュージカル、ミュージカルビデオクリップ、同時通訳、及び、前途の一連のオリジナル又は追加された前述のフレームへのスピーチの追加が含まれる。
更に、既に説明した基準類似フレームのライブラリを用いることにより、本発明は、全く新しい映画を作成すること、そしてまた、背景物語をオーディオビジュアルスピーチに変換したり、書かれたテキストをオーディオビジュアルすることを可能にする。
図1から4によって本発明を更に説明する。これらの図は、本発明の好ましい実施例を図示することのみを意図し、いかなる形においても本発明の範囲を制限することを意図するものではない。同様に、添付ソフトウェア(付録1)は、本特許において開示された方法の具体化例であって、いかなる形においても前記の方法の範囲を制限することを意図するものではない。
図1は方法の過程を示す構成図を示すものであり、その内容を次に詳細に説明する。
図2a及び2bは、頭部の一般的正面映像(図2a)と頭部の一般的側面映像(図2b)上の重要な点の一例を示す。
図3は、一般的ワイヤフレーム顔モデルの例を示す。
図示する目的のために、図2に示す重要な点を決定し、映像上で実際の行為者のそれらの重要な点を測定し、一般的ワイヤフレーム顔モデル(図3)へそれらを適用する。測定した重要な点のデータを適応させて三次元頭部モデルを行為者の二次元頭部映像に適合することによって、図4a及び4bに示すように、統合が得られる。
図4aは、特別に調整されたワイヤフレームモデルが行為者の顔の正面図にどのようにして適合するかを示す例である。
図4bは、特別に調整されたワイヤフレームモデルが行為者の顔の側面図にどのようにして適合するかを示す一例である。
図1は、方法過程を示す構成図である。
オリジナルの映画(1)において、オリジナルの行為者の頭部のほぼ正面映像を有するフレーム(2)と、可能ならば、行為者の側面図の映像を有するフレームが選定される。
三次元頭部モデルが行為者の二次元頭部映像に適合される。このモデルは、例えば、頭部の位置および口の状態に関する数個のパラメータによって制御可能である。この適合過程(3)は、選定されたフレームにおいて測定された重要な点のデータをモデルに適応させることによって行われる。
次の過程(4)は、適合された三次元頭部モデルパラメータを映画全体に亙って、フレームから次のフレームへとコンピュータ化された自動トラッキングを行う過程である。行為者が現れる各フレームごとに部分的または完全な三次元頭部モデルが用いられる。結果として得られる任意のフレームは、唇置換えのための基準類似フレームとして役立つ。
ダバーの映画が撮影される(5)。この映画の大部分のフレームにおいて、ダバーがカメラに向かう。この映画においてダバーが目標テキストを話す。
オリジナルの行為者の映画に適用されたと同じ過程が、ダバーの映画にも適用される。即ち、ダバーの頭部正面映像を有するフレーム、及び、可能であれば、ダーバの側面映像を有するフレームがダバーの映画から選定される(6)。選定済みのフレームにおいて測定された重要な点のデータをダバーのモデルに適応させることによって、三次元頭部モデルが、ダバーの二次元頭部映像に適合される(7)。前記のダバーの適合済み三次元頭部モデルパラメータのコンピュータ化された自動トラッキング(8)が、フレームからフレームへと、映画全体を通じて実施される。
この方法における次の過程は、ダバーの最小および最大パラメータを行為者の最小および最大パラメータに対して正規化することである(9)。
フレームからフレームへの方式において、オリジナルの行為者の二次元顔面は、その三次元頭部モデル上にマップされる(10)。このマッピング過程は、基準類似フレームを使用するテクスチャマッピング技法用いることによって行われる。この過程の結果として、オリジナル映画におけるオリジナルの行為者の各フレームごとにオリジナルの行為者のマップされた三次元頭部モデルの部分が得られる。この場合、オリジナルのフレームが行為者の顔の正面図を含む場合には、所定のフレームに対応するモデルは完全でありえる。
次の過程において、オリジナルの行為者に関して得られたテクスチャーされた三次元モデルフレームが、フレームからフレームへの方式において、オリジナルの口パラメータを対応するフレームにおけるダバーに関して算定された口パラメータで置き換えることにより変更される(11)。この場合における対応は、所望のサウンドトラックの置き換え(即ち、ダビング)によって決定される。このようにして、行為者の口の状態がダバーの口の状態と類似していることを除いて新規映像に関して、オリジナルと同じパラメトリック記述がえられる。この場合、新規映像は、新しくオーディオビジュアルにダビングされた映画におけるフレームに対応する。
例えば、(4)において閉じられた口を、(8)においてダバーが開く場合に生じるような困難を克服するために、オリジナルの映画において口の状態が所望の新しい口の状態に類似するような1つ又は複数のフレームが探索される。基準類似フレームと呼ばれるこれらのフレームは、一般に、処理されたフレームへ時間的に近接しているが、必ずしもそうとは限らず、唇は、テクスチャマッピング(12)を用いて、当該フレームから新規フレームに複写される。基準類似フレームの探索は本発明の本質的構成要素である。従って、我々は、その定義を繰り返すこととする。即ち、基準類似フレームとは、オリジナルの行為者が、オーディオビジュアルにダビングされた映画に適した所望の口形状および頭部の姿勢の特徴を有する1つの映像(オリジナルの映画におけるフレーム、他の任意の映画におけるフレーム、または、静止写真である)である。
あるいは、基準類似フレームは、オリジナルの行為者または他の行為者のコンパイルされた映像ライブラリから取り出してもよい。
過程(12)は、映画全体が変換されるまで、各フレームに関してすべてを繰り返すことである。
フェースイメージングリミテッドプログラム「dub」用ソースコード
次のプリントアウトは、以下のモジュールのソースを含む。
dub.c − 主プログラム
general.c − 一般的な機能及びユーティリティ
gimg.h − gimg.c−イメージI/O、及び、フィルタリング用インタフェース
mv.h − mv.c− movingハンドリングのためのインタフェース
list.h − list.c − list data typeハンドリングのためのインタフェース
io.c − I/O機能
texture.c − テクスチャマッピングスタッフ
これらのモジュールは、本発明の説明で記載したように、映画の中の人の唇を他の人の唇の形状に自動的に調整するプログラム「dub」を含む。
ここに含まれるモジュールはメインモジュールである。ハンドリングイメージ、映画等々のようなユーティリティモジュールは含まれない。
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677
Figure 0004078677

Claims (15)

  1. 映画のコンピュータ化された自動オーディオビジュアルダビングのための方法であって、
    (a)行為者の頭部の顔の正面の映像を有するフレームを映画から選択する過程と、
    (b)顔面上に数個の重要な特徴点をマークし、フレームにおけるそれらの場所を測定する過程と、
    (c)過程(b)において測定された重要な特徴点のデータをモデルの重要な特徴点の場所に適応することによって、一般的な三次元頭部モデルを行為者の二次元頭部映像へ適合させる過程と、
    (d)映画全体を通じて、1つのフレームからその後続フレームへと、コンピュータ化された自動的方法において、前記の適合済み三次元頭部モデルパラメータを反復的にトラッキングし、基準類似フレームのライブラリを作成する過程と、
    (e)目標テキストを話すダバーの映画を撮影する過程と、
    (f)ダバーに関して、過程(a)、(b)、(c)、及び、(d)を繰り返す過程と、
    (g)各パラメータに関するダバーの最小および最大値を、同一パラメータに関する行為者の最小および最大値に対して正規化する過程と、
    (h)基準類似フレームを利用し、テクスチャマッピング技法を用いることにより、フレームからフレームへの方式において、二次元の行為者顔面を、その三次元頭部モデル上へマッピングする過程と、
    (i)フレームからフレームへの方式において、オリジナルの口パラメータをダバーに関して過程(d)において算定された口パラメータと交換することによって過程(h)で得られたテクスチャマッピングされた三次元モデルを変更することで、行為者の口の状態がダバーの口状態と類似する場合を除き、新規映像に関してオリジナルと同じ値パラメトリック記述を得る過程と、
    (j)所望の新規な口の状態に同じか、非常に類似した口の状態にある行為者の唇部分を用いて、映画の1つのフレームから、現行フレームに関する行為者の頭部モデルの唇部分の上にテクスチャマッピングし、次に、行為者の頭部モデルから唇部分を現行新規フレームに投射する過程とを有することを特徴とする方法。
  2. 請求項1記載の方法であって、三次元頭部モデルを制御するためのパラメータが、頭部モデルの口の位置、配向、及び、表現であることを特徴とする方法。
  3. 請求項1記載の方法であって、過程(b)においてマークされた顔面上の重要な特徴点が、目の端、口角、及び、顔の最上部および最低部であることを特徴とする方法。
  4. 請求項1記載の方法であって、顔面上の約15箇所の重要特徴点がトラッキング過程において用いられることを特徴とする方法。
  5. 請求1項記の方法において、オーディオビジュアルにダビングされるべき映画が、映画の一部分を作るために次々に全く同じに複製された一連の1つ又は複数の静止写真であることを特徴とする方法。
  6. 請求項5記載の方法であって、現場通信者からのニュースのようなTVプログラムにおける静止写真をオーディオビジュアルにダビングするための方法。
  7. 請求項5記載の方法であって、赤ん坊または聾唖者のように行為者が話さないことを特徴とする方法。
  8. 請求項1記載の方法であって、オリジナルの映画がアニメーションであることを特徴とする方法。
  9. 請求項8記載の方法であって、行為者が、動物、或いは、人間でない、または、生命のない物体であることを特徴とする方法。
  10. 請求項1記載の方法であって、映画が宣伝映画であることを特徴とする方法。
  11. 請求項1記載の方法であって、映画および静止写真の映像が電子デジタル形式であることを特徴とする方法。
  12. 請求項1記載の方法であって、映像がデジタル形式に変換され、デジタル形式において操作されて、任意の所望の形式に戻されることを特徴とする方法。
  13. 請求項8記載の方法であって、アニメーション製作成が、行為者の口に関して直線のセグメントを作図し、完全に作図された口を有する代表的基準類似フレームを含む小さな行為者の映像辞書を作図し、次に、これらの唇線セグメントが、行為者の映像辞書に発見されるようなダバーの対応する唇の形状によって置き換えられる過程によって支援されることを特徴とする方法。
  14. 請求項1記載の方法であって、「映画」が絵画、図面、または、映像であることを特徴とする方法。
  15. 請求項1記載の方法であって、背景物語或いは話されたテキストをオーディオビジュアル形式に変換するための方法。
JP51642397A 1995-10-08 1996-10-07 映画のコンピュータ化された自動オーディオビジュアルダビングのための方法 Expired - Lifetime JP4078677B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
IL11555295A IL115552A0 (en) 1995-10-08 1995-10-08 A method for the automatic computerized audio visual dubbing of movies
US887495P 1995-12-19 1995-12-19
US60/008,874 1995-12-19
PCT/IB1996/001056 WO1997015926A1 (en) 1995-10-08 1996-10-07 A method for the automatic computerized audio visual dubbing of movies
US115552 2002-04-03

Publications (2)

Publication Number Publication Date
JPH11514479A JPH11514479A (ja) 1999-12-07
JP4078677B2 true JP4078677B2 (ja) 2008-04-23

Family

ID=26323146

Family Applications (1)

Application Number Title Priority Date Filing Date
JP51642397A Expired - Lifetime JP4078677B2 (ja) 1995-10-08 1996-10-07 映画のコンピュータ化された自動オーディオビジュアルダビングのための方法

Country Status (5)

Country Link
US (1) US6492990B1 (ja)
EP (1) EP0972285A4 (ja)
JP (1) JP4078677B2 (ja)
AU (1) AU6998996A (ja)
WO (1) WO1997015926A1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5880788A (en) * 1996-03-25 1999-03-09 Interval Research Corporation Automated synchronization of video image sequences to new soundtracks
US20070165022A1 (en) * 1998-07-15 2007-07-19 Shmuel Peleg Method and system for the automatic computerized audio visual dubbing of movies
EP1108246A1 (en) * 1999-06-24 2001-06-20 Koninklijke Philips Electronics N.V. Post-synchronizing an information stream
US6757682B1 (en) 2000-01-28 2004-06-29 Interval Research Corporation Alerting users to items of current interest
US7091975B1 (en) * 2000-07-21 2006-08-15 Microsoft Corporation Shape and animation methods and systems using examples
US6950104B1 (en) * 2000-08-30 2005-09-27 Microsoft Corporation Methods and systems for animating facial features, and methods and systems for expression transformation
FR2814888A1 (fr) * 2000-10-04 2002-04-05 Cedric Denooz Systeme mobile de postsynchronisation
ITCA20000018A1 (it) * 2000-10-10 2002-04-10 Fabrizio Cucca Sistema per la realizzazione di dedica personalizzata incisa su supporti magnetici e/o video preesistenti cd, dvd, dat, minidisc, musica e v
US7343082B2 (en) 2001-09-12 2008-03-11 Ryshco Media Inc. Universal guide track
US7003139B2 (en) * 2002-02-19 2006-02-21 Eastman Kodak Company Method for using facial expression to determine affective information in an imaging system
US7358978B2 (en) * 2004-08-13 2008-04-15 Microsoft Corporation Perceptually based approach for planar shape morphing
WO2006048875A2 (en) * 2004-11-05 2006-05-11 Yissum Research Development Company Of The Hebrew University Of Jerusalem Method and system for spatio-temporal video warping
US7412389B2 (en) * 2005-03-02 2008-08-12 Yang George L Document animation system
US7689631B2 (en) * 2005-05-31 2010-03-30 Sap, Ag Method for utilizing audience-specific metadata
US7764283B2 (en) * 2005-12-23 2010-07-27 Sony Corporation Eye movement data replacement in motion capture
US7856125B2 (en) 2006-01-31 2010-12-21 University Of Southern California 3D face reconstruction from 2D images
US8446410B2 (en) * 2006-05-11 2013-05-21 Anatomage Inc. Apparatus for generating volumetric image and matching color textured external surface
US20080055316A1 (en) * 2006-08-30 2008-03-06 Microsoft Corporation Programmatically representing sentence meaning with animation
US20080092047A1 (en) * 2006-10-12 2008-04-17 Rideo, Inc. Interactive multimedia system and method for audio dubbing of video
US7978191B2 (en) * 2007-09-24 2011-07-12 Dolphin Imaging Systems, Llc System and method for locating anatomies of interest in a 3D volume
US20090132371A1 (en) * 2007-11-20 2009-05-21 Big Stage Entertainment, Inc. Systems and methods for interactive advertising using personalized head models
JP5652097B2 (ja) 2010-10-01 2015-01-14 ソニー株式会社 画像処理装置、プログラム及び画像処理方法
US8600732B2 (en) * 2010-11-08 2013-12-03 Sling Media Pvt Ltd Translating programming content to match received voice command language
US9082222B2 (en) * 2011-01-18 2015-07-14 Disney Enterprises, Inc. Physical face cloning
US8655152B2 (en) 2012-01-31 2014-02-18 Golden Monkey Entertainment Method and system of presenting foreign films in a native language
WO2014018652A2 (en) 2012-07-24 2014-01-30 Adam Polak Media synchronization
US20160042766A1 (en) * 2014-08-06 2016-02-11 Echostar Technologies L.L.C. Custom video content
US10339973B2 (en) 2017-02-13 2019-07-02 International Business Machines Corporation System and method for audio dubbing and translation of a video
KR20210048441A (ko) 2018-05-24 2021-05-03 워너 브로스. 엔터테인먼트 인크. 디지털 비디오에서의 입 모양과 움직임을 대체 오디오에 매칭

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4569026A (en) * 1979-02-05 1986-02-04 Best Robert M TV Movies that talk back
FR2571196B1 (fr) 1984-10-02 1987-01-23 Guinet Yves Procede de television pour programmes multilingues
US4600281A (en) 1985-03-29 1986-07-15 Bloomstein Richard W Altering facial displays in cinematic works
US4884972A (en) * 1986-11-26 1989-12-05 Bright Star Technology, Inc. Speech synchronized animation
US5111409A (en) 1989-07-21 1992-05-05 Elon Gasper Authoring and use systems for sound synchronized animation
US5557724A (en) * 1993-10-12 1996-09-17 Intel Corporation User interface, method, and apparatus selecting and playing channels having video, audio, and/or text streams
CA2144795A1 (en) 1994-03-18 1995-09-19 Homer H. Chen Audio visual dubbing system and method

Also Published As

Publication number Publication date
EP0972285A1 (en) 2000-01-19
AU6998996A (en) 1997-05-15
US6492990B1 (en) 2002-12-10
EP0972285A4 (en) 2002-04-03
JPH11514479A (ja) 1999-12-07
WO1997015926A1 (en) 1997-05-01

Similar Documents

Publication Publication Date Title
JP4078677B2 (ja) 映画のコンピュータ化された自動オーディオビジュアルダビングのための方法
US20070165022A1 (en) Method and system for the automatic computerized audio visual dubbing of movies
US7109993B2 (en) Method and system for the automatic computerized audio visual dubbing of movies
Fried et al. Text-based editing of talking-head video
Garrido et al. Vdub: Modifying face video of actors for plausible visual alignment to a dubbed audio track
US5623587A (en) Method and apparatus for producing an electronic image
US6351265B1 (en) Method and apparatus for producing an electronic image
US8655152B2 (en) Method and system of presenting foreign films in a native language
US7027054B1 (en) Do-it-yourself photo realistic talking head creation system and method
US6919892B1 (en) Photo realistic talking head creation system and method
Cosatto et al. Photo-realistic talking-heads from image samples
US7859551B2 (en) Object customization and presentation system
Ezzat et al. Trainable videorealistic speech animation
Brand Voice puppetry
US8553037B2 (en) Do-It-Yourself photo realistic talking head creation system and method
US20070146360A1 (en) System And Method For Generating 3D Scenes
US11582519B1 (en) Person replacement utilizing deferred neural rendering
US11581020B1 (en) Facial synchronization utilizing deferred neural rendering
Paier et al. Example-based facial animation of virtual reality avatars using auto-regressive neural networks
US20240193890A1 (en) Generative films
Perng et al. Image talk: a real time synthetic talking head using one single image with chinese text-to-speech capability
KR20240013127A (ko) 필름 내 오브젝트의 수정
Chuang Analysis, synthesis, and retargeting of facial expressions
Graf et al. Sample-based synthesis of talking heads
US20240193835A1 (en) Generative films

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20060908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061031

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070126

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070619

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070913

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20071022

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20071011

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20071119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071119

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080128

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110215

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110215

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120215

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120215

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130215

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140215

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term