JP4078677B2

JP4078677B2 - 映画のコンピュータ化された自動オーディオビジュアルダビングのための方法

Info

Publication number: JP4078677B2
Application number: JP51642397A
Authority: JP
Inventors: ペレグサミュエル; コヘンラン; アブニールダビド
Original assignee: イーサムリサーチデヴェロップメントカンパニーオブザヘブライユニヴァーシティオブエルサレム
Priority date: 1995-10-08
Filing date: 1996-10-07
Publication date: 2008-04-23
Anticipated expiration: 2016-10-07
Also published as: EP0972285A1; AU6998996A; US6492990B1; EP0972285A4; JPH11514479A; WO1997015926A1

Description

技術分野
本発明は、自動オーディオビジュアルダビングのための方法に関する。更に詳細には、前記発明は、ダバーの唇運動の特性的特徴をオリジナルスピーカの口部分にコンピュータ化されたイメージ複写することにより、映画のオーディオ視覚的ダビングのための効率的なコンピュータ化された自動方法に関連する。本発明は、ダビングされたサウンドトラックに対応する新規画像を生成するために、近辺検索の方法、オリジナルスピーカの三次元頭部モデル化、及び、テクスチャマッピング技法を使用する。
本発明は、オリジナルの映画における唇の動きとダビングされた映画のサウンドトラックとの間の相関問題に関する周知の欠点を克服する。
本発明に関係する用語の定義
最初に、本明細書に使用される重要なキーワードについて定義を示す。
行為者（オリジナルの行為者）−俳優、スピーカ、歌手、アニメーションキャラクタ、動物、映画の中の物体、または、静止写真における主題。
オーディオビジュアルダビング−口部分の状態が基準フレームにおけるダバーのそれに出来る限り類似するように、１つ又は複数のフレームにおいて、行為者の口部分を操作すること。
相関関数−２つの画像領域の類似性を表す関数。相関性が高ければ高い程、適合が良好である。
ダバー−目標テキストを話し／語り／歌い／翻訳する１人または複数の人。ダバーは行為者と同一人であり得る。
ダビング−オリジナルのテキスト又はサウンド（静止写真のサイレントトラックの場合を含む）を持つ映画の１つ又は複数のオリジナルサウンドトラックの一部または全体を、目標テキスト、及び／又は、サウンドを含む別のサウンドトラックと置換すること。
エッジディテクタ（縁検出器）−強さ及び／又は色彩の異なる画像領域間の境界を抽出するために用いられる公知の画像処理技法。
顔面パラメータ化−顔面の構造、ロケーション、及び、表情を数値的に表す方法。
頭部モデル−モデルによって生成される正確な表情（即ち、微笑、口幅、顎の開き、等々）を表す多くのパラメータによって制御される顔の三次元ワイヤフレームモデル。
映画（オリジナルの映画）−あらゆる映画（例えば、シネマ風フィルム、広告、ビデオ、アニメーション、静止ビデオ映像、等々）。カメラによって連続的に写真撮影されるか、或いは、アニメーターによって作成された一連の連続した映像（フレームとも呼ばれる）。映画が静止写真である映画の場合には、連続した全ての映像は相互に同じである。連続して速く示された場合には、静止映像の場合を除き、自然運動の幻覚が得られる。大抵の映画は、サウンドトラックがあり、スピーチ、音楽及び／又はサウンドを含み、映像と同期し、特にスピーチは、映像における行為者の唇の動きと同期する。映画はいくつかの技法において実現される。通常の方法は、（ａ）フィルムに記録する、（ｂ）アナログ電子形式（「ビデオ」）に記録する、（ｃ）デジタル電子形式に記録する、（ｄ）チップ、磁気テープ、磁気ディスク、または光学ディスクに記録する、（ｅ）磁気及び／又は光レーザ装置による読み／書きである。最終的に、本発明の文脈においては、「オリジナルの映画」もまた、本発明によって変更されるオーディオビジュアル映画であり、更なる変更のためのベースとなる。
オリジナルテキスト−映画の作成中に行為者によって話され、或いは、歌われるテキストであって、そのサウンドトラックに記録される。テキストは、スピーカ（話し手）を示すことなく、或いは、スピーカの静止写真を示すことによって背景で語られることもある。
ピクセル（画素）−映像要素。デジタル映像は、画素と呼ばれる点の配列によって構成される。各画素は、対応する映像点における強さの数値および色彩の数値をコード化する。
基準類似フレーム−オリジナルの行為者が、オーディオビジュアルにダビングされる映画に適した所望の口の形状および頭部の姿勢の特徴を有する映像（オリジナルの映画におけるフレーム、他のあらゆる映画におけるフレーム、または、静止写真）。
目標テキスト−行為者のオリジナルの音声テキストに代替するための新しい音声テキスト。目標テキストは、オリジナルの映画にお
いて無言であった行為者に割り当てることもできる。新規テキストは他の言語であっても差し支えなく、この場合を「ダビング」と称する。ただし、本発明は、言語を変えることなく、当該同一言語において、オリジナルの行為者、或いは、ダバーを用いたテキストの置き換えにも関する。目標テキストは、オリジナルのテキストと同じ意味を持っても差し支えないが、反対の、或いは、完全に異なる意味を持つよう修正されても差し支えない。本発明の多くの応用方法の１つによれば、本発明は、行為者が実際に参加することなしに、同一行為者による新規映画の作成のために用いられる。１つ又は複数の静止写真に添付された無効音声テキストに置き換えるために用いられる新規な音声テキストも含まれる。
テクスチャマッピング−三次元ワイヤフレームモデル上にテクスチャをマッピングする、コンピュータグラフィックスにおいて周知の技法である。
二次元投射−モニタ、スクリーン、または、写真フィルムのような二次元ディバイス上に三次元顔モデルを表現した結果を意味する。
発明の背景
映画は、そのオリジナルの言語を熟知していないので、当該映画のサウンドトラックを理解できない視聴者に対して上映されることが望ましい。この問題を解決するには、周知の２つの方法がある。１つの方法においては、所望言語でタイプされたテキストとしてのサブタイトルが映像に追加され、視聴者は、外国の言語のテキストを聞かされると、同時に映像自体の上でその翻訳を読む。この種の読取りは、視聴者の注意を映像から、そして全般的に映画からそらす。別の方法はダビングであり、この場合、オリジナルのテキストを含むオリジナルサウンドトラックは、所望の言語による別のサウンドトラックと置き換えられる。この場合には、サウンドトラックと口の動きとの間に気になるミスマッチがある。
これらの欠点を克服するためにこれまでもいくつかの試みがなされたが、そのいずれも実際に実用化するためには固有の問題があって、商品化されなかった。たとえば、米国特許第４，６００，２６１号においては、定規またはカーソルを用いて口の形状の測定を手動で測定し、各フレーム内において画素を移動させることによって口の形を訂正するする方法が記述されている。本発明の説明から分かるように、本発明に基づいた方法は本質的に異なり、次に示す諸点において遥かに優れている。本発明においては、口の形状のトラッキングは自動的に行われ、手動で行われない。本発明においては、口の形状の変更は、例えばＰ．ＥｋｍａｎおよびＷ．Ｖ．Ｆｒｉｅｓｅｎが示した方法（「顔面アクションユニットシステム用マニュアル」、ＣｏｎｓｕｌｔｉｎｇＰｓｙｃｈｏｌｏｇｉｓｔＰｒｅｓｓ、ＰａｌｏＡｌｔｏ１９７７）のように、三次元頭部モデルを使用することによって行われる。本発明においては、行為者の口部分は基準類似フレームの口部分を用いて置き換えられる。本発明においては、行為者の口の状態パラメータの代わりにダバーの口の状態パラメータが置き換えられる。
米国特許第４，２６０，２２９号は、唇画像を図形的に作成する方法に関する。この米国特許は本発明とは全く異なる。この米国特許においては、話す音声が解析されて、デジタル的にコード化される。本発明においては、音声解析は一切行われず、全く必要ではない。
オーディオビジュアルにダビングされた映画を更に良く見えるようにするために、本発明は、サウンドトラックを目標テキストで置き換えるだけでなく、行為者の口の動きを自動的に変えて、目標テキストに適合させるコンピュータ化された方法を提供する。新しい口の動きは言語学的に正確であり、かつ、行為者の顔の観察可能な全てのパラメータに従い、視覚的に自然に見える。
発明の要約
本発明は、映画のコンピュータ化された自動オーディオビジュアルなダビング方法を提供し、以下に示す過程を有する（図１参照）。
（ａ）行為者の頭部の、好ましくは正面の映像を有するフレーム、及び、可能であるならばその横顔を有するフレームを映画から選択する過程と、
（ｂ）顔面上に数個の重要な特徴点をマークし、フレームにおけるそれらの場所を測定する過程と、
（ｃ）過程（ｂ）において測定されたデータをモデルの重要特徴点の場所に適合させることによって、行為者の二次元頭部映像へ包括的な三次元頭部モデルを適合させる過程と、
（ｄ）映画全体を通じて、１つのフレームからその後続フレームへ、コンピュータ化された自動的方法において、前記の適合済み三次元頭部モデルパラメータを反復的にトラッキングし、基準類似フレームのライブラリを作成する過程と、
（ｅ）目標テキストを話すダバーの映画を撮影する過程と、
（ｆ）ダバーを用いて、過程（ａ）、（ｂ）、（ｃ）、及び、（ｄ）を繰り返す過程と、
（ｇ）各パラメータに関するダバーの最小および最大値を、同一パラメータに関する行為者の最小および最大値に対して正規化する過程と、
（ｈ）基準類似フレームを利用し、テクスチャマッピング技法を用いることにより、フレームからフレームへの方式で、二次元の行為者顔面を、その三次元頭部モデル上へマッピングする過程と、
（ｉ）フレームからフレームへの方式で、オリジナルの口パラメータをダバーに関して過程（ｄ）において算定された口パラメータと交換することによって過程（ｈ）で得られたテクスチャマッピングされた三次元モデルを変更し、行為者の口の状態がダバーの口状態と類似するということを除き、オリジナルと同じ値を用いて新規映像に関するパラメトリック記述を得る過程と、
（ｊ）所望の新し口の状態に同じか、非常に類似した口の状態にある行為者の唇部分を映画の１つのフレームから、現行フレームの行為者の頭部モデルの唇部分の上にテクスチャマッピングし、次に、その唇部分を行為者の頭部モデルから現行新規フレームに投射する過程。（この過程は、用途に応じて任意である。）
三次元頭部モデルを使用することにより、行為者が頭部を動かしている場合であってもオーディオビジュアルなダビング過程を制御することが可能である。大抵の用途において、目の端（コーナー）、口角、鼻孔のような顔面上の約１５個の重要な特徴点がトラッキング過程において用いられる。視聴者に見えるこれらの特徴点のみが（モデルに関して利用可能な情報を用いて）追跡される。
本発明において、オーディオビジュアルなダビングは、通常、オーディオダビングの使用と共に用いられるが、オリジナルの映画に一切の等価トラックが存在しないオーディオトラックと共に使用しても差し支えない。
本発明に従う方法は、映画的特徴のフィルム、広告、ビデオ、及び、アニメーションのような映画のオーディオビジュアルなダビング用として有用である。映画の全てのフレームが同じである場合に相当する静止写真のビジュアル視覚的ダビングも、本発明によって可能になる。例えば、静止写真は、レポータの静止写真が示されると同時にレポーターの音声が聞える、ＴＶニュースプログラムにおけるこのタイプの映画用に使用される。
従って、本発明によれば、無言の行為者、幼児、動物、及び、生命のない物体であっても、どのような言語でも話すように、オーディオビジュアルにダビング可能である。
我々の発明によれば、アニメーション処理においては、口部分のアニメーションと関連した労苦をかなり節約できる。
更に、本発明は、コンピュータ化されたオーディオビジュアルダビングを操作するためのコンピュータプログラム（付録１参照）を供給する。
本発明はまた、過程ｄ（上記）において作成される基準類似フレームのライブラリにも関する。
発明の詳細な説明
オリジナル映画では、行為者がオリジナルテキストを話しているとすれば、ダバーが別の言語または同じ言語のいずれかにおいて目標テキストを話す、ダバーの映画が作られる。ダバーの映画が撮影され、同時に、ダバーは、オリジナルテキストを目標テキストへ適応させるルーチンダビングを実施する。
本発明は、ダバー映画から目標テキストのサウンドトラックを有し、映像はオリジナル映画の映像でありながら、行為者の口の動きは新規サウンドトラックに対応して修正された新規の映画を作成するためのオリジナル映画における行為者の顔の動きを変えるための方法を提供する。
考察を簡潔にするために、本発明の説明には、電子デジタル形式（画素のアレイから成る）の映像を用いるが、他のあらゆる形式における映画も同様に処理可能である。これらの場合、映画は既存の技法によってデジタル形式に変換され、デジタル形式で処理され、既知の技法によって任意の所望の形式に戻される。
顔の表情は、例えば、EkmanとFriesen（Ekman等）による顔面アクションコード化システム（ＦＡＣＳ）のような「アクションユニット」によって表すことができる。アクションユニット（ＡＵ）は、筋肉の意識的な作動化に依存する顔の表情の小さな変化を表す（Ｈ．Ｌｉ、Ｐ．ＲｏｉｖａｉｎｅｎとＲ．Ｆｏｒｃｈｈｅｉｍｅｒによる「モデルに基づく顔面イメージのコード化における３次元運動」、ＰＡＭＩにおけるＩＥＥＥ議事録、１５（２）、５４５−５５５項１９９３年）。ＡＵ情報は、パラメータ形式で表現される。ＡＵパラメータを用いると、多くの顔の表情を制御することが出来る。パラメータとしては、顔の位置とサイズ、顔面領域のアスペクトレシオ、特定の顔面特徴の位置、及び、更に多くの項目が好まれる。
既に説明したように、本発明の過程の１つは、顔の三次元パラメータ化である。この種のモデルの一例は、約２５種のパラメータから成るＰａｒｋｅのモデルであり（ＦｒｅｄｒｉｃＩ．Ｐａｒｋｅ、「顔面アニメーションのためのパラメータ化されたモデル」、ＩＥＥＥコンピュータグラフィックスと応用、１２（１１）、６１−６８項、１９８２年）。顔面パラメータは、３つの主要クラス、即ち、構造パラメータ、位置（ロケーション）パラメータ、及び、表情パラメータに大別することが出来る。
構造パラメータは全ての頭部について固定され、口と目、口と顎の間の距離比率、モデルの幅、顎幅、等々を含む。位置（ロケーション）パラメータは、例えば、空間における三次元回転に関する３つのパラメータ、及び、三次元変換に関する３つのパラメータ（リアルワールドにおける位置）である。表情パラメータは、例えば、口幅、微笑（一例を挙げれば、この場合のパラメータ値は、非常に悲しい口に対して０．０であり、非常に幸せそうな口に対して１．０）、顎の開き、上唇の吊り上がり、下唇の下がり、唇の厚さ、等々である。
本発明は、顔面モデルを用いて、最も近い基準類似フレームを検索することによりダバーの唇の動きに基づいて行為者の唇の動きを自動的に整形するコンピュータプログラム（付録１参照）を基調とする。このコンピュータプログラム（ソフトウェア）或いはこれに類する物は不可欠要素であり、本発明の重要な部分である。本発明に基づく方法は、以下に説明するように、ほぼトラッキング局面と新規映画作成局面に分割される。
Ｉ．トラッキング局面
過程１：第１過程は、行為者及びダバー両者について一般的な三次元顔面モデルを個人化することである。一般的な顔面モデルを修正して特定の顔に適合させるためには、幾らかの追加的情報が必要である。一般的モデルを、所定の行為者の顔に適合するように、その初期位置及び設定から、変換、縮尺、及び、伸長しなければならない。これは、例えば口、タッチスクリーン、等のような位置決め装置を用いて、行為者の顔の特徴的箇点、例えば目の端（アイコーナー）、口角（マウスコーナー）、顔の最上部および底部を手動で位置決め（ポイント）することにより実施される。一般に全体で約１５個の特徴点が用いられるが、この個数は、仕様に応じて変えてもよい。これらの特徴点は、好ましくは行為者がカメラに対面する映画フレームの１つ（どれでも）にマークされる。次に、コンピュータプログラムが、行為者の顔を映画フレーム上に二次元投射するために必要な正確なモデルパラメータの修正を自動的に算定する。顔の特徴点を使用する他に、精度を増すために、エッジディテクタを用いて算定される頭部の縁に適合するようにモデルを調節することも行う。行為者の横顔が入手可能である場合には、それを用いて顔の彫りの深さや鼻の長さのようないくつかの深さパラメータを設定することが出来る。そうでない場合には、顔の彫りの深さは、実験的に設定された所定の縮尺によって算出される。
過程２：一般的モデルが所望の行為者に関して個人化されると、映画の重要ないくつかのフレーム（キーフレーム）における顔の特徴がマークされる。この種のフレームの個数は、モデルを行為者に区分適合（セグメントフィッチング）する難度に応じて最初の１つのフレームから全てのフレームの約５％と様々で、これらのキーフレームにおいてマークされた顔の特徴を用いることによって、自動トラッキング（後述）の安定化が達成され、これらのキーフレームは、安定かつ連続的なトラッキングを保証する。次に、プログラムは、口のトラッキング用として後で使用するために、いくつかの口の形状例に基づいて較正を行う。最後に、全てのキーフレームに調整された全てのモデルパラメータの値を用いて、特定の行為者に関する口パラメータ（最小および最大値）の範囲が推測される。
過程３：次の過程は、映画全体を通しての行為者の顔の自動トラッキングである。これは、顔面モデルを用いて、次に示す２つの過程において、１つのフレームから、その次のフレームへと実施される。最初に、行為者の二次元顔面が、テクスチャマッピング技法を用いて、三次元顔面モデル上にマップされる。この段階において、モデルは、そのパラメータだけを変えて新規な合成イメージを生み出すように変更できる。これらのイメージは、ほかの点ではオリジナルの映画フレームに非常に類似し、顔面位置、顔面の配向、及び、顔の表情以外は、全て元のままである。解析的または数値的（例えば、最も急な降下アルゴリズム）最小化アルゴリズムを使用することにより、プログラムは、この段階において、その次のフレームにおける行為者の顔部分とテクスチャマップされた顔面モデルの合成された投射との間の相関関数を最大限にするこれらのパラメータを算定する。最も急な降下アルゴリズムは、相関関数を増大する方向にパラメータを増加或いは減少させる。アルゴリズムは、（それが相関性を最大にする時まで）各パラメータに別々に作用するか、或いは、全てのパラメータを一回で修正することが出来る。
過程４：モデルがその次のフレームにおける行為者の頭部にロックされると、口がトラッキングされる。これは、先ず、キーフレーム及び既にトラッキング済みの先行のいくつかのフレームにおける全ての口パラメータをチェックすることによって実施される。そして、より高い相関性を与えるフレームがトラッキングのための最初の推測フレームとして選定される。次に、相関関数が最大化されるまで、大域頭部運動をトラッキングするために用いられると同じ最小化アルゴリズムが使用される。トラッキングされたフレームの顔面モデルを表すパラメータは、後で使用するために、ファイルに記入される。
過程５：過程３及び４を繰り返し、映画全体を処理する。最良の結果を得るためには、このプロセスを最初のフレームから最後のフレームまで直列的に実行する代りに、トラッキングの初期点としてキーフレームを使用することが出来る。連続した２つのキーフレームを利用して、各キーフレームからそれらの間のフレームまでトラッキングすることができる。このようにして、トラッキングの安定性が保たれる。
過程６：上述のトラッキングはダバーの映画にも同様に適用される。
II．新規映画作成局面
この局面は、オーディオビジュアルにダビングした新規な映画を合成するために、オリジナル映画とダバーの映画の両方のトラッキング結果を組み合わせるものである。既に説明したように、オーディオビジュアルにダビングしたこの映画は、オーディオビジュアルにダビングしたこの映画の行為者の顔を除いては、その大部分がオリジナル映画から形成されている。この顔は、既に説明したように、特定の時点におけるダバーの唇、口、及び、頬の形状に適合するように合成された、三次元顔モデル上にテクスチャマップされた顔である。従って、局面Ｉにおいて説明したようにして算定された顔モデルのパラメータは、オーディオビジュアルにダビングされた新規映画を作成するために使用される。この新規映画においては、オリジナル映画における全てのフレームに関して、口パラメータは、ダバーの口パラメータに修正される。正確な過程は次のとおりである。
過程７：オリジナル映画における全てのフレームに関して、行為者の顔が、オリジナル映画に関して過程３において算定されたパラメータを用いて、該当する顔面モデル上にテクスチャマップされる。過程３において算定されたダバーの口パラメータは、オーディオ視覚的にダビングされた新規な映画用として次のように用いられる。
過程８：行為者の所望される口の形状が既知である場合には、現行フレームの近傍において（時間的には、約０．１から１０秒間だけ前方および後方において）、形状またはパラメータが所望の新しい口に最も類似している口に関して、オリジナル映画を探索する。基準類似フレームに関するこの探索は、口の運動を円滑かつ連続的にするために、前のフレームで既に選定済みの口の形状を考慮する。数個（５〜１０）の最も適合した口から選定される口は、以前に選定済みの口に時間的に最も近いフレームから選定される。
過程９：過程８において選定された口は、事前に算定されたパラメータを用いて口モデルにテクスチャマップされる。次に、顔モデルパラメータは、所望の口形状に関して変更され、非常に現実的な新規フレームとなり、この新規フレームがオリジナル映画の旧フレームに置き換えられる。プログラムの使用者は、所定場所にテクスチャマップされるべき所望の口部分を選定することが可能である。それは、口の内部であってもよいし、唇を含む口全体であるか、または、更に広い部分であってもよい。この手順により、口の周辺の顔、及び、特に唇が、サウンドトラックに従って整形されると、同時に、オリジナルの行為者の見慣れた顔はそのままである、合成されたイメージが作成される。。過程８を省略してもよいが、その場合には、口の内部は空である。これは、静止映像から発生映画を作成するのに有用であり、この場合には、行為者の基準フレーム類似辞書において、目標に関する唇の形状の近似適合が一切存在しないので、口の内部情報は欠落している。この黒い内部を、視覚的カラー／テクスチャによって充填することも可能である。
過程１０：最後に、オリジナルテキスト及びサウンドをダビングされた映画サウンドトラック（目標テキスト）に換える。
本発明によるソフトウェアツールを使用する動画作家は、オリジナル映画とオーディオビジュアルにダビングされた映画の両方において、頭部または口パラメータのうちの任意のパラメータを自由に修正、設定、或いは、固定することが可能であり、過程ＮＭ８において説明したように、所定場所にテックスチャマップされるべき特定の口を選定することさえ可能であり、前述の過程のうちの任意の過程において、これらの全てが可能であることに注意されたい。トラッキングプログラムは、高度に対話型であり、使いやすい。
本発明の関係ソフトウェア（付録１参照）は非常に用途が広く、極めて広範なサウンド／テキスト置換えアプリケーションにおいて使用可能であり、その多くのアプリケーションについてはすでに言及済みである。本発明の幾つかのアプリケーションの例を以下に示す。
広告：世界規模で販売される製品のためのオリジナルの広告コマーシャルを操作して、任意の所望の言語における同じコマーシャルを作成することができる。これにより、当該製品を対象とする全ての国または言語のために新規にビデオを作成する必要性が省かれる。
再び撮影しなくても既存のシーンを変更することによって映画を編集することももう１つの可能性である。例えば、映画作成が終了した後で、ディレクタ／エディタが特定のシーンを変更しようとしたり、特定の行為者の或る文を変更しようとする場合である。
本発明は、話されたテキストばかりでなく歌、オペラ、音楽も対象とし、ミュージカルビデオクリップの言語を変更する可能性も開く。
アニメーションの製作は、行為者の口についてラインセグメントを作図し、完全に作図された口を有する代表的な基準類似フレームを含む小さい行為者の映像辞書を作図し、次に、行為者の映像辞書において見られるように、これらのリップラインセグメントをダバーの対応する唇の形状によって置き換えることによって支援される。
一般に、映画のオーディオビジュアルな自動ダビングのための方法の応用には以下のものが含まれる。即ち、通常の映画、漫画、ドキュメンタリ、広告、ニュース、教育プログラム、法廷ドキュメンテーション、演説、講義、歴史的ドキュメンテーションと、公聴委員会、ホームビデオ、スポーツイベント、娯楽イベント、オペラ、ミュージカル、ミュージカルビデオクリップ、同時通訳、及び、前途の一連のオリジナル又は追加された前述のフレームへのスピーチの追加が含まれる。
更に、既に説明した基準類似フレームのライブラリを用いることにより、本発明は、全く新しい映画を作成すること、そしてまた、背景物語をオーディオビジュアルスピーチに変換したり、書かれたテキストをオーディオビジュアルすることを可能にする。
図１から４によって本発明を更に説明する。これらの図は、本発明の好ましい実施例を図示することのみを意図し、いかなる形においても本発明の範囲を制限することを意図するものではない。同様に、添付ソフトウェア（付録１）は、本特許において開示された方法の具体化例であって、いかなる形においても前記の方法の範囲を制限することを意図するものではない。
図１は方法の過程を示す構成図を示すものであり、その内容を次に詳細に説明する。
図２ａ及び２ｂは、頭部の一般的正面映像（図２ａ）と頭部の一般的側面映像（図２ｂ）上の重要な点の一例を示す。
図３は、一般的ワイヤフレーム顔モデルの例を示す。
図示する目的のために、図２に示す重要な点を決定し、映像上で実際の行為者のそれらの重要な点を測定し、一般的ワイヤフレーム顔モデル（図３）へそれらを適用する。測定した重要な点のデータを適応させて三次元頭部モデルを行為者の二次元頭部映像に適合することによって、図４ａ及び４ｂに示すように、統合が得られる。
図４ａは、特別に調整されたワイヤフレームモデルが行為者の顔の正面図にどのようにして適合するかを示す例である。
図４ｂは、特別に調整されたワイヤフレームモデルが行為者の顔の側面図にどのようにして適合するかを示す一例である。
図１は、方法過程を示す構成図である。
オリジナルの映画（１）において、オリジナルの行為者の頭部のほぼ正面映像を有するフレーム（２）と、可能ならば、行為者の側面図の映像を有するフレームが選定される。
三次元頭部モデルが行為者の二次元頭部映像に適合される。このモデルは、例えば、頭部の位置および口の状態に関する数個のパラメータによって制御可能である。この適合過程（３）は、選定されたフレームにおいて測定された重要な点のデータをモデルに適応させることによって行われる。
次の過程（４）は、適合された三次元頭部モデルパラメータを映画全体に亙って、フレームから次のフレームへとコンピュータ化された自動トラッキングを行う過程である。行為者が現れる各フレームごとに部分的または完全な三次元頭部モデルが用いられる。結果として得られる任意のフレームは、唇置換えのための基準類似フレームとして役立つ。
ダバーの映画が撮影される（５）。この映画の大部分のフレームにおいて、ダバーがカメラに向かう。この映画においてダバーが目標テキストを話す。
オリジナルの行為者の映画に適用されたと同じ過程が、ダバーの映画にも適用される。即ち、ダバーの頭部正面映像を有するフレーム、及び、可能であれば、ダーバの側面映像を有するフレームがダバーの映画から選定される（６）。選定済みのフレームにおいて測定された重要な点のデータをダバーのモデルに適応させることによって、三次元頭部モデルが、ダバーの二次元頭部映像に適合される（７）。前記のダバーの適合済み三次元頭部モデルパラメータのコンピュータ化された自動トラッキング（８）が、フレームからフレームへと、映画全体を通じて実施される。
この方法における次の過程は、ダバーの最小および最大パラメータを行為者の最小および最大パラメータに対して正規化することである（９）。
フレームからフレームへの方式において、オリジナルの行為者の二次元顔面は、その三次元頭部モデル上にマップされる（１０）。このマッピング過程は、基準類似フレームを使用するテクスチャマッピング技法用いることによって行われる。この過程の結果として、オリジナル映画におけるオリジナルの行為者の各フレームごとにオリジナルの行為者のマップされた三次元頭部モデルの部分が得られる。この場合、オリジナルのフレームが行為者の顔の正面図を含む場合には、所定のフレームに対応するモデルは完全でありえる。
次の過程において、オリジナルの行為者に関して得られたテクスチャーされた三次元モデルフレームが、フレームからフレームへの方式において、オリジナルの口パラメータを対応するフレームにおけるダバーに関して算定された口パラメータで置き換えることにより変更される（１１）。この場合における対応は、所望のサウンドトラックの置き換え（即ち、ダビング）によって決定される。このようにして、行為者の口の状態がダバーの口の状態と類似していることを除いて新規映像に関して、オリジナルと同じパラメトリック記述がえられる。この場合、新規映像は、新しくオーディオビジュアルにダビングされた映画におけるフレームに対応する。
例えば、（４）において閉じられた口を、（８）においてダバーが開く場合に生じるような困難を克服するために、オリジナルの映画において口の状態が所望の新しい口の状態に類似するような１つ又は複数のフレームが探索される。基準類似フレームと呼ばれるこれらのフレームは、一般に、処理されたフレームへ時間的に近接しているが、必ずしもそうとは限らず、唇は、テクスチャマッピング（１２）を用いて、当該フレームから新規フレームに複写される。基準類似フレームの探索は本発明の本質的構成要素である。従って、我々は、その定義を繰り返すこととする。即ち、基準類似フレームとは、オリジナルの行為者が、オーディオビジュアルにダビングされた映画に適した所望の口形状および頭部の姿勢の特徴を有する１つの映像（オリジナルの映画におけるフレーム、他の任意の映画におけるフレーム、または、静止写真である）である。
あるいは、基準類似フレームは、オリジナルの行為者または他の行為者のコンパイルされた映像ライブラリから取り出してもよい。
過程（１２）は、映画全体が変換されるまで、各フレームに関してすべてを繰り返すことである。
フェースイメージングリミテッドプログラム「ｄｕｂ」用ソースコード
次のプリントアウトは、以下のモジュールのソースを含む。
dub.c − 主プログラム
general.c − 一般的な機能及びユーティリティ
gimg.h − gimg.c−イメージＩ／Ｏ、及び、フィルタリング用インタフェース
mv.h − mv.c− movingハンドリングのためのインタフェース
list.h − list.c − list data ｔｙｐｅハンドリングのためのインタフェース
io.c − Ｉ／Ｏ機能
texture.c − テクスチャマッピングスタッフ
これらのモジュールは、本発明の説明で記載したように、映画の中の人の唇を他の人の唇の形状に自動的に調整するプログラム「ｄｕｂ」を含む。
ここに含まれるモジュールはメインモジュールである。ハンドリングイメージ、映画等々のようなユーティリティモジュールは含まれない。

Claims

映画のコンピュータ化された自動オーディオビジュアルダビングのための方法であって、
（ａ）行為者の頭部の顔の正面の映像を有するフレームを映画から選択する過程と、
（ｂ）顔面上に数個の重要な特徴点をマークし、フレームにおけるそれらの場所を測定する過程と、
（ｃ）過程（ｂ）において測定された重要な特徴点のデータをモデルの重要な特徴点の場所に適応することによって、一般的な三次元頭部モデルを行為者の二次元頭部映像へ適合させる過程と、
（ｄ）映画全体を通じて、１つのフレームからその後続フレームへと、コンピュータ化された自動的方法において、前記の適合済み三次元頭部モデルパラメータを反復的にトラッキングし、基準類似フレームのライブラリを作成する過程と、
（ｅ）目標テキストを話すダバーの映画を撮影する過程と、
（ｆ）ダバーに関して、過程（ａ）、（ｂ）、（ｃ）、及び、（ｄ）を繰り返す過程と、
（ｇ）各パラメータに関するダバーの最小および最大値を、同一パラメータに関する行為者の最小および最大値に対して正規化する過程と、
（ｈ）基準類似フレームを利用し、テクスチャマッピング技法を用いることにより、フレームからフレームへの方式において、二次元の行為者顔面を、その三次元頭部モデル上へマッピングする過程と、
（ｉ）フレームからフレームへの方式において、オリジナルの口パラメータをダバーに関して過程（ｄ）において算定された口パラメータと交換することによって過程（ｈ）で得られたテクスチャマッピングされた三次元モデルを変更することで、行為者の口の状態がダバーの口状態と類似する場合を除き、新規映像に関してオリジナルと同じ値のパラメトリック記述を得る過程と、
（ｊ）所望の新規な口の状態に同じか、非常に類似した口の状態にある行為者の唇部分を用いて、映画の１つのフレームから、現行フレームに関する行為者の頭部モデルの唇部分の上にテクスチャマッピングし、次に、行為者の頭部モデルから唇部分を現行新規フレームに投射する過程とを有することを特徴とする方法。
請求項１記載の方法であって、三次元頭部モデルを制御するためのパラメータが、頭部モデルの口の位置、配向、及び、表現であることを特徴とする方法。
請求項１記載の方法であって、過程（ｂ）においてマークされた顔面上の重要な特徴点が、目の端、口角、及び、顔の最上部および最低部であることを特徴とする方法。
請求項１記載の方法であって、顔面上の約１５箇所の重要特徴点がトラッキング過程において用いられることを特徴とする方法。
請求１項記の方法において、オーディオビジュアルにダビングされるべき映画が、映画の一部分を作るために次々に全く同じに複製された一連の１つ又は複数の静止写真であることを特徴とする方法。
請求項５記載の方法であって、現場通信者からのニュースのようなＴＶプログラムにおける静止写真をオーディオビジュアルにダビングするための方法。
請求項５記載の方法であって、赤ん坊または聾唖者のように行為者が話さないことを特徴とする方法。
請求項１記載の方法であって、オリジナルの映画がアニメーションであることを特徴とする方法。
請求項８記載の方法であって、行為者が、動物、或いは、人間でない、または、生命のない物体であることを特徴とする方法。
請求項１記載の方法であって、映画が宣伝映画であることを特徴とする方法。
請求項１記載の方法であって、映画および静止写真の映像が電子デジタル形式であることを特徴とする方法。
請求項１記載の方法であって、映像がデジタル形式に変換され、デジタル形式において操作されて、任意の所望の形式に戻されることを特徴とする方法。
請求項８記載の方法であって、アニメーション製作成が、行為者の口に関して直線のセグメントを作図し、完全に作図された口を有する代表的基準類似フレームを含む小さな行為者の映像辞書を作図し、次に、これらの唇線セグメントが、行為者の映像辞書に発見されるようなダバーの対応する唇の形状によって置き換えられる過程によって支援されることを特徴とする方法。
請求項１記載の方法であって、「映画」が絵画、図面、または、映像であることを特徴とする方法。
請求項１記載の方法であって、背景物語或いは話されたテキストをオーディオビジュアル形式に変換するための方法。