JP6019108B2

JP6019108B2 - 文字に基づく映像生成

Info

Publication number: JP6019108B2
Application number: JP2014509502A
Authority: JP
Inventors: レズヴァニ，ベヘルズ; ロウヒ，アリ
Original assignee: セイヤーインコーポレイテッド
Priority date: 2011-05-06
Filing date: 2012-05-04
Publication date: 2016-11-02
Anticipated expiration: 2032-05-04
Also published as: CN108090940A; US20130124206A1; EP2705515A4; EP2705515A2; WO2012154618A3; JP2014519082A; WO2012154618A2; CN103650002A; CN103650002B; US9082400B2

Description

関連出願の参照

本願は、2011年5月6日出願の米国仮出願61/483,571の利益を享受し、米国仮出願61/483,571は、参照により本願に組み込まれる。

本願の少なくとも一つの実施形態は、映像生成に関し、より具体的には、ユーザ対ユーザのショートテキストメッセージ（短文メッセージ）のような文字列（文字シークエンス）に基づいて視覚的かつ可聴的な、人の感情表現を写実的にシミュレートすべく、映像（ビデオ）を生成するための方法とシステムに関する。

デジタル映像列（映像シークエンス）は、大容量データを含む。現技術を用いて効率的に映像を送信するには、大きなデータ伝送帯域幅が必要である。しかし、無線メディアに対するデータ伝送帯域幅は限定されており、高価な資源でもある。

例えば、携帯メールと時折呼ばれるショートメッセージサービス（SMS）は、今日用いられる対人メッセージ技術における最も有名な技術の一つである。SMS機能は、ほとんど全ての現代の携帯電話で幅広く利用可能である。しかし、SMSは、情報送信のために非常に限られた容量であり、各SMSメッセージは、固定長で１４０バイト又は１６０文字であり、従って、映像データの送信には適さない。マルチメディアメッセージサービス（MMS）は、マルチメディアコンテントを含むメッセージを送信することが可能な方法である。しかし、MMSメッセージは、既存のSMSインフラを利用できず、SMSメッセージよりも高価である。SMSチャンネルのような非常に低い（小さい）帯域幅チャンネルで映像メッセージを送信することは、不可能と言えないまでも困難である。

本願の技術は、文字列に従って話をしている人を写実的にシミュレートすべく、文字列に基づいて前記人の映像列を生成するための方法および装置を含む。前記技術は、文字列に基づいて可視的かつ可聴的な、人の感情表現を写実的にシミュレートすることを含む。前記技術は、低い帯域幅チャンネル（例えば、SMSチャンネル）で実際に映像データを送信することなく、前記チャンネルで人の映像を送信している外観を作ることができる。

さらに、前記技術は、話をしている（又は、歌っている、何らかの発声をしている）人の動画ではない、写実的な映像を作る費用効果的な方法である。スケジュール上で調整がつかない、又は、気が進まない、死や緊急の状況など様々な理由で都合が悪い場合、前記技術は、人の映像を記録する代替方法を提供する。処理装置に記録される人の特定の事前情報に加えて、前記技術は、映像を生成できるように文字列を必要とするだけであり、文字列が過去に送信される必要があればデータ送信を要しない。文字列は、文字列のコンテンツを調整することによって、映像列で人が発声して見えるように言葉および感情表現を制御して調整するメカニズムを提供する。

一実施形態では、処理装置は、文字列を受信する。前記受信した文字列に基づいて、前記処理装置は、映像列の音響部分を生成すべく人の音声の音響モデルを用いることを含み、可視的かつ可聴的な、人の感情表現をシミュレートすべく人の映像列を生成する。映像列の音声部分での感情表現は、その人についての事前知識に基づいてシミュレートされる。例えば、事前知識は、実生活で撮られた人の写真、及び／又は、人の映像を含む。

特定の実施形態では、前記文字列は、少なくとも一語を含む単語郡（単語の集団）を含む。前記映像列は、映像列の中で人が言葉を発声して見えるように生成される。前記文字列は、一又は複数の言葉に関係する感情指標をさらに含む。各指標は、指標に対する言葉を人が映像列の中で発声して見えるとき、映像列の中で人の感情表現を同時に表示する。特定の実施形態では、前記処理装置は、その人についての事前知識に基づき、文字列の中の言葉を人の顔の特徴にマッピングする。前記処理装置は、人の顔の特徴を背景画像にする。

本願の技術の他の特徴は、図面、および、以下の詳細な説明から明確となる。

本発明の上記及び他の目的、構成、特性は、当業者にとって、請求項、図面、以下の詳細な説明を通して一層明らかである。

送信装置から文字列を受信する処理装置の例を示す。媒介装置を介して送信装置から文字列を受信する処理装置の例を示す。処理装置の入力部から文字列を受信する処理装置の例を示す。処理装置の構成例を示すハイレベルブロック図を示す。文字を映像にする（ＴＴＶ）システムの構成例を示す。人の映像モデルの構築例を示す。目標となる人の顔を２領域に分割するプロセス例を示す。辞書の登録（エントリ）の例を示す。文字を発話にする（ＴＴＳ）音響モデルを作るプロセス例を示す。ＴＴＳ音響合成プロセス例を示す。映像列と音響列の合成プロセス例を示す。境界適合誤差を最小化して、合成映像を背景に埋め込むプロセス例を示す。２領域モデルに基づき合成映像を背景に埋め込むプロセス例を示す。

本明細書の実施形態などの参照は、記載される特定の特徴、又は、構成、性質が本発明の少なくとも一実施形態に含まれることを意味する。本明細書内のそのような参照は、必ずしも全て同じ実施形態に言及するものではない。

幾つかの関連する参照は、「空間点のシステムへの線と平面の近隣適合」（著書Philosophical Magazine 2 (6)、頁559−572、1901年、著者K. Pearson）、「コンピュータ画面の外観統計モデル」（著書Technical Report, University of Manchester、頁125、2004年、著者T.F. Cootes, C.J. Taylor）、「動的外観モデル」（著書Proc. European Conf. Computer Vision, 2、頁484−489、1998年、著者T. Cootes, G. Edwards, C. Taylor）、「３次元合成モーフィングモデル」（著書Proceedings of the 26th annual conference on Computer graphics and interactive techniques、頁187−194、出版社ACM Press/Addison−Wesley Publishing Co.、1999年、著書V. Blanz，T. Vetter）「顔の感情」（著書Stanford Computer Science Technical Report, CSTR 2003−02、著者Erica Chang， Chris Bregler）「人の声により動くリアルタイムの人の口の動き」（著書IEEE Workshop on Multimedia Signal Processing、 1998年、著者 F. J. Huang， T. Chen）、「読唇のための音声特徴の抽出」（著書IEEE Transactions on Pattern Analysis and Machine Intelligence、 2002年24(2)、頁198−213、著者Matthews, I., Cootes, T., Bangham, A., Cox, S., Harvery, R.）、「固有列を用いた読唇」（著書Proc. Int. Workshop Automatic Face Gesture Recognition、1995年、頁30−34、著者N. Li, S. Dettmer, M. Shah）、「音声を伴う映像スピーチの動き」（著書Proceedings of SIGGRAPH 97、頁353−360、1997年８月、著者Christoph Bregler, Michele Covell, Malcolm Slaney）である。それらの全てが参照により本願に組み込まれる。

図１Ａは、処理装置と、本願に導入される技術が実行される環境とを示す。図１Ａでは、処理装置１００は、相互接続１２０を介して送信装置１１０に接続される。相互接続１２０は、例えば、携帯電話ネットワーク、又は、ＳＭＳチャンネル、テレビチャンネル、ローカルエリア・ネットワーク（ＬＡＮ）、ワイドエリア・ネットワーク（ＷＡＮ）、都市規模ネットワーク（ＭＡＮ）、インターネットのようなグローバルエリア・ネットワーク、ファイバーチャンネル構造、そのような相互接続の組合せである。送信装置１１０は、相互接続１２０を介して文字列１４０を処理装置に送信できる。処理装置１００は、文字列１４０を受信して、該文字列１４０に基づいて映像列１５０を生成する。送信装置１１０と処理装置１００のいずれかは、例えば、携帯電話、又は、従来のパソコン（ＰＣ）、サーバクラスコンピュータ、ワークステーション、携帯用コンピュータ・通信装置、ゲーム機、テレビなどである。

処理装置１００は、生成される映像列１５０を記憶する記憶装置１６０を有する。記憶装置１６０は、例えば、従来のダイナミック・ランダムアクセス・メモリ（ＤＲＡＭ）、又は、従来の磁気ディスク、光学ディスク、テープ装置、フラッシュメモリなどの不揮発性の半導体メモリ、前記機器の組合せなどである。

処理装置１００と送信装置１１０のいずれかは、処理装置１００と送信装置１１０の動作を管理（制御）する動作システム１０１，１１１を有する。特定の実施形態では、動作システム１０１，１１１は、ソフトウェアで実行される。他の実施形態では、一又は複数の前記動作システム１０１，１１１が、例えば特別に設計された専用回路、又は、ソフトウェアの部分的な専用回路としてなど、純正のハードウェアにおいて実行される。

図１Ａの文字列１４０のような文字列は、指標（タグ、又は、感情指標、感情タグとも呼ばれる）を有する。各指標は、映像列で人が言葉を発声して見えるときに、映像列で人の感情表現を同時に示す。指標は、異なる構成であり、異なる方法により選択される。一実施形態では、指標は、文字列内の言葉に関連する複数項目の一覧からの一項目として選択され、一覧の各項目は、人の感情表現を示す指標である。他の実施形態では、指標は、文字列内の言葉に用いられるマークアップ言語文字列を挿入することにより特定される。前記マークアップ言語文字列は、既定のマークアップ言語文字列の集団からなり、その集団内の各マークアップ言語文字列は、人の感情表現を示す指標である。さらに他の実施形態では、指標は、自動音声認識（ＡＳＲ）エンジンを用いて、文字列内の言葉を話す話者の音響列で特定される。

図１Ｂは、中間（媒介）装置を介して送信装置から文字列を受信する処理装置の例を示す。図１Ｂ内で、処理装置１００は、相互接続１９２を介して中間装置１８０に接続される。送信装置１１０は、相互接続１９１を介して中間装置１８０に接続される。相互接続１９１と相互接続１９２のいずれかは、例えば、携帯電話ネットワーク、又は、ＳＭＳチャンネル、テレビチャンネル、ローカルエリア・ネットワーク（ＬＡＮ）、ワイドエリア・ネットワーク（ＷＡＮ）、都市規模ネットワーク（ＭＡＮ）、インターネットのようなグローバルエリア・ネットワーク、ファイバーチャンネル構造、そのような相互接続の組合せである。幾つかの実施形態では、相互接続１９１と相互接続１９２は、例えば、インターネットのような一つのネットワーク内にある。送信装置１１０は、相互接続１９１を介して文字列１４０を中間装置１８０に送信できる。中間装置１８０は、さらに相互接続１９２を介して処理装置１００に文字列１４０を送信する。処理装置１００は、文字列１４０を受信して、該文字列１４０に基づいて映像列１５０を生成する。中間装置は、例えば、携帯電話、又は、従来のパソコン（ＰＣ）、サーバクラスコンピュータ、ワークステーション、携帯用コンピュータ・通信装置、ゲーム機、テレビなどである。

幾つかの実施形態では、前記中間サーバ１８０は、文字列を受信して、文字列１４０をデータセットの中で処理する。前記データセットは、文字列１４０の代わりに、処理装置１００に送信される。

図２は、処理装置の入力部から文字列を受信する処理装置の例を示す。処理装置２００は、人２９０から文字列２４０を受信可能な入力部２１０を有する。処理装置２００は、例えば、携帯電話、又は、従来のパソコン（ＰＣ）、サーバクラスコンピュータ、ワークステーション、携帯用コンピュータ・通信装置、ゲーム機、テレビなどである。入力部２１０は、例えば、キーボード、マウス、画像・ビデオカメラ、マイク、ゲーム機コントローラ、リモートコントローラ、センサ、スキャナ、音楽機器、そのような機器の組合せである。

前記処理装置は、文字列２４０と人の事前知識２７０に基づき人の映像列２５０を生成するプロセッサ２０５をさらに有する。映像列２５０は、可視的かつ可聴的な、人の感情表現をシミュレートし、前記人は、映像列２５０で文字列２４０内の特定の言葉を発声して見える。生成される映像列２５０は、処理装置２００内で記憶装置２６０に記憶される。記憶装置２６０は、例えば、従来のダイナミック・ランダムアクセス・メモリ（ＤＲＡＭ）、又は、従来の磁気ディスク、光学ディスク、テープ装置、フラッシュメモリなどの不揮発性の半導体メモリ、前記機器の組合せなどである。文字列２４０、及び／又は、前記人の事前知識２７０は、記憶装置２６０内、又は、記憶装置２６０から離間する他の記憶装置に記憶される。

前記処理装置２００は、処理装置２００の動作を管理する動作システム２０１を有する。特定の実施形態では、動作システム２０１は、ソフトウェアで実行される。他の実施形態では、前記動作システム２０１が、例えば特別に設計された専用回路、又は、ソフトウェアの部分的な専用回路としてなど、純正のハードウェアにおいて実行される。

図３は、上記の技術を実行するために用いられる処理装置のブロック図を示す。特定の実施形態では、図３内に示される少なくとも幾つかの部材は、互いに離間して接続される２以上のコンピュータプラットフォームやコンピュータボックス間に分配される。処理装置は、従来のサーバクラスコンピュータ、又は、ＰＣ、携帯通信装置（例えばスマートフォン）、タブレットコンピュータ、ゲーム機、その他の周知又は従来の処理・通信装置などである。

図３の処理装置３０１は、一又は複数のプロセッサ３１０を有する。前記プロセッサ３１０は、例えば、中央演算装置（ＣＰＵ）と、メモリ３２０と、イーサネット（登録商標）アダプタ、及び／又は、ワイヤレス通信システム（例えば、セルラー、ＷｉＦｉ、ブルートゥース（登録商標）など）などの少なくとも一つの通信装置３４０と、一又は複数のI/O装置３７０，３８０とが相互接続３９０を介して互いに接続されてなる。

プロセッサ３１０は、処理装置３０１の動作を管理する。プロセッサ３１０は、一又は複数のプログラム可能な汎用目的又は特別な目的のマイクロプロセッサ、又は、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣｓ）、プログラム可能な論理装置（ＰＬＤｓ）、前記機器の組合せからなり、又は有する。相互接続３９０は、一又は複数のバス、直接接続、及び／又は、他のタイプの物理的接続を有して、様々なブリッジ、コントローラ、及び／又は、当業者に周知であるようなアダプタを有する。相互接続３９０は、システムバスをさらに有する。前記システムバスは、一又は複数のアダプタを通して一又は複数の拡張バスに接続されるように構成され、周辺構成要素相互接続（ＰＣＩ）バス、又は、ハイパートランスポートや業界標準アーキテクチャ（ＩＳＡ）バス、スモールコンピュータシステムインターフェイス（ＳＣＳＩ）バス、ユニバーサルシリアルバス（ＵＳＢ）、電気電子技術者協会（ＩＥＥＥ）標準１３９４バス（ファイヤーワイヤーとも呼ばれる）を有する。

メモリ３２０は、読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、フラッシュメモリ、ディスクドライブなどの一又は複数のタイプの一又は複数の記憶装置からなり又は有する。ネットワークアダプタ３４０は、処理装置３０１が通信回線に亘りリモート装置を用いてデータと通信できるように適する装置であり、例えば、従来の電話モデム、ワイヤレスモデム、デジタル加入者回線（ＤＳＬ）モデム、ケーブルモデム、無線送受信機、衛星送受信機、イーサネットアダプタなどである。前記I/O装置３７０，３８０は、例えば、マウス、トラックボール、ジョイスティック、タッチパッド、キーボード、音声認識インターフェイスを有するマイク、音響スピーカ、表示装置などのポインティング装置などの一又は複数の装置を有する。しかし、前記I/O装置は、専用サーバとして動作するシステムに設けられなくとも良く、少なくとも幾つかの実施形態のサーバ同様に、直接ユーザインターフェイスを備えない。前記示される部材群による他の形態は、本発明と一貫する態様で実行される。

上述の動作を実行するプロセッサ３１０をプログラムするソフトウェア及び／又はファームウェア３３０は、メモリ３２０に記録される。特定の実施形態では、そのようなソフトウェア又はファームウェアは、処理装置３０１を通して（例えばネットワークアダプタ３２０を介して）リモートシステムからダウンロードすることにより、処理装置３０１に提供される。

図４は、文字を映像にする（ＴＴＶ）システムの構成例を示す。文字を映像にするシステム４００は、一つの処理装置上、又は、処理装置の集団上、及び／又は、サーバ上で実行される。前記システム４００は、人の映像モデルを含む映像データベース４１０を有する。前記人は、「目標となる人」、又は、「目標となる個人」、或いは、単に「目標」と呼ばれ、その顔は、「目標の顔」と呼ばれる。映像モデルは、例えば、前記目標となる人の画像や映像などの事前情報を含む。文字４３０を受信後、システム４００は、辞書を作る。前記辞書は、前記目標となる人の映像モデルに基づいて、文字４３０を前記目標となる人の顔の動きにマッピングするものである。前記目標となる人の映像列は、前記辞書に基づいて作られる。幾つかの実施形態では、参照される個人からの情報は、以下の段落で詳細に開示されるように、映像列を作るために用いられる。背景シーンは、映像列内で作られ、目標となる顔は、前記背景シーンの最上層の上に重ねられる。

システム４００は、前記目標となる人の音響モデルを含む音響データベース４２０を有する。前記音響モデルは、前記目標となる人と参照される個人の事前情報を有する。音響モデルを構築して目標となる人の音響列を生成するための種々のアプローチがある。このアプローチの詳細は、以下の段落で説明される。映像列と音響列とが合成されて目標となる人の映像列の中に融合（結合）される（４５０）。幾つかの実施形態では、映像列は、ディスプレイ上やリモート装置に出力される（４６０）。

目標となる人の映像モデルについて説明する。

図５は、目標となる人、とりわけ目標となる人の顔の映像モデルの構築例を示す。前記映像モデルのデータは、文字に基づいて映像生成を実行する処理装置に記録される。一実施形態では、映像モデルは、前記人がある言葉を話しているときに前記人の一又は複数のサンプル映像を撮ることにより作られる。前記人が話す言葉の数は、人の顔、唇、口の動きの豊富な表情が映像内で撮影されるような多数であることを要する。映像モデル作成の段階では、話される言葉は、映像生成の後の段階で供給される言葉と関連する必要はない。一般仮定として、映像生成のために供給又は入力される予定の文字の事前知識は必要ない。

映像モデルの構築に必要なのは、口と顔の動きについての十分な情報である。幾つかの実施形態では、異なる言葉でのサンプル映像は、映像モデルの構築に利用される。一実施形態では、例えば、必要なトレーニングデータは、映像の５分を含む。映像モデルを構築するとき、典型的な顔の動きを捉える映像からの代表的なフレームは、前記モデルを構築するために特徴点として選択される（５１０）。特徴点は、手動か自動で分類される。これらの特徴点は、人の重要な、又は、典型的な顔の特徴（例えば、上唇と下唇とが合うときや、上のまぶたと下のまぶたが合うとき）を示す点と、前記重要な顔の特徴の間の中間点とを含む。

各選択されたフレームのために、フレームのＮ個の点は、前記人の顔の特徴を示すためのメッシュ点として選択される。よって、各フレームは、２Ｎ次元のユークリッド空間座標（各点は、ｘ座標とｙ座標により示される。）で定義される。これらの点は、異なる感情を有する個人の顔形状を示すので、これらは高次元空間でランダムに散らばっていない。一実施形態では、主成分分析（ＰＣＡ）などの次元縮小方法がこれらの点に適用される。例えば、ＰＣＡのような線形の次元縮小方法が適用される。顔の平均画像に関する楕円体が定義されて、主軸がデータ自己相関行列の固有ベクトルとして定義される。これらの主軸は、前記自己相関行列の固有ベクトルの大きさに従って制限される。最大固有値を有する固有ベクトルは、Ｎ点の中で最大の変動性を有する方向を示す。小さい固有値の各固有ベクトルは、小さい変動性と重要性の低い方向を示す。一実施形態では、Ｋ個の最大の固有ベクトルは、顔のあらゆる可能な動きを写実的に表現するのに十分である。よって、各顔の動きは、Ｋ個の集団として表現され、前記数は、乗数と呼ばれる。各乗数は、Ｋ個の最重要な固有ベクトルの中で、対応する固有ベクトルの方向に沿う平均画像からの展開の程度を示す。これらの固有ベクトルは、形状固有ベクトルと呼ばれる。形状固有ベクトルは、人の形状モデル５２０を形成する。幾つかの実施形態では、Ｋ個の数は、処理される映像のタイプに基づいて適用して調整される。

顔のピクセルの色を表現するために、平均画像のメッシュ点は、平均画像の三角測量をする（三角形分割を作る）のに用いられる。三角測量（三角形分割）プロセスでは、顔の画像を複数の三角形領域に分割し、各三角形領域を３つのメッシュ点により定義する。平均画像から派生する他の顔の動きのために、（平均画像のメッシュ点に対して）変位させたメッシュ点に基づいて、対応する三角形分割が作られる。一実施形態では、Ｎ個に分類された各フレームのために、メッシュ点の三角測量プロセスが実行される。これらの三角測量は、分類されたフレームの中の各三角形領域から平均画像の対応する三角形領域に線形マッピングを作るために用いられる。Ｎ個の分類画像のピクセル値は、平均形状の境界の内側で定義される画像に移動される。

ＰＣＡは、平均画像の内側領域で定義されるこれらの画像上で実行される。多数の画像は、ＰＣＡ後に、顔のテクスチャを表現するために保持される。これらの保持された画像は、テクスチャ固有ベクトルと呼ばれる。前記テクスチャ固有ベクトルは、人のテクスチャモデルを形成する。形状固有ベクトルのための乗数と同様に、テクスチャ固有ベクトルのための乗数は、顔のピクセルカラー（換言すればテクスチャ）を表現するために用いられる。形状固有ベクトルとテクスチャ固有ベクトルのための乗数の集団は、目標となる人の顔５４０を再現するために用いられる。幾つかの実施形態では、例えば、固有ベクトル（又は対応する乗数）の総数は、略４０から５０である。レンダリング装置（処理装置）において、顔の動きの各フレームは、線形係数としての乗数を用いて、形状固有ベクトルとテクスチャ固有ベクトルの線形組合せにより再現される。一実施形態では、前記固有ベクトルは、前記レンダリング装置に記録される。

形状モデル分割について説明する。

幾つかの実施形態では、目標となる人の顔は、複数の領域に分割される。例えば、図６は、目標となる人の顔を２領域であって、上側領域と下側領域とに分割するプロセス例を示す。形状固有ベクトル６１０，６２０の別々のセットは、下側と上側の各領域のシミュレートに用いられる。形状固有ベクトル６１０，６２０に用いられる乗数６１４，６２４の別々のセットは、下側と上側の各顔形状モデル６１２，６２０に基づいて、下側と上側の各領域をシミュレートするために用いられる。乗数６１４によって表現される合成下側領域６１６は、乗数６２４によって表現される合成上側領域６２６と結合されて、目標となる人の合成された顔全体を生成する。話をする人の映像生成のために、下側領域は、上側領域よりも関心が高い。よって、下側領域は、上側領域よりも多くの乗数と固有ベクトルの組によって表現される。

参照される個人の映像モデルについて説明する。

幾つかの実施形態では、参照個人の映像モデルが、目標となる人のために上記記載と同様な手法を用いて作られる。一実施形態では、これらの参照個人の映像モデルは、これらの参照個人のモデルが文字（テキスト）コンテンツを顔の動きにマッピングする辞書を作るために用いられるので、目標となる人よりも大きいデータセットを用いて作られる。例えば、参照される個人の映像モデルは、参照される個人が一又は複数の発話を話しているところを記録することによって作成される。発話コンテンツは、異なる感情における典型的な発話から生じるほぼあらゆる可能な動きを再現するのに十分な大きさである。

文字を動きにマッピングする辞書について説明する。

一又は複数の辞書は、参照個人の映像モデルに基づいて、文字コンテンツを顔の動きにマッピングするために作られる。一実施形態では、可能な文字コンテンツは、言葉、音素、発声に分解される。発声は、言葉により表現され得ない音である。言葉、音素、発声の各々は、少なくとも一つの登録（エントリ）を辞書内に有する。幾つかの実施形態では、言葉、又は、音素、発声は、辞書内に複数の登録を有する。例えば、言葉は、異なる感情に対応して辞書内に複数の登録を有する。

一実施形態では、参照個人のための映像モデルの作成の間、参照モデルは、生成された映像で人が話して見えるための言語で、最も一般的な、多くの言葉を話す。換言すれば、異なる感情を有する言葉が、参照される個人のために記録された映像からの情報を用いて構成音素に基づいて再現される。

辞書内の各登録は、言葉、又は、音素、発声と、時系列の形状乗数（時系列は、フレームのシリーズ（連続）、又は、開示列と呼ばれる。）とのマッピングである。例えば、参照個人が「雨」という言葉を言う顔の動きをするためにＴ個のフレームの期間がかかるとすると、形状乗数の時系列は、f(k,t)、k = 1 〜K、 t = 1 〜Tで示される。各フレームｔでは、参照個人の顔の動きは、形状乗数f(k,t)のＫ個の数により表現される。よって、合計Ｋ×Ｔの乗数の集団が、「雨」という言葉に対応する参照個人の顔の動きの連続を表現する。すなわち、辞書内の登録は、以下の通りである。
「雨」： f(k,t)、k = 1 〜K、 t = 1 〜T

一実施形態では、辞書内の登録は、自動音声認識（ＡＳＲ）エンジンを用いて自動的に蓄積される。ＡＳＲエンジンは、言葉と音素とを両方認識できる。幾つかの実施形態では、ＡＳＲエンジンは、言葉や音素ではない発声をさらに認識できる。もし「雨」という言葉が異なる感情で話されると、辞書は、異なる感情による「雨」という言葉のために複数の登録を含むことができる。例えば、一の登録では、以下の通りである。
「雨（驚きの感情）」： f₁(k,t) 、k = 1 〜K、 t = 1 〜T

幾つかの実施形態では、幾つかの言葉は、音素から構成される。音素のための乗数の時系列は、音素だけでなく、前後に発声される隣接する音素（又は音素の前後の沈黙）に依存する。よって、辞書は、音素の複数の登録を含むことができる。登録が映像列を生成するために用いられるとき、音素の登録の選択は、供給される文字列内で隣接する音素（又は音素の前後の沈黙）に依存する。

図７は、辞書の登録７１０の例である。辞書の登録７１０は、言葉７１２を乗数７１４の時系列にマッピングする。顔の動きの各フレーム７２０は、乗数７１４の時系列からの乗数の集団によって表現される。ＡＳＲエンジン７３０は、登録７１０の蓄積のために用いられる。

ベクトル量子化による辞書の最適化について説明する。

幾つかの実施形態では、辞書を構築するとき、辞書に含まれる幾つかの言葉、音素は、参照個人により何度も発声される。これにより、一つの言葉や音素のための多くの登録を含む辞書を生成でき、各登録は、言葉や音素を乗数の異なる時系列にマッピングしている。例えば、前記したように、音素の場合、音素のための辞書登録の選択は、発話履歴に基づいてなされる（すなわち、特定の音素のための口の形状は、その前後に発声される隣接音素により決まる。）。ここでの選択肢は依然として多すぎることがある。すなわち、辞書によって提供される登録が多すぎることがある。

予測可能性を向上させて効率的に検索するために、辞書は、以下の方法で最適化される。発話のための映像列は、乗数値の空間で非常に多数の点として考えられる。例えば、１秒毎に３０フレームである３０分の映像が用いられる場合、３０×１８００×Ｋ＝５４０００×Ｋの乗数値の集団を有することになる。ここで、Ｋは、映像モデルに用いられる形状固有ベクトルの数である。これらの点の幾つかは、互いに非常に近い口の位置を表現する。

ベクトル量子化（ＶＱ）は、Ｋ次元空間の５４０００点の集団で実施される。ＶＱでは、５４０００点は、集団（ＶＱ点、又は、ＶＱ中心、ＶＱ指標）のＭ個の中心により近似される。ここで、各点は、集団の最も近い中心により置換される。中心の数が大きいほど、ＶＱ点は５４０００点のためにより良い再現性を有する。顔の動きが非常に点集団に制約されるためである。乗数間には相関がある。よって、積極的なＶＱ再現が可能である。一実施形態では、ＶＱの中心の数は、最大誤差が許容されるように決定される。ここで、最大誤差は、映像の受け入れ可能な動作を提供するように可視的に確認される。

よって、ベクトル量子化後、辞書の登録は、対応する固有ベクトルのための乗数の時系列の代わりに、ＶＱの中心の時系列を含む。これは、言葉と音素を表現するために辞書の一層コンパクトな登録を可能にする。最初の辞書内において言葉や音素の複数の登録は、ＶＱの中心の時系列を含むより少ない登録を壊す（参照話者により異なる回数、同じ発声がなされるので、ＶＱの中心の同じ時系列にマッピングしうる。）。さらに、この破壊は、隣接音素に基づいて音素の時系列を選択することをより扱い易くする。

音響モデルについて説明する。

音響モデルの目的は、与えられた文字に基づいて、任意の文章や、文章の集団を作ることである。文字に基づく音響モデルを作る複数の技術は、以下の段落に開示される。

文字を発話にする音響モデル（ＴＴＳ）について説明する。

図８は、ＴＴＳ音響モデルを作るプロセス例を示す。ＴＴＳ音響モデルでは、音響モデルを作るために、目標となる人のための文字ファイル８４０に基づく発話サンプル８１０が集められる。発話サンプル内の音響データは、目標となる人の発話の特徴の集団を作るために用いられる。一実施形態では、発話の特徴は、励起状態の要素８２０とスペクトル情報８３０を有する。これらの発話の特徴と、対応する抽出された文字コンテンツ８５０とは、音響モデル８６０，８７０を作り、該モデルの精度を上げるために用いられる入力である。音響モデルが作られると、新しい文字列が音響を生成するために供給される。この音響モデルは、確率モデルであり、すなわち、新しい文字列が与えられると、音響モデルからの発話の特徴のグループは、新しい文字列を尤もらしく表現するために音響列に結合される。

例えば、図９は、ＴＴＳ音響の合成プロセス例を示す。文字９２０は、確立モデル９１０に入力される。９３０では、発話の特徴を表現するパラメータ列が文字列９１０を表現するための前記モデルにより選択される。発話の特徴を表現する発話パラメータは、音響波形を生成する前記モデルにより変換され、よって、音響列が合成される（９４０，９５０）。

ＴＴＳシステムの出力は、言葉と音素の音響列だけでなく、そのタイムマーカ（又はタイムスタンプともいう。）をも含む。例えば、「雨」という言葉が音響列に変換される文字の一部であると考える。音響モデルは、「雨」という言葉を生成するだけでなく、生成される音響列の最初の時間に対し、「雨」の音響列のための最初と最後のタイムスタンプを生成する。このタイムスタンプは、以降の段落で開示される音響映像同期のために利用される。

文字を音響に合成する直接ＴＴＳモデルは、前記モデルを生成するために用いられる音響データに直接関係する発話を作る。この技術の利点は、前記モデルが一旦作られると、発話音響を生成するのに必要なものが発話文字のみとなる。

声変換音響モデルについて説明する。

音響モデルを作る他の技術は、二人の話者の声の対応関係の構築に基づく。一人の話者は、参照話者であり、他の話者は、目標となる話者である。この技術では、同じ文字に基づく発話データが目標となる話者と参照話者から集められる。前記参照話者と目標話者の音響波形間で対応関係が構築される。前記対応関係は、参照話者により話される新しい言葉の音響に基づき、目標話者の新しい言葉の音響を生成するために用いられる。

参照音声と目標音声との前記対応関係は、以下の方法により構築される。同じ言葉を話す目標話者と参照話者からの音響サンプルが集められる。一実施形態では、音響サンプルは、数分の長さを有する。この波形の分析により、参照音声と目標音声の発声とが、参照音声と目標音声の発声との間で対応関係が得られるように調整（位置合わせ）される。参照音声と目標音声の音声特徴（メル周波数ケプストラム係数など）が抽出される。この結合分布は、ＧＭＭ（ガウス混合モデル）によりシミュレートされる。ＧＭＭのパラメータの最初の推定は、結合ヒストグラムの中の特徴クラスターのベクトル量子化により作られる。ＧＭＭは、ＥＭ（期待値最大化）アルゴリズムによりトレーニングされる。

この技術を用いれば、参照音声の特徴は、目標に対応する特徴にマッピングされる。これらの対応する特徴から、音響波形は、目標となる人の音響列として生成される。幾つかの実施形態では、プロセスの最初のステップで特徴のアラインメント（整列）がノイズになる。（最初の目標音声とは対照的に）生成される目標音声は、収束するまで繰り返し実行するために入力として前記アルゴリズムに代入される。

この声変換モデルには幾つかの利点がある。最初の利点は、発話の感情状態が前記参照から前記目標に伝送される。第２の利点は、前記参照の映像が発話のために作られる場合、前記目標の高品質の映像レンダリング（映像表現）を促進する。よって、例えば、音声変換モデルは、前記目標の特に厳密な感情効果が必要とされるとき、エンターテイメント（娯楽）目的で有効である。

ＰＣＡベースの声変換について説明する。

基本のＧＭＭベース声変換は、ＰＣＡ（主成分分析）の利用により有効性と迅速性を向上させる。この場合、ＧＭＭ声変換のトレーニングは、一つの参照音声と複数の目標音声で実行される。異なる目標音声でトレーニングがなされた複数のＧＭＭは、ＰＣＡプロセスに入れられ、音声の変動性を分解する。

生成される目標音声のサンプルが非常に大きい場合、新たな目標音声の追加では、複数分の音響サンプルの収集と新たなＧＭＭのトレーニングを要しない。代わりに、新たな目標の短い時間の発話サンプルのみが得られて、そのＧＭＭパラメータが、前にトレーニングされたＧＭＭに基づいて、ＰＣＡ固有ベクトルの分解により決定される。異なる目標のための複数のＧＭＭへの十分なオリジナルソース（最初の資源）のトレーニングセットを用いて、生成される音声の質は、ＰＣＡが一つのＧＭＭプロセス内のノイズによる変動性を除去するので、向上される。

前記技術を要約すると、参照データは、トレーニングされた複数の目標ＧＭＭに変換される。ＰＣＴモデルは、トレーニングされた複数の目標ＧＭＭのために生成される。新たな目標となる人のために、ＰＣＡ分解は、前記新たな目標となる人のための音響列を合成するために実行され、ここでは、限られたトレーニングデータのみが前記新たな目標となる人から求められる。

ＴＴＳベースのＰＣＡ声変換について説明する。

上記の参照音声は、自然（天然）の人間の声である必要はない。それは、高品質のＴＴＳに生成された声であっても良い。このＴＴＳ生成音声は、特定の個人の声である必要はない。参照個人の声の代わりに高品質の合成ＴＴＳが参照音声である点で異なることを除き、上述と全く同じプロセスが実行される。

固定合成ＴＴＳ資源を用いる利点は、新たな目標の声を生成するために、新たな言葉のセットの音響資源の生成のために人の声に立ち返る必要がない。よって、映像生成のための入力として文字列のみが必要とされる。

音響映像同期について説明する。

生成される映像列と音響列の合成は、音響合成を作るために直接ＴＴＳ又は声変換方法のいずれが用いられたかによって、異なる方法で実施される。この方法は、前記参照個人と前記目標となる人の映像モデルの関係を構築すること要する。前記関係は、前記参照と目標の形状固有ベクトルのアラインメント（整列）により生成される。前記アラインメントは、変換マトリクスにより表現される。前記変換マトリクスは、一回のみの計算を要して、レンダリング（処理）装置に記録される。この変換マトリクスのサイズは、小さい。前記目標となる人が２０個の形状固有ベクトルと２３個のテクスチャ固有ベクトルにより表現されて、前記辞書が１８個の形状固有ベクトルと２５個のテクスチャ固有ベクトルにより表現される参照個人に基づき蓄積されているとする。つまり、変換マトリクスは、形状固有ベクトルとテクスチャ固有ベクトルの各々のために２０×１６個と２３×２５個のマトリクスである。変換の目的のために、このマトリクスのみが前記レンダリング装置に記録される。前記辞書を作るために用いられる参照個人のデータベースの蓄積は、前記レンダリング装置上で不要である。

声変換音響モデルの合成について説明する。

目標音響が声変換方法で生成されると、映像との合成プロセスは以下のように実施される。音響は、我々が映像モデルと音響モデルを有している参照個人に基づき作られる。前記参照個人の形状固有ベクトルとテクスチャ固有ベクトルの乗数が計算される。この乗数は、前記目標となる人の映像列を生成するために形状固有ベクトルとテクスチャ固有ベクトルの乗数に変換される。

前記目標となる人の前記生成された映像列は、前記目標となる人の音響列と合成されることが必要な顔と唇の動き、音響列で表示される如何なる感情をも有する。よって、目標となる人の映像列は、（音響変換を介した）音響モデルと、参照個人から目標となる人への映像モデルとを変換することによりもたらされる。感情効果は、参照個人の音響、及び／又は、映像データにおける感情を認識することにより達成される。

直接ＴＴＳ音響モデルの合成について説明する。

前記目標の音響が、上記開示されるＴＴＳ技術を用いて作られるとき、言葉と音素を乗数の時系列にマッピングしてなる辞書が、同期した映像合成を得るために用いられる。上記のように、アラインメント変換マトリクスは、参照と目標の映像モデル間で用いられる。一実施形態では、前記目標となる人が参照個人であり、辞書が前記参照個人に基づく場合、前記アラインメント変換マトリクスは、不要であり、前記辞書は、目標となる人の音響列と映像列を直接調整するように用いられる。他の実施形態では、前記目標となる人に基づく辞書を有しない。乗数は参照個人の辞書に基づき計算され、この乗数は、一回の計算によるアラインメント変換マトリクスを用いて、前記目標となる人のための乗数に変換される。

図１０は、映像列と音響列の合成プロセス例を示す。文字１０１０は、言葉、又は、音素、発声に分解される（１０２０）。言葉、又は、音素、発声の各々は、継続時間１０３０を有する。言葉、又は、音素、発声の各々は、辞書での登録に一致する（１０４０）。前記登録は、乗数又はＶＱ中心（又はＶＱ指標）における時系列を含む。プロセスは、ＴＴＳシステムにより生成される音響の言葉や音素の継続時間が、辞書により作られて対応する視覚動作の継続時間に一致するか否かを確認する。もし継続時間が一致しない場合、その状況は、ＴＴＳシステムにより作られる最初と最後のタイムスタンプによって修正される。これらの継続時間のレートは、これらのタイムスタンプを一致させる乗数の時系列を補間によって音響から生成するように、使用され得る（１０５０）。このように、ＴＴＳにより生成される音響列と辞書により生成される映像列との同期が達成される。

よって、目標となる人の映像の各フレームを生成する（１０８０）ために、参照を目標アラインメント変換に適用することにより（１０７０）、参照個人のための映像列１０６０の適切に同期されたフレームが生成される。

生成される映像を背景に合わせることについて説明する。

上記では、目標となる人の適切な顔の動きと口の動きを生成することに焦点をあてた。前記目標となる人の完全な映像のために、体の他の部分（特に、紙、及び、首、肩）が生成される必要がある。本開示における「背景」は、２つの領域を含む。一つ目の領域は、映像モデルにより生成されない目標となる人の体部であり、二つ目の領域は、前記目標の体部とは別の景色である。

合成映像を背景に埋め込む作業は、レイヤリング（階層化）手続きである。背景は、前記体部によって被覆され、合成映像部は、各フレームの残りを埋める。一実施形態では、映像合成の背景の選択には制限がない。例えば、ユーザは、特定の効果を達成するために、メニューから所望の背景を選択できる。

前記体部は、前記目標となる人の顔部に自然に適合する必要があるので、映像モデルにより生成されない目標となる人の体部には一層制限がある。以下の段落で開示される、この埋め込み部分に対処する複数の技術があり、これらの技術は、互いに結合される。

境界適合誤差を最小化する埋め込み法について説明する。

図１１は、境界適合誤差を最小化して、合成映像を背景に埋め込むプロセス例を示す。前記生成された目標映像（ここでは、映像の映像部が前記目標となる人の合成された顔部のみを含む。）の各フレーム１１１０と背景映像は、互いに合わせ（縫い合わせ）られる。顔部の境界点の座標は、計算されて記録される。背景映像の最適領域の境界と前記合成映像の境界点の間での差異が最小である背景映像の最適領域のために、背景映像で検索が実行される。最適な背景領域が一旦特定されると、前記合成された目標映像の第一フレーム１１３０の境界誤差が最小化された、背景映像の最適フレーム１１２０が決定される。続いて、前記合成された目標映像の境界点が背景映像に移動される。前記目標となる人の写実的な合成のために、内部（目標）と外部（背景）の点の座標に基づいて、形状乗数は調整されて再合成される。前記境界点が背景境界点の特定の許容誤差内になるまで、このプロセスを繰り返す。前記合成された顔部は、非合成部の内側に埋め込まれる（１１４０）。背景映像からのフレームは、上記のように埋め込み誤差を最小化するように選択されるので、前記顔の動き（特に口の位置）は、最小限の影響を受ける。

続けて、次の映像列の合成されたフレームに進む。同じ境界誤差が、次の合成フレームと、これまで用いた映像と、背景映像の前のフレームとのために計算される。これらの３つのフレームのうち、境界誤差を最小化する映像を探して、第二フレームを埋め込むために上記で概説した反復プロセスを繰り返す。このプロセスは、合成映像の各フレームのために繰り返される（１１５０）。

領域分割による埋め込みについて説明する。

先の段落で述べたように、別々のモデルが顔の上側と下側の部分のために用いられる。図１２は、２領域モデルを用いて合成映像を背景に埋め込むプロセス例を示す。このモデルでは、顔の上側と下側の部分が前記目標となる人の既存の映像、すなわち背景映像に適合される（１２１０）。

上側の境界点（額上など）は、比較的剛性であり（動かず）、境界への最上部分に整列するように、（スケーリングを含んで方向を変える）簡易剛性変換１２２０を用いて、上側部分の全ての点を移動することによって、上側の顔が背景に埋め込まれる（１２３０）。

下側領域の境界点（あごの点は、話すことと関係して境界上にある）は非剛性であるので、下側領域は、上側領域と同じ態様で背景に埋め込まれない。しかし、幾つかの情報は、合成された境界から得られる。背景に下側の顔を埋め込むために、下側領域は、適切なサイズに調整される（１２４０）。これは、スケーリングパラメータを提供し、下側領域を上側領域に合わせることを促進する。

上側領域と下側領域は、以下の態様で互いに接続される。下側領域と上側領域の接続は、２つの領域が少なくとも共通する３点を有するように実行される。この共通点は、上側領域に接続するために、下側領域を如何に移動、回転、サイズ調整するか決定する（１２５０）。下側領域は、共通点に従って整列されて（１２６０）、上側領域と下側領域は、埋め込まれる全体の顔を作るように結合される（１２７０）。

関心領域について説明する。

背景は複数の関心領域（ＲＯＩｓ）に分割される。例えば、首と肩などの領域は、関心領域に含まれる。合成映像列の境界は、追跡される。合成映像列と、首及び肩を含む関心領域との間の最大適合を含むフレームは、合成された映像列を背景映像に埋め込むための基礎として選択される。関心領域を利用する技術は、米国特許出願13/334,726に詳細に開示され、米国特許出願13/334,726は、参照により本願に組み込まれる。

本願に導入される技術は、例えば、ソフトウェア、及び／又は、ファームウェアでプログラム化された、又は、全体として特定目的で、プログラム可能な回路（例えば一又は複数のマイクロプロセッサ）により実行される。特定目的の配線接続された回路は、例えば、一又は複数の特定用途向け集積回路（ＡＳＩＣｓ）、又は、プログラム可能な論理装置（ＰＬＤｓ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡｓ）などからなる。

本願に導入される技術を実行するのに使用されるソフトウェア又はファームウェアは、コンピュータが読み取れる記憶媒体に記録され、一又は複数の汎用目的又は特定目的のプログラム可能なマイクロプロセッサにより実行される。本願で用いられる用語「コンピュータが読み取れる記憶媒体」は、機械（例えば、コンピュータ、ネットワーク機器、携帯電話、個人用デジタル補助装置（ＰＤＡ）、製造ツール、一又は複数のプロセッサを有する装置など）により接続可能な形態で情報を記録する如何なる装置をも含む。例えば、コンピュータが接続可能な記憶媒体は、記録可能又は記録不可能媒体（例えば、読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスク記録媒体、光学記録媒体、フラッシュメモリ、ディスクドライブなど）などを含む。

本願で用いられる用語「論理」は、例えば、特定のソフトウェアでプログラム化されるプログラム可能な回路、及び／又は、ファームウェア、特定目的の配線接続された回路、又は、それらの組合せを含む。

上記例に加えて、発明の様々な改良と変更は、発明の趣旨を逸脱しない範囲で可能である。よって、本発明は、上記開示に限定されるものではなく、請求項は、本発明の趣旨と全範囲を含むように解釈されるものである。

一実施形態では、方法についてである。この方法は、処理装置に文字列を入力するステップと、視覚的かつ可聴的な、人の感情表現をシミュレートするために、前記処理装置により、前記文字列に基づいて前記人の映像列を生成するステップであって、前記映像列の音響部分を生成するために、前記人の音声の音響モデルを用いることを有するステップとを含む。

関連する実施形態では、前記処理装置は、携帯装置であり、前記文字列は、ショートメッセージサービス（SMS）を介して第二携帯装置から入力され、人の映像列を生成する前記ステップは、前記携帯装置と前記第二携帯装置に記録された共有情報に基づいて人の映像列を前記携帯装置により生成することを含む。

他の関連する実施形態では、前記文字列は、少なくとも一つの言葉を含む言葉群を有し、前記映像列は、前記人が映像列の中で言葉を発声して見えるように生成される。

他の関連する実施形態では、前記文字列は、発声を表現する文字を有し、前記映像列は、前記人が映像列の中で言葉を発声して見えるように生成される。

他の関連する実施形態では、前記文字列は、言葉と該言葉の指標とを有しており、前記指標は、前記映像列の中で前記人が前記言葉を発声して見えるとき、前記映像列の中で前記人の感情表現を同時に表示し、前記指標は、規定の指標群であり、前記規定の指標群の各指標は、異なる感情表現に関連する。

他の関連する実施形態では、映像列を生成する前記ステップは、前記文字列と前記人の事前知識に基づいて、視覚的かつ可聴的な、前記人の感情表現をシミュレートするために、前記処理装置により人の映像列を生成することを含む。

他の関連する実施形態では、前記事前知識は、人の写真や映像を含む。

他の関連する実施形態では、映像列を生成する前記ステップは、前記文字列の言葉を前記人の顔の特徴にマッピングするステップと、前記人の顔の特徴を背景上にレンダリングするステップとを含む。

他の関連する実施形態では、前記言葉は、前記言葉のための一又は複数の指標に基づいて前記顔の特徴にマッピングされ、前記指標は、前記映像列の中で前記人が前記言葉を発声して見えるとき、前記映像列の中で前記人の感情表現を同時に表示する。

他の関連する実施形態では、前記顔の特徴は、複数の人に適用される一般的な顔の特徴を含む。

他の関連する実施形態では、前記顔の特徴は、特定の前記人に適用される特定の顔の特徴を含む。

他の関連する実施形態では、映像列を生成する前記ステップは、前記人の顔の特徴に適合する前記人の体のジェスチャーを生成することを含む。

他の関連する実施形態では、映像列を生成する前記ステップは、前記人の音声に基づく音響モデルを用いて、前記文字列内の言葉に基づいて前記人の発話を表現する音響列を生成することを含む。

他の関連する実施形態では、文字列の受信は、リアルタイムで文字列を受信することを含み、映像列を生成する前記ステップは、視覚的かつ可聴的な、前記人の感情表現をシミュレートするために、前記文字列に基づいて人の映像列をリアルタイムで生成するステップを含み、該ステップは、前記映像列の音響部分を生成するために前記人の音声の音響モデルを用いることを含む。

他の関連する実施形態では、他の方法についてである。この方法は、処理装置に文字列を入力するステップと、視覚的な、人の感情表現をシミュレートするために、前記処理装置により、前記文字列に基づいて前記人の映像列を生成するステップであって、前記映像列の各フレームの顔部が前記人の複数の推測画像の結合により表現されるステップと、可聴的な、人の感情表現をシミュレートするために、前記人の音声の音響モデルを用いて、前記文字列に基づいて前記人の音響列を前記処理装置により生成するステップと、前記処理装置を用いて、前記映像列と音響列とを結合することにより前記人の映像列を生成するステップであって、前記映像列と音響列が前記文字列に基づいて同期されるステップとを含む。

他の関連する実施形態では、前記映像列の各フレームの顔部は、前記人の複数の推測画像の線形結合により表現され、前記人の複数の推測画像における各推測画像は、前記人の平均画像からの偏差に対応する。

他の関連する実施形態では、前記文字列に基づいて前記人の映像列を生成する前記ステップは、前記映像列の各フレームを２以上の領域に分割することを含み、少なくとも一つの前記領域は、前記人の推測画像の結合により表現されている。

他の関連する実施形態では、前記人の音声の前記音響モデルは、前記人の発話サンプルから作られる複数の音声の特徴を含み、前記複数の音声の特徴の各音声の特徴は、文字に対応する。

他の関連する実施形態では、前記複数の音声の特徴における各音声の特徴は、言葉、又は、音素、発声に対応する。

他の関連する実施形態では、前記人の音声の音響モデルは、前記人の発話サンプルから作られる複数の音声の特徴と、前記文字列に従う第二の人の発話と、前記人の音声の波形と第二の人の音声の波形との対応関係とを含み、前記人の音声特徴は、前記人の音声の波形と第二の人の音声の波形との前記対応関係に基づいて、前記第二の人の発話にマッピングされる。

他の関連する実施形態では、前記人の音声の音響モデルは、前記人の発話サンプルから作られる複数の音声の特徴と、前記文字列に従って、文字を発話に変換するモデルにより生成される音声と、前記人の音声の波形と文字を発話に変換するモデルの音声の波形との対応関係とを含み、前記人の音声特徴は、前記人の音声の波形と文字を発話に変換するモデルの音声の波形との前記対応関係に基づいて、前記モデルの発話にマッピングされる。

他の関連する実施形態では、他の方法についてである。この方法は、文字列を生成するステップであって、前記文字列は、人の感情の範囲を視覚的かつ可聴的に表現するために、前記人の音声に基づく音声モデルを用いて生成される映像列の中で人が発声する一又は複数の言葉を表現するように構成されるステップと、前記文字列内の言葉に関連する指標を特定するステップであって、前記指標は、規定の指標群の一つであり、各指標が前記人の異なる感情表現を示すように構成されるステップと、前記指標を前記文字列に組み込むステップと、前記映像列を生成するように構成される装置に前記文字列を送信するステップとを含む。

他の関連する実施形態では、指標を特定する前記ステップは、前記文字列内の言葉に関連する項目群の一覧から一項目を選択するステップを含み、前記一覧の各項目は、前記人の感情表現を示す指標である。

他の関連する実施形態では、指標を特定する前記ステップは、文字列内の言葉に用いられるマークアップ言語文字列を挿入するステップを含み、前記マークアップ言語文字列は、既定のマークアップ言語文字列の集団からなり、その集団内の各マークアップ言語文字列は、人の感情表現を示す指標である。

他の関連する実施形態では、指標を特定する前記ステップは、自動音声認識（ＡＳＲ）エンジンを用いて、前記文字列内の言葉を話す話者の音響列に基づいて、前記文字列内の言葉に関連する指標を特定するステップを含む。

他の関連する実施形態では、前記話者は、前記人とは異なる人である。

他の関連する実施形態では、他の方法についてである。この方法は、非個人(non-person)の複数の項目の情報を処理装置に記憶するステップと、前記処理装置の前記非個人の複数の項目の事前情報に基づいて、前記非個人の複数の項目のための映像列を生成するステップであって、前記非個人の各項目が独立して管理可能に構成されるステップとを含む。

他の関連する実施形態では、前記非個人の複数の項目は、前記映像列の中で他の要素に関連して制約される。

Claims

処理装置に文字列を入力するステップと、
視覚的かつ可聴的な、実在の人の感情表現をシミュレートするために、前記処理装置により、前記文字列に基づいて前記実在の人の映像列を生成するステップであって、前記映像列の音響部分を生成するために、前記実在の人の音声の音響モデルを用いることを有し、前記映像列の生成が、前記実在の人の実生活の映像列をトレーニングデータとして用いる映像モデルに基づいているステップとを含む方法。
前記処理装置は、携帯装置であり、前記文字列は、ショートメッセージサービス（SMS）を介して第二携帯装置から入力され、
人の映像列を生成する前記ステップは、前記携帯装置と前記第二携帯装置に記録された共有情報に基づいて人の映像列を前記携帯装置により生成することを含む請求項１に記載の方法。
前記文字列は、少なくとも一つの言葉を含む言葉群を有し、前記映像列は、前記人が映像列の中で言葉を発声して見えるように生成される請求項１に記載の方法。
前記文字列は、発声を表現する文字を有し、前記映像列は、前記人が映像列の中で言葉を発声して見えるように生成される請求項１に記載の方法。
前記文字列は、言葉と該言葉の指標とを有しており、前記指標は、前記映像列の中で前記人が前記言葉を発声して見えるとき、前記映像列の中で前記人の感情表現を同時に表示し、前記指標は、規定の指標群であり、前記規定の指標群の各指標は、異なる感情表現に関連する請求項１に記載の方法。
映像列を生成する前記ステップは、前記文字列と前記人の事前知識に基づいて、視覚的かつ可聴的な、前記人の感情表現をシミュレートするために、前記処理装置により人の映像列を生成することを含む請求項１に記載の方法。
映像列を生成する前記ステップは、前記文字列の言葉を前記人の顔の特徴にマッピングするステップと、前記人の顔の特徴を背景上にレンダリングするステップとを含む請求項１に記載の方法。
前記言葉は、前記言葉のための一又は複数の指標に基づいて前記顔の特徴にマッピングされ、前記指標は、前記映像列の中で前記人が前記言葉を発声して見えるとき、前記映像列の中で前記人の感情表現を同時に表示する請求項７に記載の方法。
前記顔の特徴は、特定の前記人に適用される特定の顔の特徴を含む請求項７に記載の方法。
映像列を生成する前記ステップは、前記人の顔の特徴に適合する前記人の体のジェスチャーを生成することを含む請求項７に記載の方法。
映像列を生成する前記ステップは、前記人の音声に基づく音響モデルを用いて、前記文字列内の言葉に基づいて前記人の発話を表現する音響列を生成することを含む請求項１に記載の方法。
文字列の受信は、リアルタイムで文字列を受信することを含み、
映像列を生成する前記ステップは、視覚的かつ可聴的な、前記人の感情表現をシミュレートするために、前記文字列に基づいて人の映像列をリアルタイムで生成するステップを含み、該ステップは、前記映像列の音響部分を生成するために前記人の音声の音響モデルを用いることを含む請求項１に記載の方法。
処理装置に文字列を入力するステップと、
視覚的な、実在の人の感情表現をシミュレートするために、前記処理装置により、前記文字列に基づいて前記実在の人の映像列を生成するステップであって、前記映像列の各フレームの顔部が前記実在の人の複数の推測画像の結合により表現され、前記映像列の生成が、前記実在の人の実生活の映像列をトレーニングデータとして用いる映像モデルに基づいているステップと、
可聴的な、実在の人の感情表現をシミュレートするために、前記実在の人の音声の音響モデルを用いて、前記文字列に基づいて前記実在の人の音響列を前記処理装置により生成するステップと、
前記処理装置を用いて、前記映像列と音響列とを結合することにより前記実在の人の映像列を生成するステップであって、前記映像列と音響列が前記文字列に基づいて同期されるステップとを含む方法。
前記映像列の各フレームの顔部は、前記人の複数の推測画像の線形結合により表現され、前記人の複数の推測画像における各推測画像は、前記人の平均画像からの偏差に対応する請求項１３に記載の方法。
前記文字列に基づいて前記人の映像列を生成する前記ステップは、前記映像列の各フレームを２以上の領域に分割することを含み、少なくとも一つの前記領域は、前記人の推測画像の結合により表現されている請求項１３に記載の方法。
前記人の音声の前記音響モデルは、前記人の発話サンプルから作られる複数の音声の特徴を含み、前記複数の音声の特徴の各音声の特徴は、文字に対応する請求項１３に記載の方法。
前記複数の音声の特徴における各音声の特徴は、言葉、又は、音素、発声に対応する請求項１６に記載の方法。
前記人の音声の音響モデルは、前記人の発話サンプルから作られる複数の音声の特徴と、前記文字列に従う第二の人の発話と、前記人の音声の波形と第二の人の音声の波形との対応関係とを含み、前記人の音声特徴は、前記人の音声の波形と第二の人の音声の波形との前記対応関係に基づいて、前記第二の人の発話にマッピングされる請求項１３に記載の方法。
前記人の音声の音響モデルは、前記人の発話サンプルから作られる複数の音声の特徴と、前記文字列に従って、文字を発話に変換するモデルにより生成される音声と、前記人の音声の波形と文字を発話に変換するモデルの音声の波形との対応関係とを含み、前記人の音声特徴は、前記人の音声の波形と文字を発話に変換するモデルの音声の波形との前記対応関係に基づいて、前記モデルの発話にマッピングされる請求項１３に記載の方法。
文字列を生成するステップであって、前記文字列は、実在の人の感情の範囲を視覚的かつ可聴的に表現するために、前記実在の人の音声に基づく音響モデルを用いて生成される映像列の中で実在の人が発声する一又は複数の言葉を表現するように構成され、前記映像列の生成が、前記実在の人の実生活の映像列をトレーニングデータとして用いる映像モデルに基づいているステップと、
前記文字列内の言葉に関連する指標を特定するステップであって、前記指標は、規定の指標群の一つであり、各指標が前記実在の人の異なる感情表現を示すように構成されるステップと、
前記指標を前記文字列に組み込むステップと、
前記映像列を生成するように構成される装置に前記文字列を送信するステップとを含む方法。
指標を特定する前記ステップは、前記文字列内の言葉に関連する項目群の一覧から一項目を選択するステップを含み、前記一覧の各項目は、前記人の感情表現を示す指標である請求項２０に記載の方法。
指標を特定する前記ステップは、自動音声認識（ＡＳＲ）エンジンを用いて、前記文字列内の言葉を話す話者の音響列に基づいて、前記文字列内の言葉に関連する指標を特定するステップを含む請求項２０に記載の方法。
前記シミュレートされた視覚的かつ可聴的な実在の人の感情表現は、前記映像モデルのトレーニングデータとは別のものである、請求項１に記載の方法。