JP2022527155A

JP2022527155A - 人工知能に基づくアニメキャラクター駆動方法及び関連装置

Info

Publication number: JP2022527155A
Application number: JP2021557135A
Authority: JP
Inventors: 林超暴; 世胤康; 盛王; 祥▲凱▼ 林; ▲興▼ 季; 展▲圖▼ 朱; ▲廣▼之李; 得意陀; 朋 ▲劉▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-02
Filing date: 2020-08-27
Publication date: 2022-05-31
Anticipated expiration: 2040-08-27
Also published as: CN110531860B; WO2021043053A1; US11605193B2; JP7408048B2; US20230123433A1; CN110531860A; US20210383586A1; KR20210123399A; EP3929703A1; EP3929703A4; KR102694330B1

Abstract

人工知能に基づくアニメキャラクター駆動方法及び関連装置を開示し、話者が音声を発する時の顔表情変化のメディアデータを収集し、話者に対応する第１アニメキャラクターの第１表情ベースを決定し、第１表情ベースは、第１アニメキャラクターの異なる表情を表すことができる。第２アニメキャラクターを駆動するためのターゲットテキスト情報を決定した後に、ターゲットテキスト情報、前記収集されたメディアデータ及び第１表情ベースに基づいて、ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定する。音響的特徴及びターゲット表情パラメータによって、第２表情ベースを有する第２アニメキャラクターを駆動でき、それにより、第２アニメキャラクターは、音響的特徴によって話者がターゲットテキスト情報を話す声をシミュレートして発するとともに、発声中にこの話者に該当する表情の顔表情を行い、リアルな臨場感及び没入感をユーザにもたらし、ユーザとアニメキャラクターのインタラクション体験を向上させることができる。

Description

本出願は、２０１９年９月２日に中国特許庁に提出された、出願番号が２０１９１０８２４７７０．０であり、出願名称が「人工知能に基づくアニメキャラクター駆動方法及び装置」である中国特許出願について優先権を主張し、その内容の全てが本出願の一部として援用される。

本出願はデータ処理分野に関し、特にアニメキャラクター駆動に関する。

コンピュータ技術の発展とともに、ヒューマンコンピュータインタラクションは、普通になり、ほとんどが単なる音声インタラクションであり、例えば、インタラクション機器は、ユーザによって入力されたテキスト又は音声に基づいてフィードバックコンテンツを決定し、フィードバックコンテンツに基づいて合成された仮想声を再生する。

このようなヒューマンコンピュータインタラクションによるユーザの没入感は、現在のユーザのインタラクションニーズを満たすことは困難であり、ユーザの没入感を向上させるために、表情変化能力を有し、例えば、口の形が変化可能なアニメキャラクターをユーザとインタラクションするインタラクション対象とすることは、現在の研究方向である。

ただし、現在、完璧なアニメキャラクター駆動方法はない。

本出願は、上記技術課題を解決するために、リアルな臨場感及び没入感をユーザにもたらし、ユーザとアニメキャラクターのインタラクション体験を向上できる、人工知能に基づくアニメキャラクター駆動方法及び装置を提供する。

本出願の実施例は、以下の技術案を開示する。

第１態様によれば、本出願の実施例は、オーディオ・ビデオ処理機器が実行するアニメキャラクター駆動方法を提供し、前記方法は、
話者の顔表情及び対応する音声を含むメディアデータを取得するステップと、
前記顔表情に基づいて前記話者に対応する第１アニメキャラクターの第１表情ベースを決定するステップであって、前記第１表情ベースは、前記第１アニメキャラクターの表情を識別するものであるステップと、
ターゲットテキスト情報、前記メディアデータ及び前記第１表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定するステップであって、前記音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、前記ターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第１表情ベースに対する変化程度を識別するものであるステップと、
前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第２表情ベースを有する第２アニメキャラクターを駆動するステップと、を含む。

第２態様によれば、本出願の実施例は、オーディオ・ビデオ処理機器に配置されたアニメキャラクター駆動装置を提供し、前記装置は、取得ユニット、第１決定ユニット、第２決定ユニット及び駆動ユニットを含み
前記取得ユニットは、話者の顔表情及び対応する音声を含むメディアデータを取得し、
前記第１決定ユニットは、前記顔表情に基づいて前記話者に対応する第１アニメキャラクターの第１表情ベースを決定し、前記第１表情ベースは、前記第１アニメキャラクターの表情を識別するものであり、
前記第２決定ユニットは、ターゲットテキスト情報、前記メディアデータ及び前記第１表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定し、前記音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、前記ターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第１表情ベースに対する変化程度を識別するものであり、
前記駆動ユニットは、前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第２表情ベースを有する第２アニメキャラクターを駆動する。

第３態様によれば、本出願の実施例は、オーディオ・ビデオ処理機器が実行するアニメキャラクター駆動方法を提供し、前記方法は、
話者の顔表情及び対応する音声を含む第１メディアデータを取得するステップと、
前記顔表情に基づいて前記話者に対応する第１アニメキャラクターの第１表情ベースを決定するステップであって、前記第１表情ベースは、前記第１アニメキャラクターの表情を識別するものであり、前記第１表情ベースは、次元が第１次元であり、頂点トポロジーが第１頂点トポロジーであるステップと、
前記第１表情ベース及び駆動対象の第２アニメキャラクターの第２表情ベースに基づいて、ターゲット表情ベースを決定するステップであって、前記第２表情ベースは、次元が第２次元であり、頂点トポロジーが第２頂点トポロジーであり、前記ターゲット表情ベースは、第２頂点トポロジーを有する第１アニメキャラクターに対応する表情ベースであり、前記ターゲット表情ベースの次元が第２次元であるステップと、
前記話者の顔表情及び対応する音声を含む第２メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定するステップであって、前記ターゲット表情パラメータは、前記話者が前記音声を発する顔表情の前記ターゲット表情ベースに対する変化程度を識別するものであるステップと、
前記ターゲット表情パラメータ及び音響的特徴に基づいて、前記第２表情ベースを有する前記第２アニメキャラクターを駆動するステップと、を含む。

第４態様によれば、本出願の実施例は、オーディオ・ビデオ処理機器に配置されたアニメキャラクター駆動装置を提供し、前記装置は、取得ユニット、第１決定ユニット、第２決定ユニット、第３決定ユニット及び駆動ユニットを含み、
前記取得ユニットは、話者の顔表情及び対応する音声を含む第１メディアデータを取得し、
前記第１決定ユニットは、前記顔表情に基づいて前記話者に対応する第１アニメキャラクターの第１表情ベースを決定し、前記第１表情ベースは、前記第１アニメキャラクターの表情を識別するものであり、前記第１表情ベースは、次元が第１次元であり、頂点トポロジーが第１頂点トポロジーであり、
前記第２決定ユニットは、前記第１表情ベース及び駆動対象の第２アニメキャラクターの第２表情ベースに基づいて、ターゲット表情ベースを決定し、前記第２表情ベースは、次元が第２次元であり、頂点トポロジーが第２頂点トポロジーであり、前記ターゲット表情ベースは、第２頂点トポロジーを有する第１アニメキャラクターに対応する表情ベースであり、前記ターゲット表情ベースの次元が第２次元であり、
前記第３決定ユニットは、前記話者の顔表情及び対応する音声を含む第２メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定し、前記ターゲット表情パラメータは、前記話者が前記音声を発する顔表情の前記ターゲット表情ベースに対する変化程度を識別するものであり、
前記駆動ユニットは、前記ターゲット表情パラメータ及び音響的特徴に基づいて、前記第２表情ベースを有する前記第２アニメキャラクターを駆動する。

第５態様によれば、本出願の実施例は、アニメキャラクターを駆動するための機器を提供し、前記機器は、プロセッサ及びメモリを含み、
前記メモリは、プログラムコードを記憶し、前記プログラムコードを前記プロセッサに伝送し、
前記プロセッサは、前記プログラムコード中の命令に基づいて第１態様又は第３態様に記載の方法を実行する。

第６態様によれば、本出願の実施例は、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体は、プログラムコードを記憶し、前記プログラムコードは、第１態様又は第３態様に記載の方法を実行する。

第７態様によれば、本出願の実施例は、コンピュータプログラム製品を提供し、コンピュータプログラム製品を実行すると、第１態様又は第３態様に記載の方法を実行する。

上記技術案から分かるように、話者が音声を発する時の顔表情変化のメディアデータを収集することによって、話者に対応する第１アニメキャラクターの第１表情ベースを決定することができ、第１表情ベースは、第１アニメキャラクターの異なる表情を表すことができる。第２アニメキャラクターを駆動するためのターゲットテキスト情報を決定した後に、ターゲットテキスト情報、前記収集されたメディアデータ及び第１表情ベースに基づいて、対応するターゲットテキスト情報の音響的特徴及びターゲット表情パラメータを決定することができ、この音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、このターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第１表情ベースに対する変化程度を識別するものである。音響的特徴及びターゲット表情パラメータによって、第２表情ベースを有する第２アニメキャラクターを駆動でき、それにより、第２アニメキャラクターは、音響的特徴によって、話者がターゲットテキスト情報を話す声をシミュレートして発するとともに、発声中にこの話者に該当する表情の顔表情を行うことができ、リアルな臨場感及び没入感をユーザにもたらし、ユーザとアニメキャラクターのインタラクション体験を向上させることができる。

本出願の実施例又は従来技術の技術案を明瞭に説明するために、以下、実施形態または従来技術の記述において必要な図面を用いて簡単に説明を行うが、当然ながら、以下に記述された図面は、本出願のいくつかの実施形態にすぎず、当業者にとって、創造的な労力を要することなく、これらの図面に基づいて他の図面に想到しうる。

本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法の適用シーンの模式図である。本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法のフローチャートである。本出願の実施例に係るアニメキャラクター駆動システムの構造プロセスである。本出願の実施例に係るメディアデータを収集するシーンを例示した図である。本出願の実施例に係る３ＤＭＭライブラリＭの各次元の分布及び意味を例示した図である。本出願の実施例に係る、決定された顔カスタマイズパラメータに基づくアニメキャラクター駆動方法の適用シーンの模式図である。本出願の実施例に係る、決定されたマッピング関係に基づくアニメキャラクター駆動方法の適用シーンの模式図である。本出願の実施例に係る時間区間と音素との対応関係を例示した図である。本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法のフローチャートである。本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法のフローチャートである。本出願の実施例に係るアニメキャラクター駆動装置の構造図である。本出願の実施例に係るアニメキャラクター駆動装置の構造図である。本出願の実施例に係るアニメキャラクターを駆動するための機器の構造図である。本出願の実施例に係るサーバの構造図である。

以下、図面を組み合わせ、本出願の実施例について説明する。

現在、表情変化能力を持つアニメキャラクターをユーザとインタラクションするインタラクション対象とすることは、ヒューマンコンピュータインタラクションの主な研究方向である。

例えば、ゲームシーンでは、ユーザ自身の顔の形と同じゲームキャラクター（アニメキャラクター）などを作成することができ、ユーザが文字又は音声を入力すると、このゲームキャラクターが音声を発して対応する表情（例えば、口の形など）をすることができ、又は、ゲームシーンでは、ユーザ自身の顔の形と同じゲームキャラクターなどを作成し、相手先が文字又は音声を入力すると、このゲームキャラクターが相手先の入力に応じて音声をフィードバックして対応する表情をすることができる。

アニメキャラクターを良好に駆動し、例えば、アニメキャラクターが音声を発して対応する表情をするように駆動するために、本出願の実施例は、人工知能に基づくアニメキャラクター駆動方法を提供する。この方法は、話者が音声を発する時の顔表情変化のメディアデータを収集し、話者に対応する第１アニメキャラクターの第１表情ベースを決定することができ、第２アニメキャラクターを駆動するためのターゲットテキスト情報を決定した後に、ターゲットテキスト情報、前記収集されたメディアデータ及び第１表情ベースに基づいて、対応するターゲットテキスト情報の音響的特徴及びターゲット表情パラメータを決定し、それにより、音響的特徴及びターゲット表情パラメータによって第２表情ベースを有する第２アニメキャラクターを駆動することで、第２アニメキャラクターは、音響的特徴によって、話者がターゲットテキスト情報を話す声をシミュレートして発するとともに、発声中にこの話者に該当する表情の顔表情を行い、テキスト情報に基づいて第２アニメキャラクターを駆動することを実現する。

強調すべきものとして、本出願の実施例に係るアニメキャラクター駆動方法は、人工知能に基づいて実現され、人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）は、デジタルコンピュータ又はデジタルコンピュータにより制御された機械を用い、ヒトの知能をシミュレート、延伸及び拡張し、環境を感知し、知識を取得しかつ知識を使用して最適な結果を取得する理論、方法、技術及び応用システムである。つまり、人工知能は、コンピュータ科学の総合技術であり、知能の実質を把握し、ヒトの知能と同様に反応できる新規知能機械を生産することを目的とする。人工知能は、様々な知能機械の設計原理及び実現方法を研究することにより、機械に感知、推理及び決定の機能を与えることである。

人工知能技術は、総合学科であり、広い分野に係り、ハードウェア面の技術もあり、ソフトウェア面の技術もある。人工知能の基礎技術は、一般的に、センサ、専用人工知能チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理技術、オペレーティング／インタラクションシステム、電気機械一体化などの技術を含む。人工知能ソフトウェア技術は、主に、コンピュータ視覚技術、音声処理技術、自然言語処理技術及び機械学習／深層学習などの複数の方向を含む。

本出願の実施例に主に係る人工知能技術は、音声処理技術、機械学習及びコンピュータ視覚（画像）などの方向を含む。

例えば、音声技術（ＳｐｅｅｃｈＴｅｃｈｎｏｌｏｇｙ）の音声認識技術（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ、ＡＳＲ）、音声合成（ＴｅｘｔＴｏＳｐｅｅｃｈ、ＴＴＳ）及び声紋認識に係る。音声認識技術は、音声信号前処理（Ｓｐｅｅｃｈｓｉｇｎａｌｐｒｅｐｒｏｃｅｓｓｉｎｇ）、音声信号周波数解析（Ｓｐｅｅｃｈｓｉｇｎａｌｆｒｅｑｕｅｎｃｙａｎａｌｙｚｉｎｇ）、音声信号特徴抽出（Ｓｐｅｅｃｈｓｉｇｎａｌｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ）、音声信号特徴マッチング／認識（Ｓｐｅｅｃｈｓｉｇｎａｌｆｅａｔｕｒｅｍａｔｃｈｉｎｇ／ｒｅｃｏｇｎｉｔｉｏｎ）、音声訓練（Ｓｐｅｅｃｈｔｒａｉｎｉｎｇ）などを含むことができる。音声合成は、テキスト解析（Ｔｅｘｔａｎａｌｙｚｉｎｇ）、音声生成（Ｓｐｅｅｃｈｇｅｎｅｒａｔｉｏｎ）などを含む。

例えば、機械学習（Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ、ＭＬ）に係ることができ、機械学習は、多領域の交差学科であり、確率論、統計学、近似論、凸解析、アルゴリズム複雑度理論などの複数の学科に関連している。コンピュータがどのようにヒトの学習行動をシミュレートしたり、実現したりするかを専門的に研究し、新しい知識又はスキルを獲得し、既存の知識構造を再組織して自体の性能を改善する。機械学習は、
1632461396376_0
のコアであり、コンピュータに知能を持たせる根本的なルートであり、人工知能の各分野に適用されている。機械学習は、通常、深層学習（ＤｅｅｐＬｅａｒｎｉｎｇ）などの技術を含み、学習深層は、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）、サイクルニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）、深層ニューラルネットワーク（Ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ、ＤＮＮ）などの人工ニューラルネットワーク（ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）を含む。

例えば、コンピュータ視覚（ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ）のビデオ処理（ｖｉｄｅｏｐｒｏｃｅｓｓｉｎｇ）、ビデオセマンティクス解析（ｖｉｄｅｏｓｅｍａｎｔｉｃｕｎｄｅｒｓｔａｎｄｉｎｇ、ＶＳＵ）、顔識別（ｆａｃｅｒｅｃｏｇｎｉｔｉｏｎ）などに係ることができる。ビデオセマンティクス解析は、ターゲット識別（ｔａｒｇｅｔｒｅｃｏｇｎｉｔｉｏｎ）、ターゲット検出／測位（ｔａｒｇｅｔｄｅｔｅｃｔｉｏｎ／ｌｏｃａｌｉｚａｔｉｏｎ）などを含み、顔識別は、顔の３Ｄ再作成（Ｆａｃｅ３ＤＲｅｃｏｎｓｔｒｕｃｔｉｏｎ）、顔検出（ＦａｃｅＤｅｔｅｃｔｉｏｎ）、顔追跡（ＦａｃｅＴｒａｃｋｉｎｇ）などを含む。

本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法は、アニメキャラクターを駆動する能力を具備したオーディオ・ビデオ処理機器に適用され、このオーディオ・ビデオ処理機器は、端末機器であってもよいし、サーバであってもよい。

このオーディオ・ビデオ処理機器は、音声技術を実施する能力を有し、オーディオ・ビデオ処理機器が聴いたり、見たり、感覚したりできるようにすることは、将来のヒューマンコンピュータインタラクションの発展方向であり、そのうち、音声は、将来最も有望なヒューマンコンピュータインタラクション方式の１つになる。

本出願の実施例では、オーディオ・ビデオ処理機器は、上記コンピュータ視覚技術を実施することで、メディアデータ中の話者に対応する第１アニメキャラクターの第１表情ベースを決定し、音声技術及び機械学習によって、ターゲットテキスト情報及びメディアデータに基づいて、対応するターゲットテキスト情報の音響的特徴及びターゲット表情パラメータを決定し、さらに音響的特徴及びターゲット表情パラメータを用い、第２表情ベースを有する第２アニメキャラクターを駆動する。

オーディオ・ビデオ処理機器が端末機器であれば、端末機器は、知能端末、コンピュータ、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡと略称）、タブレットＰＣなどであってもよい。

このオーディオ・ビデオ処理機器がサーバであれば、サーバは、独立したサーバであってもよいし、クラスターサーバであってもよい。サーバがこの方法を施す場合、端末機器は、話者の顔表情及び対応する音声を含むメディアデータをサーバにアップロードし、サーバは、音響的特徴及びターゲット表情パラメータを決定し、この音響的特徴及びターゲット表情パラメータを用いて端末機器における第２アニメキャラクターを駆動する。

本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法は、アニメキャラクターが適用される様々な適用シーン、例えば、ニュース放送、天気予報、ゲーム解説及びゲームシーン（ユーザが自分の顔の形と同じゲームキャラクターなどを作成できる）に適用することができ、さらに、アニメキャラクターがプライベートサービス（例えば、心理医師、仮想アシスタントなどの個人向けの１対１のサービス）を行う適用シーンにも適用することができることが理解され得る。これらのシーンでは、本出願の実施例に係る方法を用い、アニメキャラクターの駆動を実現することができる。

本出願の技術案を理解しやすくするために、以下、実際の適用シーンを用い、本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法について説明する。

図１を参照すると、図１は、本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法の適用シーンの模式図である。この適用シーンでは、オーディオ・ビデオ処理機器が端末機器であることを例として説明し、この適用シーンは、話者の顔表情及び対応する音声を含むメディアデータを取得できる端末機器１０１を含む。このメディアデータは、１つであってもよいし、複数であってもよい。メディアデータは、ビデオであってもよいし、ビデオ及びオーディオであってもよい。メディアデータ中の音声に含まれる文字に対応する言語は、中国語、英語、韓国語などの様々な言語であってもよい。

顔表情は、話者が音声を発するときの顔部の動作であり得、例えば、口の形、眼球の動作、眉の動作などを含むことができ、ビデオ視聴者が話者の顔表情から感じられるメディアデータ中の音声は、この話者が話したものである。

端末機器１０１は、顔表情に基づいて話者に対応する第１アニメキャラクターの第１表情ベースを決定し、第１表情ベースは、第１アニメキャラクターの異なる表情を識別するものである。

端末機器１０１は、第２アニメキャラクターを駆動するためのターゲットテキスト情報を決定した後に、ターゲットテキスト情報、前記収集されたメディアデータ及び第１表情ベースに基づいて、対応するターゲットテキスト情報の音響的特徴及びターゲット表情パラメータを決定することができる。表情パラメータ及びこの後に係る可能性がある顔カスタマイズパラメータの表現形式は、係数であってもよく、例えば、ある次元のベクトルであってもよい。

メディアデータ中の音声と顔表情とは、同期し、音響的特徴とターゲット表情パラメータは、いずれも、メディアデータに基づいて得られるものであり、同じ時間軸に対応するため、音響的特徴により識別される声と、ターゲット表情パラメータにより識別される表情とは、同じ時間軸において同期して変化する。生成された音響的特徴は、時間軸に関連する配列であり、ターゲット表情パラメータは、同じ時間軸に関連する配列であり、両者は、テキスト情報の変化に応じて調整することができる。どのように調整しても、音響的特徴は、上記メディアデータ中の話者をシミュレートしてターゲットテキスト情報を話す声を識別するものであり、ターゲット表情パラメータは、上記メディアデータ中の話者をシミュレートしてターゲットテキスト情報を話す顔表情の、前記第１表情ベースに対する変化程度を識別するものである。

そして、端末機器１０１は、音響的特徴及びターゲット表情パラメータによって、第２表情ベースを有する第２アニメキャラクターを駆動することで、第２アニメキャラクターは、音響的特徴によって、話者がターゲットテキスト情報を話す声をシミュレートして発するとともに、発声中にこの話者に該当する表情の顔表情を行う。第２アニメキャラクターは、１アニメキャラクターと同一のアニメキャラクターであってもよいし、第１アニメキャラクターと異なるアニメキャラクターであってもよいが、本出願の実施例では、これについて限定しない。

次に、図面を用い、本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法について詳細に説明する。図２を参照すると、前記方法は、Ｓ２０１～Ｓ２０４を含む。

Ｓ２０１において、話者の顔表情及び対応する音声を含むメディアデータを取得する。

顔表情及び対応する音声を含むメディアデータは、カメラを有する録音環境で、話者が話した音声を録音し、話者に対応する顔表情をカメラにより撮影することで得られる。

カメラにより収集されたビデオが話者の顔表情及び対応する音声の両方を含む場合、メディアデータは、このビデオであり、カメラにより収集されたビデオが話者の顔表情を含むが、音声が録音機器などの他の機器により収集される場合、メディアデータは、ビデオ及びオーディオを含み、この場合、このビデオとオーディオは、同期して収集され、ビデオは、話者の顔表情を含み、オーディオは、話者の音声を含む。

なお、本出願の実施例に係る方法は、アニメキャラクター駆動システムにより実現されてもよく、このシステムは、図３に示すように、データ収集モジュール、顔モデリングモジュール、音響的特徴及び表情パラメータ決定モジュール、及びアニメーション駆動モジュールの４つの部分を主に含む。データ収集モジュールは、Ｓ２０１を実行し、顔モデリングモジュールは、Ｓ２０２を実行し、音響的特徴及び表情パラメータ決定モジュールは、Ｓ２０３を実行し、アニメーション駆動モジュールは、Ｓ２０４を実行する。

話者の顔表情及び対応する音声を含むメディアデータは、データ収集モジュールにより得られる。このデータ収集モジュールは、多くのオプションがある。このデータ収集モジュールは、専門機器によって、話者の音声及び顔表情を含むメディアデータを収集し、例えば、動作キャプチャーシステム、顔表情キャプチャーシステムなどの専門機器を用いて、顔の動作、表情、口の形などの話者の顔表情をキャプチャーし、専門の録音機器を使用して話者の音声を録音し、異なる機器の間は、同期信号でトリガーされ、音声と顔表情とのデータ同期などを実現する。

もちろん、専門機器は、高いキャプチャーシステムを用いることに限られず、多視点の超高精細機器であってもよく、多視点の超高精細機器によって、話者の音声及び顔表情を含むビデオを収集する。

このデータ収集モジュールは、さらに、複数のカメラが囲むことで、話者の音声及び顔表情を含むメディアデータを収集してもよい。１つの可能な実施形態では、３つ、５つ、より多くの超高精細カメラを選択し、正面が話者を囲んで撮影する。収集環境では、安定した環境光が必要とされ、話者が特定の服を着ることが要求されない。図４を参照すると、図４は、３つの超高精細カメラを例とし、上方の破線矢印は、安定した光照を表し、左側の３つの矢印は、超高精細カメラの視点と話者との関係を表し、それにより、話者の音声及び顔表情を含むメディアデータを収集する。この場合、超高精細カメラによって収集されたビデオは、音声及び顔表情の両方を含むことができ、すなわち、メディアデータは、ビデオである。

なお、メディアデータを収集するとき、顔表情の収集用のセンサによって、収集されたメディアデータの表現形式も異なる。一部の場合では、赤・青・緑・深度（ＲｅｄＧｒｅｅｎＢｌｕｅＤｅｅｐ、ＲＧＢＤ）センサで話者を撮影し、顔モデルの作成を実現する。ＲＧＢＤセンサは、深度情報を収集し、話者の三次元再作成結果を得ることができ、従って、メディアデータは、話者に対応する顔の静的モデリング、すなわち、三次元（３Ｄｉｍｅｎｓｉｏｎｓ、３Ｄ）データを含む。他の場合では、ＲＧＢＤセンサがなく、二次元センサを用いて話者を撮影すると、話者の三次元再作成結果がなく、メディアデータは、話者に対応するビデオフレーム、すなわち、二次元（２Ｄｉｍｅｎｓｉｏｎｓ、２Ｄ）データを含む。

Ｓ２０２において、顔表情に基づいてこの話者に対応する第１アニメキャラクターの第１表情ベースを決定する。

上記メディアデータが取得されると、図３における顔モデリングモジュールによって、話者の顔をモデリングし、それにより、話者に対応する第１アニメキャラクターの第１表情ベースを得ることができ、この第１表情ベースは、前記第１アニメキャラクターの表情を識別するものである。

顔モデリングを行う目的は、コンピュータが、収集された対象、例えば、前記した話者（収集された対象の形状、テクスチャなどを含む）を理解して記憶できるようにすることである。顔モデリングを行う方式は、複数種あり、主にハードウェア、手動、ソフトウェアの３つの形態で実現される。ハードウェア形態の実現は、３Ｄスキャナなどの専門機器を用いて話者に対して高精度走査を行い、得られた顔モデルに対して手動で／自動的にデータを整理することであり、手動形態の実現は、美術デザイナーがデータを手動で設計し、整理し、調整することであり、ソフトウェア形態の実現は、パラメータ化された顔カスタマイズアルゴリズムを用いて話者の顔モデルを自動的に生成することである。

表情のパラメータ化も、同様に、ハードウェア、手動、ソフトウェアの３つの形態で実現することができる。例えば、専門の顔走査機器を用い、表情ありの話者を走査した後、自動的に現在の表情に対するパラメータ化記述を提供し、この記述は、走査機器にカスタマイズされた表情の記述に関連している。美術デザイナーが表情パラメータを手動で調整する場合、一般的に、表情タイプ及び対応する顔のパラメータ化、例えば、口の開度、顔の筋肉の動き幅を予め定義する必要がある。ソフトウェアで表情のパラメータ化を実現する場合、一般的に、顔の異なる表情に対する数学的記述を定義する必要があり、例えば、大量の実際の顔データを、主成分解析方法（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ、ＰＣＡ）で解析し、各表情の平均顔に対する変化程度を表す数字記述を得る。

本実施例では、主に、ソフトウェアに基づく顔モデリング及び表情のパラメータ化について説明する。この場合、顔の異なる表情に対する数学的記述は、モデルライブラリによって定義されてもよい。本出願の実施例のアニメキャラクター（例えば、第１アニメキャラクター及び後続の第２アニメキャラクター）は、モデルライブラリにおけるモデルであってもよし、モデルライブラリにおけるモデルの線形を組み合わせて得られてもよい。このモデルライブラリは、三次元顔変形モデル（３ＤＭＭ）ライブラリであってもよいし、他のモデルライブラリであってもよいが、本実施形態では、これについて限定しない。アニメキャラクターは、３Ｄメッシュであってもよい。

３ＤＭＭライブラリを例とすると、３ＤＭＭライブラリは、大量の高精度な顔データを主成分解析方法で処理して得られるものであり、高次元の顔の形及び表情の平均顔に対する主要な変化を記述し、テクスチャ情報も記述するものである。

一般的には、３ＤＭＭライブラリが無表情の顔の形を記述するものである場合、ｍｕ＋Σ（Ｐｆａｃｅ_ｉ－ｍｕ）＊α_ｉにより得ることができる。式中、ｍｕは、自然表情での平均顔、Ｐｆａｃｅ_ｉは、ｉ番目の顔の形の主成分、α_ｉは、各顔の形の主成分の加重、すなわち、顔カスタマイズパラメータである。

３ＤＭＭライブラリにおけるアニメキャラクターに対応するメッシュをＭで表し、すなわち、Ｍが３ＤＭＭライブラリにおける顔の形と、表情と、頂点との関係を表すものとする。Ｍは、［ｍ×ｎ×ｄ］の三次元行列であり、次元の各々は、それぞれメッシュの頂点座標（ｍ）、顔の形の主成分（ｎ）、表情主成分（ｄ）である。３ＤＭＭライブラリのＭの各次元の分布及び意味は、図５に示され、各座標軸は、それぞれ、頂点座標（ｍ）、顔の形の主成分（ｎ）、表情主成分（ｄ）を表す。ｍは、ｘｙｚの３つの座標の値を表し、従って、メッシュの頂点の数は、ｍ／３であり、ｖとする。アニメキャラクターの顔の形又は表情が決定されると、Ｍは、二次元行列であり得る。

本出願の実施例では、３ＤＭＭライブラリにおけるテクスチャ次元を考慮せず、アニメキャラクターの駆動をＦとすると、

式において、Ｍは、アニメキャラクターのメッシュであり、αは、顔カスタマイズパラメータであり、βは、表情パラメータであり、ｎは、顔カスタマイズベースにおける顔カスタマイズメッシュの数であり、ｄは、表情ベースにおける表情メッシュの数であり、Ｍ_ｋ,ｊ,ｉは、ｉ番目の表情メッシュ、ｊ番目の顔カスタマイズメッシュを有するｋ番目のメッシュであり、α_ｊは、１組の顔カスタマイズパラメータ中のｊ番目の次元であり、ｊ番目の顔の形の主成分の加重を表し、β_ｉは、１組の表情パラメータ中のｉ番目の次元であり、ｉ番目の表情主成分の加重を表す。

顔カスタマイズパラメータを決定するプロセスは、顔カスタマイズアルゴリズムであり、表情パラメータを決定するプロセスは、表情カスタマイズアルゴリズムである。顔カスタマイズパラメータを顔カスタマイズベースと線形組み合わせて対応する顔の形を得、例えば、５０個の顔カスタマイズメッシュ（変形可能なメッシュに属し、例えば、ｂｌｅｎｄｓｈａｐｅ）を含む顔カスタマイズベースが存在し、この顔カスタマイズベースに対応する顔カスタマイズパラメータは、５０次元のベクトルであり、次元の各々は、この顔カスタマイズパラメータに対応する顔の形と１つの顔カスタマイズメッシュとの関連度を識別するものである。顔カスタマイズベースに含まれる顔カスタマイズメッシュは、それぞれ、異なる顔の形を表し、各顔カスタマイズメッシュは、いずれも平均顔に対して大きく変化した顔キャラクターであり、大量の顔をＰＣＡ解析して得られた異なる次元の顔の形の主成分であり、且つ同じ顔カスタマイズベースにおける異なる顔カスタマイズメッシュに対応する頂点番号が一致する。

表情パラメータを表情ベースと線形組み合わせして対応する表情を得、例えば、５０個（次元が５０であることに相当）の表情メッシュ（変形可能なメッシュに属し、例えば、ｂｌｅｎｄｓｈａｐｅ）を含む表情ベースが存在し、この表情ベースに対応する表情パラメータは、５０次元のベクトルであり、次元の各々は、この表情パラメータに対応する表情と１つの表情メッシュとの関連度を識別するものである。表情ベースに含まれる表情メッシュは、それぞれ、異なる表情を表し、各表情メッシュは、いずれも同じ３Ｄモデルが異なる表情で変化してなり、同じ表情ベースにおける異なる表情メッシュに対応する頂点番号が一致する。

単一の前記変形可能なメッシュを予め設定された形状に変形させ、任意の数のメッシュを得ることができる。

上記式（１）を組み合わせ、話者に対応する第１アニメキャラクターの第１表情ベースを得ることができ、後続の第２アニメキャラクターの駆動に用いる。

Ｓ２０３において、ターゲットテキスト情報、このメディアデータ及び第１表情ベースに基づいて対応するターゲットテキスト情報の音響的特徴及びターゲット表情パラメータを決定する。

図３における音響的特徴及び表情パラメータ決定モジュールによって、対応するターゲットテキスト情報の音響的特徴及びターゲット表情パラメータを決定することができる。音響的特徴は、話者をシミュレートしてターゲットテキスト情報を話す声を識別するものであり、ターゲット表情パラメータは、話者をシミュレートしてターゲットテキスト情報を話す顔表情の、第１表情ベースに対する変化程度を識別するものである。

ターゲットテキスト情報の取得方式は、複数種があり、例えば、ターゲットテキスト情報は、ユーザによって端末機器を介して入力したものであってもよいし、端末機器に入力された音声に応じて変換して得られたものであってもよいことが理解され得る。

Ｓ２０４において、音響的特徴及びターゲット表情パラメータに基づいて、第２表情ベースを有する第２アニメキャラクターを駆動する。

図３におけるアニメーション駆動モジュールによって、ターゲット表情パラメータにより識別される表情を音響的特徴により識別される音声と組み合わせ、ヒトが直感的に理解できるように、複数種の感覚で表現する。１つの実現可能な方式は、ターゲット表情パラメータが第２表情ベースにおける各表情メッシュの加重を表すものとし、第２表情ベースを重み付けと線形組み合わせ、対応する表情を取得できることである。音声を発すると同時に、レンダリング方法によって、この音声に対応する表情の第２アニメキャラクターをレンダリングし、それにより、第２アニメキャラクターを駆動する。

上記技術案から分かるように、話者が音声を発するときの顔表情の変化のビデオを収集することによって、話者に対応する第１アニメキャラクターの第１表情ベースを決定することができ、第１表情ベースは、第１アニメキャラクターの異なる表情を表すことができる。第２アニメキャラクターを駆動するためのターゲットテキスト情報を決定した後に、ターゲットテキスト情報、前記収集されたメディアデータ及び第１表情ベースに基づいて、対応するターゲットテキスト情報の音響的特徴及びターゲット表情パラメータを決定することができ、この音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、このターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第１表情ベースに対する変化程度を識別するものである。音響的特徴及びターゲット表情パラメータによって、第２表情ベースを有する第２アニメキャラクターを駆動でき、それにより、第２アニメキャラクターは、音響的特徴によって、話者がターゲットテキスト情報を話す声をシミュレートして発するとともに、発声中にこの話者に該当する表情の顔表情を行い、リアルな臨場感及び没入感をユーザにもたらし、ユーザとアニメキャラクターのインタラクション体験を向上させることができる。

なお、Ｓ２０３の実施形態は、複数種あり、本出願の実施例では、１つの実施形態に重点をおいて説明する。

１つの可能な実施形態では、Ｓ２０３の実施形態は、ターゲットテキスト情報及びメディアデータに基づいて、対応するターゲットテキスト情報の音響的特徴及び表情特徴を決定することである。この音響的特徴は、話者をシミュレートしてターゲットテキスト情報を話す声を識別するものであり、この表情特徴は、話者をシミュレートして前記ターゲットテキスト情報を話す顔表情を識別するものである。次に、第１表情ベース及び表情特徴に基づいてターゲット表情パラメータを決定する。

メディアデータには、話者の顔表情と音声が同期して記録され、すなわち、メディアデータ中の話者の顔表情と音声は、同じ時間軸に対応する。従って、大量のメディアデータを訓練データとしてオンラインで予め収集し、これらのメディアデータからテキスト特徴、音響的特徴及び表情特徴を抽出し、これらの特徴に基づいて訓練して時間モデル、音響モデル、表情モデルを得る。話者の顔表情及び対応する音声を含むメディアデータをオンラインで取得するとき、時間モデルを用いてターゲットテキスト情報に対応する時間を決定し、時間をターゲットテキスト情報に対応するテキスト特徴と組み合わせ、それぞれ音響モデル及び表情モデルによって、対応する音響的特徴及び表情特徴を決定する。音響的特徴及び表情特徴は、いずれも、同じ時間モデルで得られた時間に基づくため、音声と表情を同期させることが容易であり、それにより、第２アニメキャラクターは、話者をシミュレートしてターゲットテキスト情報に対応する音声を発すると同時に、話者をシミュレートして対応する表情を行う。

次に、Ｓ２０４の可能な実施形態について説明する。本実施例では、第２アニメキャラクターは、第１アニメキャラクターと同一のアニメキャラクターであってもよいし、第１アニメキャラクターと異なるアニメキャラクターであってもよいことが理解され得る。この２つの場合では、Ｓ２０４の実施形態は、異なる可能性がある。

第１場合では、第１アニメキャラクターと第２アニメキャラクターは、同じアニメキャラクターである。

この場合、駆動すべきアニメキャラクターは、第１アニメキャラクターである。第１アニメキャラクターを駆動するために、第１表情ベースを決定する必要があるほか、第１アニメキャラクターの顔カスタマイズパラメータを決定し、第１アニメキャラクターの顔の形を得る必要もある。従って、Ｓ２０２では、顔表情に基づいて第１アニメキャラクターの第１表情ベース及び第１アニメキャラクターの顔カスタマイズパラメータを決定することができ、この顔カスタマイズパラメータは、第１アニメキャラクターの顔の形の、第１アニメキャラクターに対応する顔カスタマイズベースに対する変化程度を識別するものである。

第１アニメキャラクターの第１表情ベース及び第１アニメキャラクターの顔カスタマイズパラメータを決定する方式は、複数種ある。一部の場合では、メディアデータに基づいて顔カスタマイズパラメータを決定して顔モデルを作成するとき、収集されたメディアデータは、精度が高くなく、ノイズが大きいことが多いため、作成された顔モデルは、品質が高くなく、不確定性が多く、作成すべき対象の実際の外観を正確に表現することが困難である。例えば、収集が基準を満たさないため、モデリング品質が低く、再作成が環境光、ユーザのマイクなどの影響を受け、再作成された顔モデルは、表情を含むが、自然状態ではなく、作成された顔モデルは、表情パラメータを抽出しようとするビデオなどに適用できない。これらの問題を解決するために、図６に示すように、本出願の実施例は、顔カスタマイズパラメータの決定方法を提供する。

図６では、取得されたメディアデータが複数組の顔の頂点データを含むと、第１頂点データ、及び３ＤＭＭライブラリにおける、ターゲット顔モデルを識別するターゲット頂点データに基づいて、初期顔カスタマイズパラメータを決定することができる。初期顔カスタマイズパラメータを決定した上で、メディアデータ中の第２頂点データを取得し、初期顔カスタマイズパラメータ及びターゲット頂点データに基づいて表情パラメータを決定し、そして、この表情パラメータを固定化し、顔カスタマイズパラメータを逆算し、又は、如何に顔の形を変化させ、この表情パラメータでの話者の顔キャラクターを得るかを逆算し、すなわち、固定化された表情から顔の形を逆算することで、初期顔カスタマイズパラメータを修正し、ターゲット顔カスタマイズパラメータを得、それにより、このターゲット顔カスタマイズパラメータを第１アニメキャラクターの顔カスタマイズパラメータとする。

第２頂点データ及び第１頂点データは、それぞれ作成すべき対象の異なる顔キャラクターを識別するものである。従って、第２頂点データ及び第１頂点データは、完全に同じ不確定性からの影響を受ける確率が低く、第１頂点データによって初期顔カスタマイズパラメータを決定した上で、第２頂点データによって修正されたターゲット顔カスタマイズパラメータは、第１頂点データ中のノイズをある程度相殺することができ、ターゲット顔カスタマイズパラメータによって決定された話者に対応する顔モデルの精度が高い。

第１表情ベースと第２表情ベースは同じであり、すなわち、両者の次元及び各次元のセマンティクス情報は同じであり、決定されたターゲット表情パラメータは、第２アニメキャラクターを直接駆動することができ、従って、Ｓ２０４で第２アニメキャラクターを駆動する方式は、音響的特徴、ターゲット表情パラメータ及び顔カスタマイズパラメータに基づいて、第２表情ベースを有する第２アニメキャラクターを駆動することであり得る。

第２場合では、第１アニメキャラクターと第２アニメキャラクターは、異なるアニメキャラクターである。

この場合、第１表情ベースと第２表情ベースは異なり、すなわち、両者の次元及び各次元のセマンティクス情報は異なる。従って、直接ターゲット表情パラメータを用い第２表情ベースを有する第２アニメキャラクターを駆動することが困難である。第１アニメキャラクターに対応する表情パラメータと第２アニメキャラクターに対応する表情パラメータとは、マッピング関係を有すべきであり、第１アニメキャラクターに対応する表情パラメータと第２アニメキャラクターに対応する表情パラメータとのマッピング関係は、関数ｆ（）で表され、第１アニメキャラクターに対応する表情パラメータによって第２アニメキャラクターに対応する表情パラメータを計算する式は、以下のとおりである。

β^ｂ＝ｆ（β^ａ）（２）

式中、β^ｂは、第２アニメキャラクターに対応する表情パラメータであり、β^ａは、第１アニメキャラクターに対応する表情パラメータであり、ｆ（）は、第１アニメキャラクターに対応する表情パラメータと第２アニメキャラクターに対応する表情パラメータとのマッピング関係を表す。

従って、このマッピング関係を決定すれば、第１アニメキャラクター（例えば、アニメキャラクターａ）に対応する表情パラメータを用い第２アニメキャラクター（例えば、アニメキャラクターｂ）を直接駆動することができる。マッピング関係は、線形マッピング関係であってもよいし、非線形マッピング関係であってもよい。

ターゲット表情パラメータに基づいて第２表情ベースを有する第２アニメキャラクターを駆動することを実現するには、マッピング関係を決定する必要がある。マッピング関係の決定方式は、複数種あり、本実施例は、主に２つの決定方式について説明する。

第１決定方式は、第１アニメキャラクターに対応する第１表情ベース及び第２アニメキャラクターに対応する第２表情ベースに基づいて、表情パラメータのマッピング関係を決定することである。図７に示すように、第１アニメキャラクターに対応する実際の表情パラメータは、第１アニメキャラクターを駆動して実際の表情をさせることができ、この実際の表情パラメータは、この実際の表情とその表情ベースとの異なる次元での関連度を表すことができ、すなわち、第２アニメキャラクターに対応する実際の表情パラメータは、第２アニメキャラクターの実際の表情とその表情ベースとの異なる次元での関連度を表すことができる。従って、上記表情パラメータと表情ベースとの関連関係に基づいて、第１アニメキャラクターに対応する第１表情ベース及び第２アニメキャラクターに対応する第２表情ベースに基づいて、表情パラメータ間のマッピング関係を決定することができる。次に、音響的特徴、ターゲット表情パラメータ及びこのマッピング関係に基づいて、第２表情ベースを有する第２アニメキャラクターを駆動する。

第２決定方式は、音素と第２表情ベースとの所定関係に基づいて表情パラメータのマッピング関係を決定することである。

音素は、音声の自然属性に基づいて
1632461396376_1
された最小の音声単位であり、音節の発音動作に応じて解析し、１つの動作（例えば、口の形）が１つの音素を構成する。つまり、音素は、話者と関係ない。話者が誰であっても、音声が英語又は中国語であっても、音素に対応するテキストが同じであっても、音声中の１つの時間区間内の音素が同じである限り、口の形などの対応する表情が一致性を有する。図８を参照すると、図８は、時間区間と音素との対応関係を示し、１つの音声のうち、どの時間区間がどの音素に対応するかを記述する。例えば、２行目の「５６５００００」及び「６３０００００」は、タイムスタンプを表し、５．６５秒～６．３秒の時間区間を表し、この時間区間内に話者が発した音素は、「ｕ」である。音素の統計方法は、唯一ではなく、本実施例では、３３個の中国語音素を例とする。

メディアデータ中、面部表情と音声とが同期して収集されるため、音声を区画することで、対応するビデオフレームを得ることが容易であり、すなわち、メディアデータに基づいて、音声により識別される音素、この音素に対応する時間区間及びメディアデータのこの時間区間でのビデオフレームを決定する。次に、このビデオフレームに応じて音素に対応する第１表情パラメータを決定し、第１表情パラメータは、この音素を発するとき、話者の顔表情の、第１表情ベースに対する変化程度を識別するものである。

例えば、図８の２行目に、音素「ｕ」に対応する時間区間が５．６５秒～６．３秒であり、時間区間の５．６５秒～６．３秒にあるビデオフレームを決定し、このビデオフレームに応じて音素「ｕ」に対応する第１表情パラメータを抽出する。第１アニメキャラクターがアニメキャラクターａであると、第１表情パラメータは、β^ａで表される。第１表情ベースの次元がｎ^ａであると、得られた第１表情パラメータβ^ａは、１組のｎ^ａ長さのベクトルである。

このマッピング関係の決定方式は、他のアニメキャラクターの表情ベース、例えば、第２アニメキャラクターに対応する第２表情ベースが音素との所定関係に基づいて生成されることを前提とし、所定関係は、１つの音素が１つの表情メッシュに対応することを表し、例えば、第２アニメキャラクターｂの場合、所定関係中の音素「ｕ」が第１表情メッシュに対応し、音素「ｉ」が第２表情メッシュに対応する…、音素の数がｎ^ｂ個であると、所定関係に基づいて、ｎ^ｂ個の表情メッシュを含む第２表情ベースを決定することができる。そうすると、音声により識別される音素を決定した後に、所定関係及び第２表情ベースに応じて、この音素に対応する第２表情パラメータを決定する。次に、第１表情パラメータ及び第２表情パラメータに基づいて、マッピング関係を決定する。

例えば、音声により識別される音素は、「ｕ」であり、第２表情ベース及び所定関係から、音素「ｕ」に対応する第１表情メッシュがわかり、第２表情パラメータがβ^ｂ＝［１０ ...０］であることを決定することができ、β^ｂは、ｎ^ｂ個の元素を含み、第１元素は、１であり、他のｎ^ｂ－１個の元素は、いずれも０である。

それにより、１組のβ^ｂとβ^ａのマッピング関係が作成されている。大量の第１表情パラメータβ^ａが得られると、対応する大量の第２表情パラメータβ^ｂが生成される。第１表情パラメータβ^ａ及び第２表情パラメータβ^ｂの数をそれぞれＬ個とすると、Ｌ個の第１表情パラメータβ^ａが第１行列を構成し、Ｌ個の第２表情パラメータβ^ｂが第２行列を構成し、それぞれβ^Ａ及びβ^Ｂとする。

β^Ａ＝［Ｌ×ｎ^ａ］、 β^Ｂ＝［Ｌ×ｎ^ｂ］（３）

本技術案は、第１表情パラメータと第２表情パラメータが線形マッピング関係を満たすことを例とし、上記式（２）は、式（４）に変形することができる。

β^ｂ＝ｆ＊β^ａ（４）

式（３）及び（４）に基づいて、マッピング関係の決定式は、式（５）であり得る。

ｆ＝β^Ｂ＊ｉｎｖ（β^Ａ）（５）

式中、ｆは、マッピング関係、β^Ａは、第１行列、β^Ｂは、第２行列、ｉｎｖは、反転計算である。

マッピング関係ｆが得られると、任意の１組の第１表情パラメータβ^ａに対して、対応するβ^ｂ＝ｆ＊β^ａを得ることができ、それにより、第１表情パラメータに基づいて第２表情パラメータを得ることで、第２アニメキャラクター、例えば、アニメキャラクターｂを駆動する。

前記実施例では、如何にテキスト情報に基づいてアニメキャラクターを駆動するかについて主に説明する。一部の場合、さらにメディアデータに基づいてアニメキャラクターを直接駆動してもよい。例えば、メディアデータ中の話者に対応する第１アニメキャラクターは、第１表情ベースを有し、第１表情ベースは、次元が第１次元、頂点トポロジーが第１頂点トポロジーであり、第１表情ベースは、Ｅａで表され、第１次元は、Ｎａで表され、第１頂点トポロジーは、Ｔａで表され、第１表情ベースＥａの形は、Ｆａであり、駆動対象の第２アニメキャラクターは、第２表情ベースを有し、第２表情ベースは、次元が第２次元、頂点トポロジーが第２頂点トポロジーであり、第２表情ベースは、Ｅｂで表され、第２次元は、Ｎｂで表され、第２頂点トポロジーは、Ｔｂで表され、第２表情ベースＥｂの形は、Ｆｂであり、この話者の顔表情及び音声を含むメディアデータによって第２アニメキャラクターを駆動することが好ましい。

よって、本出願の実施例は、人工知能に基づくアニメキャラクター駆動方法をさらに提供し、図９に示すように、前記方法は、Ｓ９０１～Ｓ９０５を含む。

Ｓ９０１において、話者の顔表情及び対応する音声を含む第１メディアデータを取得する。

Ｓ９０２において、顔表情に基づいて前記話者に対応する第１アニメキャラクターの第１表情ベースを決定する。

Ｓ９０３において、第１表情ベース及び駆動対象の第２アニメキャラクターの第２表情ベースに基づいて、ターゲット表情ベースを決定する。

本実施例では、第１表情ベースの次元と第２表情ベースの次元は異なり、メディアデータ中のこの話者の顔表情及び音声を用いて第２アニメキャラクターを駆動するために、新規表情ベース、例えば、ターゲット表情ベースを作成することによって、このターゲット表情ベースが第１表情ベースと第２表情ベースの両方の特徴を有するようにする。

１つの実施形態では、Ｓ９０３の実施形態は、第１表情ベースから第１アニメキャラクターが無表情にある時に対応する無表情メッシュを決定し、第２表情ベースから第２アニメキャラクターが無表情にある時に対応する無表情メッシュを決定することである。第１キャラクターに対応する無表情メッシュ及び第２キャラクターに対応する無表情メッシュに応じて、調整メッシュを決定し、この調整メッシュは、第２頂点トポロジーを有し、無表情にある時の第１アニメキャラクターを識別するものである。調整メッシュと第２表情ベースにおけるメッシュの変形関係に基づいて、ターゲット表情ベースを生成する。

第１表情ベースがＥａであり、第１次元がＮａ、第１頂点トポロジーがＴａ、第１表情ベースＥａの形がＦａであり、第２表情ベースがＥｂ、第２次元がＮｂ、第２頂点トポロジーがＴｂ、第２表情ベースＥｂの形がＦｂである場合、この方法のフローチャートは、さらに、図１０ａを参照することができる。第１表情ベースＥａ及び第２表情ベースＥｂに応じて、ターゲット表情ベースＥｂ’を決定する。ターゲット表情ベースＥｂ’の決定方式は、第２表情ベースＥｂの無表情メッシュ及び第１表情ベースＥａの無表情メッシュを抽出することであり得る。ｎｒｉｃｐアルゴリズムなどの顔カスタマイズアルゴリズムによって、Ｅｂの無表情メッシュをＥａの無表情メッシュに貼り、Ｅｂの無表情メッシュは、頂点トポロジーＦｂを維持した上で、形を変え、Ｅａの形になり、調整メッシュを得、この調整メッシュをＮｅｗｂとする。そして、Ｎｅｗｂ及び第２表情ベースＥｂにおける各次元の表情の、自然表情（無表情）に対するメッシュの変形関係が知られているため、Ｎｅｗｂ及び第２表情ベースＥｂにおけるメッシュの変形関係に基づいて、Ｎｅｗｂから変形してターゲット表情ベースＥｂ’を形成することができる。ターゲット表情ベースＥｂ’は、形がＦａ、次元がＮｂ、頂点トポロジーがＴｂである。

Ｓ９０４において、前記話者の顔表情及び対応する音声を含む第２メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定する。

ターゲット表情ベースが得られると、図１０ａに示すように、この話者の顔表情及び対応する音声を含む第２メディアデータ及びこのターゲット表情ベースＥｂ’に応じて、音響的特徴を抽出し、表情カスタマイズアルゴリズムによってターゲット表情パラメータＢｂを得る。ターゲット表情パラメータは、話者が前記音声を発する顔表情の、ターゲット表情ベースに対する変化程度を識別するものである。

この方法で得られたターゲット表情パラメータ及び音響的特徴を用い、前記音響モデル、表情モデルを再訓練することができることが理解され得る。

Ｓ９０５において、ターゲット表情パラメータ及び音響的特徴に基づいて、第２表情ベースを有する前記第２アニメキャラクターを駆動する。

Ｓ９０１、Ｓ９０２及びＳ９０５の具体な実施形態については、それぞれ前記Ｓ２０１、Ｓ２０２及びＳ２０４の実施形態を参照でき、ここで繰り返し説明しない。

次に、実際の適用シーンを組み合わせて、本出願の実施例に係る人工知能に基づくアニメキャラクター駆動方法について説明する。

この適用シーンでは、第１アニメキャラクターが話者の外観をシミュレートして作成され、第２アニメキャラクターがゲームにおいてユーザとインタラクションするゲームキャラクターであるものとする。このゲームキャラクターは、入力されたターゲットテキスト情報によってユーザと対話するとき、このターゲットテキスト情報によって駆動されることで、話者をシミュレートしてターゲットテキスト情報に対応する音声を発し、対応する表情をする。従って、端末機器は、話者の顔表情及び対応する音声を含むメディアデータを取得し、顔表情に基づいてこの話者に対応する第１アニメキャラクターの第１表情ベースを決定する。続いて、ターゲットテキスト情報、メディアデータ及び第１表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定し、それにより、この音響的特徴及びターゲット表情パラメータに基づいて、第２表情ベースを有する第２アニメキャラクターを駆動することで、第２アニメキャラクターは、ターゲットテキスト情報に対応する音声を発し、対応する表情をする。このように、ユーザは、このゲームキャラクターが話者をシミュレートして音声を発し、対応する表情をすることを見ることができ、リアルな臨場感及び没入感をユーザにもたらし、ユーザとアニメキャラクターのインタラクション体験を向上させることができる。

前記実施例に係る方法に基づいて、本実施例は、オーディオ・ビデオ処理機器に配置されたアニメキャラクター駆動装置１０００をさらに提供する。図１０ｂを参照すると、前記装置１０００は、取得ユニット１００１、第１決定ユニット１００２、第２決定ユニット１００３及び駆動ユニット１００４を含み、
前記取得ユニット１００１は、話者の顔表情及び対応する音声を含むメディアデータを取得し、
前記第１決定ユニット１００２は、前記顔表情に基づいて前記話者に対応する第１アニメキャラクターの第１表情ベースを決定し、前記第１表情ベースは、前記第１アニメキャラクターの表情を識別するものであり、
前記第２決定ユニット１００３は、ターゲットテキスト情報、前記メディアデータ及び前記第１表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定し、前記音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、前記ターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第１表情ベースに対する変化程度を識別するものであり、
前記駆動ユニット１００４は、前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第２表情ベースを有する第２アニメキャラクターを駆動する。

１つの可能な実施形態では、前記第１アニメキャラクターと前記第２アニメキャラクターは同じアニメキャラクターであり、前記第１表情ベースと前記第２表情ベースは同じであり、前記第１決定ユニット１００２は、
前記顔表情に基づいて前記第１アニメキャラクターの第１表情ベース及び前記第１アニメキャラクターの顔カスタマイズパラメータを決定し、前記顔カスタマイズパラメータは、前記第１アニメキャラクターの顔の形の、前記第１アニメキャラクターに対応する顔カスタマイズベースに対する変化程度を識別するものであり、
前記駆動ユニット１００４は、
前記音響的特徴、前記ターゲット表情パラメータ及び前記顔カスタマイズパラメータに基づいて、前記第２アニメキャラクターを駆動する。

１つの可能な実施形態では、前記第１アニメキャラクターと前記第２アニメキャラクターは異なるアニメキャラクターであり、前記第１表情ベースと前記第２表情ベースは異なり、前記駆動ユニット１００４は、
前記第１表情ベースに対応する表情パラメータと前記第２表情ベースに対応する表情パラメータとのマッピング関係を決定し、
前記音響的特徴、前記ターゲット表情パラメータ及び前記マッピング関係に基づいて、前記第２アニメキャラクターを駆動する。

１つの可能な実施形態では、前記第２表情ベースは、前記第２表情ベースと音素との所定関係に基づいて生成されたものであり、前記駆動ユニット１００４は、さらに、
前記メディアデータに基づいて、前記音声により識別される音素、前記音素に対応する時間区間及び前記メディアデータの前記時間区間でのビデオフレームを決定し、
前記ビデオフレームに応じて前記音素に対応する第１表情パラメータを決定し、前記第１表情パラメータが、前記音素を発する時の前記話者の顔表情の、前記第１表情ベースに対する変化程度を識別するものであり、
前記所定関係及び前記第２表情ベースに基づいて、前記音素に対応する第２表情パラメータを決定し、
前記第１表情パラメータ及び前記第２表情パラメータに基づいて、前記マッピング関係を決定する。

１つの可能な実施形態では、前記第２決定ユニット１００３は、
前記ターゲットテキスト情報及び前記メディアデータに基づいて、対応する前記ターゲットテキスト情報の音響的特徴及び表情特徴を決定し、前記表情特徴が、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情を識別するものであり、
前記第１表情ベース及び前記表情特徴に基づいて前記ターゲット表情パラメータを決定する。

本実施例は、オーディオ・ビデオ処理機器に配置されたアニメキャラクター駆動装置１１００をさらに提供する。図１１を参照すると、前記装置１１００は、取得ユニット１１０１、第１決定ユニット１１０２、第２決定ユニット１１０３、第３決定ユニット１１０４及び駆動ユニット１１０５を含み、
前記取得ユニット１１０１は、話者の顔表情及び対応する音声を含む第１メディアデータを取得し、
前記第１決定ユニット１１０２は、前記顔表情に基づいて前記話者に対応する第１アニメキャラクターの第１表情ベースを決定し、前記第１表情ベースは、前記第１アニメキャラクターの表情を識別するものであり、前記第１表情ベースは、次元が第１次元であり、頂点トポロジーが第１頂点トポロジーである、
前記第２決定ユニット１１０３は、前記第１表情ベース及び駆動対象の第２アニメキャラクターの第２表情ベースに基づいて、ターゲット表情ベースを決定し、前記第２表情ベースは、次元が第２次元であり、頂点トポロジーが第２頂点トポロジーであり、前記ターゲット表情ベースは、第２頂点トポロジーを有する第１アニメキャラクターに対応する表情ベースであり、前記ターゲット表情ベースの次元が第２次元であり、
前記第３決定ユニット１１０４は、前記話者の顔表情及び対応する音声を含む第２メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定し、前記ターゲット表情パラメータは、前記話者が前記音声を発する顔表情の前記ターゲット表情ベースに対する変化程度を識別するものであり、
前記駆動ユニット１１０５は、前記ターゲット表情パラメータ及び音響的特徴に基づいて、前記第２表情ベースを有する前記第２アニメキャラクターを駆動する。

１つの可能な実施形態では、前記第２決定ユニット１１０３は、前記第１表情ベースから前記第１アニメキャラクターが無表情にある時に対応する無表情メッシュを決定し、前記第２表情ベースから前記第２アニメキャラクターが無表情にある時に対応する無表情メッシュを決定し、
前記第１アニメキャラクターに対応する無表情メッシュ及び前記第２アニメキャラクターに対応する無表情メッシュに応じて、調整メッシュを決定し、前記調整メッシュが、第２頂点トポロジーを有し、無表情にある時の第１アニメキャラクターを識別し、
前記調整メッシュと前記第２表情ベースにおけるメッシュの変形関係に基づいて、前記ターゲット表情ベースを生成する。

本出願の実施例は、アニメキャラクターを駆動するための機器をさらに提供し、この機器は、音声によってアニメーションを駆動することができ、この機器は、オーディオ・ビデオ処理機器であり得る。以下、図面を参照してこの機器について説明する。図１２に示すように、本出願の実施例は、アニメキャラクターを駆動するための機器を提供し、この機器は、さらに、端末機器であり得、この端末機器は、携帯電話、タブレットＰＣ、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡと略称）、販売端末（ＰｏｉｎｔｏｆＳａｌｅｓ、と略称ＰＯＳ）、車載コンピュータなどの任意の知能端末であり得、端末機器が携帯電話であることを例とする。

図１２は、本出願の実施例に係る端末機器に関連する携帯電話の一部の構造のブロック図を示す。図１２を参照すると、携帯電話は、高周波（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ、ＲＦと略称）回路１２１０、メモリ１２２０、入力ユニット１２３０、表示ユニット１２４０、センサ１２５０、オーディオ回路１２６０、ワイヤレス・フィデリティー（ｗｉｒｅｌｅｓｓｆｉｄｅｌｉｔｙ、ＷｉＦｉと略称）モジュール１２７０、プロセッサ１２８０、及び電源１２９０などの部材を含む。当業者であれば理解できるように、図１２ｂに示す携帯電話の構造は、携帯電話を限定するものではなく、図示より多く又は少ない部材を備え、又はいくつかの部材を組み合わせ、又は異なる部材を配置してもよい。

以下、図１２を参照しながら携帯電話の各構成部材について具体的に説明する。

ＲＦ回路１２１０は、情報を受送信し、又は、通話中に信号を受送信し、特に、基地局の下りリンク情報を受信し、プロセッサ１２８０に処理させ、また、設定された上りリンクデータを基地局に送信する。通常、ＲＦ回路１２１０は、アンテナ、少なくとも１つの増幅器、受送信器、カプラー、低雑音増幅装置（ＬｏｗＮｏｉｓｅＡｍｐｌｉｆｉｅｒ、ＬＮＡと略称）、ダイプレクサなどを含むがこれらに限られない。また、ＲＦ回路１２１０は、さらに無線通信を介してネットワーク及び他の機器と通信することができる。上記無線通信は、任意の通信基準又はプロトコルを用いることができ、グローバルモバイル通信システム（ＧｌｏｂａｌＳｙｓｔｅｍｏｆＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ、ＧＳＭと略称）、汎用パケット無線サービス（ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ、ＧＰＲＳと略称）、符号分割多元接続（ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ、ＣＤＭＡと略称）、広帯域符号分割多元接続（ＷｉｄｅｂａｎｄＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ、ＷＣＤＭＡ（登録商標）と略称）、ロングタームエボリューション（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ、ＬＴＥと略称）、電子メール、メッセージサービス（ＳｈｏｒｔＭｅｓｓａｇｉｎｇＳｅｒｖｉｃｅ、ＳＭＳと略称）などを含むがこれらに限られない。

メモリ１２２０は、ソフトウェアプログラム及びモジュールを記憶することができ、プロセッサ１２８０は、メモリ１２２０に記憶されたソフトウェアプログラム及びモジュールを実行することによって、携帯電話の様々な機能アプリケーション及びデータ処理を実行する。メモリ１２２０は、主に、プログラム記憶エリアおよびデータ記憶エリアを含み得る。プログラム記憶エリアは、オペレーティングシステム、少なくとも１つの機能によって要求されるアプリケーションプログラム（例えば、声再生機能、画像再生機能など）などを記憶し、データ記憶エリアは、携帯電話の使用に応じて作成されたデータ（例えば、オーディオデータ、電話帳）などを記憶し得る。また、メモリ１２２０は、高速ランダムアクセスメモリを含んでもよく、少なくとも１つの磁気ディスクメモリおよびフラッシュメモリのような不揮発性メモリ、または、他の揮発性ソリッドステートメモリを含み得る。

入力ユニット１２３０は、入力された数字又は文字情報を受信し、及び携帯電話のユーザ設定及び機能制御に関連するキー信号の入力を生成するために使用される。具体的に、入力ユニット１２３０は、タッチパネル１２３１及び他の入力機器１２３２を備えてもよい。タッチパネル１２３１は、タッチパネルとも呼称され、その上又は付近でのユーザのタッチ操作（例えば、ユーザが指、タッチペンなどの任意の適切な物体又は部材を用いたタッチパネル１２３１の上又はタッチパネル１２３１の付近での操作）を収集することができ、予め設定されたプログラムに応じて対応する接続装置を駆動する。選択的には、タッチパネル１２３１は、タッチ検出装置及びタッチコントローラの２つの部分を含んでもよい。タッチ検出装置は、ユーザのタッチ方位を検出し、タッチ操作による信号を検出し、信号をタッチコントローラに転送し、タッチコントローラは、タッチ検出装置からタッチ情報を受信し、接点座標に変換し、プロセッサ１２８０に転送し、プロセッサ１２８０から送信されたコマンドを受信して実行することができる。また、タッチパネル１２３１は、抵抗式、容量型、赤外線及び表面音波などの複数種の種類で実現されてもよい。タッチパネル１２３１以外に、入力ユニット１２３０は、他の入力機器１２３２をさらに含んでもよい。具体的に、他の入力機器１２３２は、物理キーボード、機能キー（例えば、ボリューム制御ボタン、スイッチボタン等）、トラックボール、マウス、ジョイスティック等のうちの１つ又は複数を含むがこれらに限定されない。

表示ユニット１２４０は、ユーザにより入力された情報、ユーザに提供する情報又は携帯電話の様々なメニューを表示するために使用されることができる。表示ユニット１２４０は、ディスプレイパネル１２４１を備えてもよく、選択的に、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ，ＬＣＤと略称）、有機発光ダイオード（ＯｒｇａｎｉｃＬｉｇｈｔ－ＥｍｉｔｔｉｎｇＤｉｏｄｅ，ＯＬＥＤと略称）等の形態でディスプレイパネル１２４１を構成することができる。さらに、タッチパネル１２３１は、ディスプレイパネル１２４１に被覆されてもよく、タッチパネル１２３１は、その上又は付近のタッチ操作を検出すると、プロセッサ１２８０に転送してタッチイベントのタイプを決定し、そして、プロセッサ１２８０は、タッチイベントのタイプに応じてディスプレイパネル１２４１に対応する視覚出力を提供する。図１２では、タッチパネル１２３１とディスプレイパネル１２４１とは２つの独立した部品として携帯電話の入力及び入力機能を実現しているが、幾つかの実施例では、タッチパネル１２３１とディスプレイパネル１２４１とを統合して携帯電話の入力及び再生機能を実現することができる。

携帯電話はまた、光センサ、モーションセンサ及び他のセンサのような少なくとも１つのセンサ１２５０を備えてもよい。具体的に、光センサは、環境光センサ及び近接センサを含んでもよく、ここで、環境光センサは、環境光の明暗に応じてスクリーン１２４１の輝度を調整することができ、近接センサは、携帯電話が耳元まで移動したときに、ディスプレイパネル１２４１及び／又はバックライトをオフすることができる。モーションセンサの一種として、加速度計センサは、各方向（通常は３軸）の加速度の大きさを検出することができ、静止しているときに重力の大きさ及び方向を検出することができ、携帯電話の姿勢を認識するアプリケーション（例えば、縦／横画面の切り替え、関連ゲーム、磁力計の姿勢較正）、振動認識関連機能（例えば、歩数計、タッピング）等に使用されることができ、携帯電話にさらに構成されうるジャイロスコープ、気圧計、湿度計、温度計、赤外線センサ等の他のセンサについては、ここで詳細な説明を省略する。

オーディオ回路１２６０、スピーカー１２６１、マイクロホン１２６２は、ユーザと携帯電話との間のオーディオインターフェースを提供することができる。オーディオ回路１２６０は、受信されたオーディオデータの変換された電気信号を、スピーカー１２６１に伝送し、スピーカー１２６１により音声信号に変換して再生することができ、一方、マイクロホン１２６２は、収集された音声信号を電気信号に変換し、オーディオ回路１２６０により受信してからオーディオデータに変換し、オーディオデータをプロセッサ１２８０に出力して処理した後、ＲＦ回路１２１０を介して、例えば別の携帯電話に伝送し、又は、オーディオデータをメモリ１２２０で出力して、さらに処理する。

ＷｉＦｉは、近距離無線伝送技術に属し、携帯電話は、ＷｉＦｉモジュール１２７０を介して、ユーザの電子メールの送受信、ウェブページの閲覧及びストリーミングメディアのアクセス等を支援することができ、ユーザのために無線広帯域インターネットアクセスを提供した。図１２では、ＷｉＦｉモジュール１２７０を示しているが、それが携帯電話の必要な構成に属しておらず、発明の本質を変更しない範囲内で必要に応じて十分に省略できることを理解されたい。

プロセッサ１２８０は、携帯電話のコントロールセンターであり、様々なインターフェース及び回線を介して、携帯電話全体の各部分を接続し、メモリ１２２０に記憶されたソフトウェアプログラム及び／又はモジュールを運転又は実行し、メモリ１２２０に記憶されたデータを呼び出すことで、携帯電話の様々な機能及び処理データを実行し、それにより、携帯電話全体を監視する。任意選択的には、プロセッサ１２８０は、１つ又は複数の処理ユニットを含んでもよく、好適には、プロセッサ１２８０には、アプリケーションプロセッサ及び変復調プロセッサが集積されてもよく、アプリケーションプロセッサは、主にオペレーティングシステム、ユーザインターフェース及びアプリケーションプログラムなどを処理し、変復調プロセッサは、主に無線通信を処理する。上記変復調プロセッサは、プロセッサ１２８０に集積されなくてもよいことが理解され得る。

携帯電話は、各部材に給電する電源１２９０（例えば、電池）をさらに含み、好適には、電源は、電源管理システムを介してプロセッサ１２８０に論理的に接続され、それにより、電源管理システムによって、充電、放電の管理、及び電力消費の管理などの機能を実現する。

図示されていないが、携帯電話は、カメラ、ブルートゥース（登録商標）モジュールなどをさらに含んでもよいが、ここで詳しく説明しない。

本実施例では、この端末機器に含まれるプロセッサ１２８０は、
話者の顔表情及び対応する音声を含むメディアデータを取得する機能と、
前記顔表情に基づいて前記話者に対応する第１アニメキャラクターの第１表情ベースを決定する機能であって、前記第１表情ベースは、前記第１アニメキャラクターの表情を識別するものである機能と、
ターゲットテキスト情報、前記メディアデータ及び前記第１表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定する機能であって、前記音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、前記ターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第１表情ベースに対する変化程度を識別するものである機能と、
前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第２表情ベースを有する第２アニメキャラクターを駆動する機能、
又は、
話者の顔表情及び対応する音声を含む第１メディアデータを取得する機能と、
前記顔表情に基づいて前記話者に対応する第１アニメキャラクターの第１表情ベースを決定する機能であって、前記第１表情ベースは、前記第１アニメキャラクターの表情を識別するものであり、前記第１表情ベースは、次元が第１次元であり、頂点トポロジーが第１頂点トポロジーである機能と、
前記第１表情ベース及び駆動対象の第２アニメキャラクターの第２表情ベースに基づいて、ターゲット表情ベースを決定する機能であって、前記第２表情ベースは、次元が第２次元であり、頂点トポロジーが第２頂点トポロジーであり、前記ターゲット表情ベースは、第２頂点トポロジーを有する第１アニメキャラクターに対応する表情ベースであり、前記ターゲット表情ベースの次元が第２次元である機能と、
前記話者の顔表情及び対応する音声を含む第２メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定する機能であって、前記ターゲット表情パラメータは、前記話者が前記音声を発する顔表情の前記ターゲット表情ベースに対する変化程度を識別するものである機能と、
前記ターゲット表情パラメータ及び音響的特徴に基づいて、前記第２表情ベースを有する前記第２アニメキャラクターを駆動する機能とをさらに有する。

本出願の実施例は、サーバをさらに提供し、図１３に示すように、図１３は、本出願の実施例に係るサーバ１３００の構造図であり、サーバ１３００は、構成又は性能が異なるため、大きな差異が生じることがあり、１つ以上の中央処理装置（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔｓ、ＣＰＵと略称）１３２２（例えば、１つ以上のプロセッサ）と、メモリ１３３２と、アプリケーションプログラム１３４２又はデータ１３４４を記憶する１つ以上の記憶媒体１３３０（例えば、１つ以上の大量の記憶デバイス）とを含むことができる。メモリ１３３２及び記憶媒体１３３０は、一時記憶又は永続的記憶であってもよい。記憶媒体１３３０に記憶されるプログラムは、１つ以上のモジュール（図示せず）を含んでもよく、各モジュールは、サーバサーバにおける一連の命令を操作する。さらに、中央処理装置１３２２は、記憶媒体１３３０と通信するように構成されており、サーバ１３００において記憶媒体１３３０における一連の命令操作を実行する。

サーバ１３００は、１つ以上の電源１３２６、１つ以上の有線又は無線のネットワークインターフェース１３５０、１つ以上の入出力インターフェース１３５８、及び／又は、ＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、Ｌｉｎｕｘ（登録商標）、ＦｒｅｅＢＳＤＴＭなどの１つ以上のオペレーティングシステム１３４１を含むことができる。

上記実施例では、サーバにより実行されたステップは、この図１３に示すサーバ構造に基づいて実現される。

本出願の実施例は、コンピュータ可読記憶媒体をさらに提供し、前記コンピュータ可読記憶媒体は、プログラムコードを記憶し、前記プログラムコードは、前記各実施例に記載のアニメキャラクター駆動方法を実行する。

本出願の実施例は、命令を含むコンピュータプログラム製品をさらに提供し、コンピュータに実行されると、コンピュータに前記各実施例に記載のアニメキャラクター駆動方法を実行させる。

本出願の明細書及び上記図面における用語の「第１」、「第２」、「第３」、「第４」など（存在する場合）は、類似の対象物を区別することを意図したものであり、必ずしも特定の順序又は配列を示すものではないことに留意されたい。このように使用されるデータは、適切な状況では交換可能であり、ここに記載する本出願の実施例は、例えば、ここに図示又は記載した順序以外の順序で実施可能である。また、用語の「含む」、「備える」といった表現又はそれらの変形は、排他的でないものを含むことを意図するものである。例えば、一連のステップ又はユニットを含む工程、方法、システム、製品、又はデバイスは、必ずしも列挙されたステップ又はユニットに限定されるものではなく、列挙されていない、或いは、かかる工程、方法、システム、製品、又はデバイスに固有の他のステップ又はユニットを含むことができる。

本出願では、「少なくとも１つ（項）」とは、１つ又は複数を意味し、「複数の」とは、２つ又は２つ以上を意味することが理解すべきである。「及び／又は」は、関連対象の関連関係だけを述べるが、３種類の関係があることを示している。例えば、「Ａ及び／又はＢ」は、Ａが単独で存在する場合、ＡとＢが同時に存在する場合、Ｂが単独で存在する場合という３つの場合を示しているのである。Ａ、Ｂは、単数又は複数であってもよい。文字の「／」は普通に前後の関連対象が「又は」という関係にあることを示している。「以下の少なくとも１項（１つ）」又は類似する表現は、これらのうちの任意の組み合わせを意味し、１項（１つ）又は複数項（個）の任意の組み合わせを含む。例えば、ａ、ｂ又はｃのうちの少なくとも１項（１つ）は、ａ、ｂ、ｃ、「ａ及びｂ」、「ａ及びｃ」、「ｂ及びｃ」、又は「ａ及びｂ及びｃ」として表されてもよく、ａ、ｂ、ｃは、単数であってもよいし、複数であってもよい。

本出願に係る一部の実施例において、開示されるシステム、装置及び方法は、他の方式で実現されてもよいと理解すべきである。例えば、以上に説明された装置実施例は模式的なものに過ぎず、例えば、前記ユニットの区分は論理的な機能上の区分に過ぎず、実際に実現するとき、他の区分方式があってもよく、例えば複数のユニット又はコンポーネントは他のシステムに組合せ又は集積されてもよく、又はいくつかの特徴は省略してもよく、又は実行しなくてもよい。一方、表示又は検討された相互間の結合又は直接結合又は通信接続はいくつかのインターフェース、装置又はユニットによる間接結合又は通信接続であってもよく、電気、機械又は他の形式であってもよい。

分離部材として説明された前記ユニットは物理的に分離してもよいし、物理的に分離しなくてもよく、ユニットとして表示された部材は物理ユニットであってもよいし、物理ユニットでなくてもよく、すなわち、一箇所に位置してもよいし、複数のネットワークユニットに配置されてもよい。実際の必要に応じて、その一部又は全部のユニットを選択して本実施例案の目的を実現してもよい。

また、本出願の各実施例の各機能ユニットは１つの処理ユニットに集積されてもよく、各ユニットは独立して物理的に存在してもよく、２つ以上のユニットは１つのユニットに集積されてもよい。上記集積されたユニットは、ハードウェアの形態で実現されてもよいし、ソフトウェア機能ユニットの形態で実現されてもよい。

前記集積されたユニットはソフトウェア機能ユニットの形態で実現され且つ独立した製品として販売または使用される場合、１つのコンピュータ読み取り可能な記憶媒体に格納されてもよい。このような理解に基づき、本出願の技術的解決策は本質的に従来技術に貢献する部分又は該技術的解決策の部分がソフトウェア製品の形態で実現されてもよく、該コンピュータソフトウェア製品は一台のコンピュータ装置（パーソナルコンピュータ、サーバ、又はネットワーク装置などあってもよい）に本発明の各実施例に記載の方法の全部又は一部のステップを実行させるためのいくつかのコマンドを含む記憶媒体に記憶される。前記記憶媒体はＵディスク、モバイルハードディスク、読み出し専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭと略称）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭと略称）、磁気ディスク又は光ディスク等のプログラムコードを記憶できる各種の媒体を含む。

前記のように、以上の実施例は本出願の技術案を説明するものに過ぎず、限定するものではない。前述の実施例を参照して本出願を詳細に説明したが、当業者であれば、依然として前述の各実施例に記載の技術案を修正するか、又はそのうちの一部の技術的特徴に対して同等置換を行うことができることを理解できる。これらの修正又は置換は、対応する技術案の本質を本出願の各実施例の技術的解決手段の精神及び範囲から逸脱させない。

1000 アニメキャラクター駆動装置
1001 取得ユニット
1002 第１決定ユニット
1003 第２決定ユニット
1004 駆動ユニット
1100 アニメキャラクター駆動装置
1101 取得ユニット
1102 第１決定ユニット
1103 第２決定ユニット
1104 第３決定ユニット
1105 駆動ユニット
1210 ＲＦ回路
1220 メモリ
1230 入力ユニット
1231 タッチパネル
1232 他の入力機器
1240 表示ユニット
1241 ディスプレイパネル
1250 センサ
1260 オーディオ回路
1261 スピーカー
1262 マイクロホン
1270 ＷｉＦｉモジュール
1280 プロセッサ
1290 電源
1300 サーバ
1322 中央処理装置
1326 電源
1330 記憶媒体
1332 メモリ
1341 オペレーティングシステム
1342 アプリケーションプログラム
1344 データ
1350 有線又は無線のネットワークインターフェース
1358 入出力インターフェース

Claims

オーディオ・ビデオ処理機器が実行するアニメキャラクター駆動方法であって、
話者の顔表情及び対応する音声を含むメディアデータを取得するステップと、
前記顔表情に基づいて前記話者に対応する第１アニメキャラクターの第１表情ベースを決定するステップであって、前記第１表情ベースは、前記第１アニメキャラクターの表情を識別するものであるステップと、
ターゲットテキスト情報、前記メディアデータ及び前記第１表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定するステップであって、前記音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、前記ターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第１表情ベースに対する変化程度を識別するものであるステップと、
前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第２表情ベースを有する第２アニメキャラクターを駆動するステップと、を含むアニメキャラクター駆動方法。
前記第１アニメキャラクターと前記第２アニメキャラクターは、同じアニメキャラクターであり、前記第１表情ベースと前記第２表情ベースは同じであり、前記顔表情に基づいて前記話者に対応する第１アニメキャラクターの第１表情ベースを決定する前記ステップは、
前記顔表情に基づいて前記第１アニメキャラクターの第１表情ベース及び前記第１アニメキャラクターの顔カスタマイズパラメータを決定するステップであって、前記顔カスタマイズパラメータは、前記第１アニメキャラクターの顔の形の、前記第１アニメキャラクターに対応する顔カスタマイズベースに対する変化程度を識別するものであるステップを含み、
前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第２表情ベースを有する第２アニメキャラクターを駆動する前記ステップは、
前記音響的特徴、前記ターゲット表情パラメータ及び前記顔カスタマイズパラメータに基づいて、前記第２アニメキャラクターを駆動するステップを含む請求項１に記載の方法。
前記第１アニメキャラクターと前記第２アニメキャラクターは、異なるアニメキャラクターであり、前記第１表情ベースと前記第２表情ベースは異なっており、前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第２表情ベースを有する第２アニメキャラクターを駆動する前記ステップは、
前記第１表情ベースに対応する表情パラメータと前記第２表情ベースに対応する表情パラメータとのマッピング関係を決定するステップと、
前記音響的特徴、前記ターゲット表情パラメータ及び前記マッピング関係に基づいて、前記第２アニメキャラクターを駆動するステップと、を含む請求項１に記載の方法。
前記第２表情ベースは、前記第２表情ベースと音素との所定関係に基づいて生成され、前記第１表情ベースに対応する表情パラメータと前記第２表情ベースに対応する表情パラメータとのマッピング関係を決定する前記ステップは、
前記メディアデータに基づいて、前記音声により識別される音素、前記音素に対応する時間区間及び前記メディアデータの前記時間区間でのビデオフレームを決定するステップと、
前記ビデオフレームに応じて前記音素に対応する第１表情パラメータを決定するステップであって、前記第１表情パラメータは、前記音素を発する時の前記話者の顔表情の、前記第１表情ベースに対する変化程度を識別するものであるステップと、
前記所定関係及び前記第２表情ベースに基づいて、前記音素に対応する第２表情パラメータを決定するステップと、
前記第１表情パラメータ及び前記第２表情パラメータに基づいて、前記マッピング関係を決定するステップと、を含む請求項３に記載の方法。
ターゲットテキスト情報、前記メディアデータ及び前記第１表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定する前記ステップは、
前記ターゲットテキスト情報及び前記メディアデータに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及び表情特徴を決定するステップであって、前記表情特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情を識別するものであるステップと、
前記第１表情ベース及び前記表情特徴に基づいて前記ターゲット表情パラメータを決定するステップと、を含む請求項１に記載の方法。
オーディオ・ビデオ処理機器に配置されたアニメキャラクター駆動装置であって、取得ユニット、第１決定ユニット、第２決定ユニット及び駆動ユニットを含み、
前記取得ユニットは、話者の顔表情及び対応する音声を含むメディアデータを取得し、
前記第１決定ユニットは、前記顔表情に基づいて前記話者に対応する第１アニメキャラクターの第１表情ベースを決定し、前記第１表情ベースは、前記第１アニメキャラクターの表情を識別するものであり、
前記第２決定ユニットは、ターゲットテキスト情報、前記メディアデータ及び前記第１表情ベースに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及びターゲット表情パラメータを決定し、前記音響的特徴は、前記話者をシミュレートして前記ターゲットテキスト情報を話す声を識別するものであり、前記ターゲット表情パラメータは、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情の、前記第１表情ベースに対する変化程度を識別するものであり、
前記駆動ユニットは、前記音響的特徴及び前記ターゲット表情パラメータに基づいて、第２表情ベースを有する第２アニメキャラクターを駆動するアニメキャラクター駆動装置。
前記第１アニメキャラクターと前記第２アニメキャラクターは、同じアニメキャラクターであり、前記第１表情ベースと前記第２表情ベースは同じであり、前記第１決定ユニットは、
前記顔表情に基づいて前記第１アニメキャラクターの第１表情ベース及び前記第１アニメキャラクターの顔カスタマイズパラメータを決定し、前記顔カスタマイズパラメータが、前記第１アニメキャラクターの顔の形の、前記第１アニメキャラクターに対応する顔カスタマイズベースに対する変化程度を識別するものであり、
前記駆動ユニットは、
前記音響的特徴、前記ターゲット表情パラメータ及び前記顔カスタマイズパラメータに基づいて、前記第２アニメキャラクターを駆動する請求項６に記載の装置。
前記第１アニメキャラクターと前記第２アニメキャラクターは、異なるアニメキャラクターであり、前記第１表情ベースと前記第２表情ベースは異なっており、前記駆動ユニットは、
前記第１表情ベースに対応する表情パラメータと前記第２表情ベースに対応する表情パラメータとのマッピング関係を決定し、
前記音響的特徴、前記ターゲット表情パラメータ及び前記マッピング関係に基づいて、前記第２アニメキャラクターを駆動する請求項６に記載の装置。
前記第２表情ベースは、前記第２表情ベースと音素との所定関係に基づいて生成され、前記駆動ユニットは、さらに、
前記メディアデータに基づいて、前記音声により識別される音素、前記音素に対応する時間区間及び前記メディアデータの前記時間区間でのビデオフレームを決定し、
前記ビデオフレームに応じて前記音素に対応する第１表情パラメータを決定し、前記第１表情パラメータは、前記音素を発する時の前記話者の顔表情の、前記第１表情ベースに対する変化程度を識別するものであり、
前記所定関係及び前記第２表情ベースに基づいて、前記音素に対応する第２表情パラメータを決定し、
前記第１表情パラメータ及び前記第２表情パラメータに基づいて、前記マッピング関係を決定する請求項８に記載の装置。
前記第２決定ユニットは、
前記ターゲットテキスト情報及び前記メディアデータに基づいて、前記ターゲットテキスト情報に対応する音響的特徴及び表情特徴を決定し、前記表情特徴が、前記話者をシミュレートして前記ターゲットテキスト情報を話す顔表情を識別するものであり、
前記第１表情ベース及び前記表情特徴に基づいて前記ターゲット表情パラメータを決定する請求項６に記載の装置。
オーディオ・ビデオ処理機器が実行するアニメキャラクター駆動方法であって、
話者の顔表情及び対応する音声を含む第１メディアデータを取得するステップと、
前記顔表情に基づいて前記話者に対応する第１アニメキャラクターの第１表情ベースを決定するステップであって、前記第１表情ベースは、前記第１アニメキャラクターの表情を識別するものであり、前記第１表情ベースは、次元が第１次元であり、頂点トポロジーが第１頂点トポロジーであるステップと、
前記第１表情ベース及び駆動対象の第２アニメキャラクターの第２表情ベースに基づいて、ターゲット表情ベースを決定するステップであって、前記第２表情ベースは、次元が第２次元であり、頂点トポロジーが第２頂点トポロジーであり、前記ターゲット表情ベースは、第２頂点トポロジーを有する第１アニメキャラクターに対応する表情ベースであり、前記ターゲット表情ベースの次元が第２次元であるステップと、
前記話者の顔表情及び対応する音声を含む第２メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定するステップであって、前記ターゲット表情パラメータは、前記話者が前記音声を発する顔表情の前記ターゲット表情ベースに対する変化程度を識別するものであるステップと、
前記ターゲット表情パラメータ及び音響的特徴に基づいて、前記第２表情ベースを有する前記第２アニメキャラクターを駆動するステップと、を含むアニメキャラクター駆動方法。
前記第１表情ベース及び駆動対象の第２アニメキャラクターの第２表情ベースに基づいてターゲット表情ベースを決定する前記ステップは、
前記第１表情ベースから前記第１アニメキャラクターが無表情にある時に対応する無表情メッシュを決定し、前記第２表情ベースから前記第２アニメキャラクターが無表情にある時に対応する無表情メッシュを決定するステップと、
前記第１アニメキャラクターに対応する無表情メッシュ及び前記第２アニメキャラクターに対応する無表情メッシュに応じて、調整メッシュを決定するステップであって、前記調整メッシュは、第２頂点トポロジーを有し、無表情にある時の第１アニメキャラクターを識別するものであるステップと、
前記調整メッシュと前記第２表情ベースにおけるメッシュの変形関係に基づいて、前記ターゲット表情ベースを生成するステップと、を含む請求項１１に記載の方法。
オーディオ・ビデオ処理機器に配置されたアニメキャラクター駆動装置であって、取得ユニット、第１決定ユニット、第２決定ユニット、第３決定ユニット及び駆動ユニットを備え、
前記取得ユニットは、話者の顔表情及び対応する音声を含む第１メディアデータを取得し、
前記第１決定ユニットは、前記顔表情に基づいて前記話者に対応する第１アニメキャラクターの第１表情ベースを決定し、前記第１表情ベースは、前記第１アニメキャラクターの表情を識別するものであり、前記第１表情ベースは、次元が第１次元であり、頂点トポロジーが第１頂点トポロジーであり、
前記第２決定ユニットは、前記第１表情ベース及び駆動対象の第２アニメキャラクターの第２表情ベースに基づいて、ターゲット表情ベースを決定し、前記第２表情ベースは、次元が第２次元であり、頂点トポロジーが第２頂点トポロジーであり、前記ターゲット表情ベースは、第２頂点トポロジーを有する第１アニメキャラクターに対応する表情ベースであり、前記ターゲット表情ベースの次元が第２次元であり、
前記第３決定ユニットは、前記話者の顔表情及び対応する音声を含む第２メディアデータ及び前記ターゲット表情ベースに基づいて、ターゲット表情パラメータ及び音響的特徴を決定し、前記ターゲット表情パラメータは、前記話者が前記音声を発する顔表情の前記ターゲット表情ベースに対する変化程度を識別するものであり、
前記駆動ユニットは、前記ターゲット表情パラメータ及び音響的特徴に基づいて、前記第２表情ベースを有する前記第２アニメキャラクターを駆動するアニメキャラクター駆動装置。
アニメキャラクターを駆動するための機器であって、プロセッサ及びメモリを含み、
前記メモリは、プログラムコードを記憶し、前記プログラムコードを前記プロセッサに伝送し、
前記プロセッサは、前記プログラムコード中の命令に基づいて請求項１～５又は、１１～１２のいずれか一項に記載の方法を実行する機器。
請求項１～５又は、１１～１２のいずれか一項に記載の方法を実行するためのプログラムコードを記憶するコンピュータ可読記憶媒体。
コンピュータプログラム製品であって、コンピュータプログラム製品を実行すると、請求項１～５又は、１１～１２のいずれか一項に記載の方法を実行するコンピュータプログラム製品。