JP7212741B2

JP7212741B2 - ３次元アバタ生成方法、装置、電子機器及び記憶媒体

Info

Publication number: JP7212741B2
Application number: JP2021174058A
Authority: JP
Inventors: ペン，ジェ; バオ，ガンボ; リュウ，ユジャン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-09
Filing date: 2021-10-25
Publication date: 2023-01-25
Anticipated expiration: 2041-10-25
Also published as: CN112541963B; US11587300B2; US20210407216A1; CN112541963A; JP2022020054A

Description

本出願は、データ処理技術の分野におけるコンピュータビジョン技術、深層学習及び拡張現実などの人工知能の分野に関し、特に、３次元アバタ生成方法、装置、電子機器及び記憶媒体に関する。

人工知能は、コンピュータに人間のある思考プロセス及び知能行為（例えば、学習、推理、思考、計画など）をシミュレートさせることを研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能技術は、一般的に、センサ、専用の人工知能チップ、クラウドコンピューティング、分散ストレージ、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は、主にコンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習／深層学習、ビッグデータ処理技術、知識マップ技術などのいくつかの主要な方向を含む。

通常、アバタは、現在市場でますます広く使用されており、アバタは、実写とアニメとの２種類を含む。関連技術において、ユーザが好きなアバタを自分で編集する必要があるが、この編集プロセスが比較的煩雑であり、ユーザが満足しない場合、再編集する必要があるため、多くの時間がかかる。

本出願は、３次元アバタ生成方法、装置、電子機器及び記憶媒体を提供する。

本出願の一態様によれば、３次元アバタ生成方法を提供し、処理対象の顔画像及び３次元参照モデルを取得するステップと、前記処理対象の顔画像をトレーニングされたニューラルネットワークに入力して、３次元顔モデル、顔属性情報及び顔フィギュア情報を取得するステップと、前記３次元顔モデルに基づいて前記３次元参照モデルを変形処理して、３次元フィギュアモデルを取得するステップと、前記顔属性情報及び顔フィギュア情報に基づいて前記３次元フィギュアモデルを調整して、ターゲットアバタを取得するステップと、を含む。

本開示の別の態様によれば、３次元アバタ生成装置を提供し、処理対象の顔画像及び３次元参照モデルを取得するための第１の取得モジュールと、前記処理対象の顔画像をトレーニングされたニューラルネットワークに入力して、３次元顔モデル、顔属性情報及び顔フィギュア情報を取得するための第２の取得モジュールと、前記３次元顔モデルに基づいて前記３次元参照モデルを変形処理して、３次元フィギュアモデルを取得するための処理モジュールと、前記顔属性情報及び顔フィギュア情報に基づいて前記３次元フィギュアモデルを調整して、ターゲットアバタを取得するための調整モジュールと、を含む。

第３の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが上記実施例に記載の３次元アバタ生成方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

第４の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提出し、前記コンピュータ命令は、前記コンピュータに上記実施例に記載の３次元アバタ生成方法を実行させる。
第５の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに上記実施例に記載の３次元アバタ生成方法を実行させる。

なお、本部分に記載された内容は、本開示の実施例の肝心または重要な特徴を限定することを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明によって容易に理解されやすくなる。

図面は、本技術案をよりよく理解するために使用され、本開示を限定するものではない。
本出願の第１の実施例に係る３次元アバタ生成方法の概略フローチャートである。本出願の第２の実施例に係る３次元アバタ生成方法の概略フローチャートである。本出願の第３の実施例に係る３次元アバタ生成方法の概略フローチャートである。本出願の第４の実施例に係る３次元アバタ生成装置の概略構成図である。本出願の第５の実施例に係る３次元アバタ生成装置の概略構成図である。本出願の実施例に係る３次元アバタ生成方法を実現するための電子機器のブロック図である。

以下、図面と組み合わせて本開示の例示的な実施例を説明し、理解を容易にするためにその中には本開示の実施例の様々な詳細事項が含まれ、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本開示の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

以下、図面を参照して本出願の実施例に係る３次元アバタ生成方法、装置、電子機器及び記憶媒体を説明する。

実際の応用シナリオでは、アニメ、オンラインゲームにおいて仮想キャラクターを用いてインタラクションを行うことができ、ユーザが好きなアバタを自分で編集する必要があるが、この編集プロセスが比較的煩雑であり、ユーザが満足しない場合、再編集する必要があるため、多くの時間がかかる。

上記問題に対して、本出願は、処理対象の顔画像及び３次元参照モデルを取得するステップと、処理対象の顔画像をトレーニングされたニューラルネットワークに入力して、３次元顔モデル、顔属性情報及び顔フィギュア情報を取得するステップと、３次元顔モデルに基づいて３次元参照モデルを変形処理して、３次元フィギュアモデルを取得するステップと、顔属性情報及び顔フィギュア情報に基づいて３次元フィギュアモデルを調整して、ターゲットアバタを取得するステップと、を含む３次元アバタ生成方法を提出する。これにより、顔画像及び３次元参照モデルを選択することにより、アバタを迅速かつ正確に生成し、操作が簡単で便利であり、３次元アバタの生成効率及び精度を向上させ、ユーザの使用ニーズを満たすことができる。

具体的には、図１は、本出願の第１の実施例に係る３次元アバタ生成方法のフローチャートであり、組織権限処理方法は、電子機器に適用され、ここで、電子機器は、計算能力を有するいずれかの機器、例えば、パーソナルコンピュータ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、ＰＣと略称する）、モバイル端末などであってもよく、モバイル端末は、携帯電話、タブレット、携帯情報端末、ウェアラブルデバイス、車載デバイスなどの、様々なオペレーティングシステム、タッチスクリーン及び／又はディスプレイを有するハードウェアデバイス、例えば、スマートテレビ、スマート冷蔵庫などであってもよい。

図１に示すように、当該方法は、以下のステップ１０１～１０４を含む。

ステップ１０１：処理対象の顔画像及び３次元参照モデルを取得する。

本出願の実施例において、処理対象の顔画像とは、顔を含む画像のことであり、処理対象の顔画像の取得方法には、たくさんの種類があり、具体的には、応用シナリオに応じて選択して設定することができ、以下のように例を挙げて説明する。

第１の例では、撮影機器により顔を含むシナリオを撮影し、処理対象の顔画像を取得する。

第２の例では、ビデオをスクリーンショット又はサブフレーム処理して複数の画像を取得し、顔を含む画像を処理対象の顔画像として選択する。

第３の例では、顔を含む画像を処理対象の顔画像として直接取得する。

本出願の実施例において、３次元参照モデルは、３次元モデル構築ネットワーク又はモデルなどの方式で予め構築されたモデルであると理解でき、ユーザが直接選択できる３次元参照モデルは、一般的に、複数の異なるタイプの３次元参照モデル、例えば、可愛い、綺麗などの異なるタイプの３次元参照モデルである。

ステップ１０２：処理対象の顔画像をトレーニングされたニューラルネットワークに入力して、３次元顔モデル、顔属性情報及び顔フィギュア情報を取得する。

本出願の実施例において、トレーニングされたニューラルネットワークは、畳み込みニューラルネットワーク、循環ニューラルネットワークなどであってもよく、具体的には、応用シナリオの必要に応じて選択して設定することができ、分類タスクトレーニング、回帰タスクトレーニングなどのマルイチタスクニューラルネットワークを同時に実行でき、ここで、分類タスクでトレーニングされたニューラルネットワークが処理対象の顔画像の髪型カテゴリ及び装飾品などを抽出し、回帰タスクでトレーニングされたニューラルネットワークが処理対象の顔画像の髪のテクスチャの色などを抽出する。

本出願の実施例において、ニューラルネットワークを予めトレーニングし、１つの可能な実現方式として、大量の顔画像サンプルを取得し、顔画像サンプルに対して顔キーポイント（例えば、目、口、鼻及び眉など）をキャリブレーションし、キャリブレーションされた顔画像サンプルに対して３次元顔変形モデルのモデリングトレーニングを行うと理解できる。

具体的には、顔キーポイントのラベル付け情報を、３次元マッピング関係に従ってマッピングして３次元サンプル顔モデルを生成し、３次元サンプル顔モデルに対応するベクトル行列を抽出し、ベクトル行列に基づいて顔の３次元構築モデルを構築し、３次元サンプル顔モデルに基づいて顔の３次元構築モデルをトレーニングし、予め確立されたベクトル行列を含む顔の３次元構築モデルを取得する。

具体的には、トレーニングの時に３次元顔モデルと入力された顔画像との間の透視投影関係（１対１の対応関係）を確立する。つまり、トレーニングされたニューラルネットワークは、一枚の顔画像を入力することにより、対応する１つの顔の３次元モデルを取得することができる。

１つの可能な実現方式として、トレーニングされたニューラルネットワークによって処理対象の顔画像の特徴ベクトルを抽出し、特徴ベクトル及び予め確立されたベクトル行列に基づいて、３次元顔モデルを取得する。

なお、当該３次元モデルと顔画像は、固定した透視投影関係（トレーニングの時に設定された）がある。３次元顔モデルによって、予め設定された透視投影関係を取得することができ、顔画像における顔の面部領域を確認し、面部領域の１つの画素値を顔テクスチャ色として取得することができ、顔テクスチャ色は、顔属性情報、すなわち、３次元顔モデルのテクスチャ情報とすることができる。

本出願の実施例において、同様に大量のキャリブレーションされた顔画像をトレーニングし、異なる髪テクスチャ色に対して回帰タスクトレーニングを行い、損失関数によりニューラルネットワークパラメータを引き続き最適化させ、トレーニングされたニューラルネットワークを取得し、トレーニングされたニューラルネットワークにより処理対象の顔画像の髪テクスチャ色を抽出し、髪テクスチャ色は、顔属性情報とすることができる。

本出願の実施例において、同様に大量のキャリブレーションされた顔画像をトレーニングし、異なる髪型、眼鏡などの装飾品に対して分類タスクトレーニングを行い、損失関数によりニューラルネットワークパラメータを引き続き最適化させ、トレーニングされたニューラルネットワークを取得し、トレーニングされたニューラルネットワークにより処理対象の顔画像の髪型カテゴリ及び装飾品を抽出する。

ステップ１０３：３次元顔モデルに基づいて３次元参照モデルを変形処理して、３次元フィギュアモデルを取得する。

本出願の実施例において、３次元顔モデルに基づいて３次元参照モデルを変形処理して、３次元フィギュアモデルを取得する方法には、たくさんの種類があり、応用シナリオの必要に応じて選択して設定することができ、以下のように例を挙げて説明する。

１つの可能な実現方式として、３次元顔モデルの第１の変形領域、及び３次元参照モデルの第２の変形領域を決定し、ここで、第１の変形領域と第２の変形領域は、マッピング関係であり、第１の変形領域の第１のキーポイント及び第２の変形領域の第２のキーポイントをキャリブレーションし、第１のキーポイントが変形するように制御して、第２のキーポイントをマッピング関係に基づいて対応して変形させ、３次元フィギュアモデルを生成する。

具体的には、変形領域（例えば、頬、口、目、眉、鼻など）を決定し、３次元顔モデル及び３次元参照モデルの変形領域に対応するキーポイントをキャリブレーションし、３次元顔モデルにおけるキャリブレーションされたキーポイントの変形に基づいて、３次元参照モデルにおける対応するキーポイントを変形して、変形されたキャラクターを処理対象の顔画像に形状的に類似させる。

別の可能な実現方式として、３次元顔モデル及び３次元参照モデルにおける各キーポイントの１対１の対応関係を取得し、３次元顔モデルのキーポイント（頬、口、目、眉、鼻など）に基づいて３次元参照モデルのキーポイントを調整して３次元フィギュアモデルを生成する。

ここで、変形領域は、応用シナリオの必要に応じて、１つ又は複数の変形領域、及び変形領域内の各キーポイントを予め設定することにより、３次元顔モデルに基づいて３次元参照モデルを直接変形処理し、３次元アバタの生成効率をさらに向上させることができる。

ステップ１０４：顔属性情報及び顔フィギュア情報に基づいて３次元フィギュアモデルを調整して、ターゲットアバタを取得する。

本出願の実施例において、顔属性情報は、面部領域の顔テクスチャ色及び髪領域の髪テクスチャ色であってもよく、アバタの髪色、肌色が処理対象の顔画像の肌色、髪色に類似するように、面部領域の顔テクスチャ色及び髪領域の髪テクスチャ色に基づいて３次元フィギュアモデルの対応する領域を調整し、顔フィギュア情報は、ロングカール、ショートヘアなどの髪型であってもよく、装飾品は、眼鏡、イヤリングなどであってもよく、アバタの髪型、装飾品が処理対象の顔画像の髪型、装飾品に類似するように、顔フィギュア情報に基づいて３次元フィギュアモデルを引き続き調整し、ターゲットアバタを取得する。

つまり、１枚の顔画像によりアバタ（アニメであってもよく、実写であってもよく、３次元参照モデルに基づいて決定され）を生成し、先ず顔画像を３次元モデリングして顔の３次元モデルを取得する必要があり、そして当該顔の３次元モデルに基づいて、３次元参照モデルを変形して、３次元フィギュアモデルを取得し、顔画像における顔に対応するテクスチャに基づいて３次元フィギュアモデルのテクスチャ色を調整し、画像における人物の髪型及び髪色に基づいて、３次元フィギュアモデルの髪型及び髪色を調整する。

以上のようにして、本出願の３次元アバタ生成方法は、処理対象の顔画像及び３次元参照モデルを取得し、処理対象の顔画像をトレーニングされたニューラルネットワークに入力して、３次元顔モデル、顔属性情報及び顔フィギュア情報を取得し、３次元顔モデルに基づいて３次元参照モデルを変形処理して、３次元フィギュアモデルを取得し、顔属性情報及び顔フィギュア情報に基づいて３次元フィギュアモデルを調整して、ターゲットアバタを取得する。これにより、顔画像及び３次元参照モデルを選択することにより、アバタを迅速かつ正確に生成し、操作が簡単で便利であり、３次元アバタの生成効率及び精度を向上させ、ユーザの使用ニーズを満たすことができる。

図２は、本出願の第２の実施例に係る３次元アバタ生成方法のフローチャートであり、図２に示すように、当該方法は、以下のステップ２０１～２０７を含む。

ステップ２０１：処理対象の顔画像及び３次元参照モデルを取得する。

ステップ２０２：トレーニングされたニューラルネットワークによって処理対象の顔画像の特徴ベクトルを抽出し、特徴ベクトル及び予め確立されたベクトル行列に基づいて、３次元顔モデルを取得する。

本出願の実施例において、トレーニングされたニューラルネットワークは、トレーニングされた顔の３次元構築モデルと理解でき、処理対象の顔画像を処理して１次元の特徴ベクトルを取得し、特徴ベクトルと予め確立されたベクトルマトッリクスとの積の組み合わせは３次元顔モデルを表すことができる。

ステップ２０３：３次元顔モデルに対応する透視投影関係を取得し、透視投影関係及び処理対象の顔画像に基づいて、３次元顔モデルのテクスチャ情報を取得する。

本出願の実施例において、当該３次元モデルと顔画像は、固定した透視投影関係があり、３次元顔モデルによって、予め設定された透視投影関係を取得することができ、顔画像における顔の面部領域を確認し、１つの画素値を顔テクスチャ色として取得することができ、顔テクスチャ色は、顔属性情報、すなわち、３次元顔モデルのテクスチャ情報とすることができる。

本出願の実施例において、同様に大量のキャリブレーションされた顔画像をトレーニングし、異なる髪テクスチャ色に対して回帰タスクを行い、損失関数によりニューラルネットワークパラメータを引き続き最適化させ、トレーニングされたニューラルネットワークを取得し、トレーニングされたニューラルネットワークにより処理対象の顔画像の髪テクスチャ色を抽出し、髪テクスチャ色は、顔属性情報とすることができる。

ステップ２０４：トレーニングされたニューラルネットワークによって処理対象の顔画像の髪型カテゴリ及び装飾品を抽出する。

本出願の実施例において、同様に大量のキャリブレーションされた顔画像をトレーニングし、異なる髪型、眼鏡などの装飾品に対して分類タスクを行い、損失関数によりニューラルネットワークパラメータを引き続き最適化させ、トレーニングされたニューラルネットワークを取得し、トレーニングされたニューラルネットワークにより処理対象の顔画像の髪型カテゴリ及び装飾品を抽出する。

ステップ２０５：３次元顔モデルの第１の変形領域、及び３次元参照モデルの第２の変形領域を決定し、ここで、第１の変形領域と第２の変形領域は、マッピング関係であり、第１の変形領域の第１のキーポイント及び第２の変形領域の第２のキーポイントをキャリブレーションする。

ステップ２０６：第２のキーポイントがマッピング関係に基づいて対応して変形し、３次元フィギュアモデルを生成するように、第１のキーポイントが変形するように制御する。

本出願の実施例において、第１の変形領域と第２の変形領域は、マッピング関係であり、例えば、鼻―鼻、口―口などの１対１のマッピングであり、変形領域（例えば、頬、口、目、眉、鼻など）が決定された後、３次元顔モデル及び３次元参照モデルの変形領域に対応するキーポイントをキャリブレーションし、３次元顔モデルにおけるキャリブレーションされたキーポイントの変形に基づいて、３次元参照モデルにおける対応するキーポイントを変形し、変形されたキャラクターを処理対象の顔画像に形状的に類似させる。

ステップ２０７：３次元顔モデルのテクスチャ情報、髪型カテゴリ及び装飾品に基づいて、３次元フィギュアモデルを調整して、ターゲットアバタを取得する。

本出願の実施例において、顔属性情報は、面部領域の顔テクスチャ色及び髪領域の髪色テクスチャ色であってもよく、アバタの髪色、肌色が処理対象の顔画像の肌色、髪色に類似するように、面部領域の顔テクスチャ色及び髪領域の髪色テクスチャ色に基づいて３次元フィギュアモデルの対応する領域を調整し、顔フィギュア情報は、髪型、及び眼鏡、イヤリングなどの装飾品であってもよく、アバタの髪型、装飾品が処理対象の顔画像の髪型、装飾品に類似するように、顔フィギュア情報に基づいて３次元フィギュアモデルを引き続き調整し、ターゲットアバタを取得する。

以上のようにして、本出願の３次元アバタ生成方法は、処理対象の顔画像及び３次元参照モデルを取得し、トレーニングされたニューラルネットワークによって前記処理対象の顔画像の特徴ベクトルを抽出し、特徴ベクトル及び予め確立されたベクトル行列に基づいて、３次元顔モデルを取得し、３次元顔モデルに対応する透視投影関係を取得し、透視投影関係及び処理対象の顔画像に基づいて、３次元顔モデルのテクスチャ情報を取得し、トレーニングされたニューラルネットワークによって処理対象の顔画像の髪型カテゴリ及び装飾品を抽出し、３次元顔モデルの第１の変形領域、及び３次元参照モデルの第２の変形領域を決定し、ここで、第１の変形領域と第２の変形領域は、マッピング関係であり、第１の変形領域の第１のキーポイント及び第２の変形領域の第２のキーポイントをキャリブレーションし、第１のキーポイントが変形するように制御して、第２のキーポイントをマッピング関係に基づいて対応して変形させ、３次元フィギュアモデルを生成し、３次元顔モデルのテクスチャ情報、髪型カテゴリ及び装飾品に基づいて、３次元フィギュアモデルを調整して、ターゲットアバタを取得する。これにより、顔画像及び３次元参照モデルを選択することにより、アバタを迅速かつ正確に生成し、操作が簡単で便利であり、３次元アバタ生成効率及び精度を向上させ、ユーザの使用ニーズを満たすことができる。

上記実施例の説明に基づいて、アバタが生成された後、ユーザのニーズをさらに満たすために、すなわち、当該アバタを駆動することによりユーザのインタラクションニーズを満たすことができるために、具体的には、図３と組み合わせて詳細に説明する。

図３は、本出願の第３の実施例に係る３次元アバタ生成方法のフローチャートであり、図３に示すように、当該方法は、以下のステップ３０１～３０２を含む。

ステップ３０１：ターゲットアバタの複数のターゲット動作を取得し、複数のターゲット動作に対応する複数の変形係数を取得する。

ステップ３０２：複数の変形係数に対して線形重ね合わせを行って、ターゲット駆動アバタを生成する。

本出願の実施例において、ターゲット動作（目閉じ、目開き、うなずきなど）が決定された後、ターゲット動作に対応する変形係数を選択し、複数の変形係数に対して線形重ね合わせを行って、ターゲット駆動アバタを生成する。

動作は、作成された一連のターゲット動作に対して線形重ね合わせを行って生成されたものであり、線形係数を制御するだけで駆動できることを理解できる。

例えば、目閉じ動作は、変形係数１に対応し、目開き動作は、変形係数２に対応し、変形係数１と変形係数２に対して線形重ね合わせを行ってターゲット駆動アバタを取得し、ターゲット駆動アバタを制御して駆動し、ターゲットアバタの目閉じから目開きへの瞬き動作を実現することができる。

以上のようにして、本出願の３次元アバタ生成方法は、ターゲットアバタの複数のターゲット動作を取得し、複数のターゲット動作に対応する複数の変形係数を決定し、複数の変形係数に対して線形重ね合わせを行ってターゲット駆動アバタを生成する。これにより、変形係数によりターゲットアバタを制御し、ユーザのインタラクションニーズを満たす。

上記実施例を実現するために、本出願は、３次元アバタ生成装置をさらに提出する。図４は、本出願の第４の実施例に係る３次元アバタ生成装置の概略構成図であり、図４に示すように、当該３次元アバタ生成装置は、第１の取得モジュール４０１、第２の取得モジュール４０２、処理モジュール４０３及び調整モジュール４０４を含む。

第１の取得モジュール４０１は、処理対象の顔画像及び３次元参照モデルを取得する。

第２の取得モジュール４０２は、処理対象の顔画像をトレーニングされたニューラルネットワークに入力して、３次元顔モデル、顔属性情報及び顔フィギュア情報を取得する。

処理モジュール４０３は、３次元顔モデルに基づいて３次元参照モデルを変形処理して、３次元フィギュアモデルを取得する。

調整モジュール４０４は、顔属性情報及び顔フィギュア情報に基づいて３次元フィギュアモデルを調整して、ターゲットアバタを取得する。

本出願の一実施例において、第２の取得モジュール４０２は、具体的には、トレーニングされたニューラルネットワークによって処理対象の顔画像の特徴ベクトルを抽出し、特徴ベクトル及び予め確立されたベクトル行列に基づいて、３次元顔モデルを取得する。

本出願の一実施例において、第２の取得モジュール４０２は、具体的には、３次元顔モデルに対応する透視投影関係を取得し、透視投影関係及び処理対象の顔画像に基づいて、３次元顔モデルのテクスチャ情報を取得する。

本出願の一実施例において、第２の取得モジュール４０２は、具体的には、トレーニングされたニューラルネットワークによって前記処理対象の顔画像の髪型カテゴリ及び装飾品を抽出する。

本出願の一実施例において、処理モジュール４０３は、具体的には、３次元顔モデルの第１の変形領域、及び３次元参照モデルの第２の変形領域を決定し、第１の変形領域と第２の変形領域は、マッピング関係であり、第１の変形領域の第１のキーポイント及び第２の変形領域の第２のキーポイントをキャリブレーションし、第１のキーポイントが変形するように制御して、第２のキーポイントをマッピング関係に基づいて対応して変形させ、３次元フィギュアモデルを生成する。

なお、上述した３次元アバタ生成方法に対する説明は、本発明の実施例に係る３次元アバタ生成装置にも適用可能であり、その実現原理は、同様であるため、ここでは説明を省略する。

以上のようにして、本出願の３次元アバタ生成装置は、処理対象の顔画像及び３次元参照モデルを取得し、処理対象の顔画像をトレーニングされたニューラルネットワークに入力して、３次元顔モデル、顔属性情報及び顔フィギュア情報を取得し、３次元顔モデルに基づいて３次元参照モデルを変形処理して、３次元フィギュアモデルを取得し、顔属性情報及び顔フィギュア情報に基づいて３次元フィギュアモデルを調整して、ターゲットアバタを取得する。これにより、顔画像及び３次元参照モデルを選択することにより、アバタを迅速かつ正確に生成し、操作が簡単で便利であり、３次元アバタ生成効率及び精度を向上させ、ユーザの使用ニーズを満たすことができる。

上記実施例の説明に基づいて、アバタが生成された後、ユーザのニーズをさらに満たすために、すなわち、当該アバタを駆動することによりユーザのインタラクションニーズを満たすことができるために、具体的には、図５と組み合わせて詳細に説明する。

図５に示すように、当該３次元アバタ生成装置は、第１の取得モジュール５０１、第２の取得モジュール５０２、処理モジュール５０３、調整モジュール５０４、第３の取得モジュール５０５、第４の取得モジュール５０６、及び生成モジュール５０７を含む。

ここで、第１の取得モジュール５０１、第２の取得モジュール５０２、処理モジュール５０３及び調整モジュール５０４は、上記実施例の第１の取得モジュール４０１、第２の取得モジュール４０２、処理モジュール４０３及び調整モジュール４０４に対応し、具体的には、上記装置の実施例の説明を参照し、ここでは説明を省略する。

第３の取得モジュール５０５は、ターゲットアバタの複数のターゲット動作を取得する。

決定モジュール５０６は、複数のターゲット動作に対応する複数の変形係数を取得する。

生成モジュール５０７は、複数の変形係数に対して線形重ね合わせを行って、ターゲット駆動アバタを生成する。

以上のようにして、本出願の３次元アバタ生成装置は、ターゲットアバタの複数のターゲット動作を取得し、複数のターゲット動作に対応する複数の変形係数を決定し、複数の変形係数に対して線形重ね合わせを行って、ターゲット駆動アバタを生成する。これにより、変形係数によりターゲットアバタを制御し、ユーザのインタラクションニーズを満たす。

本出願の実施例によれば、本出願は、電子機器及びコンピュータ読み取り可能な記憶媒体をさらに提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供される３次元アバタ生成方法を実行させる。

図６に示すように、本出願の実施例に係る３次元アバタ生成方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限するものではない。

図６に示すように、当該電子機器は、１つ又は複数のプロセッサ６０１と、メモリ６０２と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、電子機器内に実行される命令を処理することができ、当該命令は、外部入力／出力装置（インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを、複数のメモリと一緒に使用することができる。同様に、複数の電子機器を接続することができ、各電子機器は、一部の必要な操作（例えば、サーバアレイ、１グループのブレードサーバ、又はマルチプロセッサシステムとする）を提供することができる。図６では、１つのプロセッサ６０１を例とする。

メモリ６０２は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、少なくとも１つのプロセッサが本出願により提供される３次元アバタ生成方法を実行することができるように、少なくとも１つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願により提供される３次元アバタ生成方法を実行させるためのコンピュータ命令が記憶されている。

メモリ６０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例における３次元アバタ生成方法に対応するプログラム命令／モジュール（例えば、図４に示す第１の取得モジュール４０１、第２の取得モジュール４０２、処理モジュール４０３及び調整モジュール４０４）のように、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ６０１は、メモリ６０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アクティベーション及びデータ処理を実行し、すなわち上記の方法の実施例における３次元アバタ生成方法を実現する。

メモリ６０２は、プログラムストレージエリアとデータストレージエリアとを含むことができ、プログラムストレージエリアは、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データストレージエリアは、３次元アバタ生成の電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ６０２は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも１つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例で、メモリ６０２は、プロセッサ６０１に対して遠隔に設置されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して３次元アバタ生成の電子機器に接続されることができる。上記のネットワークの例は、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。

３次元アバタ生成方法の電子機器は、入力装置６０３と出力装置６０４とをさらに含むことができる。プロセッサ６０１、メモリ６０２、入力装置６０３、及び出力装置６０４は、バス又は他の方式を介して接続することができ、図６では、バスを介して接続することを例とする。

入力装置６０３は、入力された数字又は文字情報を受信し、３次元アバタ生成の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置６０４は、ディスプレイデバイス、補助照明装置（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態で、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施されることを含むことができ、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び／又は解釈することができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施する。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドユニットを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアユニットを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドユニットを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、又はこのようなバックエンドユニットと、ミドルウェアユニットと、フロントエンドユニットの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバ関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれるクラウドサーバであってもよく、従来の物理ホスト及びＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は「ＶＰＳ」と略称する）における、管理の難しさが高く、ビジネスの拡張性が低いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の１つである。

本出願の実施例の技術案によれば、処理対象の顔画像及び３次元参照モデルを取得し、処理対象の顔画像をトレーニングされたニューラルネットワークに入力して、３次元顔モデル、顔属性情報及び顔フィギュア情報を取得し、３次元顔モデルに基づいて３次元参照モデルを変形処理して、３次元フィギュアモデルを取得し、顔属性情報及び顔フィギュア情報に基づいて３次元フィギュアモデルを調整して、ターゲットアバタを取得する。これにより、顔画像及び３次元参照モデルを選択することにより、アバタを迅速かつ正確に生成し、操作が簡単で便利であり、３次元アバタ生成効率及び精度を向上させ、ユーザの使用ニーズを満たすことができる。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本出願の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

３次元アバタ生成方法であって、
処理対象の顔画像及び３次元参照モデルを取得するステップと、
前記処理対象の顔画像をトレーニングされたニューラルネットワークに入力して、３次元顔モデル、顔属性情報及び顔フィギュア情報を取得するステップと、
前記３次元顔モデルに基づいて前記３次元参照モデルを変形処理して、３次元フィギュアモデルを取得するステップと、
前記顔属性情報及び顔フィギュア情報に基づいて前記３次元フィギュアモデルを調整して、ターゲットアバタを取得するステップと、
前記ターゲットアバタの複数のターゲット動作を取得するステップと、
前記複数のターゲット動作に対応する複数の変形係数を取得するステップと、
前記複数の変形係数に対して線形重ね合わせを行って、ターゲット駆動アバタを生成するステップと、を含む、
ことを特徴とする３次元アバタ生成方法。
前記処理対象の顔画像をトレーニングされたニューラルネットワークに入力して、３次元顔モデルを取得するステップは、
トレーニングされたニューラルネットワークによって前記処理対象の顔画像の特徴ベクトルを抽出するステップと、
前記特徴ベクトル及び予め確立されたベクトル行列に基づいて、前記３次元顔モデルを取得するステップと、を含む、
ことを特徴とする請求項１に記載の３次元アバタ生成方法。
前記３次元顔モデルに対応する透視投影関係を取得するステップと、
前記透視投影関係及び前記処理対象の顔画像に基づいて、前記３次元顔モデルのテクスチャ情報を取得するステップと、をさらに含む、
ことを特徴とする請求項２に記載の３次元アバタ生成方法。
前記処理対象の顔画像をトレーニングされたニューラルネットワークに入力して、顔フィギュア情報を取得するステップは、
トレーニングされたニューラルネットワークによって前記処理対象の顔画像の髪型カテゴリ及び装飾品を抽出するステップを含む、
ことを特徴とする請求項１に記載の３次元アバタ生成方法。
前記３次元顔モデルに基づいて前記３次元参照モデルを変形処理して、３次元フィギュアモデルを取得するステップは、
前記３次元顔モデルの第１の変形領域、及び前記３次元参照モデルの第２の変形領域を決定するステップであって、前記第１の変形領域と前記第２の変形領域は、マッピング関係であるステップと、
前記第１の変形領域の第１のキーポイント及び前記第２の変形領域の第２のキーポイントをキャリブレーションするステップと、
前記第１のキーポイントが変形するように制御して、前記第２のキーポイントを前記マッピング関係に基づいて対応して変形させ、３次元フィギュアモデルを生成するステップと、を含む、
ことを特徴とする請求項１に記載の３次元アバタ生成方法。
３次元アバタ生成装置であって、
処理対象の顔画像及び３次元参照モデルを取得するための第１の取得モジュールと、
前記処理対象の顔画像をトレーニングされたニューラルネットワークに入力して、３次元顔モデル、顔属性情報及び顔フィギュア情報を取得するための第２の取得モジュールと、
前記３次元顔モデルに基づいて前記３次元参照モデルを変形処理して、３次元フィギュアモデルを取得するための処理モジュールと、
前記顔属性情報及び顔フィギュア情報に基づいて前記３次元フィギュアモデルを調整して、ターゲットアバタを取得するための調整モジュールと、
前記ターゲットアバタの複数のターゲット動作を取得するための第３の取得モジュールと、
前記複数のターゲット動作に対応する複数の変形係数を取得するための第４の取得モジュールと、
前記複数の変形係数に対して線形重ね合わせを行って、ターゲット駆動アバタを生成するための生成モジュールと、を含む、
ことを特徴とする３次元アバタ生成装置。
前記第２の取得モジュールが、
トレーニングされたニューラルネットワークによって前記処理対象の顔画像の特徴ベクトルを抽出し、
前記特徴ベクトル及び予め確立されたベクトル行列に基づいて、前記３次元顔モデルを取得する、
ことを特徴とする請求項６に記載の３次元アバタ生成装置。
前記第２の取得モジュールが、
前記３次元顔モデルに対応する透視投影関係を取得し、
前記透視投影関係及び前記処理対象の顔画像に基づいて、前記３次元顔モデルのテクスチャ情報を取得する、
ことを特徴とする請求項７に記載の３次元アバタ生成装置。
前記第２の取得モジュールが、
トレーニングされたニューラルネットワークによって前記処理対象の顔画像の髪型カテゴリ及び装飾品を抽出する、
ことを特徴とする請求項６に記載の３次元アバタ生成装置。
前記処理モジュールが、
前記３次元顔モデルの第１の変形領域、及び前記３次元参照モデルの第２の変形領域を決定し、前記第１の変形領域と前記第２の変形領域は、マッピング関係であり、
前記第１の変形領域の第１のキーポイント及び前記第２の変形領域の第２のキーポイントをキャリブレーションし、
前記第１のキーポイントが変形するように制御して、前記第２のキーポイントを前記マッピング関係に基づいて対応して変形させ、３次元フィギュアモデルを生成する、
ことを特徴とする請求項６に記載の３次元アバタ生成装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが請求項１～５のいずれかに記載の方法を実行できるように、前記少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～５のいずれかに記載の方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムは、コンピュータに請求項１～５のいずれかに記載の方法を実行させる、
ことを特徴とするコンピュータプログラム。