JP6785282B2

JP6785282B2 - アバタによる生放送方法及び装置

Info

Publication number: JP6785282B2
Application number: JP2018225247A
Authority: JP
Inventors: ペイジリ，; レンチュワン，
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2018-10-31
Filing date: 2018-11-30
Publication date: 2020-11-18
Anticipated expiration: 2038-11-30
Also published as: CN111200747A; JP2020071851A

Description

本発明は、生放送技術分野に関し、特にアバタによる生放送方法及び装置に関する。

コンピュータ技術の発展に伴い、コンピュータ技術に依存するエンターテインメント産業もますます豊かになってきており、例えば、コンピュータ技術に依存する生放送業界、例えば、ゲーム生放送、生放送販売等は、新興産業として、ますます広く注目されている。

関連技術では、アンカーユーザ及びその位置する環境の実際の音声ビデオ情報をソーシャルプラットフォームにリアルタイムで配信することにより、生放送が実現されるが、この方式では、アンカーユーザが、その実際の身分を公開したくない場合に、アンカーユーザのプライバシーが大きく損なわれる。従って、生放送の真正性とプライバシー保護との矛盾のバランスを取ることができる方法が求められている。

本発明は、従来技術における少なくとも１つの技術的課題をある程度で解決することを目的とする。

そのため、本発明の第１の目的は、生放送の真正性が確保されるとともに、生放送ユーザのプライバシーが保護されるアバタによる生放送方法を提供することである。

本発明の第２の目的は、アバタによる生放送装置を提供することである。

本発明の第３の目的は、コンピュータプログラム製品を提供することである。

本発明の第４の目的は、非一時的なコンピュータ読み取り可能な記憶媒体を提供することである。

上記目的を達成するために、本発明の第一態様の実施例は、アンカーユーザの顔の奥行き情報を採取するステップと、前記顔の奥行き情報に基づいて、前記アンカーユーザの表情を決定するステップと、前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするステップと、前記アンカーユーザの音声情報を採取し、前記音声情報及び前記仮想顔をビデオフレームに合成し、前記ビデオフレームを視聴ユーザクライアントに送信するステップと、を含むアバタによる生放送方法を提供する。

また、本発明の実施例に係るアバタによる生放送方法は、以下の付加的な技術的特徴をさらに含む。

選択可能に、アンカーユーザの顔の奥行き情報を採取するステップは、ドットマトリクスプロジェクターにより前記アンカーユーザの顔に複数の光点を投射するステップと、前記アンカーユーザの顔によって変調された構造化光画像を撮影するステップと、前記構造化光画像の各画素に対応する位相情報を復調して前記アンカーユーザの顔の奥行き情報を取得するステップと、を含む。

選択可能に、前記顔の奥行き情報に基づいて、前記アンカーユーザの表情を決定するステップは、予め設定された第１の表情データベースを照会して、前記顔の奥行き情報に対応する表情を取得するステップ、または、前記顔の奥行き情報と前回採取された顔の奥行き情報との奥行き変化情報を算出し、予め設定された第２の表情データベースを照会して、前記奥行き変化情報に対応する表情を取得するステップを含む。

選択可能に、前記方法は、前記アンカーユーザのユーザ特徴及び生放送シーン特徴を取得するステップと、前記ユーザ特徴及び生放送シーン特徴に基づいてアバタを生成するステップと、をさらに含む。

選択可能に、前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするステップは、前記仮想顔に対応する仮想垂直描画モデルを構築し、前記仮想垂直描画モデルは、前記仮想顔における各器官に対応する、キーポイントを含むメッシュ領域を含むステップと、予め設定された２次元のアニメーション編集データベースを照会して、前記表情に対応する標的器官及び調整パラメータを取得するステップと、前記調整パラメータに基づいて、前記標的器官に対応する標的メッシュを調整して前記仮想顔をレンダリングするステップと、を含む。

本発明の第２の態様の実施例は、アンカーユーザの顔の奥行き情報を採取するための採取モジュールと、前記顔の奥行き情報に基づいて、前記アンカーユーザの表情を決定するための決定モジュールと、前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするためのレンダリングモジュールと、前記アンカーユーザの音声情報を採取し、前記音声情報及び前記仮想顔をビデオフレームに合成するための合成モジュールと、前記ビデオフレームを視聴ユーザクライアントに送信するため送信モジュールと、を含むアバタによる生放送装置を提供する。

本発明の第３の態様の実施例は、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品における命令がプロセッサによって実行される場合に、上記方法の実施例に記載のアバタによる生放送方法が実現される。

本発明の第４の態様の実施例は、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータプログラムがプロセッサによって実行される場合に、上記方法の実施例に記載のアバタによる生放送方法が実現される。

本発明の実施例によって提供される技術案は、以下の有益な効果を含むことができる。

アンカーユーザの顔の奥行き情報を採取し、顔の奥行き情報に基づいて、アンカーユーザの表情を決定し、さらに、表情に基づいて、予め設定されたアバタの仮想顔をレンダリングし、最後に、アンカーユーザの音声情報を採取し、音声情報及び仮想顔をビデオフレームに合成し、ビデオフレームを視聴ユーザクライアントに送信する。これにより、生放送の真正性が確保されるとともに、生放送ユーザのプライバシーが保護され、製品へのユーザの依存度が向上する。

本発明の付加的な特徴及び利点は、以下の説明において一部が示され、一部が以下の説明により明らかになるか、または、本発明の実施により理解される。

本発明の上記および／または付加的な特徴と利点は、図面を参照して実施例を以下に説明することにより明らかになり、容易に理解される。
本発明の一実施例に係るアバタによる生放送方法のフローチャートである。本発明の一実施例に係るアバタのシーンの模式図である。本発明の他の一実施例に係るアバタによる生放送方法のフローチャートである。本発明の他の一実施例に係るアバタによる生放送方法のフローチャートである。本発明の他の一実施例に係るアバタのシーンの模式図である。本発明の一実施例に係るアバタによる生放送装置の概略構成図である。本発明の他の一実施例に係るアバタによる生放送装置の概略構成図である。

以下に、本発明の実施例を詳細に説明する。前記実施例の例が図面に示されるが、同一または類似する符号は、常に、同一又は類似する部品、或いは、同一又は類似する機能を有する部品を表す。以下に、図面を参照しながら説明される実施例は例示するものであり、本発明を解釈するためだけに用いられ、本発明を限定するものと理解してはならない。

以下、図面を参照して本発明の実施例に係るアバタによる生放送方法及び装置を説明する。

上記従来技術で説明したように、関連技術では、生放送の真正性とプライバシー保護との矛盾のバランスを取ることができておらず、当該技術的課題を解決するために、本発明は、アバタによる生放送方法を提供する。当該方法では、アンカーユーザのアバタを構築して、アバタによって生放送を実現することにより、アンカーユーザのプライバシーが保護される一方、アバタを構築する場合には、アンカーユーザの顔の奥行き情報の分析及びレンダリングに基づいて構築するため、精度が高くなり、効果がより現実的であり、生放送の真正性が確保される。

具体的には、図１には、本発明の一実施例に係るアバタによる生放送方法のフローチャートを示す。図１に示すように、当該方法は、以下のステップ１０１〜ステップ１０４を含む。

ステップ１０１では、アンカーユーザの顔の奥行き情報を採取する。

顔の奥行き情報は、アンカーユーザの３次元空間での顔立体形状を反映する。

なお、適用のシーンによって、アンカーユーザの顔の奥行き情報を採取する方式が異なり、以下のように例示する。

本発明の一実施例では、図２に示すように、上記ステップ１０１は、以下のステップ２０１〜ステップ２０３を含む。

ステップ２０１では、ドットマトリクスプロジェクターが、アンカーユーザの顔に複数の光点を投射する。

ここで、ユーザの顔に光点を投射する技術により顔の奥行き情報の採取を実現するため、光点数を制御することにより採取精度を制御することができる。また、顔情報の複雑さに基づいて、異なる部位に数の異なる光点を投射するように制御することもできる。例えば、目及び口の部位で光点を比較的多く投射し、顔領域に光点を比較的少なく投射するなどとすることができる。これにより、資源が十分に利用され、採取の精度が向上する。

ステップ２０２では、アンカーユーザの顔によって変調された構造化光画像を撮影する。

ステップ２０３では、構造化光画像の各画素に対応する位相情報を復調してアンカーユーザの顔の奥行き情報を取得する。

具体的には、上記ドットマトリクスプロジェクターは、構造化光投光器等を含んでもよい。ここで、ドットマトリクスプロジェクターが構造化光投光器を含む場合には、構造化光投光器は、現在のアンカーユーザの顔に構造化光を投射することができる。構造化光投光器の構造化光カメラは、現在のアンカーユーザの顔によって変調された構造化光画像を撮影し、構造化光画像の各画素に対応する位相情報を撮影して奥行き画像を取得する。ここで、構造化光のパターンは、レーザーストライプ、グレイコード、正弦波ストライプ、不均一なスペックル等であってもよい。当然ながら、可能な一部の例では、変調されていない構造化光に比べて、変調された構造化光の位相情報が変化し、構造化光画像における構造化光は、歪みが生じた構造化光であり、ここで、変化した位相情報は、物体の奥行き情報を特徴付けることができる。従って、構造化光カメラは、まず構造化光画像における各画素に対応する位相情報を復調し、その後、位相情報に基づいて、アンカーユーザの顔の奥行き情報を算出する。

本発明の一実施例では、現在の端末デバイスのハードウェアデバイスを照会し、端末デバイスに搭載されたドットマトリクス投光装置によってドットマトリクス光を投射して、アンカーユーザの顔の奥行き情報を採取することができる。例えば、アップル社のアイフォンユーザは、当該アイフォンのＴｒｕｅＤｅｐｔｈカメラによってユーザの奥行き情報を採取することができる。

ステップ１０２では、顔の奥行き情報に基づいて、アンカーユーザの表情を決定する。

具体的には、リアリティー生放送シーンでは、アンカーユーザの顔表情の変化が、生放送を魅力的に、そして興味深くするための重要な表現であることを考慮して、本発明の実施例では、アンカーユーザのアバタを構築する場合に、このような生き生きとした表情を復元するために、顔の奥行き情報に基づいて、アンカーユーザの表情を決定する。

ここで、適用するシーンによっては、顔の奥行き情報に基づいてアンカーユーザの表情を決定する方式が異なっている。以下にその例を示す。

例１
この例では、大量の実験データ（当該実験データには、ユーザの表情及び対応するユーザの顔の奥行き情報が含まれる）に基づいて、深層学習モデルを予め構築し、アンカーユーザの顔情報を当該深層学習モデルに入力し、当該深層学習モデルによって出力されたアンカーユーザの表情を取得する。

例２
アンカーユーザがアンカープラットフォームに登録する場合に、アンカーユーザが異なる表情をするときの顔の奥行き情報を採取する。ここで、表情タイプと顔の奥行き情報とを対応させるために、ユーザに表情タイプ採取提示を予め送信し、当該提示でユーザがする表情を取得する。例えば、楽しい表情をするようにユーザに提示すると、現在採取された顔の奥行き情報を楽しい表情に対応する顔の奥行き情報とする。あるいは、ユーザが表情を終了した後、表情タイプを手動で入力してもよく、インターフェース上の表情オプションを選択してもよい。さらに、顔の奥行き情報と表情との対応関係に基づいて、当該アンカーユーザに対して第１の表情データベースを構築する。これにより、アンカーユーザの顔の奥行き情報を取得した後、当該第１の表情データベースを照会すれば、対応する表情を取得することができる。例えば、一致度が一定の値より大きい顔の奥行き情報に対応する表情を、現在のアンカーユーザの表情とすることができる。

当然のことながら、奥行き情報を比較する場合に、各点の比較による計算量が大きいという問題を軽減するために、本実施例では、顔の奥行き情報の変化に基づいて第２の表情データベースを構築することができる。当該第２の表情データベースには、対応するアンカーユーザの奥行き変化情報と表情との対応関係が含まれている。例えば、顔の奥行き情報変化は、口角の部分の位相が正方向にＡ変化し、目の部分の位相が負方向にＢ変化した場合に、対応する第２の表情データベースを照会すると、当該奥行き変化情報に対応する表情が嬉しくて大笑いする表情１であることが分かる。

ステップ１０３では、表情に基づいて、予め設定されたアバタの仮想顔をレンダリングする。

ここで、アバタが２次元であってもよいし、３次元であってもよい。

具体的には、各人が同じタイプの表情をする時に対応する表情が同じでないことを考慮して、アンカーユーザの現在の表情を現実的に復元するために、表情に基づいて予め設定されたアバタの仮想顔をレンダリングして、アバタの顔表情を現在のアンカーユーザの顔表情と一致させる。例えば、図３に示すように、アバタが猫の３Ｄモデルである場合には、表情に基づいて猫の顔表情をアンカーユーザの表情にレンダリングする。

ここで、ユーザの個人差異及びアバタに対応する差異を考慮して、本発明の実施例では、表情に基づいて予め設定されたアバタをレンダリングする場合に、アンカーユーザの顔の五官位置及び形状を取得し、五官位置及び五官形状に基づいてアバタを微調整する。

本発明の一実施例では、表情に基づいて、予め設定されたアバタの仮想顔をレンダリングする效率を向上させるため、アバタが２次元である場合には、Ｌｉｖｅ２Ｄ技術により仮想顔の構築を実現する。具体的には、図４に示すように、表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするステップは、以下のステップ３０１〜ステップ３０３を含んでいる。

ステップ３０１では、仮想顔に対応する仮想垂直描画モデルを構築する。仮想垂直描画モデルは、仮想顔における各器官に対応するキーポイントを含むメッシュ領域を含む。

具体的には、仮想顔に対応する仮想垂直描画モデルを構築する。仮想垂直描画モデルは、仮想顔における各器官に対応するキーポイントを含むメッシュ領域を含む。即ち、仮想顔の各部分をバラバラにするため、仮想垂直描画モデルでは、目、鼻、口、髪等の部位が独立しており、独立した部分のそれぞれは、自分のキーポイントおよびメッシュ領域があり、いずれもアニメーション編集により独立して動くことができる。たとえば、「Ｌｉｖｅ２Ｄ」は、まぶた部位のメッシュ領域の変形によって、目の瞬きの表情等を生成することができる。

ステップ３０２では、予め設定された２次元のアニメーション編集データベースを照会して、表情に対応する標的器官及び調整パラメータを取得する。

ステップ３０３では、調整パラメータに基づいて、標的器官に対応する標的メッシュを調整して仮想顔をレンダリングする。

具体的には、仮想垂直描画モデルにおける各部分のそれぞれは、仮想顔の大量のキーポイントを有しており、これらのキーポイントは、お互いに連結して個々のメッシュ領域を形成する。これらのキーポイントは、３Ｄモデルにおける頂点に類似しており、キーポイントが移動する場合に、メッシュ領域が変形し、対応する元の仮想顔部品（仮想顔の顔器官を含む）も変形する。メッシュの変形、移動、拡縮によって対応する元の仮想顔部品の動きを制御することにより、２次元のアバタに表情が自然に変化するいくつかの動作をさせることができる。ここで、前記メッシュ領域の変形パラメータ、移動パラメータ及び拡縮パラメータは、本実施例における対応する標的器官の調整パラメータとして理解されてもよい。

本実施例では、表情と、標的器官及び標的器官の調整パラメータとの対応関係を含む２次元のアニメーション編集データベースを構築し、当該２次元のアニメーション編集データベースは、各アンカーユーザに対応することができる。さらに、２次元のアニメーション編集データベースに基づいて、現在のアンカー表情に対応する標的器官及び調整パラメータを取得し、調整パラメータに基づいて、標的器官に対応する標的メッシュを調整して仮想顔をレンダリングする。

なお、本発明の実施例では、アバタは、予め設定されたデフォルトキャラクタ、例えば、ある製品の宣伝用マスコットキャラクタ等であってもよいし、現在の生放送によって生成されたものであってもよい。例えば、アンカーユーザのユーザ特徴及び生放送シーン特徴を取得し、ここで、ユーザ特徴は、ユーザの嗜好情報、性別、年齢等を含み、生放送シーン特徴は、服の購入、ゲーム、ビジネスの促進等の生放送業務に関する特徴を含み、さらに、ユーザ特徴及び生放送シーン特徴に基づいてアバタを生成してもよい。例えば、現在のシーンの特徴が秘密商業会談で、アンカーユーザ特徴がビジネスマンであり、さらに必要に応じてアバタが顔の五官を含まない場合には、図５に示すように、相対的に正式なアバタが生成されることとしてもよい。

ステップ１０４では、アンカーユーザの音声情報を採取し、音声情報及び仮想顔をビデオフレームに合成し、ビデオフレームを視聴ユーザクライアントに送信する。

具体的には、生放送を実現するために、アンカーユーザの音声情報を採取し、音声情報及び仮想顔をビデオフレームに合成し、ビデオフレームを視聴ユーザクライアントに送信する。ここで、各ビデオフレームにおけるアバタ、顔表情及び音声情報はアンカーユーザに対応するものである。このたため、ビデオフレームからなるビデオストリームは、アンカーユーザの実際のアンカー表情等を復元するので、真正感を高めながらも、アンカーユーザのプライバシーを保護することができる。

以上のように、本発明の実施例に係るアバタによる生放送方法は、アンカーユーザの顔の奥行き情報を採取し、顔の奥行き情報に基づいてアンカーユーザの表情を決定し、さらに、表情に基づいて予め設定されたアバタの仮想顔をレンダリングし、最後に、アンカーユーザの音声情報を採取し、音声情報及び仮想顔をビデオフレームに合成し、ビデオフレームを視聴ユーザクライアントに送信する。これにより、生放送の真正性が確保されるとともに、生放送ユーザのプライバシーが保護され、製品へのユーザの依存度が向上する。

上記実施例を実現するために、本発明は、アバタによる生放送装置をさらに提供する。図６は、本発明の一実施例に係るアバタによる生放送装置の概略構成図である。図６に示すように、当該アバタによる生放送装置は、採取モジュール１０と、決定モジュール２０と、レンダリングモジュール３０と、合成モジュール４０と、送信モジュール５０と、を含む。

ここで、採取モジュール１０は、アンカーユーザの顔の奥行き情報を採取するためのものである。

決定モジュール２０は、顔の奥行き情報に基づいて、アンカーユーザの表情を決定するためのものである。

レンダリングモジュール３０は、表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするためのものである。

合成モジュール４０は、アンカーユーザの音声情報を採取し、音声情報及び仮想顔をビデオフレームに合成するためのものである。

送信モジュール５０は、ビデオフレームを視聴ユーザクライアントに送信するためのものである。

本発明の一実施例では、図７に示すように、図６に示すものに基づく。採取モジュール１０は、投射ユニット１１と、撮影ユニット１２と、取得ユニット１３と、を含む。

ここで、投射ユニット１１は、ドットマトリクスプロジェクターによりアンカーユーザの顔に複数の光点を投射するためのものである。

撮影ユニット１２は、アンカーユーザの顔によって変調された構造化光画像を撮影するためのものである。

取得ユニット１３は、構造化光画像の各画素に対応する位相情報を復調してアンカーユーザの顔の奥行き情報を取得するためのものである。

本実施例では、決定モジュール２０は、具体的には、予め設定された第１の表情データベースを照会して、顔の奥行き情報に対応する表情を取得し、または、顔の奥行き情報と前回採取された顔の奥行き情報との奥行き変化情報を算出し、予め設定された第２の表情データベースを照会して、奥行き変化情報に対応する表情を取得する。

なお、アバタによる生放送方法の実施例に対する上記説明が、当該実施例に係るアバタによる生放送装置にも適用されるが、その実現原理が類似するため、ここでは説明を省略する。

以上述べたように、本発明の実施例に係るアバタによる生放送装置は、アンカーユーザの顔の奥行き情報を採取し、顔の奥行き情報に基づいてアンカーユーザの表情を決定し、表情に基づいて予め設定されたアバタの仮想顔をレンダリングし、最後に、アンカーユーザの音声情報を採取し、音声情報及び仮想顔をビデオフレームに合成し、ビデオフレームを視聴ユーザクライアントに送信する。これにより、生放送の真正性が確保されるとともに、生放送ユーザのプライバシーが保護され、製品へのユーザの依存度が向上する。

上記実施例を実現するために、本発明は、コンピュータプログラム製品をさらに提供する。前記コンピュータプログラム製品における命令を、プロセッサに実行させると、前述した方法の実施例に記載のアバタによる生放送方法が実現される。

上記実施例を実現するために、本発明は、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。前記コンピュータプログラムがプロセッサによって実行される場合に、前述した方法の実施例に記載のアバタによる生放送方法が実現される。

本発明の説明において、「一実施例」、「一部の実施例」、「例示的な実施例」、「具体的な実施例」、又は「一部の実施例」などの用語を参照した説明とは、該実施例又は実施例に結合して説明された具体的な特徴、構成、材料又は特徴が、本発明の少なくとも一実施例又は実施例に含まれることを意味する。本明細書において、上記用語に対する例示的な記述は、必ずしも同一の実施例又は実施例を示すことではない。又、説明された具体的な特徴、構成、材料又は特徴は、いずれか１つ又は複数の実施例又は実施例において適切に組み合わせることができる。さらに、互いに矛盾しない場合、当業者であれば、本明細書に記述した異なる実施例又は例、及び異なる実施例又は例示的特徴に対して結合及び組み合わせを行うことができる。

また、「第１」、「第２」の用語は単に説明のために用いるものであり、比較的な重要性を指示又は暗示するか、又は示された技術的特徴の数を黙示的に指示すると理解してはならない。従って、「第１」、「第２」で限定された特徴は、少なくとも１つの前記特徴を含むことを明示又は暗示する。本発明の説明において、別途、明確で具体的な限定がない限り、「複数」とは、少なくとも２つ、例えば、２つ、３つなどを意味する。

フローチャートにおける、又はここで他の形態で記載された任意のプロセス又は方法は、カスタムロジック機能又はプロセスのステップを実現するための１つ又は複数の実行可能な命令コードを含むモジュール、セグメント又は一部を表すと理解されてもよい。また、本発明の好ましい実施形態の範囲は、示された又は論議された順番ではなく、係る機能に応じてほぼ同時の形態又は逆の順番で機能を実行することができる他の実現を含むことができる。これは、当業者であれば理解すべきものである。

フローチャートで示された又はここで他の形態で説明されたロジック及び／又はステップは、例えば、ロジック機能を実現するための実行可能な命令の順番付けられたリストと見なすことができ、任意のコンピュータ読み取り可能な記憶媒体に具体的に実装され、命令実行システム、装置、又はデバイス（例えばコンピュータに基づいたシステム、プロセッサを含むシステム、又は他の命令実行システム、装置又はデバイスから命令を獲得して命令を実行するシステム）に利用されるか、又はこれらの命令実行システム、装置又はデバイスと組み合わせて利用される。本願明細書において、「コンピュータ読み取り可能な記憶媒体」は、命令実行システム、装置又はデバイスによって、又は、命令実行システム、装置又はデバイスと組み合わせて使用するためのプログラムを含む、格納、通信、伝播、又は伝送することができる任意の装置であってもよい。コンピュータ読み取り可能な記憶媒体のより具体的な例（非限定的なリスト）として、１つ又は複数の配線を備える電気接続部（電子デバイス）、ポータブルコンピュータディスクカートリッジ（磁気デバイス）、ランダムアクセスメモリ（ＲＡＭ）読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバデバイス、及びポータブルコンパクトディスク読み出し専用リメモリ（ＣＤＲＯＭ）を含む。また、コンピュータ読み取り可能な記憶媒体は、前記プログラムが印刷され得る紙又は他の適切な媒体であってもよい。これは、例えば、紙や他の媒体を光学的スキャンし、編集し、解釈し、又は必要な場合に他の適切な形態で処理して前記プログラムを電子的に取得して、コンピュータメモリに格納するためである。

なお、本発明の各部分は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせによって実現することができる。上記実施形態において、複数のステップ又は方法は、メモリに記憶された適切な命令実行システムによって実行されるソフトウェア又はファームウェアによって実現することができる。例えば、ハードウェアで実現される場合に、もう１つの実施形態と同様に、本分野において周知な、データ信号に対してロジック機能を実現するためのロジックゲート回路を備える離散ロジック回路、適切な組み合わせロジックゲート回路を備える特定用途向け集積回路、プログラマブルゲートアレイ（ＰＧＡ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などの当分野の周知技術のうちいずれか１つ又はこれらの組み合わせによって実現することができる。

通常の当業者であれば、上記の実施例に係る方法に含まれる全部又は一部のステップは、プログラムによってハードウェアを命令することで実行することができると理解することができる。前記プログラムは、コンピュータ読み取り可能な記憶媒体に格納することができ、当該プログラムが実行される場合に、方法実施例におけるステップの１つ又はそれらの組み合わせが実行される。

また、本発明の各実施例における各機能ユニットは、１つの処理モジュールに集積されてもよいし、それぞれが個別の物理的存在であってもよいし、２つ以上のユニットが１つのモジュールに集積されてもよい。前記集積モジュールは、ハードウェアの形態で実現されてもよいし、ソフトウェア機能モジュールの形態で実現されてもよい。前記集積モジュールがソフト機能モジュールの形態で実現され、独立した製品として販売又は使用される場合には、１つのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。

上記の記憶媒体は、読み出し専用メモリ、磁気ディスク、又はＣＤなどであってもよい。なお、以上、本発明の実施例を示して説明したが、上記実施例はあくまで例示であり、本発明を制限するためのものであると理解してはならない。通常の当業者であれば、本発明の範囲内で、上記実施例に対して変更、修正、取り替え、変形を行うことができる。

Claims

アンカーユーザの顔の奥行き情報を採取するステップと、
前記顔の奥行き情報に基づいて、前記アンカーユーザの表情を決定するステップと、
前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするステップと、
前記アンカーユーザの音声情報を採取し、前記音声情報及び前記仮想顔をビデオフレームに合成し、前記ビデオフレームを視聴ユーザクライアントに送信するステップと、を含み、
前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするステップは、
前記仮想顔に対応する仮想垂直描画モデルを構築し、前記仮想垂直描画モデルは、前記仮想顔における各器官に対応する、キーポイントを含むメッシュ領域を含むステップと、
予め設定された２次元のアニメーション編集データベースを照会して、前記表情に対応する標的器官及び調整パラメータを取得するステップと、
前記調整パラメータに基づいて、前記標的器官に対応する標的メッシュを調整して前記仮想顔をレンダリングするステップと、を含むことを特徴とするアバタによる生放送方法。
前記アンカーユーザの顔の奥行き情報を採取するステップは、
ドットマトリクスプロジェクターにより前記アンカーユーザの顔に複数の光点を投射するステップと、
前記アンカーユーザの顔によって変調された構造化光画像を撮影するステップと、
前記構造化光画像の各画素に対応する位相情報を復調して前記アンカーユーザの顔の奥行き情報を取得するステップと、を含むことを特徴とする請求項１に記載の方法。
前記顔の奥行き情報に基づいて、前記アンカーユーザの表情を決定するステップは、
予め設定された第１の表情データベースを照会して、前記顔の奥行き情報に対応する表情を取得するステップ、
または、
前記顔の奥行き情報と前回採取された顔の奥行き情報との奥行き変化情報を算出し、予め設定された第２の表情データベースを照会して、前記奥行き変化情報に対応する表情を取得するステップを含むことを特徴とする請求項２に記載の方法。
前記方法は、
前記アンカーユーザのユーザ特徴及び生放送シーン特徴を取得するステップと、
前記ユーザ特徴及び生放送シーン特徴に基づいてアバタを生成するステップと、をさらに含むことを特徴とする請求項１に記載の方法。
アンカーユーザの顔の奥行き情報を採取するための採取モジュールと、
前記顔の奥行き情報に基づいて、前記アンカーユーザの表情を決定するための決定モジュールと、
前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするためのレンダリングモジュールと、
前記アンカーユーザの音声情報を採取し、前記音声情報及び前記仮想顔をビデオフレームに合成するための合成モジュールと、
前記ビデオフレームを視聴ユーザクライアントに送信するための送信モジュールと、を含み、
前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングすることは、
前記仮想顔に対応する仮想垂直描画モデルを構築し、前記仮想垂直描画モデルは、前記仮想顔における各器官に対応する、キーポイントを含むメッシュ領域を含むことと、
予め設定された２次元のアニメーション編集データベースを照会して、前記表情に対応する標的器官及び調整パラメータを取得することと、
前記調整パラメータに基づいて、前記標的器官に対応する標的メッシュを調整して前記仮想顔をレンダリングすることと、を含むことを特徴とするアバタによる生放送装置。
前記採取モジュールは、
ドットマトリクスプロジェクターにより前記アンカーユーザの顔に複数の光点を投射するための投射ユニットと、
前記アンカーユーザの顔によって変調された構造化光画像を撮影するための撮影ユニットと、
前記構造化光画像の各画素に対応する位相情報を復調して前記アンカーユーザの顔の奥行き情報を取得するための取得ユニットと、を含むことを特徴とする請求項５に記載の装置。
前記決定モジュールは、具体的に、
予め設定された第１の表情データベースを照会して、前記顔の奥行き情報に対応する表情を取得し、
または、
前記顔の奥行き情報と前回採取された顔の奥行き情報との奥行き変化情報を算出し、予め設定された第２の表情データベースを照会して、前記奥行き変化情報に対応する表情を取得することを特徴とする請求項６に記載の装置。
コンピュータプログラム製品であって、前記コンピュータプログラム製品における命令がプロセッサによって実行される場合に、請求項１〜４のいずれかに記載のアバタによる生放送方法が実現されることを特徴とするコンピュータプログラム製品。
コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行される場合に、請求項１〜４のいずれかに記載のアバタによる生放送方法が実現されることを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。