JP6785282B2 - アバタによる生放送方法及び装置 - Google Patents

アバタによる生放送方法及び装置 Download PDF

Info

Publication number
JP6785282B2
JP6785282B2 JP2018225247A JP2018225247A JP6785282B2 JP 6785282 B2 JP6785282 B2 JP 6785282B2 JP 2018225247 A JP2018225247 A JP 2018225247A JP 2018225247 A JP2018225247 A JP 2018225247A JP 6785282 B2 JP6785282 B2 JP 6785282B2
Authority
JP
Japan
Prior art keywords
face
facial expression
anchor user
avatar
depth information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018225247A
Other languages
English (en)
Other versions
JP2020071851A (ja
Inventor
ペイジ リ,
ペイジ リ,
レンチュ ワン,
レンチュ ワン,
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2020071851A publication Critical patent/JP2020071851A/ja
Application granted granted Critical
Publication of JP6785282B2 publication Critical patent/JP6785282B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Graphics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Processing Or Creating Images (AREA)
  • Studio Devices (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Description

本発明は、生放送技術分野に関し、特にアバタによる生放送方法及び装置に関する。
コンピュータ技術の発展に伴い、コンピュータ技術に依存するエンターテインメント産業もますます豊かになってきており、例えば、コンピュータ技術に依存する生放送業界、例えば、ゲーム生放送、生放送販売等は、新興産業として、ますます広く注目されている。
関連技術では、アンカーユーザ及びその位置する環境の実際の音声ビデオ情報をソーシャルプラットフォームにリアルタイムで配信することにより、生放送が実現されるが、この方式では、アンカーユーザが、その実際の身分を公開したくない場合に、アンカーユーザのプライバシーが大きく損なわれる。従って、生放送の真正性とプライバシー保護との矛盾のバランスを取ることができる方法が求められている。
本発明は、従来技術における少なくとも1つの技術的課題をある程度で解決することを目的とする。
そのため、本発明の第1の目的は、生放送の真正性が確保されるとともに、生放送ユーザのプライバシーが保護されるアバタによる生放送方法を提供することである。
本発明の第2の目的は、アバタによる生放送装置を提供することである。
本発明の第3の目的は、コンピュータプログラム製品を提供することである。
本発明の第4の目的は、非一時的なコンピュータ読み取り可能な記憶媒体を提供することである。
上記目的を達成するために、本発明の第一態様の実施例は、アンカーユーザの顔の奥行き情報を採取するステップと、前記顔の奥行き情報に基づいて、前記アンカーユーザの表情を決定するステップと、前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするステップと、前記アンカーユーザの音声情報を採取し、前記音声情報及び前記仮想顔をビデオフレームに合成し、前記ビデオフレームを視聴ユーザクライアントに送信するステップと、を含むアバタによる生放送方法を提供する。
また、本発明の実施例に係るアバタによる生放送方法は、以下の付加的な技術的特徴をさらに含む。
選択可能に、アンカーユーザの顔の奥行き情報を採取するステップは、ドットマトリクスプロジェクターにより前記アンカーユーザの顔に複数の光点を投射するステップと、前記アンカーユーザの顔によって変調された構造化光画像を撮影するステップと、前記構造化光画像の各画素に対応する位相情報を復調して前記アンカーユーザの顔の奥行き情報を取得するステップと、を含む。
選択可能に、前記顔の奥行き情報に基づいて、前記アンカーユーザの表情を決定するステップは、予め設定された第1の表情データベースを照会して、前記顔の奥行き情報に対応する表情を取得するステップ、または、前記顔の奥行き情報と前回採取された顔の奥行き情報との奥行き変化情報を算出し、予め設定された第2の表情データベースを照会して、前記奥行き変化情報に対応する表情を取得するステップを含む。
選択可能に、前記方法は、前記アンカーユーザのユーザ特徴及び生放送シーン特徴を取得するステップと、前記ユーザ特徴及び生放送シーン特徴に基づいてアバタを生成するステップと、をさらに含む。
選択可能に、前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするステップは、前記仮想顔に対応する仮想垂直描画モデルを構築し、前記仮想垂直描画モデルは、前記仮想顔における各器官に対応する、キーポイントを含むメッシュ領域を含むステップと、予め設定された2次元のアニメーション編集データベースを照会して、前記表情に対応する標的器官及び調整パラメータを取得するステップと、前記調整パラメータに基づいて、前記標的器官に対応する標的メッシュを調整して前記仮想顔をレンダリングするステップと、を含む。
本発明の第2の態様の実施例は、アンカーユーザの顔の奥行き情報を採取するための採取モジュールと、前記顔の奥行き情報に基づいて、前記アンカーユーザの表情を決定するための決定モジュールと、前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするためのレンダリングモジュールと、前記アンカーユーザの音声情報を採取し、前記音声情報及び前記仮想顔をビデオフレームに合成するための合成モジュールと、前記ビデオフレームを視聴ユーザクライアントに送信するため送信モジュールと、を含むアバタによる生放送装置を提供する。
本発明の第3の態様の実施例は、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品における命令がプロセッサによって実行される場合に、上記方法の実施例に記載のアバタによる生放送方法が実現される。
本発明の第4の態様の実施例は、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータプログラムがプロセッサによって実行される場合に、上記方法の実施例に記載のアバタによる生放送方法が実現される。
本発明の実施例によって提供される技術案は、以下の有益な効果を含むことができる。
アンカーユーザの顔の奥行き情報を採取し、顔の奥行き情報に基づいて、アンカーユーザの表情を決定し、さらに、表情に基づいて、予め設定されたアバタの仮想顔をレンダリングし、最後に、アンカーユーザの音声情報を採取し、音声情報及び仮想顔をビデオフレームに合成し、ビデオフレームを視聴ユーザクライアントに送信する。これにより、生放送の真正性が確保されるとともに、生放送ユーザのプライバシーが保護され、製品へのユーザの依存度が向上する。
本発明の付加的な特徴及び利点は、以下の説明において一部が示され、一部が以下の説明により明らかになるか、または、本発明の実施により理解される。
本発明の上記および/または付加的な特徴と利点は、図面を参照して実施例を以下に説明することにより明らかになり、容易に理解される。
本発明の一実施例に係るアバタによる生放送方法のフローチャートである。 本発明の一実施例に係るアバタのシーンの模式図である。 本発明の他の一実施例に係るアバタによる生放送方法のフローチャートである。 本発明の他の一実施例に係るアバタによる生放送方法のフローチャートである。 本発明の他の一実施例に係るアバタのシーンの模式図である。 本発明の一実施例に係るアバタによる生放送装置の概略構成図である。 本発明の他の一実施例に係るアバタによる生放送装置の概略構成図である。
以下に、本発明の実施例を詳細に説明する。前記実施例の例が図面に示されるが、同一または類似する符号は、常に、同一又は類似する部品、或いは、同一又は類似する機能を有する部品を表す。以下に、図面を参照しながら説明される実施例は例示するものであり、本発明を解釈するためだけに用いられ、本発明を限定するものと理解してはならない。
以下、図面を参照して本発明の実施例に係るアバタによる生放送方法及び装置を説明する。
上記従来技術で説明したように、関連技術では、生放送の真正性とプライバシー保護との矛盾のバランスを取ることができておらず、当該技術的課題を解決するために、本発明は、アバタによる生放送方法を提供する。当該方法では、アンカーユーザのアバタを構築して、アバタによって生放送を実現することにより、アンカーユーザのプライバシーが保護される一方、アバタを構築する場合には、アンカーユーザの顔の奥行き情報の分析及びレンダリングに基づいて構築するため、精度が高くなり、効果がより現実的であり、生放送の真正性が確保される。
具体的には、図1には、本発明の一実施例に係るアバタによる生放送方法のフローチャートを示す。図1に示すように、当該方法は、以下のステップ101〜ステップ104を含む。
ステップ101では、アンカーユーザの顔の奥行き情報を採取する。
顔の奥行き情報は、アンカーユーザの3次元空間での顔立体形状を反映する。
なお、適用のシーンによって、アンカーユーザの顔の奥行き情報を採取する方式が異なり、以下のように例示する。
本発明の一実施例では、図2に示すように、上記ステップ101は、以下のステップ201〜ステップ203を含む。
ステップ201では、ドットマトリクスプロジェクターが、アンカーユーザの顔に複数の光点を投射する。
ここで、ユーザの顔に光点を投射する技術により顔の奥行き情報の採取を実現するため、光点数を制御することにより採取精度を制御することができる。また、顔情報の複雑さに基づいて、異なる部位に数の異なる光点を投射するように制御することもできる。例えば、目及び口の部位で光点を比較的多く投射し、顔領域に光点を比較的少なく投射するなどとすることができる。これにより、資源が十分に利用され、採取の精度が向上する。
ステップ202では、アンカーユーザの顔によって変調された構造化光画像を撮影する。
ステップ203では、構造化光画像の各画素に対応する位相情報を復調してアンカーユーザの顔の奥行き情報を取得する。
具体的には、上記ドットマトリクスプロジェクターは、構造化光投光器等を含んでもよい。ここで、ドットマトリクスプロジェクターが構造化光投光器を含む場合には、構造化光投光器は、現在のアンカーユーザの顔に構造化光を投射することができる。構造化光投光器の構造化光カメラは、現在のアンカーユーザの顔によって変調された構造化光画像を撮影し、構造化光画像の各画素に対応する位相情報を撮影して奥行き画像を取得する。ここで、構造化光のパターンは、レーザーストライプ、グレイコード、正弦波ストライプ、不均一なスペックル等であってもよい。当然ながら、可能な一部の例では、変調されていない構造化光に比べて、変調された構造化光の位相情報が変化し、構造化光画像における構造化光は、歪みが生じた構造化光であり、ここで、変化した位相情報は、物体の奥行き情報を特徴付けることができる。従って、構造化光カメラは、まず構造化光画像における各画素に対応する位相情報を復調し、その後、位相情報に基づいて、アンカーユーザの顔の奥行き情報を算出する。
本発明の一実施例では、現在の端末デバイスのハードウェアデバイスを照会し、端末デバイスに搭載されたドットマトリクス投光装置によってドットマトリクス光を投射して、アンカーユーザの顔の奥行き情報を採取することができる。例えば、アップル社のアイフォンユーザは、当該アイフォンのTrueDepthカメラによってユーザの奥行き情報を採取することができる。
ステップ102では、顔の奥行き情報に基づいて、アンカーユーザの表情を決定する。
具体的には、リアリティー生放送シーンでは、アンカーユーザの顔表情の変化が、生放送を魅力的に、そして興味深くするための重要な表現であることを考慮して、本発明の実施例では、アンカーユーザのアバタを構築する場合に、このような生き生きとした表情を復元するために、顔の奥行き情報に基づいて、アンカーユーザの表情を決定する。
ここで、適用するシーンによっては、顔の奥行き情報に基づいてアンカーユーザの表情を決定する方式が異なっている。以下にその例を示す。
例1
この例では、大量の実験データ(当該実験データには、ユーザの表情及び対応するユーザの顔の奥行き情報が含まれる)に基づいて、深層学習モデルを予め構築し、アンカーユーザの顔情報を当該深層学習モデルに入力し、当該深層学習モデルによって出力されたアンカーユーザの表情を取得する。
例2
アンカーユーザがアンカープラットフォームに登録する場合に、アンカーユーザが異なる表情をするときの顔の奥行き情報を採取する。ここで、表情タイプと顔の奥行き情報とを対応させるために、ユーザに表情タイプ採取提示を予め送信し、当該提示でユーザがする表情を取得する。例えば、楽しい表情をするようにユーザに提示すると、現在採取された顔の奥行き情報を楽しい表情に対応する顔の奥行き情報とする。あるいは、ユーザが表情を終了した後、表情タイプを手動で入力してもよく、インターフェース上の表情オプションを選択してもよい。さらに、顔の奥行き情報と表情との対応関係に基づいて、当該アンカーユーザに対して第1の表情データベースを構築する。これにより、アンカーユーザの顔の奥行き情報を取得した後、当該第1の表情データベースを照会すれば、対応する表情を取得することができる。例えば、一致度が一定の値より大きい顔の奥行き情報に対応する表情を、現在のアンカーユーザの表情とすることができる。
当然のことながら、奥行き情報を比較する場合に、各点の比較による計算量が大きいという問題を軽減するために、本実施例では、顔の奥行き情報の変化に基づいて第2の表情データベースを構築することができる。当該第2の表情データベースには、対応するアンカーユーザの奥行き変化情報と表情との対応関係が含まれている。例えば、顔の奥行き情報変化は、口角の部分の位相が正方向にA変化し、目の部分の位相が負方向にB変化した場合に、対応する第2の表情データベースを照会すると、当該奥行き変化情報に対応する表情が嬉しくて大笑いする表情1であることが分かる。
ステップ103では、表情に基づいて、予め設定されたアバタの仮想顔をレンダリングする。
ここで、アバタが2次元であってもよいし、3次元であってもよい。
具体的には、各人が同じタイプの表情をする時に対応する表情が同じでないことを考慮して、アンカーユーザの現在の表情を現実的に復元するために、表情に基づいて予め設定されたアバタの仮想顔をレンダリングして、アバタの顔表情を現在のアンカーユーザの顔表情と一致させる。例えば、図3に示すように、アバタが猫の3Dモデルである場合には、表情に基づいて猫の顔表情をアンカーユーザの表情にレンダリングする。
ここで、ユーザの個人差異及びアバタに対応する差異を考慮して、本発明の実施例では、表情に基づいて予め設定されたアバタをレンダリングする場合に、アンカーユーザの顔の五官位置及び形状を取得し、五官位置及び五官形状に基づいてアバタを微調整する。
本発明の一実施例では、表情に基づいて、予め設定されたアバタの仮想顔をレンダリングする效率を向上させるため、アバタが2次元である場合には、Live2D技術により仮想顔の構築を実現する。具体的には、図4に示すように、表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするステップは、以下のステップ301〜ステップ303を含んでいる。
ステップ301では、仮想顔に対応する仮想垂直描画モデルを構築する。仮想垂直描画モデルは、仮想顔における各器官に対応するキーポイントを含むメッシュ領域を含む。
具体的には、仮想顔に対応する仮想垂直描画モデルを構築する。仮想垂直描画モデルは、仮想顔における各器官に対応するキーポイントを含むメッシュ領域を含む。即ち、仮想顔の各部分をバラバラにするため、仮想垂直描画モデルでは、目、鼻、口、髪等の部位が独立しており、独立した部分のそれぞれは、自分のキーポイントおよびメッシュ領域があり、いずれもアニメーション編集により独立して動くことができる。たとえば、「Live2D」は、まぶた部位のメッシュ領域の変形によって、目の瞬きの表情等を生成することができる。
ステップ302では、予め設定された2次元のアニメーション編集データベースを照会して、表情に対応する標的器官及び調整パラメータを取得する。
ステップ303では、調整パラメータに基づいて、標的器官に対応する標的メッシュを調整して仮想顔をレンダリングする。
具体的には、仮想垂直描画モデルにおける各部分のそれぞれは、仮想顔の大量のキーポイントを有しており、これらのキーポイントは、お互いに連結して個々のメッシュ領域を形成する。これらのキーポイントは、3Dモデルにおける頂点に類似しており、キーポイントが移動する場合に、メッシュ領域が変形し、対応する元の仮想顔部品(仮想顔の顔器官を含む)も変形する。メッシュの変形、移動、拡縮によって対応する元の仮想顔部品の動きを制御することにより、2次元のアバタに表情が自然に変化するいくつかの動作をさせることができる。ここで、前記メッシュ領域の変形パラメータ、移動パラメータ及び拡縮パラメータは、本実施例における対応する標的器官の調整パラメータとして理解されてもよい。
本実施例では、表情と、標的器官及び標的器官の調整パラメータとの対応関係を含む2次元のアニメーション編集データベースを構築し、当該2次元のアニメーション編集データベースは、各アンカーユーザに対応することができる。さらに、2次元のアニメーション編集データベースに基づいて、現在のアンカー表情に対応する標的器官及び調整パラメータを取得し、調整パラメータに基づいて、標的器官に対応する標的メッシュを調整して仮想顔をレンダリングする。
なお、本発明の実施例では、アバタは、予め設定されたデフォルトキャラクタ、例えば、ある製品の宣伝用マスコットキャラクタ等であってもよいし、現在の生放送によって生成されたものであってもよい。例えば、アンカーユーザのユーザ特徴及び生放送シーン特徴を取得し、ここで、ユーザ特徴は、ユーザの嗜好情報、性別、年齢等を含み、生放送シーン特徴は、服の購入、ゲーム、ビジネスの促進等の生放送業務に関する特徴を含み、さらに、ユーザ特徴及び生放送シーン特徴に基づいてアバタを生成してもよい。例えば、現在のシーンの特徴が秘密商業会談で、アンカーユーザ特徴がビジネスマンであり、さらに必要に応じてアバタが顔の五官を含まない場合には、図5に示すように、相対的に正式なアバタが生成されることとしてもよい。
ステップ104では、アンカーユーザの音声情報を採取し、音声情報及び仮想顔をビデオフレームに合成し、ビデオフレームを視聴ユーザクライアントに送信する。
具体的には、生放送を実現するために、アンカーユーザの音声情報を採取し、音声情報及び仮想顔をビデオフレームに合成し、ビデオフレームを視聴ユーザクライアントに送信する。ここで、各ビデオフレームにおけるアバタ、顔表情及び音声情報はアンカーユーザに対応するものである。このたため、ビデオフレームからなるビデオストリームは、アンカーユーザの実際のアンカー表情等を復元するので、真正感を高めながらも、アンカーユーザのプライバシーを保護することができる。
以上のように、本発明の実施例に係るアバタによる生放送方法は、アンカーユーザの顔の奥行き情報を採取し、顔の奥行き情報に基づいてアンカーユーザの表情を決定し、さらに、表情に基づいて予め設定されたアバタの仮想顔をレンダリングし、最後に、アンカーユーザの音声情報を採取し、音声情報及び仮想顔をビデオフレームに合成し、ビデオフレームを視聴ユーザクライアントに送信する。これにより、生放送の真正性が確保されるとともに、生放送ユーザのプライバシーが保護され、製品へのユーザの依存度が向上する。
上記実施例を実現するために、本発明は、アバタによる生放送装置をさらに提供する。図6は、本発明の一実施例に係るアバタによる生放送装置の概略構成図である。図6に示すように、当該アバタによる生放送装置は、採取モジュール10と、決定モジュール20と、レンダリングモジュール30と、合成モジュール40と、送信モジュール50と、を含む。
ここで、採取モジュール10は、アンカーユーザの顔の奥行き情報を採取するためのものである。
決定モジュール20は、顔の奥行き情報に基づいて、アンカーユーザの表情を決定するためのものである。
レンダリングモジュール30は、表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするためのものである。
合成モジュール40は、アンカーユーザの音声情報を採取し、音声情報及び仮想顔をビデオフレームに合成するためのものである。
送信モジュール50は、ビデオフレームを視聴ユーザクライアントに送信するためのものである。
本発明の一実施例では、図7に示すように、図6に示すものに基づく。採取モジュール10は、投射ユニット11と、撮影ユニット12と、取得ユニット13と、を含む。
ここで、投射ユニット11は、ドットマトリクスプロジェクターによりアンカーユーザの顔に複数の光点を投射するためのものである。
撮影ユニット12は、アンカーユーザの顔によって変調された構造化光画像を撮影するためのものである。
取得ユニット13は、構造化光画像の各画素に対応する位相情報を復調してアンカーユーザの顔の奥行き情報を取得するためのものである。
本実施例では、決定モジュール20は、具体的には、予め設定された第1の表情データベースを照会して、顔の奥行き情報に対応する表情を取得し、または、顔の奥行き情報と前回採取された顔の奥行き情報との奥行き変化情報を算出し、予め設定された第2の表情データベースを照会して、奥行き変化情報に対応する表情を取得する。
なお、アバタによる生放送方法の実施例に対する上記説明が、当該実施例に係るアバタによる生放送装置にも適用されるが、その実現原理が類似するため、ここでは説明を省略する。
以上述べたように、本発明の実施例に係るアバタによる生放送装置は、アンカーユーザの顔の奥行き情報を採取し、顔の奥行き情報に基づいてアンカーユーザの表情を決定し、表情に基づいて予め設定されたアバタの仮想顔をレンダリングし、最後に、アンカーユーザの音声情報を採取し、音声情報及び仮想顔をビデオフレームに合成し、ビデオフレームを視聴ユーザクライアントに送信する。これにより、生放送の真正性が確保されるとともに、生放送ユーザのプライバシーが保護され、製品へのユーザの依存度が向上する。
上記実施例を実現するために、本発明は、コンピュータプログラム製品をさらに提供する。前記コンピュータプログラム製品における命令を、プロセッサに実行させると、前述した方法の実施例に記載のアバタによる生放送方法が実現される。
上記実施例を実現するために、本発明は、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。前記コンピュータプログラムがプロセッサによって実行される場合に、前述した方法の実施例に記載のアバタによる生放送方法が実現される。
本発明の説明において、「一実施例」、「一部の実施例」、「例示的な実施例」、「具体的な実施例」、又は「一部の実施例」などの用語を参照した説明とは、該実施例又は実施例に結合して説明された具体的な特徴、構成、材料又は特徴が、本発明の少なくとも一実施例又は実施例に含まれることを意味する。本明細書において、上記用語に対する例示的な記述は、必ずしも同一の実施例又は実施例を示すことではない。又、説明された具体的な特徴、構成、材料又は特徴は、いずれか1つ又は複数の実施例又は実施例において適切に組み合わせることができる。さらに、互いに矛盾しない場合、当業者であれば、本明細書に記述した異なる実施例又は例、及び異なる実施例又は例示的特徴に対して結合及び組み合わせを行うことができる。
また、「第1」、「第2」の用語は単に説明のために用いるものであり、比較的な重要性を指示又は暗示するか、又は示された技術的特徴の数を黙示的に指示すると理解してはならない。従って、「第1」、「第2」で限定された特徴は、少なくとも1つの前記特徴を含むことを明示又は暗示する。本発明の説明において、別途、明確で具体的な限定がない限り、「複数」とは、少なくとも2つ、例えば、2つ、3つなどを意味する。
フローチャートにおける、又はここで他の形態で記載された任意のプロセス又は方法は、カスタムロジック機能又はプロセスのステップを実現するための1つ又は複数の実行可能な命令コードを含むモジュール、セグメント又は一部を表すと理解されてもよい。また、本発明の好ましい実施形態の範囲は、示された又は論議された順番ではなく、係る機能に応じてほぼ同時の形態又は逆の順番で機能を実行することができる他の実現を含むことができる。これは、当業者であれば理解すべきものである。
フローチャートで示された又はここで他の形態で説明されたロジック及び/又はステップは、例えば、ロジック機能を実現するための実行可能な命令の順番付けられたリストと見なすことができ、任意のコンピュータ読み取り可能な記憶媒体に具体的に実装され、命令実行システム、装置、又はデバイス(例えばコンピュータに基づいたシステム、プロセッサを含むシステム、又は他の命令実行システム、装置又はデバイスから命令を獲得して命令を実行するシステム)に利用されるか、又はこれらの命令実行システム、装置又はデバイスと組み合わせて利用される。本願明細書において、「コンピュータ読み取り可能な記憶媒体」は、命令実行システム、装置又はデバイスによって、又は、命令実行システム、装置又はデバイスと組み合わせて使用するためのプログラムを含む、格納、通信、伝播、又は伝送することができる任意の装置であってもよい。コンピュータ読み取り可能な記憶媒体のより具体的な例(非限定的なリスト)として、1つ又は複数の配線を備える電気接続部(電子デバイス)、ポータブルコンピュータディスクカートリッジ(磁気デバイス)、ランダムアクセスメモリ(RAM)読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROM又はフラッシュメモリ)、光ファイバデバイス、及びポータブルコンパクトディスク読み出し専用リメモリ(CDROM)を含む。また、コンピュータ読み取り可能な記憶媒体は、前記プログラムが印刷され得る紙又は他の適切な媒体であってもよい。これは、例えば、紙や他の媒体を光学的スキャンし、編集し、解釈し、又は必要な場合に他の適切な形態で処理して前記プログラムを電子的に取得して、コンピュータメモリに格納するためである。
なお、本発明の各部分は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせによって実現することができる。上記実施形態において、複数のステップ又は方法は、メモリに記憶された適切な命令実行システムによって実行されるソフトウェア又はファームウェアによって実現することができる。例えば、ハードウェアで実現される場合に、もう1つの実施形態と同様に、本分野において周知な、データ信号に対してロジック機能を実現するためのロジックゲート回路を備える離散ロジック回路、適切な組み合わせロジックゲート回路を備える特定用途向け集積回路、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)などの当分野の周知技術のうちいずれか1つ又はこれらの組み合わせによって実現することができる。
通常の当業者であれば、上記の実施例に係る方法に含まれる全部又は一部のステップは、プログラムによってハードウェアを命令することで実行することができると理解することができる。前記プログラムは、コンピュータ読み取り可能な記憶媒体に格納することができ、当該プログラムが実行される場合に、方法実施例におけるステップの1つ又はそれらの組み合わせが実行される。
また、本発明の各実施例における各機能ユニットは、1つの処理モジュールに集積されてもよいし、それぞれが個別の物理的存在であってもよいし、2つ以上のユニットが1つのモジュールに集積されてもよい。前記集積モジュールは、ハードウェアの形態で実現されてもよいし、ソフトウェア機能モジュールの形態で実現されてもよい。前記集積モジュールがソフト機能モジュールの形態で実現され、独立した製品として販売又は使用される場合には、1つのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。
上記の記憶媒体は、読み出し専用メモリ、磁気ディスク、又はCDなどであってもよい。なお、以上、本発明の実施例を示して説明したが、上記実施例はあくまで例示であり、本発明を制限するためのものであると理解してはならない。通常の当業者であれば、本発明の範囲内で、上記実施例に対して変更、修正、取り替え、変形を行うことができる。

Claims (9)

  1. アンカーユーザの顔の奥行き情報を採取するステップと、
    前記顔の奥行き情報に基づいて、前記アンカーユーザの表情を決定するステップと、
    前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするステップと、
    前記アンカーユーザの音声情報を採取し、前記音声情報及び前記仮想顔をビデオフレームに合成し、前記ビデオフレームを視聴ユーザクライアントに送信するステップと、を含み、
    前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするステップは、
    前記仮想顔に対応する仮想垂直描画モデルを構築し、前記仮想垂直描画モデルは、前記仮想顔における各器官に対応する、キーポイントを含むメッシュ領域を含むステップと、
    予め設定された2次元のアニメーション編集データベースを照会して、前記表情に対応する標的器官及び調整パラメータを取得するステップと、
    前記調整パラメータに基づいて、前記標的器官に対応する標的メッシュを調整して前記仮想顔をレンダリングするステップと、を含むことを特徴とするアバタによる生放送方法。
  2. 前記アンカーユーザの顔の奥行き情報を採取するステップは、
    ドットマトリクスプロジェクターにより前記アンカーユーザの顔に複数の光点を投射するステップと、
    前記アンカーユーザの顔によって変調された構造化光画像を撮影するステップと、
    前記構造化光画像の各画素に対応する位相情報を復調して前記アンカーユーザの顔の奥行き情報を取得するステップと、を含むことを特徴とする請求項1に記載の方法。
  3. 前記顔の奥行き情報に基づいて、前記アンカーユーザの表情を決定するステップは、
    予め設定された第1の表情データベースを照会して、前記顔の奥行き情報に対応する表情を取得するステップ、
    または、
    前記顔の奥行き情報と前回採取された顔の奥行き情報との奥行き変化情報を算出し、予め設定された第2の表情データベースを照会して、前記奥行き変化情報に対応する表情を取得するステップを含むことを特徴とする請求項2に記載の方法。
  4. 前記方法は、
    前記アンカーユーザのユーザ特徴及び生放送シーン特徴を取得するステップと、
    前記ユーザ特徴及び生放送シーン特徴に基づいてアバタを生成するステップと、をさらに含むことを特徴とする請求項1に記載の方法。
  5. アンカーユーザの顔の奥行き情報を採取するための採取モジュールと、
    前記顔の奥行き情報に基づいて、前記アンカーユーザの表情を決定するための決定モジュールと、
    前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングするためのレンダリングモジュールと、
    前記アンカーユーザの音声情報を採取し、前記音声情報及び前記仮想顔をビデオフレームに合成するための合成モジュールと、
    前記ビデオフレームを視聴ユーザクライアントに送信するための送信モジュールと、を含み、
    前記表情に基づいて、予め設定されたアバタの仮想顔をレンダリングすることは、
    前記仮想顔に対応する仮想垂直描画モデルを構築し、前記仮想垂直描画モデルは、前記仮想顔における各器官に対応する、キーポイントを含むメッシュ領域を含むことと、
    予め設定された2次元のアニメーション編集データベースを照会して、前記表情に対応する標的器官及び調整パラメータを取得することと、
    前記調整パラメータに基づいて、前記標的器官に対応する標的メッシュを調整して前記仮想顔をレンダリングすることと、を含むことを特徴とするアバタによる生放送装置。
  6. 前記採取モジュールは、
    ドットマトリクスプロジェクターにより前記アンカーユーザの顔に複数の光点を投射するための投射ユニットと、
    前記アンカーユーザの顔によって変調された構造化光画像を撮影するための撮影ユニットと、
    前記構造化光画像の各画素に対応する位相情報を復調して前記アンカーユーザの顔の奥行き情報を取得するための取得ユニットと、を含むことを特徴とする請求項に記載の装置。
  7. 前記決定モジュールは、具体的に、
    予め設定された第1の表情データベースを照会して、前記顔の奥行き情報に対応する表情を取得し、
    または、
    前記顔の奥行き情報と前回採取された顔の奥行き情報との奥行き変化情報を算出し、予め設定された第2の表情データベースを照会して、前記奥行き変化情報に対応する表情を取得することを特徴とする請求項に記載の装置。
  8. コンピュータプログラム製品であって、前記コンピュータプログラム製品における命令がプロセッサによって実行される場合に、請求項1〜のいずれかに記載のアバタによる生放送方法が実現されることを特徴とするコンピュータプログラム製品。
  9. コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行される場合に、請求項1〜のいずれかに記載のアバタによる生放送方法が実現されることを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
JP2018225247A 2018-10-31 2018-11-30 アバタによる生放送方法及び装置 Active JP6785282B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811287612.8A CN111200747A (zh) 2018-10-31 2018-10-31 基于虚拟形象的直播方法和装置
CN201811287612.8 2018-10-31

Publications (2)

Publication Number Publication Date
JP2020071851A JP2020071851A (ja) 2020-05-07
JP6785282B2 true JP6785282B2 (ja) 2020-11-18

Family

ID=70547916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018225247A Active JP6785282B2 (ja) 2018-10-31 2018-11-30 アバタによる生放送方法及び装置

Country Status (2)

Country Link
JP (1) JP6785282B2 (ja)
CN (1) CN111200747A (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111935491B (zh) 2020-06-28 2023-04-07 百度在线网络技术(北京)有限公司 直播的特效处理方法、装置以及服务器
CN111970522A (zh) * 2020-07-31 2020-11-20 北京琳云信息科技有限责任公司 虚拟直播数据的处理方法、装置及存储介质
CN111986301A (zh) * 2020-09-04 2020-11-24 网易(杭州)网络有限公司 直播中数据处理的方法及装置、电子设备、存储介质
CN112150638B (zh) * 2020-09-14 2024-01-26 北京百度网讯科技有限公司 虚拟对象形象合成方法、装置、电子设备和存储介质
CN112118477B (zh) * 2020-09-21 2023-05-09 北京达佳互联信息技术有限公司 虚拟礼物展示方法、装置、设备以及存储介质
CN112653898B (zh) * 2020-12-15 2023-03-21 北京百度网讯科技有限公司 用户形象生成方法、相关装置及计算机程序产品
CN112788359B (zh) * 2020-12-30 2023-05-09 北京达佳互联信息技术有限公司 直播处理方法、装置、电子设备及存储介质
CN113507621A (zh) * 2021-07-07 2021-10-15 上海商汤智能科技有限公司 直播方法、装置、***、计算机设备以及存储介质
CN113613048A (zh) * 2021-07-30 2021-11-05 武汉微派网络科技有限公司 虚拟形象表情驱动方法和***
CN113689532B (zh) * 2021-08-05 2023-07-18 北京奇艺世纪科技有限公司 基于语音数据重建虚拟角色的方法及装置
CN115776597A (zh) * 2021-08-30 2023-03-10 海信集团控股股份有限公司 一种音视频生成方法、装置及电子设备
CN114332671B (zh) * 2021-11-08 2022-11-01 深圳追一科技有限公司 基于视频数据的处理方法、装置、设备及介质
CN114245155A (zh) * 2021-11-30 2022-03-25 北京百度网讯科技有限公司 直播方法、装置及电子设备
WO2023120754A1 (ko) * 2021-12-21 2023-06-29 엘지전자 주식회사 메타버스 기반의 가상화 영상 제공 시스템 및 그 방법
CN114374880B (zh) * 2021-12-23 2023-08-29 北京达佳互联信息技术有限公司 联合直播方法、装置、电子设备及计算机可读存储介质
CN114363652A (zh) * 2022-01-04 2022-04-15 阿里巴巴(中国)有限公司 视频直播方法、***及计算机存储介质
CN114501065A (zh) * 2022-02-11 2022-05-13 广州方硅信息技术有限公司 基于面部拼图的虚拟礼物互动方法、***及计算机设备
CN114827647B (zh) * 2022-04-15 2024-03-19 北京百度网讯科技有限公司 直播数据生成方法、装置、设备、介质及程序产品
CN114979682B (zh) * 2022-04-19 2023-10-13 阿里巴巴(中国)有限公司 多主播虚拟直播方法以及装置
CN114827652A (zh) * 2022-05-18 2022-07-29 上海哔哩哔哩科技有限公司 虚拟形象开播方法及装置
CN116137673A (zh) * 2023-02-22 2023-05-19 广州欢聚时代信息科技有限公司 数字人表情驱动方法及其装置、设备、介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2085744B1 (en) * 2006-12-25 2016-11-23 NEC Corporation Distance measuring device, method, and program
CN108229239B (zh) * 2016-12-09 2020-07-10 武汉斗鱼网络科技有限公司 一种图像处理的方法及装置
CN107172040A (zh) * 2017-05-11 2017-09-15 上海微漫网络科技有限公司 一种虚拟角色的播放方法及***
CN107154069B (zh) * 2017-05-11 2021-02-02 上海微漫网络科技有限公司 一种基于虚拟角色的数据处理方法及***
CN107277599A (zh) * 2017-05-31 2017-10-20 珠海金山网络游戏科技有限公司 一种虚拟现实的直播方法、装置和***
CN107170030A (zh) * 2017-05-31 2017-09-15 珠海金山网络游戏科技有限公司 一种虚拟主播直播方法及***
CN107438183A (zh) * 2017-07-26 2017-12-05 北京暴风魔镜科技有限公司 一种虚拟人物直播方法、装置及***
CN107481304B (zh) * 2017-07-31 2020-11-24 Oppo广东移动通信有限公司 在游戏场景中构建虚拟形象的方法及其装置
CN107551549A (zh) * 2017-08-09 2018-01-09 广东欧珀移动通信有限公司 游戏形象调整方法及其装置
CN107682729A (zh) * 2017-09-08 2018-02-09 广州华多网络科技有限公司 一种基于直播的互动方法及直播***、电子设备
JP6382468B1 (ja) * 2018-05-08 2018-08-29 グリー株式会社 アクターの動きに基づいて生成されるキャラクタオブジェクトのアニメーションを含む動画を配信する動画配信システム、動画配信方法及び動画配信プログラム

Also Published As

Publication number Publication date
JP2020071851A (ja) 2020-05-07
CN111200747A (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
JP6785282B2 (ja) アバタによる生放送方法及び装置
US11977670B2 (en) Mixed reality system for context-aware virtual object rendering
US20230035084A1 (en) Geometry matching in virtual reality and augmented reality
JP5174908B2 (ja) 携帯型ゲーム装置及び携帯型ゲーム装置の制御方法
EP3096208B1 (en) Image processing for head mounted display devices
US9654734B1 (en) Virtual conference room
US11663778B2 (en) Method and system for generating an image of a subject from a viewpoint of a virtual camera for a head-mountable display
US9710974B2 (en) Video game processing apparatus and video game processing program
JP4354907B2 (ja) 画像処理方法及び装置
JP6298563B1 (ja) ヘッドマウントデバイスによって仮想空間を提供するためのプログラム、方法、および当該プログラムを実行するための情報処理装置
JP2016045815A (ja) 仮想現実提示システム、仮想現実提示装置、仮想現実提示方法
JP2014187559A (ja) 仮想現実提示システム、仮想現実提示方法
CN109640070A (zh) 一种立体显示方法、装置、设备及存储介质
JP2014164537A (ja) 仮想現実サービス提供システム、仮想現実サービス提供方法
JP6431259B2 (ja) カラオケ装置、ダンス採点方法、およびプログラム
JP6688378B1 (ja) コンテンツ配信システム、配信装置、受信装置及びプログラム
JP2014182597A (ja) 仮想現実提示システム、仮想現実提示装置、仮想現実提示方法
US20140192045A1 (en) Method and apparatus for generating three-dimensional caricature using shape and texture of face
US20070146368A1 (en) Eye movement data replacement in motion capture
WO2023142650A1 (zh) 特效渲染
KR20200092893A (ko) 3d스캔데이터를 이용한 증강현실 동영상제작시스템 및 그 방법
JP6313003B2 (ja) カラオケ装置、画像出力方法、およびプログラム
KR20200028830A (ko) 실시간 cg 영상 방송 서비스 시스템
JP2019133276A (ja) 画像処理システム、端末
JP2003284094A (ja) 立体画像処理方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191203

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201013

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201026

R150 Certificate of patent or registration of utility model

Ref document number: 6785282

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250