JP2016537922A

JP2016537922A - 擬似ビデオ通話方法及び端末

Info

Publication number: JP2016537922A
Application number: JP2016543309A
Authority: JP
Inventors: リ・ガン
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2013-12-20
Filing date: 2014-12-05
Publication date: 2016-12-01
Also published as: KR20160021146A; CN103647922A; KR101768980B1; WO2015090147A1

Abstract

本発明は擬似ビデオ通話方法及び端末を提供する。当該方法は第一端末ユーザーのビデオ画像を収集するステップと、ビデオ画像に対して顔を認識して顔表情情報を取得するステップと、第二端末が顔表情情報及び第二端末に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するように、顔表情情報を第一端末と通話を確立する第二端末に送信するステップとを含む。本発明の実施形態に係る擬似ビデオ通話方法によれば、顔認識技術を利用して送信端末（例えば、第一端末）において顔表情情報を抽出し、受信端末（例えば、第二端末）において送信された顔表情情報及び予め設定された人の顔画像モデルに基づいて人の顔画像を簡単に合成させて復元させる。伝送された顔表情のデータ量が非常に小さいため、ビデオ通話中に伝送されたデータ量を大幅に低減する。これによって、ビデオ通話の流暢性をよりよくさせ、帯域幅が限られること、またはパケットフローが制限されることなどによるビデオ通話への影響を減少する。

Description

［関連出願の相互参照］
本出願は、百度オンライン網絡技術（北京）有限公司が２０１３年１２月２０日に提出し、発明名称が「擬似ビデオ通話方法及び端末」で、中国特許出願番号が「２０１３１０７１４６６７．３」の優先権を主張する。

本発明は、通信技術分野に関し、特に擬似ビデオ通話方法及び端末に関する。

ネットワーク帯域幅の急速な拡大及びハードウェアデバイスの開発・普及に伴い、ビデオ通話の市場も急速に発展している。現在では、疑似ビデオ通話の主な方法は以下の通りである。送信端末が画像を収集するとともに、画像における顔領域を決定し、顔領域における顔特徴情報を抽出して、抽出された顔特徴情報を受信端末に送信し、受信端末において顔特徴情報を利用して対応するユーザーの顔表情を再現する。

現在では、以下の欠陥がある。それぞれの人の顔特徴が異なるため、抽出された顔特徴情報のデータは依然として非常に大きい。しかも、上述の方法は、顔特徴情報に基づいて特定対象の顔モデル（例えば、送信端末のユーザーの顔モデル）を再構築する必要もある。以上からわかるように、先行技術において、伝送されたビデオデータ量は非常に大きいため、大量のパケットフローが消費され、ビデオ通話の流暢性がよくなく、帯域幅が限られたモバイルネットワークまたはパケットフローが制限される状況に適しない。従って、ビデオ通話の普及及び拡大を大きく妨げる。

本発明は、少なくとも一つの上述の技術問題点を解決することを趣旨とする。

そのため、本発明は、擬似ビデオ通話方法を提出することを、一つ目の目的とする。当該方法は、ビデオ通話中に伝送されたデータ量を大幅に低減し、パケットフローを節約し、これによって、ビデオ通話の流暢性をよりよくさせ、帯域幅が限られること、またはパケットフローが制限されることによるビデオ通話への影響を減少し、ユーザー体験を向上することができる。

本発明は別の擬似ビデオ通話方法を提供することを二つ目の目的とする。

本発明は端末を提供することを三つ目の目的とする。

本発明は別の端末を提供することを四つ目の目的とする。

本発明は端末装置を提供することを五つ目の目的とする。

本発明は別の端末装置を提供することを六つ目の目的とする。

上記目的を達成するために、本発明の第一方面の実施形態に係る擬似ビデオ通話方法は、第一端末ユーザーのビデオ画像を収集するステップと、前記ビデオ画像に対して顔を認識して顔表情情報を取得するステップと、第二端末が前記顔表情情報及び前記第二端末に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するように、前記顔表情情報を前記第一端末と通話を確立する前記第二端末に送信するステップとを含む。

本発明の実施形態に係る擬似ビデオ通話方法によれば、顔認識技術を利用して送信端末（例えば、第一端末）において顔表情情報を抽出し、受信端末（例えば、第二端末）において送信された顔表情情報及び予め設定された人の顔画像モデルに基づいて人の顔画像を簡単に合成させて復元させる。更に、送信端末及び受信端末において伝送された情報が顔表情情報のみであり、且つ当該顔表情情報によって完全な顔画像を合成する必要がなく、含まれた情報量が少なく、符号化された後に、顔表情情報のデータ量がいくつかのビットまたはバイトのみを占有するため、先行技術において伝送された情報と比較して、ビデオ通話中に伝送されたデータ量を大幅に低減し、パケットフローを節約し、これによって、ビデオ通話の流暢性をよりよくさせ、帯域幅が限られること、またはパケットフローが制限されることによるビデオ通話への影響を減少し、モバイルネットワークで情報を伝送するのに十分に適し、ユーザー体験を向上することができる。また、第二端末で第一端末ユーザーの人の顔画像モデルを再構築する必要がなく、第二端末が顔表情情報に基づいて予め設定された人の顔画像モデルの上で対応する顔表情情報を表示すればよい。これによって、第二端末は、容易に調整される。

上記目的を達成するために、発明の第２方面の実施形態に係る擬似ビデオ通話方法は、第二端末と通話を確立する第一端末から送信されたビデオ画像の顔表情情報を受信するステップと、前記顔表情情報及び前記第二端末に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するステップとを含む。

上記目的を達成するために、本発明の第３方面の実施形態に係る端末は、ユーザーのビデオ画像を収集するように構成された収集モジュールと、前記ビデオ画像に対して顔を認識して顔表情情報を取得するように構成された認識モジュールと、第二端末が前記顔表情情報及び前記第二端末に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するように、前記顔表情情報を端末と通話を確立する前記第二端末に送信するように構成された送信モジュールとを含む。

本発明の実施形態に係る端末によれば、顔認識技術を利用して顔表情情報を抽出し、端末と通話を確立する第二端末は、送信された顔表情情報及び予め設定された人の顔画像モデルに基づいて人の顔画像を簡単に合成させて復元させる。更に、伝送された情報が顔表情情報のみであり、且つ当該顔表情情報によって完全な顔画像を合成する必要がなく、含まれた情報量が少なく、符号化された後に、顔表情情報のデータ量がいくつかのビットまたはバイトのみを占有するため、先行技術において伝送された情報と比較して、ビデオ通話中に伝送されたデータ量を大幅に低減し、パケットフローを節約し、これによって、ビデオ通話の流暢性をよりよくさせ、帯域幅が限られること、またはパケットフローが制限されることによるビデオ通話への影響を減少し、モバイルネットワークで情報を伝送するのに十分に適し、ユーザー体験を向上することができる。また、第二端末でユーザーの人の顔画像モデルを再構築する必要がなく、第二端末が顔表情情報に基づいて予め設定された人の顔画像モデルの上で対応する顔表情情報を表示すればよい。これによって、第二端末は、容易に調整される。

上記目的を達成するために、本発明の第４方面の実施形態に係る端末は、端末と通話を確立する第一端末から送信されたビデオ画像の顔表情情報を受信するように構成された受信モジュールと、前記顔表情情報及び前記端末に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するように構成された合成モジュールとを含む。

本発明の実施形態に係る端末によれば、顔認識技術を利用して顔表情情報を抽出し、端末と通話を確立する第一端末は、送信された顔表情情報及び予め設定された人の顔画像モデルに基づいて人の顔画像を簡単に合成させて復元させる。更に、送信端末及び受信端末で伝送された情報が顔表情情報のみであり、且つ当該顔表情情報によって完全な顔画像を合成する必要がなく、含まれた情報量が少なく、符号化された後に、顔表情情報のデータ量がいくつかのビットまたはバイトのみを占有するため、先行技術において伝送された情報と比較して、ビデオ通話中に伝送されたデータ量を大幅に低減し、パケットフローを節約し、これによって、ビデオ通話の流暢性をよりよくさせ、帯域幅が限られること、またはパケットフローが制限されることによるビデオ通話への影響を減少し、モバイルネットワークで情報を伝送するのに十分に適し、ユーザー体験を向上することができる。また、人の顔画像モデルを再構築する必要がなく、顔表情情報に基づいて予め設定された人の顔画像モデルの上で対応する顔表情情報を表示すればよい。これによって、端末は、容易に調整される。

上記目的を達成するために、本発明の第５方面の実施形態に係る端末装置は、一つまたは複数のプロセッサと、メモリと、一つまたは複数のプログラムとを備え、前記一つまたは複数のプログラムは、前記メモリに格納されており、前記一つまたは複数のプロセッサによって実行される場合には、前記端末装置ユーザーのビデオ画像を収集し、前記ビデオ画像に対して顔を認識して顔表情情報を取得し、第二端末が前記顔表情情報及び前記第二端末に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するように、前記顔表情情報を前記端末装置と通話を確立する前記第二端末に送信するように構成されている。

上記目的を達成するために、本発明の第６方面の実施形態に係る端末装置は、一つまたは複数のプロセッサと、メモリと、一つまたは複数のプログラムとを備え、前記一つまたは複数のプログラムは、前記メモリに格納されており、前記一つまたは複数のプロセッサによって実行される場合には、前記端末装置と通話を確立する第一端末から送信されたビデオ画像の顔表情情報を受信し、前記顔表情情報及び前記端末装置に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するように構成されている。

本発明の付加の方面及び利点が下記の説明において部分的に表れられ、一部が下記の説明においてより明らかとなり、或は本発明の実行より了解できる。

本発明の上述及び／或いは付加的方面とメリットは、下記の図面を結合した実施形態に対する説明において、明らかになり、理解されることが容易になる。その中で、
本発明の一つの実施形態による擬似ビデオ通話方法のフローチャートである；本発明の別の実施形態による擬似ビデオ通話方法のフローチャートである；本発明のもう一つの実施形態による擬似ビデオ通話方法のフローチャートである；本発明の一つの実施形態による端末のブロック図である；本発明の別の実施形態による端末のブロック図である；本発明のもう一つの実施形態による端末のブロック図である。

以下に、本発明の実施形態を詳細に説明する。前記実施形態の実例が図面において示されるが、一貫して同一または類似する符号は、相同又は類似の部品、或いは、相同又は類似の機能を有する部品を表す。以下に、図面を参照しながら説明される実施形態が例示性のものであり、本発明を解釈するためだけに用いられるものであって、本発明を制限するように理解されてはならない。逆に、本発明の実施形態は特許請求の範囲に含まれる要旨及び内包範囲におけるあらゆる変化、変更及び同等物を含む。

本発明の説明には、用語「第一」、「第二」は単に目的を説明するためのみに用いられ、相対的な重要性を明示又は暗示するものとして理解するものではない。なお、本発明の説明において、明確な規定と限定がない限り、用語である「互いに接続」、「接続」の意味は広く理解されるべきである。例えば、固定接続や、着脱可能な接続や、あるいは一体的な接続でも可能である。機械的な接続や、電気接続でも可能である。直接的に互いに接続することや、中間媒体を介して間接的に互いに接続することも可能である。当業者にとって、具体的な状況に応じて上記用語の本発明中の具体的な意味を理解することができる。また、本発明において、別途、明確に限定した場合を除き、用語「複数」は二つ又は二つ以上を指す。

フローチャートにおいてまたはここで他の方式で説明されたいかなる過程または方法は、一つ又は複数の特定の論理機能又は過程のステップを実現するための実行可能な命令のコードのモジュール、断片又は部分であり、並びに本発明の好ましい実施形態は他の形態も含み、例示された又は議論された順序（関与された機能とほぼ同時の方式又は逆の順序を含む）によらず機能を実行できることを含むことは本発明の実施例に属する当業者であれば理解すべきである。

ビデオ通話中に伝送されたビデオデータ量が大きすぎる問題を解決するために、本発明は、擬似ビデオ通話方法及び端末を提出する。以下に、図面を参照しながら、本発明の実施形態による擬似ビデオ通話方法及び端末を説明する。

擬似ビデオ通話方法は、第一端末ユーザーのビデオ画像を収集するステップと、ビデオ画像に対して顔を認識して顔表情情報を取得するステップと、第二端末が顔表情情報及び第二端末に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するように、顔表情情報を第一端末と通話を確立する第二端末に送信するステップとを含む。

図１は本発明の一つの実施形態による擬似ビデオ通話方法のフローチャートである。図１に示したように、当該擬似ビデオ通話方法はステップＳ１０１と、ステップＳ１０２と、ステップＳ１０３とを含む。

ステップＳ１０１において、第一端末ユーザーのビデオ画像を収集する。

具体的には、第一端末は、当該第一端末付きカメラまたは外付けカメラによって撮影して、第一端末ユーザーのビデオ画像を収集することができる。

ステップＳ１０２において、ビデオ画像に対して顔を認識して顔表情情報を取得する。

具体的には、第一端末は、例えば、遺伝的アルゴリズムの人の顔認識、神経ネットワークの人の顔認識などのような既存の多種類のコンピュータ画像処理技術により、ビデオ画像に対して顔を認識して顔表情情報を取得する。顔表情のデータ量が非常に小さい。下記の実施形態において、顔表情の取得過程を詳しく説明する。

ステップＳ１０３において、第二端末が顔表情情報及び第二端末に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するように、顔表情情報を第一端末と通話を確立する第二端末に送信する。

そのうち、第一端末がサーバーによって第二端末にビデオ通話要求を送信する、または第二端末がサーバーによって第一端末にビデオ通話要求を送信する。第二端末が第一端末のビデオ通話要求を同意する、または第一端末が第二端末のビデオ通話要求を同意する場合には、サーバーは第一端末と第二端末との間のビデオ通話を確立することができる。

具体的には、第一端末は第一端末ユーザーの顔表情情報を符号化して、数字表現を形成し、当該顔表情情報をサーバーが確立したビデオ通話によって第二端末に送信することができる。

第一端末が第一端末ユーザーの顔表情情報を第二端末に送信した後に、第二端末は第一端末ユーザーの顔表情情報及び予め設定された人の顔画像モデルに基づいて合成して第一端末ユーザーの顔画像を再現するとともに、第二端末のビデオ通話インターフェースに表示することができる。そのうち、予め設定された人の顔画像モデルは、ユーザーが設定したのもであってもよく、サーバーがデフォルトで設定したものであってもよい。また、第二端末のユーザーは、更に自分の写真または第一端末ユーザーの写真と、顔表情情報とを合成することによって第一端末ユーザーの顔画像を再現することができる。

また、ビデオは１フレームずつのビデオ画像とし、第一端末において、各フレーム画像の顔表情情報を取得し、第二端末において、各フレーム画像に対して顔表情情報の合成も行い、これによって、擬似ビデオ通話を実現する。そのうち、合成過程は、先行技術であり、ここで説明しない。

本発明の実施形態に係る擬似ビデオ通話方法によれば、顔認識技術を利用して送信端末（例えば、第一端末）において顔表情情報を抽出し、受信端末（例えば、第二端末）において送信された顔表情情報及び予め設定された人の顔画像モデルに基づいて人の顔画像を簡単に合成させて復元させる。更に、送信端末及び受信端末で伝送された情報が顔表情情報のみであり、且つ当該顔表情情報によって完全な顔画像を合成する必要がなく、含まれた情報量が少なく、符号化された後に、顔表情情報のデータ量がいくつかのビットまたはバイトのみを占有するため、先行技術において伝送された情報と比較して、ビデオ通話中に伝送されたデータ量を大幅に低減し、パケットフローを節約し、これによって、ビデオ通話の流暢性をよりよくさせ、帯域幅が限られること、またはパケットフローが制限されることによるビデオ通話への影響を減少し、モバイルネットワークで情報を伝送するのに十分に適し、ユーザー体験を向上することができる。また、第二端末で第一端末ユーザーの人の顔画像モデルを再構築する必要がなく、第二端末が顔表情情報に基づいて予め設定された人の顔画像モデルの上で対応する顔表情情報を表示すればよい。これによって、第二端末は、容易に調整される。

本発明の一つの実施形態において、ビデオ画像に対して顔を認識して顔表情情報を取得するステップ（即ち、Ｓ１０２）は、ビデオ画像に対して顔を認識して顔特徴を取得し、顔特徴から顔表情情報を抽出するステップを含む。

具体的には、まず、ビデオ画像から顔特徴を抽出し、顔特徴は、人の顔特徴（例えば目、鼻、口、耳など）の幾何学的情報（例えば、眉の位置、口の角度、目の大きさなど）を含むが、それらに限定されない。理解すべきなのは、他の方法を通じて顔特徴を取得することもできる。未来の新しい顔認識技術に対して、本実施形態の第一端末はいずれもそれを利用してビデオ画像に対して顔認識を行って、顔特徴を取得することができる。其の後、顔特徴から顔表情情報を抽出し、第一端末は顔特徴に基づいて分析して第一端末ユーザーの顔表情情報を取得することができる。

本発明の一つの実施形態において、顔表情情報は、眉顰めの有無、口開きの有無、口もとの弧度、目開けの有無、目の大きさ及び涙の有無の一つまたは複数を含む。

また、顔表情情報は、人の情緒情報を主に反映し、例えば、眉の位置、口の角度、目の大きさなどを分析することによって、ユーザーの表情が微笑や大笑、大泣き、意気消沈、興奮、怒りなどであることを取得することができる。同様に、例えば、機械学習アルゴリズムなどのような既存の様々な顔表情情報分析技術を利用して分析することができる。また、未来の似た機能を有するアルゴリズムに対して、本実施形態の第一端末はいずれもそれを利用して顔特徴を分析して、顔表情特徴を取得することができる。

第一端末は、第一端末ユーザーの顔表情情報を符号化して、数字表現を形成し、例えば、簡単ないくつかの文字であり、且ついくつかのビットのみを占有し、例えば、「大笑」に対して、文字「Ｄ：」を直接に送信し、符号化や伝送などを行い（勿論、符号化方式は更に豊富なものであってよく、ここで容易に理解するためだけに例を挙げて説明する）、そして、当該顔表情情報をサーバーが確立したビデオ通話によって第二端末に送信することができる。

説明すべきなのは、予め設定された人の顔画像モデルは更に多様化する。本発明の一つの実施形態では、予め設定された第二端末の人の顔画像モデルは、リアルな人の顔画像モデル及び漫画の人の顔画像モデルを含む。また、第二の端末に格納された写真などであることもできる。

ビデオ通話過程をより個人向けにして、趣味性を高めるために、第二端末ユーザーは自分の必要に応じて好きな漫画の人の顔画像モデルを選択することができる。本発明の一つの実施形態では、擬似ビデオ通話方法は、更に、第二端末が第二端末のユーザーに少なくとも一つの漫画の人の顔画像モデルを提供するステップと、第二端末が第二端末のユーザーにより選択された漫画の人の顔画像モデルを受信するとともに、顔表情情報及び選択された人の顔画像モデルに基づいて合成して表示するステップとを含む。具体的には、第二端末のユーザーが自分の必要に応じて、第一端末ユーザーのために好きな漫画の人の顔画像モデルを選択した後に、第二端末が第二端末のユーザーにより選択された漫画の人の顔画像モデルを受信し、第一端末ユーザーの顔表情情報及び第二端末ユーザーにより選択された漫画の人の顔画像モデルに基づいて合成して第一端末ユーザーの顔画像を再現するとともに、第二端末のビデオ通話インターフェースに表示する。例えば第一端末ユーザーの顔表情情報は、口が開いて、口もとの弧度が多く、目が少し細くなっていることである場合には、第一端末ユーザーが大笑している。第二端末ユーザーが選択したのは、スーパーマンの人の顔画像モデルであり、第二端末は第一端末ユーザーの顔表情情報及びスーパーマンの漫画画像を合成して第一端末ユーザーの顔表情情報が大笑である画像を再現する。

本発明の実施形態は、更に別の擬似ビデオ通話方法を提出する。

図２は本発明の別の実施形態による擬似ビデオ通話方法のフローチャートである。

図２に示したように、擬似ビデオ通話方法は、ステップＳ２０１と、ステップＳ２０２とを含む。

ステップＳ２０１において、第二端末と通話を確立する第一端末から送信されたビデオ画像の顔表情情報を受信する。

具体的には、先ず、第一端末がサーバーによって第二端末にビデオ通話要求を送信する、または第二端末がサーバーによって第一端末にビデオ通話要求を送信する。第二端末が第一端末のビデオ通話要求を同意する、または第一端末が第二端末のビデオ通話要求を同意する場合には、サーバーは第一端末と第二端末との間のビデオ通話を確立することができる。

そのうち、第一端末は、当該第一端末付きカメラまたは外付けカメラによって撮影して、第一端末ユーザーのビデオ画像を収集することができて、上述のいずれか一つの実施形態に記載の方法により顔表情情報を取得するとともに、第二端末に送信する。

ステップＳ２０２において、顔表情情報及び第二端末に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示する。

具体的には、第二端末は第一端末ユーザーの顔表情情報及び予め設定された人の顔画像モデルに基づいて合成して第一端末ユーザーの顔画像を再現するとともに、第二端末のビデオ通話インターフェースに表示することができる。そのうち、予め設定された人の顔画像モデルは、ユーザーが設定したのもであってもよく、サーバーがデフォルトで設定したものであってもよい。また、第二端末のユーザーは、更に自分の写真または第一端末ユーザーの写真を人の顔画像モデルとして表示して第一端末ユーザーの顔画像を再現することができる。

本発明の実施形態に係る擬似ビデオ通話方法によれば、顔認識技術を利用して送信端末（例えば、第一端末）から顔表情情報を抽出し、受信端末（例えば、第二端末）に送信された顔表情情報及び予め設定された人の顔画像モデルに基づいて人の顔画像を簡単に合成させて復元させる。更に、送信端末及び受信端末で伝送された情報が顔表情情報のみであり、且つ当該顔表情情報によって完全な顔画像を合成する必要がなく、含まれた情報量が少なく、符号化された後に、顔表情情報のデータ量がいくつかのビットまたはバイトのみを占有するため、先行技術において伝送された情報と比較して、ビデオ通話中に伝送されたデータ量を大幅に低減し、パケットフローを節約し、これによって、ビデオ通話の流暢性をよりよくさせ、帯域幅が限られること、またはパケットフローが制限されることによるビデオ通話への影響を減少し、モバイルネットワークで情報を伝送するのに十分に適し、ユーザー体験を向上することができる。また、第二端末で第一端末ユーザーの人の顔画像モデルを再構築する必要がなく、第二端末が顔表情情報に基づいて予め設定された人の顔画像モデルの上で対応する顔表情情報を表示すればよい。これによって、第二端末は、容易に調整される。

図３は本発明のもう一つの実施形態による擬似ビデオ通話方法のフローチャートである。

図３に示したように、当該擬似ビデオ通話方法はステップＳ３０１と、ステップＳ３０２と、ステップＳ３０３とを含む。

ステップＳ３０１において、第二端末と通話を確立する第一端末から送信されたビデオ画像の顔表情情報を受信する。

ステップＳ３０２において、顔表情情報に基づいてビデオ画像を合成して表示するためのリアルな人の顔画像モデルまたは漫画の人の顔画像モデルを選択する。

具体的には、ビデオ通話過程をより個人向けにして、趣味性を高めるために、第二端末はユーザーに、例えば、複数の漫画の人の顔画像モデルや写真、リアルな人の顔画像モデルなどのような複数のリアルな人の顔画像モデルまたは漫画の人の顔画像モデルを提供することができる。第二端末ユーザーは自分の必要に応じて好きな人の顔画像モデルを選択することができる。例えば、第一端末ユーザーの顔表情情報は、口が開いて、口もとの弧度が多く、目が少し細くなっていることである場合には、第一端末ユーザーが大笑している。第二端末ユーザーが選択したのは、スーパーマンの人の顔画像モデルであり、第二端末は第一端末ユーザーの顔表情情報及びスーパーマンの漫画画像を合成して第一端末ユーザーの顔表情情報が大笑である画像を再現する。

ステップＳ３０３において、選択されたリアルな人の顔画像モデルまたは漫画の人の顔画像モデルと顔表情情報とに基づいてビデオ画像を合成して表示する。

本発明の実施形態の擬似ビデオ通話方法によれば、第二端末のユーザーはリアルな人の顔画像モデルまたは漫画の人の顔画像モデルを選択するとともに、選択されたリアルな人の顔画像モデルまたは漫画の人の顔画像モデルと顔表情情報とに基づいてビデオ画像を合成して表示することができる。これによって、趣味性が高まり、ユーザー体験を向上する。

本発明の実施形態において、再現された顔画像がさらなるリアリティを持つように、第二端末が第一端末ユーザーのリアルな人の顔画像モデルを取得して顔表情を再現する。具体的には、第一端末がカメラによってビデオ画像を撮影し、撮影されたビデオ画像を分析してリアルな人の顔画像モデルを取得する、または、第一端末が撮影を必要とすることなく、ユーザーによって選択された人の顔画像を分析してリアルな人の顔画像モデルを取得し、その後に、それを第二端末に送信して格納させる。

また、第二端末は、第一端末ユーザーの人の顔画像を取得するとともに、人の顔画像に基づいて分析を行ってリアルな人の顔画像モデルを取得することができる。即ち、リアルな人の顔画像モデルは、第二端末に生成される。第二端末は、第一端末ユーザーのリアルな人の顔画像モデル及び第一端末ユーザーの顔表情情報に基づいて第一端末ユーザーの顔画像を合成して、第二端末のビデオ通話インターフェースに再現する。これによって、再現された顔画像がさらなるリアリティを持つ。

理解すべきなのは、リアルな人の顔画像モデルは、一度だけ形成され、第二端末に送信されて格納されることができ、その後のデータ送信過程においては、顔表情情報のみが送信されればよい。また、第二端末において、選択ボタンを提供することもできる。第二端末ユーザーは、第一端末ユーザーのリアルな人の顔画像モデルを選択して表示して第一端末ユーザーの顔画像を再現する、または漫画の人の顔画像モデルを選択して顔画像を再現することができる。更に具体的には、第二端末のユーザーは具体的なネットワーク環境及び端末の性能に基づいて選択し、例えば、携帯端末において、漫画の人の顔画像モデルを選択し、そして顔表情情報だけを送信してビデオ通話を実現し、パソコンにおいて、リアルな人の顔画像モデルを選択し、現実感を増加する。

本発明の実施形態に係る擬似ビデオ通話方法によれば、第一端末ユーザーのリアル人の顔画像モデルと顔表情情報とに基づいて第一端末ユーザーの顔画像を再現することができる。これによって、再現された顔画像がさらなるリアリティを持つ。また、受信端末が通話中にリアルな人の顔画像をリアルタイムで再現する必要がなく、リアルな人の顔画像モデルは一度だけ送信すれば何度も利用されることができる。これによって、受信端末の操作過程を簡略化し、ユーザー体験を向上させる。

上記目的を実現するために、本発明は、更に端末を提出する。

本発明の端末は、ユーザーのビデオ画像を収集するように構成された収集モジュールと、ビデオ画像に対して顔を認識して顔表情情報を取得するように構成された認識モジュールと、第二端末が顔表情情報及び他の端末に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するように、顔表情情報を端末と通話を確立する第二端末に送信するように構成された送信モジュールとを含む。

図４は本発明の一つの実施形態による端末のブロック図である。

図４に示したように、当該端末は、収集モジュール１１０と、認識モジュール１２０と、送信モジュール１３０とを含む。

具体的には、収集モジュール１１０は、ユーザーのビデオ画像を収集するように構成されている。もっと具体的には、収集モジュール１１０は、端末付きカメラまたは外付けカメラによって撮影して、ユーザーのビデオ画像を収集することができる。

認識モジュール１２０は、ビデオ画像に対して顔を認識して顔表情情報を取得するように構成されている。更に具体的には、認識モジュール１２０は、例えば、遺伝的アルゴリズムの人の顔認識、神経ネットワークの人の顔認識などのような既存の多種類のコンピュータ画像処理技術により、ビデオ画像に対して顔を認識して顔表情情報を取得する。顔表情のデータ量が非常に小さい。下記の実施形態において、顔表情の取得過程を詳しく説明する。

送信モジュール１３０は第二端末が顔表情情報及び他の端末に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するように、顔表情情報を端末と通話を確立する第二端末に送信するように構成されている。

そのうち、端末がサーバーによって第二端末にビデオ通話要求を送信する、または第二端末がサーバーによって端末にビデオ通話要求を送信する。第二端末が端末のビデオ通話要求を同意する、または端末が第二端末のビデオ通話要求を同意する場合には、サーバーは端末と第二端末との間のビデオ通話を確立することができる。

更に具体的には、送信モジュール１３０が顔表情情報を符号化して、数字表現を形成し、当該顔表情情報をサーバーが確立したビデオ通話によって第二端末に送信することができる。

顔表情情報を第二端末に送信した後に、第二端末は顔表情情報及び予め設定された人の顔画像モデルに基づいて合成して端末ユーザーの顔画像を再現するとともに、第二端末のビデオ通話インターフェースに表示することができる。そのうち、予め設定された人の顔画像モデルは、ユーザーが設定したのもであってもよく、サーバーがデフォルトで設定したものであってもよい。また、第二端末のユーザーは、更に自分の写真または端末ユーザーの写真と、顔表情情報とを合成することによって第一端末ユーザーの顔画像を再現することができる。

本発明の一つの実施形態において、認識モジュール１２０は、更にビデオ画像に対して顔を認識して顔特徴を取得し、顔特徴から顔表情情報を抽出するように構成されている。

具体的には、まず、認識モジュール１２０はビデオ画像から顔特徴を抽出し、顔特徴は、人の顔特徴（例えば目、鼻、口、耳など）の幾何学的情報（例えば、眉の位置、口の角度、目の大きさなど）を含むが、それらに限定されない。理解すべきなのは、他の方法を通じて顔特徴を取得することもできる。未来の新しい顔認識技術はいずれもそれを利用してビデオ画像に対して顔認識を行って、顔特徴情報を取得することができる。其の後、認識モジュール１２０は顔特徴から顔表情情報を抽出し、認識モジュール１２０は顔特徴情報に基づいて分析してユーザーの顔表情情報を取得することができる。

本発明の一つの実施形態において、顔表情情報は、眉顰めの有無、口開きの有無、口もとの弧度、目開きの有無、目の大きさ及び涙の有無の一つまたは複数を含む。

また、顔表情情報は、人の情緒情報を主に反映し、例えば、眉の位置、口の角度、目の大きさなどを分析することによって、ユーザーの表情が微笑や大笑、大泣き、意気消沈、興奮、怒りなどであることを取得することができる。同様に、例えば、機械学習アルゴリズムなどのような既存の様々な顔表情情報分析技術を利用して分析することができる。また、未来の似た機能を有するアルゴリズムはいずれもそれを利用して顔特徴情報を分析して、顔表情特徴情報を取得することができる。

また、送信モジュール１３０は、顔表情情報を符号化して、数字表現を形成し、例えば、簡単ないくつかの文字であり、且ついくつかのビットのみを占有し、例えば、「大笑」に対して、文字「Ｄ：」を直接に送信し、符号化や伝送などを行い（勿論、符号化方式は更に豊富なものであってよく、ここで容易に理解するためだけに例を挙げて説明する）、そして、当該顔表情情報をサーバーが確立したビデオ通話によって第二端末に送信することができる。

上記目的を実現するために、本発明は、更に別の端末を提出する。

図５は本発明の別の実施形態による端末のブロック図である。

図５に示したように、当該端末は、受信モジュール２１０と、合成モジュール２２０とを含む。

具体的には、受信モジュール２１０は、端末と通話を確立する第一端末から送信されたビデオ画像の顔表情情報を受信するように構成されている。合成モジュール２２０は、顔表情情報及び端末に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するように構成されている。

更に具体的には、合成モジュール２２０は、第一端末ユーザーの顔表情情報及び予め設定された人の顔画像モデルに基づいて合成して第一端末ユーザーの顔画像を再現するとともに、端末のビデオ通話インターフェースに表示することができる。そのうち、予め設定された人の顔画像モデルは、ユーザーが設定したのもであってもよく、デフォルトで設定したものであってもよい。また、端末のユーザーは、更に自分の写真または第一端末ユーザーの写真を人の顔画像モデルとして表示して第一端末ユーザーの顔画像を再現することができる。

図６は本発明のもう一つの実施形態による端末のブロック図である。

図６に示したように、図５に示した端末構造の上に、本実施形態の端末は、選択モジュール２３０を更に含む。

具体的には、選択モジュール２３０は、第二端末と通話を確立する第一端末から送信されたビデオ画像の顔表情情報を受信モジュール２１０が受信した後に、顔表情情報とビデオ画像を合成して表示するためのリアルな人の顔画像モデルまたは漫画の人の顔画像モデルを選択するように構成されている。

更に具体的には、ビデオ通話過程をより個人向けにして、趣味性を高めるために、端末はユーザーに、例えば、漫画の人の顔画像モデルや写真、リアルな人の顔画像モデルなどのような複数のリアルな人の顔画像モデルまたは漫画の人の顔画像モデルを提供することができる。ユーザーは自分の必要に応じて好きな人の顔画像モデルを選択することができる。例えば第一端末ユーザーの顔表情情報が大笑である場合には、端末ユーザーが選択したのは、スーパーマンの人の顔画像モデルであり、端末は第一端末ユーザーの顔表情情報及びスーパーマンの漫画画像を合成して他の端末ユーザーの顔表情情報が大笑である画像を再現する。

従って、ユーザーはリアルな人の顔画像モデルまたは漫画の人の顔画像モデルを選択するとともに、選択されたリアルな人の顔画像モデルまたは漫画の人の顔画像モデルと顔表情情報とに基づいてビデオ画像を合成して表示する。これによって、趣味性が高まり、ユーザー体験を向上する。

上記目的を実現するために、本発明は、端末装置を更に提供する。

本発明の実施形態による端末装置は、一つまたは複数のプロセッサと、メモリと、一つまたは複数のプログラムとを備える端末装置において、前記一つまたは複数のプログラムは、前記メモリに格納されており、前記一つまたは複数のプロセッサによって実行される場合には、前記端末装置ユーザーのビデオ画像を収集し、前記ビデオ画像に対して顔を認識して顔表情情報を取得し、第二端末が前記顔表情情報及び前記第二端末に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するように、前記顔表情情報を前記端末装置と通話を確立する前記第二端末に送信するように構成されている。

上記目的を実現するために、本発明は、別の端末装置を更に提供する。

本発明の実施形態による端末装置は、一つまたは複数のプロセッサと、メモリと、一つまたは複数のプログラムとを備える端末装置において、前記一つまたは複数のプログラムは、前記メモリに格納されており、前記一つまたは複数のプロセッサによって実行される場合には、前記端末装置と通話を確立する第一端末から送信されたビデオ画像の顔表情情報を受信し、前記顔表情情報及び前記端末装置に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するように構成されている。

理解すべきなのは、本発明の各部分は、ハードウェア、ソフトウェア、部品またはそれらの組み合わせで実現できる。上記実施形態には、複数のステップまたは方法がメモリに格納され、適当なコマンド実行システムのソフトウェアまたは部品で実現される。たとえば、ハードウェアで実現する場合、他の実施方式と同じように、本領域周知の下記の任意一つまたはそれらの組み合わせで実現できる。すなわち、データ信号に対してロジック機能を実現するロジックゲート回路を有する個別のロジック回路、ロジックゲート回路を組み合わせた適当な専用ＩＣ、プログラマブルゲートアレイ（ＰＧＡ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）などである。

本明細書には、用語「一つの実施形態」、「いくつかの実施形態」、「例示」、「具体的例示」、「いくつかの例示」などは、当実施形態や例示の具体的特徴、構造、材料が本発明の少なくとも一つの実施形態や例示に含まれることを意味する。本明細書には、用語の説明が必ずしも同じ実施形態や例示を意味しない。また、説明の中の具体的特徴、構造、材料は、任意の一つやいくつかの実施形態や例示に適当な方式で結合されることができる。

本発明の実施形態を示して説明したが、当業者にとって理解できるのは、本発明の原理及び主旨から逸脱しない限りこれらの実施形態に対して複種の変化、補正、切り替え及び変形を行うことができる。本発明の範囲は、特許請求の範囲及びその等価物により限定される。

Claims

第一端末ユーザーのビデオ画像を収集するステップと、
前記ビデオ画像に対して顔を認識して顔表情情報を取得するステップと、
第二端末が前記顔表情情報及び前記第二端末に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するように、前記顔表情情報を前記第一端末と通話を確立する前記第二端末に送信するステップとを含む
ことを特徴とする擬似ビデオ通話方法。
前記ビデオ画像に対して顔を認識して顔表情情報を取得するステップは、
前記ビデオ画像に対して顔を認識して顔特徴を取得し、前記顔特徴から前記顔表情情報を抽出するステップ
を含むことを特徴とする請求項１に記載の方法。
前記顔表情情報は、眉顰めの有無、口開きの有無、口もとの弧度、目開きの有無、目の大きさ及び涙の有無の一つまたは複数を含む
ことを特徴とする請求項１または２に記載の方法。
第二端末と通話を確立する第一端末から送信されたビデオ画像の顔表情情報を受信するステップと、
前記顔表情情報及び前記第二端末に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するステップとを含む
ことを特徴とする擬似ビデオ通話方法。
前記第二端末と通話を確立する第一端末から送信されたビデオ画像の顔表情情報を受信した後に、さらに、
前記顔表情情報に基づいてビデオ画像を合成して表示するためのリアルな人の顔画像モデルまたは漫画の人の顔画像モデルを選択するステップを含む
ことを特徴とする請求項４に記載の方法。
ユーザーのビデオ画像を収集するように構成された収集モジュールと、
前記ビデオ画像に対して顔を認識して顔表情情報を取得するように構成された認識モジュールと、
第二端末が前記顔表情情報及び前記第二端末に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するように、前記顔表情情報を端末と通話を確立する前記第二端末に送信するように構成された送信モジュールとを含む
ことを特徴とする端末。
前記認識モジュールは、更に、前記ビデオ画像に対して顔を認識して顔特徴を取得し、前記顔特徴から前記顔表情情報を抽出するように構成されている
ことを特徴とする請求項６に記載の端末。
前記顔表情情報は、眉顰めの有無、口開きの有無、口もとの弧度、目開けの有無、目の大きさ及び涙の有無の一つまたは複数を含む
ことを特徴とする請求項６または７に記載の端末。
端末と通話を確立する第一端末から送信されたビデオ画像の顔表情情報を受信するように構成された受信モジュールと、
前記顔表情情報及び前記端末に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するように構成された合成モジュールとを含む
ことを特徴とする端末。
前記受信モジュールが第二端末と通話を確立する第一端末から送信されたビデオ画像の顔表情情報を受信した後に、前記顔表情情報に基づいてビデオ画像を合成して表示するためのリアルな人の顔画像モデルまたは漫画の人の顔画像モデルを選択するように構成された選択モジュールを更に含む
ことを特徴とする請求項９に記載の端末。
一つまたは複数のプロセッサと、メモリと、一つまたは複数のプログラムとを備える端末装置において、
前記一つまたは複数のプログラムは、前記メモリに格納されており、前記一つまたは複数のプロセッサによって実行される場合には、
前記端末装置ユーザーのビデオ画像を収集し、
前記ビデオ画像に対して顔を認識して顔表情情報を取得し、
第二端末が前記顔表情情報及び前記第二端末に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するように、前記顔表情情報を前記端末装置と通話を確立する前記第二端末に送信するように構成されていることを特徴とする端末装置。
一つまたは複数のプロセッサと、メモリと、一つまたは複数のプログラムとを備える端末装置において、
前記一つまたは複数のプログラムは、前記メモリに格納されており、前記一つまたは複数のプロセッサによって実行される場合には、
前記端末装置と通話を確立する第一端末から送信されたビデオ画像の顔表情情報を受信し、
前記顔表情情報及び前記端末装置に予め設定された人の顔画像モデルに基づいてビデオ画像を合成して表示するように構成されている
ことを特徴とする端末装置。