CN108259806A

CN108259806A - 一种视频通信方法、设备和终端

Info

Publication number: CN108259806A
Application number: CN201611245934.7A
Authority: CN
Inventors: 于洋; 李子军
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2018-07-06
Also published as: WO2018121699A1

Abstract

本发明实施例提供了一种视频通信方法、设备和终端，所述方法包括：采集本地用户的当前视频画面，将采集的本地用户的视频画面发送至对端；接收对端用户的当前视频画面；分别对所述本地用户的当前视频画面和所述对端用户的当前视频画面进行人脸识别，基于人脸识别结果构建本地用户的三维人物形象和对端用户的三维人物形象；将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中，得到融合人物形象的虚拟立体场景；将所述融合人物形象的虚拟立体场景在本地呈现。

Description

一种视频通信方法、设备和终端

技术领域

本发明涉及可视通信领域，尤其涉及一种视频通信方法、设备和终端。

背景技术

随着互联网时代通讯技术的发展，人们可以通过网络更加方便快捷的进行即时通讯，可视通讯在传统的语音通讯模式上增加了视频画面，使通讯过程更加形象具体，增加了传递的信息量，满足了人们的感官需求。

可视通讯将是今后主流的通讯模式之一，但目前的可视通讯只能单方面采集通讯方的视频画面，并传输给通讯的另一方，在本地端只能将本地采集的己方画面和传输来的对方画面进行分别展示；由于两个画面来源不同，内容不同，相对独立，会导致通讯效果单一，整体关联性差，互动性低，无法形成较为形象的交流沟通氛围，导致用户体验降低。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种视频通信方法、设备和终端，能够避免现有可视通信技术中出现的通讯效果单一、整体关联性差和互动性低的问题。

为达到上述目的，本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种视频通信方法，所述方法包括：

采集本地用户的当前视频画面，将采集的本地用户的视频画面发送至对端；接收对端用户的当前视频画面；

分别对所述本地用户的当前视频画面和所述对端用户的当前视频画面进行人脸识别，基于人脸识别结果构建本地用户的三维人物形象和对端用户的三维人物形象；

将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中，得到融合人物形象的虚拟立体场景；

将所述融合人物形象的虚拟立体场景在本地呈现。

上述方案中，所述人脸识别结果包括：本地用户的人脸图像和对端用户的人脸图像；

所述基于人脸识别结果构建本地用户的三维人物形象和对端用户的三维人物形象，包括：在本地用户的当前视频画面中，对本地用户的整体人物图像进行边缘检测，得到本地用户的边缘检测结果；根据本地用户的人脸图像和所述本地用户的边缘检测结果，生成本地用户的三维人物形象；在对端用户的当前视频画面中，对对端用户的整体人物图像进行边缘检测，得到对端用户的边缘检测结果；根据对端用户的人脸图像和所述对端用户的边缘检测结果，生成对端用户的三维人物形象。

上述方案中，在生成本地用户的三维人物形象之前，所述方法还包括：根据本地用户的人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定本地用户的三维人物形象的尺寸；

在生成对端用户的三维人物形象之前，所述方法还包括：根据对端用户的人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定对端用户的三维人物形象的尺寸。

上述方案中，所述将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中，包括：

获取本地拍摄角度数据和对端拍摄角度数据，所述本地拍摄角度数据用于表示本地用户的当前视频画面对应的摄像头拍摄角度，所述对端拍摄角度数据用于表示对端用户的当前视频画面对应的摄像头拍摄角度；

根据本地拍摄角度数据和对端拍摄角度数据，确定虚拟立体场景中所述本地用户的三维人物形象与对端用户的三维人物形象的相对方位关系；

基于所确定的相对方位关系，将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中。

上述方案中，在将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中之前，所述方法还包括：设置本地用户的三维人物形象在预先构建的虚拟立体场景中的位置区域、以及对端用户的三维人物形象在预先构建的虚拟立体场景中的位置区域；

所述基于所确定的相对方位关系，将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中，包括：基于所确定的相对方位关系，将所述本地用户的三维人物形象和对端用户的三维人物形象同时布置在虚拟立体场景中；根据本地用户的三维人物形象在预先构建的虚拟立体场景中的位置区域、以及对端用户的三维人物形象在预先构建的虚拟立体场景中的位置区域，确定所述预先构建的虚拟立体场景中各个虚拟立体元素的位置；在所述虚拟立体场景中，根据所述预先构建的虚拟立体场景中各个虚拟元素的位置，生成各个虚拟立体元素。

本发明实施例还提供了一种视频通信设备，所述设备包括：获取模块、识别模块、构建模块、融合模块和呈现模块；其中，

获取模块，用于采集本地用户的当前视频画面，将采集的本地用户的视频画面发送至对端；接收对端用户的当前视频画面；

识别模块，用于分别对所述本地用户的当前视频画面和所述对端用户的当前视频画面进行人脸识别，得出人脸识别结果；

构建模块，用于基于人脸识别结果构建本地用户的三维人物形象和对端用户的三维人物形象；

融合模块，用于将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中，得到融合人物形象的虚拟立体场景；

呈现模块，用于将所述融合人物形象的虚拟立体场景在本地呈现。

所述构建模块，具体用于在本地用户的当前视频画面中，对本地用户的整体人物图像进行边缘检测，得到本地用户的边缘检测结果；根据本地用户的人脸图像和所述本地用户的边缘检测结果，生成本地用户的三维人物形象；在对端用户的当前视频画面中，对对端用户的整体人物图像进行边缘检测，得到对端用户的边缘检测结果；根据对端用户的人脸图像和所述对端用户的边缘检测结果，生成对端用户的三维人物形象。

上述方案中，所述构建模块，还用于在生成本地用户的三维人物形象之前，根据本地用户的人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定本地用户的三维人物形象的尺寸；在生成对端用户的三维人物形象之前，根据对端用户的人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定对端用户的三维人物形象的尺寸。

上述方案中，所述融合模块，具体用于获取本地拍摄角度数据和对端拍摄角度数据，根据本地拍摄角度数据和对端拍摄角度数据，确定虚拟立体场景中所述本地用户的三维人物形象与对端用户的三维人物形象的相对方位关系；基于所确定的相对方位关系，将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中；其中，所述本地拍摄角度数据用于表示本地用户的当前视频画面对应的摄像头拍摄角度，所述对端拍摄角度数据用于表示对端用户的当前视频画面对应的摄像头拍摄角度。

上述方案中，所述融合模块，还用于在将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中之前，设置本地用户的三维人物形象在预先构建的虚拟立体场景中的位置区域、以及对端用户的三维人物形象在预先构建的虚拟立体场景中的位置区域；

所述融合模块，具体用于基于所确定的相对方位关系，将所述本地用户的三维人物形象和对端用户的三维人物形象同时布置在虚拟立体场景中；根据本地用户的三维人物形象在预先构建的虚拟立体场景中的位置区域、以及对端用户的三维人物形象在预先构建的虚拟立体场景中的位置区域，确定所述预先构建的虚拟立体场景中各个虚拟立体元素的位置；在所述虚拟立体场景中，根据所述预先构建的虚拟立体场景中各个虚拟元素的位置，生成各个虚拟立体元素。

本发明实施例还提供了一种终端，所述终端包括上述任意一种视频通信设备。

本发明实施例提供的一种视频通信方法、设备和终端中，首先采集本地用户的当前视频画面，将采集的本地用户的视频画面发送至对端；接收对端用户的当前视频画面；其次，分别对所述本地用户的当前视频画面和所述对端用户的当前视频画面进行人脸识别，基于人脸识别结果构建本地用户的三维人物形象和对端用户的三维人物形象；最后，构建虚拟立体场景，将所述本地用户的三维人物形象和对端用户的三维人物形象融合至所述虚拟立体场景中，得到融合人物形象的虚拟立体场景；将所述融合人物形象的虚拟立体场景在本地呈现；如此，可以将本地用户的三维人物形象及对端用户的三维人物形象与虚拟立体场景进行融合，并可以将融合后的即时场景呈现给用户；也就是说，将通信双方的画面进行有效的提取并融合到一个自定义的个性化虚拟场景中，给用户模拟同时同地交流沟通的氛围，营造一种较为逼真的面对面同时同地交流氛围，丰富了通讯的内容和趣味性，提高了用户的感官体验。

附图说明

图1为本发明第一实施例的视频通信方法的流程图；

图2为本发明第二实施例的视频通信设备的组成结构示意图；

图3为本发明第三实施例的视频通信设备的组成结构示意图。

具体实施方式

以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供了一种视频通信方法、设备和终端，能够实现本地用户和对端用户的可视通信，这里，本地和对端分别用于表示视频通信的双方，本地用户和对端用户均可以使用具有通信功能的终端来实现，这里的终端可以是移动终端，也可以是固定终端；在本地用户和对端用户使用的终端上，均设置有摄像头，摄像头用于实施采集用户的图像。

基于上述记载的本地用户的终端、对端用户的终端和摄像头，提出以下各具体实施例。

第一实施例

本发明第一实施例提供了一种视频通信方法，图1为本发明第一实施例的视频通信方法的流程图，如图1所示，该流程包括：

步骤101：采集本地用户的当前视频画面，将采集的本地用户的视频画面发送至对端；接收对端用户的当前视频画面。

在实际实施时，对于本地和对端而言，均可以采用摄像头采集用户的视频画面；在对端，利用摄像头采集到对端用户的当前视频画面后，将对端用户的当前视频画面实时发送至本地，如此，本地可以接收到对端用户的当前视频画面；进一步地，对端在采集到对端用户的当前视频画面后，可以将对端用户的当前视频画面进行视频编码，之后，将视频编码后的视频数据发送至本地，本地用户接收到视频数据后，对接收的视频数据进行解码，得到对端用户的当前视频画面。

这里可以采用多种通信方式来实现对端和本地之间的通信，本发明实施例并不进行限制。

可以理解的是，在本地，可以在获取本地用户的当前视频画面的同时，同时接收对端用户的当前视频画面，之后，便可以基于本地用户的当前视频画面和对端用户的当前视频画面进行进一步处理。

步骤102：分别对所述本地用户的当前视频画面和所述对端用户的当前视频画面进行人脸识别，基于人脸识别结果构建本地用户的三维人物形象和对端用户的三维人物形象；

本发明实施例中，在人脸识别的过程中，还可以定位人脸在对应图像中的位置，但是，不对人脸识别的方法进行限制，在实际应用中，可以利用人脸识别检测程序对本地用户的当前视频画面和所述对端用户的当前视频画面同步提取人脸图像，下面示例性地说明人脸识别过程。

人脸识别过程包括：

采用统计原理，预先采集若干“人面部”和“非人面部”的图像进行样本库建立，训练出用于区分“人面部”和“非人面部”的分类器。

对待检测图像进行一定比例的缩放，对缩放后的图像中所有区域利用上述分类器进行检测，判断其为人脸还是非人脸。

根据判断结果，确定人脸的位置和大小。

显然，人脸识别结果包括：本地用户的人脸图像和对端用户的人脸图像。

进一步地，在在本地用户的当前视频画面中，对本地用户的整体人物图像进行边缘检测，得到本地用户的边缘检测结果；根据本地用户的人脸图像和所述本地用户的边缘检测结果，生成本地用户的三维人物形象；在对端用户的当前视频画面中，对对端用户的整体人物图像进行边缘检测，得到对端用户的边缘检测结果；根据对端用户的人脸图像和所述对端用户的边缘检测结果，生成对端用户的三维人物形象。

可选的，在生成本地用户的三维人物形象时，需要在本地用户的当前视频画面确定本地用户的整体人物形象区域；在确定本地用户的整体人物形象区域后，可以对本地用户的当前视频画面中除本地用户的整体人物形象区域外的区域进行透明化处理，如此，便于实现后期融合。

在生成对端用户的三维人物形象时，需要在对端用户的当前视频画面确定对端用户的整体人物形象区域；在确定对端用户的整体人物形象区域后，可以对对端用户的当前视频画面中除对端用户的整体人物形象区域外的区域进行透明化处理，如此，便于实现后期融合。

可选的，在确定本地用户的整体人物形象区域和对端用户的整体人物形象区域后，还可以本地用户的当前视频画面和/或对端用户的当前视频画面进行缩放，使本地用户的当前视频画面与对端用户的当前视频画面的尺寸统一。

在一个可选的实施例中，在生成本地用户的整体人物形象区域后，可以根据本地用户的人脸图像、以及预先设置的三维人物形象的模板，生成本地用户的三维人物形象；同样地，在生成对端用户的整体人物形象区域后，可以根据对端用户的人脸图像、以及预先设置的三维人物形象的模板，生成对端用户的三维人物形象。

在一个可选的实施例中，在生成本地用户的三维人物形象之前，还可以根据本地用户的人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定本地用户的三维人物形象的尺寸；

同样地，在生成对端用户的三维人物形象之前，还可以根据对端用户的人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定对端用户的三维人物形象的尺寸。

进一步地，在生成本地用户或对端用户的三维人物形象时，可以首先生成本地用户或对端用户的初始三维人物形象，之后，采用增强现实技术对本地用户或对端用户的初始三维人物形象按照预先设置的人物装饰方式进行装饰，得到最终的本地用户或对端用户的三维人物形象。在实际实施时，可以在步骤101前，由用户设置用于体现人物装饰方式的人物装饰模板，

步骤103：将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中，得到融合人物形象的虚拟立体场景。

在实际实施时，可以设置多个虚拟立体场景，例如设置的虚拟立体场景可以是会议室场景、客厅场景、公园场景等等，本发明实施例不对此进行限定；每个虚拟立体场景可以由多个虚拟立体元素组成，在设置多个虚拟立体场景后，可以由用户选择一个虚拟立体场景作为预先构建的虚拟立体场景。

可选的，这里可以采用增强现实技术，将所述本地用户的三维人物形象和对端用户的三维人物形象融合至虚拟立体场景中。

示例性地，将将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中，可以包括：

步骤1031：获取本地拍摄角度数据和对端拍摄角度数据，所述本地拍摄角度数据用于表示本地用户的当前视频画面对应的摄像头拍摄角度，所述对端拍摄角度数据用于表示对端用户的当前视频画面对应的摄像头拍摄角度。

在一个可选的实施例中，可以由本地用户预先向对应终端输入本地拍摄角度数据，由对端用户向对应终端输入对端拍摄角度数据；在另一个可选的实施例中，用于拍摄本地用户和对端用户的摄像头为在外部信号控制下实现转动的摄像头，此时，摄像头能够获取自身的拍摄角度。

步骤1032：根据本地拍摄角度数据和对端拍摄角度数据，确定虚拟立体场景中所述本地用户的三维人物形象与对端用户的三维人物形象的相对方位关系。

这里，可以根据本地拍摄角度数据和对端拍摄角度数据进行角度位置关系映射，从而确定虚拟立体场景中所述本地用户的三维人物形象与对端用户的三维人物形象的相对方位关系。

示例性地，将本地用户的当前视频画面的摄像头记为本地摄像头，将对端用户的当前视频画面的摄像头记为对端摄像头；

当本地摄像头朝向正前方，且对端摄像头朝向正前方时，虚拟立体场景中本地用户的三维人物形象处在对端用户的三维人物形象的正前方或正后方；

当本地摄像头朝向正前方，且对端摄像头朝向自身的右前方时，虚拟立体场景中对端用户的三维人物形象处在本地用户的三维人物形象的右前方，对端用户的三维人物形象偏离本地用户的三维人物形象的正前方的角度等于对端摄像头的朝向偏离对端摄像头正前方的角度；

当本地摄像头朝向正前方，且对端摄像头朝向自身的左前方时，虚拟立体场景中对端用户的三维人物形象处在本地用户的三维人物形象的左前方，对端用户的三维人物形象偏离本地用户的三维人物形象的正前方的角度等于对端摄像头的朝向偏离对端摄像头正前方的角度；

相应地，当本地摄像头朝向自身的右前方，且对端摄像头朝向自身的正前方时，虚拟立体场景中本地用户的三维人物形象处在对端用户的三维人物形象的右前方，本地用户的三维人物形象偏离对端用户的三维人物形象的正前方的角度等于本地摄像头的朝向偏离本地摄像头正前方的角度；

当本地摄像头朝向自身的左前方，且对端摄像头朝向自身的正前方时，虚拟立体场景中本地用户的三维人物形象处在对端用户的三维人物形象的左前方，本地用户的三维人物形象偏离对端用户的三维人物形象的左前方的角度等于本地摄像头的朝向偏离本地摄像头正前方的角度。

进一步地，还可以根据本地摄影头位置角度等进行三维注册，确定现实环境到显示画面的映射关系。

步骤1033：基于所确定的相对方位关系，采用增强现实技术将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中。

进一步地，还可以预先设置本地用户的三维人物形象在预先构建的虚拟立体场景中的位置区域、以及对端用户的三维人物形象在预先构建的虚拟立体场景中的位置区域；这里，位置区域用于表示对应的三维人物形象在虚拟立体场景中的一个大致的区域中，并非表示对应的三维人物形象在虚拟立体场景中的精确位置。

这样，在步骤1033的一种实现方式中，可以基于所确定的相对方位关系，将本地用户的三维人物形象和对端用户的三维人物形象同时布置在虚拟立体场景中；根据本地用户的三维人物形象在预先构建的虚拟立体场景中的位置区域、以及对端用户的三维人物形象在预先构建的虚拟立体场景中的位置区域，确定所述预先构建的虚拟立体场景中各个虚拟立体元素的位置；在所述虚拟立体场景中，根据所述预先构建的虚拟立体场景中各个虚拟元素的位置，生成各个虚拟立体元素。

需要说明的是，同时布置本地用户的三维人物形象和对端用户的三维人物形象的虚拟立体场景初始时并非构建的虚拟立体场景，也就是说，需要先基于所确定的相对方位关系，将本地用户的三维人物形象和对端用户的三维人物形象同时布置在一个没有其余虚拟立体元素的虚拟立体场景中；之后，便可以根据本地用户的三维人物形象在初始虚拟立体场景中的位置区域、以及对端用户的三维人物形象在初始虚拟立体场景中的位置区域，确定所述预先构建的虚拟立体场景中各个虚拟立体元素的位置；例如，当预先构建的虚拟立体场景为客厅场景，本地用户的三维人物形象在虚拟立体场景中的位置区域、以及对端用户的三维人物形象在虚拟立体场景中的位置区域均为沙发区域时，此时，可以构建沙发等其他虚拟立体元素。

进一步地，还可以预先设置虚拟立体场景中本地用户的三维人物形象向用户呈现的角度、以及对端用户的三维人物形象向用户呈现的角度，之后，基于所确定的相对方位关系、虚拟立体场景中本地用户的三维人物形象向用户呈现的角度、以及对端用户的三维人物形象向用户呈现的角度，将本地用户的三维人物形象和对端用户的三维人物形象同时布置在虚拟立体场景中；如此，在本步骤完成后，融合人物形象的虚拟立体场景中，本地用户的三维人物形象和对端用户的三维人物形象均可以按照预先设置的角度进行呈现。例如，虚拟立体场景中本地用户的三维人物形象设置为背向用户呈现，虚拟立体场景中本地用户的三维人物形象设置为面向用户呈现，则在得出的融合人物形象的虚拟立体场景中，本地用户的三维人物形象和对端用户的三维人物形象均可以按照预先设置的角度进行呈现。

可以理解的是，在将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中时，可以将三维人物形象和虚拟立体场景融合成一个完整的空间画面。

步骤104：将所述融合人物形象的虚拟立体场景在本地呈现。

在实际实施时，可以由本地的显示器呈现所述融合人物形象的虚拟立体场景。

进一步地，在步骤101中，在采集本地用户的当前视频画面的同时，还可以采集本地的音频信息，这里，本地的音频信息包括本地用户的语音信息；之后，将采集的本地的音频信息发送至对端；相应地，在对端，也可以采集对端的音频信息，并将对端的音频信息发送至本地。在实际实施时，可以利用麦克风采集音频信息。

相应地，在将所述融合人物形象的虚拟立体场景在本地呈现的同时，还可以同步播放本地的音频信息、以及对端的音频信息。

在一个可选的实施例中，在步骤101之前，可以设置初始数据，初始数据包括以下一项或多项：初始虚拟立体场景、本地用户的三维人物形象在虚拟立体场景中的初始位置区域、对端用户的三维人物形象在虚拟立体场景中的初始位置区域、虚拟立体场景中本地用户的三维人物形象向用户呈现的初始角度、虚拟立体场景中对端用户的三维人物形象向用户呈现的初始角度、本地用户的初始人物装饰方式、对端用户的初始人物装饰方式。

在设置初始数据后，在进行视频通信的过程中，用户可以实时更改初始数据中的任意一项，从而改变人物形象与虚拟立体场景的融合效果。

可以看出，应用本发明第一实施例的视频通信方法，可以将本地用户的三维人物形象及对端用户的三维人物形象与虚拟立体场景进行融合，并可以将融合后的即时场景呈现给用户，如此，可以获得双方同处一地进行交流的场景；也就是说，将通信双方的画面进行有效的提取并融合到一个自定义的个性化虚拟场景中，给用户模拟同时同地交流沟通的氛围，营造一种较为逼真的面对面同时同地交流氛围，并可以对场景，人物装饰等进行个性化定制，丰富了通讯的内容和趣味性，提高了用户的感官体验。解决了现有可视通讯方案双方画面独立，关联性差，互动性低，不够形象具体的缺点。

第二实施例

针对本发明第一实施例的视频通信方法，本发明第二实施例提出了一种视频通信设备。

图2为本发明第二实施例的视频通信设备的组成结构示意图，如图2所示，该视频通信设备包括：获取模块201、识别模块202、构建模块203、融合模块204和呈现模块205；其中，

获取模块201，用于采集本地用户的当前视频画面，将采集的本地用户的视频画面发送至对端；接收对端用户的当前视频画面；

识别模块202，用于分别对所述本地用户的当前视频画面和所述对端用户的当前视频画面进行人脸识别，得出人脸识别结果；

构建模块203，用于基于人脸识别结果构建本地用户的三维人物形象和对端用户的三维人物形象；

融合模块204，用于将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中，得到融合人物形象的虚拟立体场景；

呈现模块205，用于将所述融合人物形象的虚拟立体场景在本地呈现。

可选的，所述人脸识别结果包括：本地用户的人脸图像和对端用户的人脸图像；

所述构建模块203，具体用于在本地用户的当前视频画面中，对本地用户的整体人物图像进行边缘检测，得到本地用户的边缘检测结果；根据本地用户的人脸图像和所述本地用户的边缘检测结果，生成本地用户的三维人物形象；在对端用户的当前视频画面中，对对端用户的整体人物图像进行边缘检测，得到对端用户的边缘检测结果；根据对端用户的人脸图像和所述对端用户的边缘检测结果，生成对端用户的三维人物形象。

进一步地，所述构建模块203，还用于在生成本地用户的三维人物形象之前，根据本地用户的人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定本地用户的三维人物形象的尺寸；在生成对端用户的三维人物形象之前，根据对端用户的人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定对端用户的三维人物形象的尺寸。

可选的，所述融合模块204，具体用于获取本地拍摄角度数据和对端拍摄角度数据，根据本地拍摄角度数据和对端拍摄角度数据，确定虚拟立体场景中所述本地用户的三维人物形象与对端用户的三维人物形象的相对方位关系；基于所确定的相对方位关系，将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中；其中，所述本地拍摄角度数据用于表示本地用户的当前视频画面对应的摄像头拍摄角度，所述对端拍摄角度数据用于表示对端用户的当前视频画面对应的摄像头拍摄角度。

进一步地，所述融合模块204，还用于在将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中之前，设置本地用户的三维人物形象在预先构建的虚拟立体场景中的位置区域、以及对端用户的三维人物形象在预先构建的虚拟立体场景中的位置区域；

所述融合模块204，具体用于基于所确定的相对方位关系，将所述本地用户的三维人物形象和对端用户的三维人物形象同时布置在虚拟立体场景中；根据本地用户的三维人物形象在预先构建的虚拟立体场景中的位置区域、以及对端用户的三维人物形象在预先构建的虚拟立体场景中的位置区域，确定所述预先构建的虚拟立体场景中各个虚拟立体元素的位置；在所述虚拟立体场景中，根据所述预先构建的虚拟立体场景中各个虚拟元素的位置，生成各个虚拟立体元素。

在实际应用中，所述获取模块201可由位于终端中的摄像头等实现，所述识别模块202、构建模块203和融合模块204均可由位于终端中的中央处理器(Central ProcessingUnit，CPU)、微处理器(Micro Processor Unit，MPU)、数字信号处理器(Digital SignalProcessor，DSP)、或现场可编程门阵列(Field Programmable Gate Array，FPGA)等实现，所述呈现模块205可由位于终端中的显示器等实现。

第三实施例

针对本发明第一实施例的视频通信方法，本发明第三实施例还提出了一种视频通信设备，图3为本发明第三实施例的视频通信设备的组成结构示意图，如图3所示，该视频通信设备包括：通信模块301、数据处理模块302、音视频采集模块303、主控模块304和输出模块305，其中，主控模块304分别连接通信模块301、数据处理模块302、音视频采集模块303和输出模块305，数据处理模块302分别连接通信模块301、音视频采集模块303和输出模块305，通信模块301连接音视频采集模块303；其中，

主控模块304，用于负责整体业务流程控制和资源分配，主控模块可以采用高性能微控制器实现。

数据处理模块302，用于接收主控模块发送的控制信息，并根据控制信息进行数据处理，还用于接收来自音视频采集模块和通信模块的信息。数据处理模块302主要负责基于采集和接收的信息，进行人脸识别检测，提取人物图像，并利用增强现实技术将三维人物形象与虚拟立体场景进行融合；数据处理模块可由高性能处理器实现。

音视频采集模块303，用于采集本地用户的视频画面和本地音频信息，将采集到的本地用户的视频画面和本地音频信息发送至数据处理模块和通信模块。音视频采集模块可以利用至少一个摄像头和至少一个麦克风实现，优选地，音视频采集模块可以利用多个摄像头提供不同角度方位的视频信息

通信模块301，用于主控模块发送的控制信息，并根据接收的控制信息，对接收的来自对端的信息进行解码后发送至本地的数据处理模块；还用于根据接收的控制信息，对来自音视频采集模块的信息进行编码，将编码后的信息发送至对端的通信模块。

数据处理模块302，还用于将融合三维人物形象的虚拟立体场景、本地的音频信息、对端的音频信息同步输出至输出模块。

输出模块305，用于接收主控模块发送的控制信息，根据接收的控制信息，将融合三维人物形象的虚拟立体场景、本地用户的语音信息、对端用户的语音信息同步呈现给用户，在实际应用中，输出模块305可以由显示器和扬声器实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种视频通信方法，其特征在于，所述方法包括：

将所述融合人物形象的虚拟立体场景在本地呈现。

2.根据权利要求1所述的方法，其特征在于，所述人脸识别结果包括：本地用户的人脸图像和对端用户的人脸图像；

3.根据权利要求2所述的方法，其特征在于，在生成本地用户的三维人物形象之前，所述方法还包括：根据本地用户的人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定本地用户的三维人物形象的尺寸；

4.根据权利要求1所述的方法，其特征在于，所述将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中，包括：

5.根据权利要求4所述的方法，其特征在于，

在将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中之前，所述方法还包括：设置本地用户的三维人物形象在预先构建的虚拟立体场景中的位置区域、以及对端用户的三维人物形象在预先构建的虚拟立体场景中的位置区域；

6.一种视频通信设备，其特征在于，所述设备包括：获取模块、识别模块、构建模块、融合模块和呈现模块；其中，

7.根据权利要求6所述的设备，其特征在于，所述人脸识别结果包括：本地用户的人脸图像和对端用户的人脸图像；

8.根据权利要求7所述的设备，其特征在于，所述构建模块，还用于在生成本地用户的三维人物形象之前，根据本地用户的人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定本地用户的三维人物形象的尺寸；在生成对端用户的三维人物形象之前，根据对端用户的人脸图像、以及人脸图像到三维人物形象的尺寸映射关系，确定对端用户的三维人物形象的尺寸。

9.根据权利要求6所述的设备，其特征在于，所述融合模块，具体用于获取本地拍摄角度数据和对端拍摄角度数据，根据本地拍摄角度数据和对端拍摄角度数据，确定虚拟立体场景中所述本地用户的三维人物形象与对端用户的三维人物形象的相对方位关系；基于所确定的相对方位关系，将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中；其中，所述本地拍摄角度数据用于表示本地用户的当前视频画面对应的摄像头拍摄角度，所述对端拍摄角度数据用于表示对端用户的当前视频画面对应的摄像头拍摄角度。

10.根据权利要求9所述的设备，其特征在于，所述融合模块，还用于在将所述本地用户的三维人物形象和对端用户的三维人物形象融合至预先构建的虚拟立体场景中之前，设置本地用户的三维人物形象在预先构建的虚拟立体场景中的位置区域、以及对端用户的三维人物形象在预先构建的虚拟立体场景中的位置区域；

11.一种终端，其特征在于，所述终端包括权利要求6至10任一项所述的设备。