CN115499612A

CN115499612A - 一种视频通讯的方法及装置

Info

Publication number: CN115499612A
Application number: CN202110677794.5A
Authority: CN
Inventors: 翟世平; 高雪松; 陈维强; 曲磊
Original assignee: Hisense Group Holding Co Ltd
Current assignee: Hisense Group Holding Co Ltd
Priority date: 2021-06-18
Filing date: 2021-06-18
Publication date: 2022-12-20

Abstract

本申请提供了一种视频通讯的方法及装置，该方法包括在检测到用户选取了虚拟形象模型后，基于采集器采集的数据获取用户的人像动作信息和音频数据，将人像动作信息与所述虚拟形象模型进行拟合，生成用户的虚拟图像数据，并将虚拟图像数据与音频数据进行融合，生成用户的第一音视频流数据，然后将第一音视频流数据通过视频云平台发送给与用户参与同一视频通讯的第二终端设备。如此，该方案由于能够让用户在视频通讯过程中使用虚拟的图像数据进行通讯，因此可以避免用户的真实个人图像数据被泄露，并使得用户无需在意自己的实际着装或面容形象，从而可以有效地确保用户的真实个人图像数据的安全隐私性，并可以极大地方便用户的使用。

Description

一种视频通讯的方法及装置

技术领域

本申请涉及视频通话隐私安全技术领域，尤其涉及一种视频通讯的方法及装置。

背景技术

随着视频通话技术的快速发展，越来越多的视频会议或视频通话相关应用被逐渐普及面向用户。然而，在用户使用视频会议或视频通话相关应用的过程中，会产生用户的图像数据存在泄露的问题。基于此，如何对用户的图像数据进行有效保护成为急需解决的问题。

现有方案主要是对视频过程中的用户人像和背景进行区分，将用户人像进行保留，并将背景进行模糊或替换，以此来实现针对用户环境信息的保护。但是，该方案仍然存在泄露用户人像数据的风险，无法有效地对用户的图像数据进行保护。

综上，目前亟需一种视频通讯的方法，用以有效地确保用户的真实个人图像数据的安全隐私性。

发明内容

本申请示例性的实施方式中提供了一种视频通讯的方法及装置，用以有效地确保用户的真实个人图像数据的安全隐私性。

第一方面，本申请示例性的实施方式中提供了一种视频通讯的方法，包括：

在检测到用户选取了虚拟形象模型后，基于采集器采集的数据获取所述用户的人像动作信息和音频数据；所述虚拟形象模型是通过三维建模方式得到的；

将所述人像动作信息与所述虚拟形象模型进行拟合，生成所述用户的虚拟图像数据；

将所述虚拟图像数据与所述音频数据进行融合，生成所述用户的第一音视频流数据；

将所述第一音视频流数据通过视频云平台发送给与所述用户参与同一视频通讯的第二终端设备。

上述技术方案中，以装载在终端设备上的视频通讯应用为例，视频通讯应用在检测到用户登录视频通讯应用选取了虚拟形象模型后，则基于采集器采集的数据获取用户的人像动作信息和音频数据，并以此为用户构建虚拟图像数据，也即是将人像动作信息与虚拟形象模型进行拟合，生成用户的虚拟图像数据，并将虚拟图像数据与音频数据进行融合，生成高清的第一音视频流数据。然后，将该高清的第一音视频流数据通过视频云平台发送给与用户参与同一视频通讯的第二终端设备，从而可以使得用户的实时人像动作通过虚拟形象模型能够及时有效地展示给参与同一视频通讯的其它用户。如此，该方案由于能够让用户在视频通讯过程中使用虚拟的图像数据进行通讯，因此可以避免用户的真实个人图像数据被泄露，并可以使得用户无需在意自己的实际着装或面容形象，从而可以有效地确保用户的真实个人图像数据的安全隐私性，并可以极大地方便用户的使用。

在一些示例性的实施方式中，所述虚拟形象模型是针对用户的真实形象通过人体三维建模方式得到的；

在用户选取了虚拟形象模型之前，还包括：

获取所述采集器采集的第一人像图像；

确定所述第一人像图像与预存的验证图像匹配；所述预存的验证图像是在构建所述虚拟形象模型时获取的。

上述技术方案中，在用户登录视频通讯应用时，视频通讯应用会对用户的身份信息进行验证，即确定用户的第一人像图像与预存的验证图像是否匹配，如此可以避免非法用户冒充登录进行窃取视频通讯内容，并可以避免非法用户冒充登录窃取用户在视频通讯应用中存储的信息数据，从而可以确保用户的隐私安全性。

在一些示例性的实施方式中，所述方法还包括：

在检测到所述用户未选取虚拟形象模型时，获取所述采集器采集的所述用户的第二人像图像和所述音频数据；

基于所述第二人像图像和所述音频数据，生成所述用户的第二音视频流数据；

将所述第二音视频流数据通过所述视频云平台发送给与所述用户参与同一视频通讯的第二终端设备。

上述技术方案中，如果用户在登录视频通讯应用后未选取虚拟形象模型，则视频通讯应用会直接基于用户的真实图像数据(即第二人像图像)和音频数据，生成高清的第二音视频流数据，将该高清的第二音视频流数据展示给参与同一视频通讯的其它用户。如此，该方案可以基于用户的不同需求生成不同的音视频数据，即，展示的音视频数据可以随着用户的需求进行灵活调整，从而可以使得该方案展示音视频数据更加灵活。

在一些示例性的实施方式中，所述人像动作信息包括以下至少一项：面部表情动作、眼球动作、头部动作、肢体躯干动作。

上述技术方案中，在视频通讯过程中，基于采集器采集的数据能够获取到用户的实时人像动作细节，比如面部表情动作、眼球动作、头部动作以及肢体躯干动作等，并基于实时人像动作细节对虚拟人像模型进行实时调整，以此可实现将用户的实时人像动作细节及时有效地展示给参与同一视频通讯的其它用户。

在一些示例性的实施方式中，在将所述第一音视频流数据通过视频云平台发送给与所述用户参与同一视频通讯的第二终端设备之后，还包括：

在视频通讯过程中，对所述用户进行至少一次验证，从而确定是否允许所述用户继续使用所述虚拟形象模型。

上述技术方案中，在视频通讯过程中，为了确保用户的人像图像数据的可靠性，会周期性地对视频通讯过程中的用户进行人像验证，比如每间隔几分钟对视频通讯过程中的用户进行一次人像验证，以此确定是否允许用户继续使用虚拟形象模型。基于此，该方案可以避免视频通讯过程中某一使用用户更换为他人(即非该注册账号的人员)而导致视频通讯的相关内容被泄露，从而可以及时有效地确保用户的人像图像数据的安全隐私性。

在一些示例性的实施方式中，所述在视频通讯过程中，对所述用户进行至少一次验证，包括：

在视频通讯过程中，获取采集器采集的所述用户的第三人像图像；

确定所述第三人像图像与预存的验证图像是否匹配。

上述技术方案中，在视频通讯过程中，采集器会周期性地采集用户的人像信息，并将该人像信息与预存的验证图像进行比对，以验证在视频通讯过程中用户是否发生变化(比如用户是否变为非该注册账号的人员)，从而可以确保用户的人像图像数据的可靠性。

在一些示例性的实施方式中，所述确定所述第三人像图像与预存的验证图像是否匹配，包括：

基于特征比对的方式或图像相似度的方式，确定所述第三人像图像与所述预存的验证图像是否匹配。

上述技术方案中，通过采用特征比对的方式或图像相似度的方式，可以及时准确地确定第三人像图像与预存的验证图像是否匹配，从而可以为确保用户的人像图像数据的可靠性提供支持。

第二方面，本申请示例性的实施方式中提供了一种视频通讯的装置，包括：

获取单元，用于在检测到用户选取了虚拟形象模型后，基于采集器采集的数据获取所述用户的人像动作信息和音频数据；所述虚拟形象模型是通过三维建模方式得到的；

处理单元，用于将所述人像动作信息与所述虚拟形象模型进行拟合，生成所述用户的虚拟图像数据；将所述虚拟图像数据与所述音频数据进行融合，生成所述用户的第一音视频流数据；将所述第一音视频流数据通过视频云平台发送给与所述用户参与同一视频通讯的第二终端设备。

所述处理单元还用于：

在检测到用户选取了虚拟形象模型之前，获取所述采集器采集的第一人像图像；

在一些示例性的实施方式中，所述处理单元还用于：

在将所述第一音视频流数据通过视频云平台发送给与所述用户参与同一视频通讯的第二终端设备之后，在视频通讯过程中，对所述用户进行至少一次验证，从而确定是否允许所述用户继续使用所述虚拟形象模型。

在一些示例性的实施方式中，所述处理单元具体用于：

确定所述第三人像图像与预存的验证图像是否匹配。

在一些示例性的实施方式中，所述处理单元具体用于：

第三方面，本申请实施例提供一种计算设备，包括至少一个处理器以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行上述第一方面任意所述的视频通讯的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其存储有可由计算设备执行的计算机程序，当所述程序在所述计算设备上运行时，使得所述计算设备执行上述第一方面任意所述的视频通讯的方法。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一些实施例提供的一种视频通讯***架构的示意图；

图2为本申请一些实施例提供的一种视频通讯的方法的流程示意图；

图3为本申请一些实施例提供的一种视频会议的通讯示意图；

图4为本申请一些实施例提供的一种视频通讯的装置的结构示意图；

图5为本申请一些实施例提供的一种计算设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

为了便于理解本申请实施例，首先以图1中示出的***结构为例说明适用于本申请实施例的视频通讯***架构。该视频通讯***架构可以应用于视频会议，或者可以用于视频通话等。如图1所示，该***架构可以包括至少一个终端设备(比如终端设备101、终端设备102和终端设备103等)和视频云平台200。

其中，本申请中的视频通讯应用装载于终端设备上。终端设备为包括但不限于具有数据处理能力的终端，包括但不限于智能手机、平板电脑、台式电脑、笔记本电脑等电子设备，还可以是家庭大脑等终端设备。

视频云平台200具有信息处理以及信息转发的功能，视频云平台200可以是单个服务器，也可以是服务器集群。比如，视频云平台200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云计算、云函数、云存储、云通信、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。此外，视频云平台200可以接收任一终端设备发送的音视频数据，并基于终端设备发送的视频通讯房间地址创建视频通讯服务，以便各用户可以及时地进行视频通讯(比如视频会议或视频通话等)。

每个终端设备与视频云平台200之间可以通过一个或者多个网络进行通信连接。该网络可以是有线网络，也可以是无线网络，例如无线网络可以是无线保真(WIreless-Fidelity，WIFI)网络，或者可以是移动蜂窝网络，还可以是其他可能的网络，本申请实施例对此并不作限定。

此外，本申请中所涉及的采集器(图1中未示出)可以是终端设备上配置的摄像头，也可以是独立于终端设备之外的采集设备(比如监控摄像头或监控摄像机等)，终端设备可以调用采集器采集相应的数据。

需要说明的是，上述图1所示的结构仅是一种示例，本申请实施例对此并不做限定。

基于上述描述，图2示例性的示出了本申请实施例提供的一种视频通讯的方法的流程，该流程可以由视频通讯的装置执行。

如图2所示，该流程具体包括：

步骤201，在检测到用户选取了虚拟形象模型后，基于采集器采集的数据获取所述用户的人像动作信息和音频数据。

本申请实施例中，用户为了实现能够与其它用户及时有效地进行视频通讯，就需要在终端设备上装载视频通讯应用。然后，在装载好视频通讯应用后，就可以在该视频通讯应用上进行注册，比如设置账号密码、设置身份验证等，以形成用户登录该视频通讯应用的凭证。其中，在用户进行注册的过程中，视频通讯应用会采集用户的身份信息，并将采集的用户的身份信息上传至对应的服务器，以便服务器将该用户的身份信息进行存储，比如采集的身份信息可以包括用户的真实人像数据、可验证的身份资料(比如用户的姓名、年龄、身份证号、手机号码等)，采集的身份信息就可以作为用户使用视频通讯应用的身份凭证，以此确保用户身份的唯一性以及可信度。其中，采集的用户的真实人像数据可以用于构建虚拟形象模型。当然，用户也可以在使用该视频通讯应用时不进行注册，直接以游客的身份进行登录该视频通讯应用，但是以游客的身份进行登录并不能确保用户的个人图像数据不被泄露，也不能确保用户在视频通讯过程中所涉及的视频通讯内容不被泄露。

在注册好后，用户就可以使用该视频通讯应用。在用户使用该视频通讯应用时，视频通讯应用会用户的身份信息进行验证，即，可以对用户提交的账号密码进行验证，以确定用户提交的账号密码是否与预存的账号密码一致，若一致，则允许用户进入到该视频通讯应用，或者，也可以对用户进行人像验证，即，通过采集器采集用户的第一人像图像，确定第一人像图像是否与预存的验证图像(即用户的真实人像数据)匹配，若匹配，则允许用户进入到该视频通讯应用。如此，可以避免非法用户冒充登录进行窃取视频通讯内容，并可以避免非法用户冒充登录窃取用户在视频通讯应用中存储的信息数据，从而可以确保用户的隐私安全性。

示例性地，在使用该视频通讯应用时，用户可以基于注册的账号密码进行登录该视频通讯应用，即，视频通讯应用会为用户提供一个登录界面，该登录提供一个账号密码登录的方式和一个面部识别登录的方式，在用户选择账号密码登录的方式后，会弹出一个用户账号密码登录界面，用户在该用户账号密码登录界面上输入注册的账号密码，视频通讯应用会将用户输入的账号密码上传至对应的服务器，对应的服务器会对该用户的账号密码进行验证，以确定该用户输入的账号密码是否与预存的账号密码一致。或者，在使用该视频通讯应用时，用户可以基于面部识别的方式进行登录该视频通讯应用，即，在用户选择面部识别登录的方式后，会弹出一个面部识别区域，可以通过该面部识别区域采集用户的面部信息(即用户的人像信息)，也即是用户将自己的面部对准该面部识别区域，通过采集器即可捕捉到用户的面部信息，然后将用户的面部信息上传至对应的服务器，对应的服务器会该用户的面部信息进行验证，以确定用户的面部信息是否与预存的用户的真实人像相匹配。

在确定用户输入的账号密码验证成功后，或者在确定用户的面部信息验证成功后，视频通讯应用即可允许用户进入到视频通讯应用中。在用户进入到视频通讯应用后，视频通讯应用会为用户提供一个视频通讯相关界面，该视频通讯相关界面可以包括视频通讯过程中用户所使用的形象功能窗口，在形象功能窗口上，用户可以选择在视频通讯过程使用虚拟形象模型，或者也可以选择在视频通讯过程中不使用虚拟形象模型。其中，该虚拟形象模型是通过三维建模方式得到的；虚拟形象模型可以是针对用户的真实形象通过人体三维建模方式得到的，也可以是基于卡通人物(比如各种类型的卡通人物)进行三维建模构建的。同时，该视频通讯相关界面也可以包括视频通讯所涉及的视频通讯房间相关窗口，在该视频通讯房间相关窗口上，用户可以选择需要进入的视频通讯房间地址以及设置该视频通讯房间的房间功能配置。或者，用户可以新建视频通讯房间，并设置该新建的视频通讯房间的房间功能配置。

以虚拟形象模型是基于用户的真实形象通过人体三维建模方式而得到为例进行描述，若用户选择了在视频通讯过程中使用虚拟形象模型，视频通讯应用在检测到用户选择使用虚拟形象模型后，就会调用采集器采集用户的当前人像相关数据，该当前人像相关数据包括用户的当前人像数据和当前音频数据。然后，对该当前人像数据进行分析，获取该用户的当前人像动作数据。若用户选择了在视频通讯过程中不使用虚拟形象模型，视频通讯应用在检测到用户选择不使用虚拟形象模型后，就会调用采集器采集用户的当前人像相关数据，该当前人像相关数据包括用户的当前人像数据和当前音频数据，且无需对该当前人像数据进行分析，直接以用户的当前人像数据和当前音频数据上传至视频云平台。

以虚拟形象模型是基于卡通人物进行三维建模构建为例进行描述，若用户选择了在视频通讯过程中使用虚拟形象模型，视频通讯应用在检测到用户选择使用虚拟形象模型后，就会调用采集器采集用户的当前人像相关数据，该当前人像相关数据包括用户的当前人像数据和当前音频数据。然后，对该当前人像数据进行分析，获取该用户的当前人像动作数据。若用户选择了在视频通讯过程中不使用虚拟形象模型，视频通讯应用在检测到用户选择不使用虚拟形象模型后，就会调用采集器采集用户的当前人像相关数据，该当前人像相关数据包括用户的当前人像数据和当前音频数据，且无需对该当前人像数据进行分析，直接以用户的当前人像数据和当前音频数据上传至视频云平台。或者，视频通讯应用可以直接以一个静态的卡通人物作为该用户展示给其它用户的形象，如此只需调用采集器采集用户的当前音频数据即可；若用户选择了在视频通讯过程中不使用虚拟形象模型，视频通讯应用在检测到用户选择不使用虚拟形象模型后，调用采集器采集用户的当前人像相关数据，该当前人像相关数据包括用户的当前人像数据和当前音频数据，且无需对该当前人像数据进行分析，直接以用户的当前人像数据和当前音频数据上传至视频云平台。

需要说明的是，在基于针对用户的真实形象通过人体三维建模方式得到的虚拟形象模型是未配置着装的人体三维模型，视频通讯应用可以为用户提供多种形式的服饰(比如正装、衬衫等)，以供用户选择一种服饰配置在该未配置着装的人体三维模型上，或者，视频通讯应用也可以自动为未配置着装的人体三维模型配置一种形式的服饰。

示例性地，可以通过人像动作追踪算法来实现针对用户的人像动作的获取。且，本申请实施例采用人像动作追踪算法是为了捕获人像动作细节，比如捕获头部动作(比如点头、摇头等)、面部表情动作(比如唇部动作、牙齿、睁闭眼动作等)、眼球动作(比如眼球左右转动、眼球上下转动等)、肢体躯干动作(比如手臂摆动、手臂弯曲姿势、手势动作等)。具体地，该人像追踪算法可以满足下述形式：

Tracker＝T(b,R,t)

其中，Tracker表示人像追踪算法，b表示用户的人像动作，R表示旋转数据，t表示平移数据。

步骤202，将所述人像动作信息与所述虚拟形象模型进行拟合，生成所述用户的虚拟图像数据。

本申请实施例中，人物动作信息可以包括面部表情动作、眼球动作、头部动作、肢体躯干动作等。在生成用户的虚拟图像数据时，可以通过将用户的人像动作信息转移至虚拟形象模型，以此构建出用于展示给其它用户的形象图像，以便该用户基于虚拟图像数据作为该用户的形象在视频通讯中进行展示。示例性地，在实施过程中，可以将用户的真实人像动作转移至目标构建图像(即发言人图像)。在构建好发言人图像后，即可在视频通讯过程中使用发言人图像进行视频图像数据的替换，以此来确保用户个人图像数据的隐私安全性。其中，在生成发言人图像时，首先需要区分源人像动作和目标人像动作，而目标人像动作必须使用源人像表情和动作进行构建。基于人像追踪算法获取的人像动作信息对虚拟人像模型进行变形和匹配，以此生成用于展示给其它用户的发言人图像。然而，现有技术是在采集用户的人身图像后，基于虚拟需求信息对该人身图像进行修饰，生成虚拟人像模型，再通过增强现实技术将虚拟人像模型替换视频图像人身图像，以达到利用虚拟人像进行视频聊天的目的。也即是，现有技术并不是基于用户的真实人像数据通过三维建模方式来预先建立用户的虚拟形象模型，而是在使用过程中才从预先存储的虚拟需求信息(比如动漫人物、卡通人物、明星人物等)选择出用于修饰人身图像的虚拟需求信息，并基于采集的用户的人身图像与虚拟需求信息来生成虚拟人像模型。而且，现有技术所建立的虚拟人像模型是一个用于隐藏用户的人像的模型，并非只是掩藏用户的着装形象以及面容形象等，无法将用户的人像特征信息展示给视频聊天的用户。此外，现有技术是基于当前采集的人身图像和选择的虚拟需求信息生成虚拟人像模型，并不是基于实时捕捉用户的人像动作细节(比如点头、摇头等)与预先建立好的虚拟形象模型来实时生成用户的虚拟图像数据以将用户的实时源人像动作展示在与其它用户的视频通讯中。如此，现有技术也就不能实现用户的源人像动作在虚拟图像数据中的实时重现。

以虚拟形象模型是基于用户的真实形象通过人体三维建模方式而得到为例进行描述，在生成用户的虚拟图像数据之前，需要构建虚拟形象模型(即人像模型)，即，本申请实施例可以基于用户注册时提交的真实人像数据进行人体三维建模，生成用户的虚拟形象模型。示例性地，本申请实施例基于用户注册时提交的真实人像数据进行人体各部位的特征提取，并基于提取的人体各部位特征进行三维建模，生成用户的发言人人像模型。也即是说，本申请实施例是基于用户的形象构建出虚拟高清的人像音视频数据，以便与参与同一视频通讯的其它用户进行实时交互，从而也可以为用户提供隐私保护、互动娱乐的实时交互服务。

以虚拟形象模型是基于卡通人物进行三维建模构建为例进行描述，在生成用户的虚拟图像数据之前，需要构建虚拟形象模型(即卡通人像模型)，即，本申请实施例可以基于用户的特性(比如性别、年龄等)选择出某一种卡通人物，并基于该卡通人物进行三维建模，构建出用于表示用户的形象的虚拟形象模型。示例性地，本申请实施例基于选择出的某一卡通人物进行各部位的特征提取，并基于提取的各部位特征进行三维建模，生成卡通人物模型，并以该卡通人物模型作为用户的发言人人像模型。

在生成发言人人像模型后，如果检测到用户选取了虚拟形象模型，则通过人像追踪算法获取用户的当前人像动作数据，将用户的当前人像动作数据与发言人人像模型进行拟合，即，通过根据用户的当前人像动作数据对发言人人像模型中的各参数进行调整，以此生成发言人图像。示例性地，比如用户张嘴，唇部上扬，牙齿露出，以及双手举起在胸前位置处，则当前人像动作数据就可以包括唇部上扬、牙齿露出以及双手举起在胸前位置处，此时就可以对这些人像动作数据进行分析，生成对应的人像动作特征参数，并将这些人像动作特征参数对应映射到发言人人像模型中，以便对发言人人像模型中的对应参数进行调整，以生成该用户用于进行视频通讯的发言人图像。其中，在用户进行视频通讯的过程中，视频通讯应用会实时捕获用户的人像动作细节数据，并将用户的人像动作细节数据与发言人人像模型进行拟合，以实时生成用户的发言人图像，该随着用户的实时源人像动作而实时变化的发言人图像也就可以及时有效地将用户的实时源人像动作展示在与其它用户的视频通讯中，以便其它用户可以及时地观看到该用户的实时人像动作变化，如此即可实现用户的源人像动作在发言人图像中的实时重现。示例性地，假设用户在进行视频通讯的发言过程中，视频通讯应用通过采集器捕获到用户的点头动作、嘴巴张开说话动作、身体倾斜向左30°以及做了一个摊手的手势，此时就可以对这些人像动作数据进行分析，生成对应的人像动作特征参数，即点头、嘴巴张开、身体倾斜30°以及摊手手势，然后将这些人像动作特征参数对应映射到发言人人像模型中，以便对发言人人像模型中的对应参数进行调整，以生成该用户的当前发言人图像。如此，即可实现针对用户的实时人像动作在参与同一视频通讯的其它用户的终端设备上的实时展示。

步骤203，将所述虚拟图像数据与所述音频数据进行融合，生成所述用户的第一音视频流数据。

本申请实施例中，视频通讯应用将用户的虚拟图像与当前音频数据进行融合，得到融合后的音视频数据，并对融合后的音视频数据进行渲染、压缩，以此生成用户的第一音视频流数据。示例性地，视频会议应用在生成虚拟高清的发言人图像后，将该虚拟高清的发言人图像与当前音频数据进行融合，得到融合后的音视频数据，并对融合后的音视频数据进行渲染以及编码压缩，生成发言人音视频流数据。例如，有两个用户参与同一视频通讯，即用户A和用户B，假设用户A作为发言人。用户A在自己的终端设备上装载有视频通讯应用，用户A的终端设备上的视频通讯应用在将用户A的人像动作数据和用户A的虚拟形象模型进行拟合，生成用户A的发言人图像，并将用户A的发言人图像和用户A的音频数据进行融合，生成用户A的发言人音视频数据。同时，用户B可以利用终端设备上的视频通讯应用生成用户B的人像音视频数据，在用户A与用户B进行交互时，用户A可以通过视频云平台将用户A的发言人音视频数据下发给用户B的终端设备，以便用户B的终端设备中所装载的视频通讯应用进行显示并播放用户A的发言人音视频数据，同时用户B也可以通过视频云平台将用户B的人像音视频数据下发给用户A的终端设备，以便用户A的终端设备中所装载的视频通讯应用进行显示并播放用户B的人像音视频数据。

步骤204，将所述第一音视频流数据通过视频云平台发送给与所述用户参与同一视频通讯的第二终端设备。

本申请实施例中，视频通讯应用在生成用户的第一音视频流数据后，即会将该用户的第一音视频数据上传至视频云平台中，同时也会将视频通讯的房间地址以及房间功能配置上传至视频云平台。视频云平台根据视频通讯的房间地址以及房间功能配置创建视频通讯服务，并基于该视频通讯服务将该用户的第一音视频数据下发至与该用户参与同一视频通讯的第二终端设备，以便参与同一视频通讯的第二终端设备中所装载的视频通讯应用进行显示并播放该用户的第一音视频数据。

示例性地，以视频通讯应用应用于视频会议场景为例进行描述。参考图3，图3为本申请实施例提供的一种视频会议的通讯示意图。基于图3，视频通讯应用在本地基于采集器获取的用户的人像动作数据与虚拟形象模型进行拟合，以此生成用户的发言人图像数据，并将用户的发言人图像数据与音频数据融合，生成用户的发言人音视频数据。然后，将用户的发言人音视频数据上传至视频云平台，并将视频会议的房间地址以及房间功能配置上传至视频云平台，视频云平台根据视频会议的房间地址以及房间功能配置创建视频会议服务，并基于该视频会议服务将该用户的发言人音视频数据下发至与该用户参与同一视频会议的其它终端设备，以便参与同一视频会议的其它终端设备中所装载的视频通讯应用进行显示并播放该用户的发言人音视频数据，以此实现该用户与参与同一视频会议的其它用户的实时交互。

示例性地，比如有三个用户参与同一视频会议，即用户A、用户B和用户C，假设用户A作为发言人。用户A在自己的终端设备上装载有视频通讯应用，用户A的终端设备上的视频通讯应用在将用户A的人像动作数据和用户A的虚拟形象模型进行拟合，生成用户A的发言人图像，并将用户A的发言人图像和用户A的音频数据进行融合，生成用户A的发言人音视频数据。同时，用户B也可以利用终端设备上的视频通讯应用生成用户B的人像音视频数据。用户C也可以利用终端设备上的视频通讯应用生成用户C的人像音视频数据。在用户A、用户B与用户C参与同一视频会议进行交互时，用户A可以通过视频云平台将用户A的发言人音视频数据下发给用户B的终端设备以及用户C的终端设备，以便用户B的终端设备、用户C的终端设备中所装载的视频通讯应用各自进行显示并播放用户A的发言人音视频数据，同时用户B也可以通过视频云平台将用户B的人像音视频数据下发给用户A的终端设备以及用户C的终端设备，以便用户A的终端设备、用户C的终端设备中所装载的视频通讯应用各自进行显示并播放用户B的人像音视频数据，以及用户C也可以通过视频云平台将用户C的人像音视频数据下发给用户A的终端设备以及用户B的终端设备，以便用户A的终端设备、用户B的终端设备中所装载的视频通讯应用各自进行显示并播放用户C的人像音视频数据。

在用户与参与同一视频通讯的其它用户进行视频通讯交互的过程中，为了确保用户的人像图像数据的可靠性，会周期性地对视频通讯过程中的用户进行人像验证，比如每间隔几分钟对视频通讯过程中的用户进行一次人像验证，以此确定是否允许用户继续使用虚拟形象模型。具体地，视频通讯应用在视频通讯过程中，获取采集器采集的用户的第三人像图像，并确定第三人像图像与预存的验证图像是否匹配，以验证在视频通讯过程中用户是否发生变化(比如用户是否变为非该注册账号的人员)，从而可以确保用户的人像图像数据的可靠性。其中，在确定第三人像图像与预存的验证图像是否匹配时，可以通过采用特征比对的方式或图像相似度的方式，以便及时准确地确定第三人像图像与预存的验证图像是否匹配。

其中，采用特征比对的方式可以为：视频通讯应用在视频通讯过程中周期性地采集用户的人像图像，并将该用户的人像图像上传至对应的服务器，对应的服务器针对每次采集的用户的人像图像进行特征提取，比如可以采用图像卷积神经网络针对每次采集的用户的人像图像进行特征提取，以此确定出每次采集的用户的人像图像的人像特征。将每次采集的用户的人像图像的人像特征与预存的人像特征进行比对，确定每次采集的用户的人像图像的人像特征与预存的人像特征是否一致。如果一致，则视频通讯应用允许用户继续基于虚拟图像数据(比如发言人图像)进行发言；如果不一致，就中断用户的发言。

采用图像相似度的方式可以为：视频通讯应用在视频通讯过程中周期性地采集用户的人像图像，并将每次采集的用户的人像图像上传至对应的服务器，对应的服务器将每次采集的用户的人像图像与预存的人像图像进行比对，确定出每次采集的用户的人像图像与预存的人像图像的相似度值。针对每次的相似度值，如果相似度值大于等于预设阈值，则视频通讯应用允许用户继续基于虚拟图像数据(比如发言人图像)进行发言；如果相似度值小于预设阈值，就中断用户的发言。

需要说明的是，如果用户在登录视频通讯应用后未选取虚拟形象模型，则基于采集器直接获取用户的第二人像图像和音频数据，并基于第二人像图像和音频数据，生成用户的第二音视频流数据。然后，将第二音视频流数据通过视频云平台发送给与用户参与同一视频通讯的第二终端设备。如此，视频通讯应用会直接基于用户的真实图像数据(即第二人像图像)和音频数据，生成高清的第二音视频流数据，将该高清的第二音视频流数据展示给参与同一视频通讯的其它用户，也即是说，视频通讯应用将用户的真实人像数据通过视频云平台直接展示在与其它用户的视频通讯中，而未对用户的真实人像数据进行虚拟，以便其它用户可以及时地观看到该用户的真实人像。如此，该方案可以基于用户的不同需求生成不同的音视频数据，即，展示的音视频数据可以随着用户的需求进行灵活调整，从而可以使得该方案展示音视频数据更加灵活。

示例性地，在用户未选择虚拟形象模型后，基于采集器直接获取用户的真实人像数据和音频数据，将用户的真实人像数据和音频数据一起融合后，生成真实高清的发言人音视频数据，将该真实高清的发言人音视频数据上传至视频云平台，同时也会将视频通讯的房间地址以及房间功能配置上传至视频云平台。视频云平台根据视频通讯的房间地址以及房间功能配置创建视频通讯服务，并基于该视频通讯服务将用户的真实高清的发言人音视频数据下发至与该用户参与同一视频通讯的第二终端设备，以便参与同一视频通讯的第二终端设备中所装载的视频通讯应用进行显示并播放该用户的真实高清的发言人音视频数据。

上述实施例表明，以装载在终端设备上的视频通讯应用为例，视频通讯应用在检测到用户登录视频通讯应用选取了虚拟形象模型后，则基于采集器采集的数据获取用户的人像动作信息和音频数据，并以此为用户构建虚拟图像数据，也即是将人像动作信息与虚拟形象模型进行拟合，生成用户的虚拟图像数据，并将虚拟图像数据与音频数据进行融合，生成高清的第一音视频流数据。然后，将该高清的第一音视频流数据通过视频云平台发送给与用户参与同一视频通讯的第二终端设备，从而可以使得用户的实时人像动作通过虚拟形象模型能够及时有效地展示给参与同一视频通讯的其它用户。如此，该方案由于能够让用户在视频通讯过程中使用虚拟的图像数据进行通讯，因此可以避免用户的真实个人图像数据被泄露，并可以使得用户无需在意自己的实际着装或面容形象，从而可以有效地确保用户的真实个人图像数据的安全隐私性，并可以极大地方便用户的使用。

基于相同的技术构思，图4示例性的示出了本申请实施例提供的一种视频通讯的装置，该装置可以执行视频通讯的方法的流程。

如图4所示，该装置包括：

获取单元401，用于在检测到用户选取了虚拟形象模型后，基于采集器采集的数据获取所述用户的人像动作信息和音频数据；所述虚拟形象模型是通过三维建模方式得到的；

处理单元402，用于将所述人像动作信息与所述虚拟形象模型进行拟合，生成所述用户的虚拟图像数据；将所述虚拟图像数据与所述音频数据进行融合，生成所述用户的第一音视频流数据；将所述第一音视频流数据通过视频云平台发送给与所述用户参与同一视频通讯的第二终端设备。

所述处理单元402还用于：

在一些示例性的实施方式中，所述处理单元402还用于：

在一些示例性的实施方式中，所述处理单元402具体用于：

确定所述第三人像图像与预存的验证图像是否匹配。

在一些示例性的实施方式中，所述处理单元402具体用于：

基于相同的技术构思，本申请实施例还提供了一种计算设备，如图5所示，包括至少一个处理器501，以及与至少一个处理器连接的存储器502，本申请实施例中不限定处理器501与存储器502之间的具体连接介质，图5中处理器501和存储器502之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器502存储有可被至少一个处理器501执行的指令，至少一个处理器501通过执行存储器502存储的指令，可以执行前述的视频通讯的方法中所包括的步骤。

其中，处理器501是计算设备的控制中心，可以利用各种接口和线路连接计算设备的各个部分，通过运行或执行存储在存储器502内的指令以及调用存储在存储器502内的数据，从而实现数据处理。可选的，处理器501可包括一个或多个处理单元，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理下发指令。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。在一些实施例中，处理器501和存储器502可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器501可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合视频通讯的方法实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器502作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器502可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器502是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器502还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于相同的技术构思，本申请实施例还提供了一种计算机可读存储介质，其存储有可由计算设备执行的计算机程序，当所述程序在所述计算设备上运行时，使得所述计算设备执行上述视频通讯的方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频通讯的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述虚拟形象模型是针对用户的真实形象通过人体三维建模方式得到的；

在检测到用户选取了虚拟形象模型之前，还包括：

获取所述采集器采集的第一人像图像；

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，所述人像动作信息包括以下至少一项：面部表情动作、眼球动作、头部动作、肢体躯干动作。

5.如权利要求1至4任一项所述的方法，其特征在于，在将所述第一音视频流数据通过视频云平台发送给与所述用户参与同一视频通讯的第二终端设备之后，还包括：

6.如权利要求5所述的方法，其特征在于，所述在视频通讯过程中，对所述用户进行至少一次验证，包括：

确定所述第三人像图像与预存的验证图像是否匹配。

7.如权利要求6所述的方法，其特征在于，所述确定所述第三人像图像与预存的验证图像是否匹配，包括：

8.一种视频通讯的装置，其特征在于，包括：

9.一种计算设备，其特征在于，包括至少一个处理器以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行权利要求1至7任一权利要求所述的方法。

10.一种计算机可读存储介质，其特征在于，其存储有可由计算设备执行的计算机程序，当所述程序在所述计算设备上运行时，使得所述计算设备执行权利要求1至7任一权利要求所述的方法。