CN113676692A

CN113676692A - 视频会议中视频的处理方法、装置、电子设备及存储介质

Info

Publication number: CN113676692A
Application number: CN202110809168.7A
Authority: CN
Inventors: 吕亚亚; 李云鹏; 谢文龙; 王艳辉
Original assignee: Visionvera Information Technology Co Ltd
Current assignee: Visionvera Information Technology Co Ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-11-19

Abstract

本申请提供了一种视频会议中视频的处理方法、装置、电子设备及存储介质，属于视频处理技术领域，旨在实时在线对视频会议中的视频进行处理，以较好地满足用户需求。所述方法包括：响应于对视频会议中参会终端的视频调取请求，获得所述参会终端所采集的视频流；将所述视频流中每个原始视频帧中的背景图像替换为当前时刻的设定背景图像，得到背景替换后视频帧；其中，所述背景图像为原始视频帧中不属于人体图像的图像区域；将多个所述背景替换后视频帧拼接为待发送的视频流，发送给与所述视频调取请求对应的目标终端。

Description

视频会议中视频的处理方法、装置、电子设备及存储介质

技术领域

本申请涉及视频处理技术领域，特别是涉及视频会议中视频的处理方法、装置、电子设备及存储介质。

背景技术

随着网络科技的快速发展，视频会议、视频教学等双向通信在用户的生活、工作、学习等方面广泛普及。

现有技术中，在视频会议中用户一般只能对参会终端所采集的实时视频画面进行观看，而在线上的视频会议中，为了达到在现场召开会议的一些场景需求，需要在现场进行一些工具的准备。例如，需要搭建符合会议主题的背景板时，便只有在拍摄现场搭建背景板，以满足视频会议的需要，但是这一方式明显提高了会议成本，需要用户在召开视频会议前，耗费较长的时间进行会场的布置，导致召开一个有场景需求的视频会议的会议成本高的问题。

发明内容

鉴于上述问题，本发明实施例提供了一种视频会议中视频处理方法、装置、电子设备及存储介质，以便克服上述问题或者至少部分地解决上述问题的。

本发明实施例的第一方面，提供了一种视频会议处理方法，所述方法包括：

响应于对视频会议中参会终端的视频调取请求，获得所述参会终端所采集的视频流；

将所述视频流中每个原始视频帧中的背景图像替换为当前时刻的设定背景图像，得到背景替换后视频帧；其中，所述背景图像为原始视频帧中不属于人体图像的图像区域；

将多个所述背景替换后视频帧拼接为待发送的视频流，发送给与所述视频调取请求对应的目标终端。

可选地，将所述视频流中每个原始视频帧中的背景图像替换为当前时刻的设定背景图像，得到背景替换后视频帧，包括：

从所述视频流中的每个原始视频帧中去除不属于人体图像的背景图像；

基于每个原始视频帧中被保留的人体图像和当前时刻的设定背景图像，对去除所述背景图像后的原始视频帧进行处理，得到背景替换后视频帧；其中，所述背景替换后视频帧中包括所述设定背景图像和所述被保留的人体图像。

可选地，从所述视频流中的每个原始视频帧中去除不属于人体图像的背景图像，包括：

对每个原始视频帧执行以下步骤：

将该原始视频帧划分为多个图像块；

将所述多个图像块分别发送给各自对应的子线程；其中，不同的图像块对应不同的子线程，每个子线程用于去除所接收的图像块中不属于人体图像的背景图像；

获得所述子线程返回的去除了背景图像的处理后图像块；

对多个处理后图像块进行拼接，得到去除了所述背景图像保留了人体图像的视频帧。

可选地，所述去除所接收的图像块中不属于人体图像的背景图像，包括：

每个子线程用于执行以下步骤，以去除所接收的图像块中不属于人体图像的背景图像：

对所接收的图像块中的人体部位所在区域进行框选，得到所述人体部位所在的人体预测框；

对所述人体预测框中的图像进行人体部位识别，得到属于人体部位的图像区域；

对所述图像块中不属于所述人体部位的图像区域进行去除。

可选地，对所述人体预测框中的图像进行人体部位识别，得到属于人体部位的图像区域，包括：

对所述人体预测框中的图像进行边界描绘，得到多种图像区域；

去除所述多种图像区域中图像区域的面积小于预设面积的目标图像区域；

对所述多种图像区域中去除目标图像区域后的其他图像区域进行人体部位识别，得到属于人体部位的图像区域。

按照所述视频流中各原始视频帧的拼接顺序，每次将预设数量的原始视频帧分别发送给各自对应的主线程；所述主线程分别用于执行所述将所述视频流中每个原始视频帧中的背景图像替换为当前时刻的设定背景图像的步骤；

获得各所述主线程返回的背景替换后视频帧；

将多个所述背景替换后视频帧作为待发送的视频流，发送给与所述视频调取请求对应的目标终端，包括：

按照所述拼接顺序，将多个所述背景替换后视频帧拼接为待发送的视频流，并发送给所述目标终端。

可选地，所述参会终端的数量为多个，所述方法还包括：

针对每个参会终端，获得该参会终端所采集的视频流中每个原始视频帧；

针对所述多个参会终端，将属于相同时间戳或相同接收时刻的原始视频帧进行拼接，得到拼接视频帧；

将所述拼接视频帧的尺寸调整为所述原始视频帧的尺寸；

将所述视频流中每个原始视频帧中的背景图像替换为当前时刻的设定背景图像，得到背景替换后视频帧，包括：

将调整尺寸后的拼接视频帧中的背景图像替换为所述设定背景图像，得到背景替换后视频帧。

可选地，得到背景替换后视频帧之后，所述方法还包括：

对所述背景替换后视频帧进行人体姿势识别；

在检测到人体姿势识别的识别结果为表征预设类型的人体姿势时，读取与所述人体姿势对应的预存素材图像；

确定所述背景替换后视频帧中与所述预设类型的人体姿势对应的图像位置；

在所述背景替换后视频帧中的图像位置处添加图层，得到图层叠加后的视频帧；

将多个图层叠加后的视频帧作为待发送的视频流，发送给与所述视频调取请求对应的目标终端。

本发明实施例的第二方面，提供了一种视频会议中视频的处理装置，所述装置包括：

响应模块，用于响应于对视频会议中参会终端的视频调取请求，获得所述参会终端所采集的视频流；

背景替换模块，用于将所述视频流中每个原始视频帧中的背景图像替换为当前时刻的设定背景图像，得到背景替换后视频帧；其中，所述背景图像为原始视频帧中不属于人体图像的图像区域；

发送模块，用于将多个所述背景替换后视频帧拼接为待发送的视频流，发送给与所述视频调取请求对应的目标终端。

本发明实施例的第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现如本发明实施例第一方面所述的视频会议中视频的处理方法的步骤。

本发明实施例的第四方面，提供了一种计算机可读存储介质，其存储的计算机程序使得处理器执行如本发明实施例第一方面所述的视频会议中视频的处理方法。

本发明实施例包括以下优点：

本实施例中，可以响应于对视频会议中参会终端的视频调取请求，获得所述参会终端各自所采集的视频流；将所述视频流中每个原始视频帧中的背景图像替换为当前时刻的设定背景图像，得到背景替换后视频帧；其中，所述背景图像为原始视频帧中不属于人体图像的图像区域；将多个所述背景替换后视频帧拼接为待发送的视频流，发送给与所述视频调取请求对应的目标终端。如此，做到在视频会议中，对需要调取的视频流在线进行背景替换后再发送给目标终端，可以满足对视频会议的场景需求。由此，在视频会议开始前，无需人工提前准备工具、布置会场背景等，继而可以节约视频会议成本和时间消耗，优化视频会议中的参会用户的参会体验。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的视频会议中视频的处理方法的一种实施环境图；

图2是本发明实施例的视频会议中视频的处理方法的另一种实施环境图；

图3是本发明实施例中一种视频会议中视频的处理方法的步骤流程图；

图4是本发明实施例中利用子线程进行背景替换的步骤流程图；

图5是本发明实施例中利用主线程进行背景替换的步骤流程图；

图6是本发明实施例中视联网终端和背景替换设备的连接示意图；

图7是本发明实施例中背景替换设备执行视频会议中视频的处理方法流程示意图；

图8是本发明实施例的一种视频会议中视频的处理装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请为解决相关技术中开一个有场景需求的视频会议的会议成本高的问题，提出了以下技术构思：对所要召开的视频会议的视频流实时进行背景替换，然后将背景替换后的视频流发送给目标终端，以做到无需布置会场而在线将视频会议的背景替换为设定背景。

参照图1和图2所示，示出了本申请实施例的视频会议中视频的处理方法的两种实施环境图。

如图1所示，包括多个参会终端和服务器，多个参会终端分别与服务器通信连接。其中，参会终端包括执行本申请实施例提出的的视频会议中视频的处理方法的终端、采集视频流并发送出去的参会终端以及接收处理后的视频流的参会终端。该实施环境中，由参会终端执行本申请实施例提出的视频会议中视频的处理方法，执行该处理方法的参会终端可以是参加视频会议中专门设置的一个参会终端，也可以是采集视频流并发送出去的参会终端，即参会终端采集视频流之后对视频流进行处理，然后通过服务器将处理后的视频流发送给目标参会终端。

如图2所示，包括多个参会终端、服务器和背景替换设备。该实施环境中，由背景替换设备执行本申请实施例提出的视频会议中视频的处理方法。其中参会终端与服务器通信连接，包括采集视频流并发送出去的参会终端，和接收处理后的视频流的参会终端；背景替换设备与参会终端通信连接，用于获取参会终端采集的视频流；背景替换设备还与服务器通信连接，用于将处理后的视频流通过服务器发送至目标参会终端。可选地，背景替换设备也可以将处理后的视频流发送给采集视频流的参会终端，由该采集视频流的参会终端将处理后的视频流发送给服务器，再由服务器将处理后的视频流发送给目标参会终端。

本申请实施例提出的视频会议中视频的处理方法可以应用于视联网中，也可以应用于互联网中。参会终端可以是视联网内的终端，也可以是互联网内的终端，具体地，参会终端可以是个人计算机、笔记本电脑、智能手机、机顶盒等设备。服务器可以是视联网服务器，也可以是互联网服务器。

其中，视联网是网络发展的重要里程碑，是一个实时网络，能够实现高清视频实时传输，将众多互联网应用推向高清视频化，高清面对面。视联网采用实时高清视频交换技术，可以在一个网络平台上将所需的服务，如高清视频会议、视频监控、智能化监控分析、应急指挥、数字广播电视、延时电视、网络教学、现场直播、VOD点播、电视邮件、个性录制(PVR)、内网(自办)频道、智能化视频播控、信息发布等数十种视频、语音、图片、文字、通讯、数据等服务全部整合在一个***平台，通过电视或电脑实现高清品质视频播放。因而，在将本申请实施例提出的视频会议中视频的处理方法应用到视联网时，可以实现视频会议中的视频流的高清实时传输，以达到更加流畅的画面播放效果，保证视频会议的正常有序进行。

结合图1和图2所示，对本申请实施例的一种视频会议中视频的处理方法进行介绍，参照图3所示，示出了在图1或图2所示的实施环境下所执行的视频会议中视频的处理方法的步骤流程图，如图3所示，该视频会议中视频的处理方法具体可以包括以下步骤：

步骤S110：响应于对视频会议中参会终端的视频调取请求，获得所述参会终端所采集的视频流。

在接收到对视频会议中的至少一个参会终端的视频调取请求时，响应于该视频调取请求，获取该视频调取请求对应的至少一个参会终端采集的视频流。

其中，该视频调取请求可以是视频会议中的会议控制终端所发送的，该视频调取请求中可以包括被调取视频流的来源参会终端的标识、调取视频流的目标终端的标识，以将来源参会终端采集的实时视频流发送给目标终端。

在参会终端作为执行主体执行该方法的时候，执行的参会终端可以是会议当中的发言终端或者***终端。该参会终端可以通过服务器或者直接与来源参会终端建立通信，从而获取来源参会终端所采集的视频流。

在背景替换设备作为执行主体执行该方法的时候，背景替换设备也可以通过服务器获取来源参会终端所采集的视频流，或者直接与来源参会终端建立通信以获取来源参会终端所采集的视频流。其中，背景替换设备可以通过有线或无线的方式连接到参会终端。

采集视频流的参会终端配置有摄像头，配置的摄像头可以是参会终端外接的，也可以是参会终端自带的。摄像头所采集的视频流为对参会终端所处的环境、周围的人物进行拍摄的视频流。

步骤S120：将所述视频流中每个原始视频帧中的背景图像替换为当前时刻的设定背景图像，得到背景替换后视频帧；其中，所述背景图像为原始视频帧中不属于人体图像的图像区域。

人体图像是指描绘人的身体轮廓的图像，也可以指仅包括人脸、人的上半身等人体的部分区域的图像，即本申请的人体图像中可以包括人的部分或全部身体特征。

背景图像指图像中不属于人体图像之外的图像，当前时刻的设定背景图像为当前时刻下，需要被替换到原始视频帧中的背景图像。其中，设定背景图像可以是用户上传的，同一视频会议中不同时刻的背景图像可以不同，同一时刻下，不同视频会议的背景图像也可以不同，如此可以在视频会议过程中切换设定背景图像。

其中，上传设定背景图像的过程可以是：若参会终端执行本申请的视频处理方法，则会议控制终端可以直接将设定背景图像下发给该参会终端；若背景替换设备执行本申请的视频处理方法，则可以是会议控制终将设定背景图像下发给参会终端后，由参会终端通过HDMI(High-Definition Multimedia Interface，高清晰度多媒体接口)将背景图像发送给背景替换设备。如此，会议控制终端在视频会议中可以在线实时控制设定背景图像的切换。

可选地，上传设定背景图像的过程还可以是：事先将设定背景图像存储在执行本申请的参会终端或背景替换设备中，实际中，可以通过直接调整参会终端或背景替换设备中的设定背景图像，来切换视频会议中的设定背景图像，以满足实际需求，如此，可以节省在线资源，减轻会议控制终端的压力。

为了对采集到的视频流进行处理，首先需要对该视频流进行视频帧提取，从而得到该视频流的多个原始视频帧。

其中，将每个原始视频帧中的背景图像替换为当前时刻的设定背景图像，得到背景替换后视频帧可以为：针对每个原始视频帧，将该原始视频帧中的背景图像替换为当前时刻的设定背景图像，从而得到保留了人体图像、而背景图像被替换为设定背景图像的背景替换后视频帧。最后将多个背景替换后视频帧按时间顺序进行拼接，得到背景替换后的视频流。

可选地，将每个原始视频帧中的背景图像替换为当前时刻的设定背景图像，得到背景替换后视频帧还可以为：针对每个原始视频帧，去除其背景图像，然后将每个保留了人体图像的视频帧进行拼接，得到仅保留人体图像的视频流，再为仅保留人体图像的视频流添加当前时刻的设定背景图像，得到背景替换后的视频流。

步骤S130：将多个所述背景替换后视频帧拼接为待发送的视频流，发送给与所述视频调取请求对应的目标终端。

此处的拼接可以是按照时间先后顺序的拼接，即将多个背景替换后视频帧按时间顺序融合为背景替换后视频流，目标终端是请求获取视频流的终端，待发送的视频流为背景替换后的视频流。本实施例中，执行本申请的视频处理方法的参会终端或背景替换设备可以将处理后的视频流通过服务器发送给目标终端，或者直接与目标终端建立通信将处理后的视频流发送给目标终端。而在目标终端上，可以对处理后的视频流进行解码播放，如此，在目标终端上观看到的便是将背景图像替换为设定背景图像的视频画面。

采用本申请实施例的技术方案，可以响应于对视频会议中参会终端的视频调取请求，获得所述参会终端各自所采集的视频流；将所述视频流中每个原始视频帧中的背景图像替换为当前时刻的设定背景图像，得到背景替换后视频帧；其中，所述背景图像为原始视频帧中不属于人体图像的图像区域；将多个所述背景替换后视频帧拼接为待发送的视频流，发送给与所述视频调取请求对应的目标终端。如此，在目标终端上播放的即是将背景图像替换为设定背景图像的视频画面。由此，在视频会议开始前，无需人工准备工具、布置会场背景等，继而可以节约视频会议成本和时间消耗，优化视频会议中的参会用户的参会体验。

下面，对本申请实施例的一种视频会议中视频的处理方法进行详细说明。

可选地，作为一个实施例，将所述视频流中每个原始视频帧中的背景图像替换为当前时刻的设定背景图像，得到背景替换后视频帧，包括：

步骤S210：从所述视频流中的每个原始视频帧中去除不属于人体图像的背景图像。

首先对每个原始视频帧进行二值化处理，得到二值化图像，即黑白图像，其中，二值化图像是指将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的黑白效果的过程。再利用AI(Artificial Intelligence，人工智能)人体部位识别技术对每个原始视频帧进行人体识别，将每个原始视频帧中的人体所在矩形区域进行框选，然后利用Opencv(开源计算机视觉库)矩阵操作，将框选出来的人体所在矩形区域从视频帧中抠除，得到每个原始视频帧的人体预测框，进而剩余的区域便是背景图像，实际中可以将剩余的区域的像素颜色设置为白板，以达到去除背景图像的目的。

接下来只需对人体预测框中的图像进行处理，相较于相关技术中直接对图像整体进行处理，能够节省计算资源。

在得到人体预测框后，可以对人体预测框中的图像进行边界描绘，具体地，人体预测框是一个矩形框，在该矩形框中除包括人体的图像外，还可以包括其他物体的图像。可以利用Canny(边缘检测算法)对人体预测框中的各个图像进行边界描绘，利用Opencv中的FindContours(查找轮廓函数)得到多个图像区域。如此可以将人体预测框中的各个形状都找出来，比如人脸、钟表的形状等，从而得到多个图像区域。

接着对多个图像区域进行人体识别，得到图像区域为人体的人体图像。其中人体识别利用相关技术即可，例如，利用人体识别模型进行人体识别，本申请不再赘述。

在识别出每个人体预测框中的人体图像区域之后，将每个人体预测框中不属于人体图像的背景图像进行去除，从而得到只保留人体图像的人体预测框，因为该人体预测框中只保留了人体图像，因此也可以将该人体预测框认为是只保留了人体图像的原始视频帧。

步骤S220：基于每个原始视频帧中被保留的人体图像和当前时刻的设定背景图像，对去除所述背景图像后的原始视频帧进行处理，得到背景替换后视频帧；其中，所述背景替换后视频帧中包括所述设定背景图像和所述被保留的人体图像。

在得到每个原始视频帧中保留的人体图像后，将当前时刻的设定背景图像和每个保留了人体图像的原始视频帧进行融合，从而得到每个人体图像作为前景、设定背景图像作为背景的背景替换后视频帧，最后再将背景替换后视频帧按时间顺序进行拼接，得到背景替换后的视频流。

或者，将每个保留了人体图像的原始视频帧按时间顺序进行拼接，得到仅保留人体图像的视频流，再为仅保留人体图像的视频流添加当前时刻的设定背景图像，得到背景替换后的视频流。

具体地，将当前时刻的设定背景图像和每个保留了人体图像的原始视频帧进行融合，包括：针对每个保留了人体图像的原始视频帧，获取该视频帧的第一掩码图和第二掩码图；其中，第二掩码图为对第一掩码图取反后得到的掩码图；基于第一掩码图和每个视频帧，获得去除背景图像的第一待处理视频帧；基于第二掩码图和设定背景图像，获得第二待处理视频帧；将第一待处理视频帧和第二待处理视频帧进行融合，得到背景替换后视频帧。

确定第一掩码图和第二掩码图，具体地：将人体图像区域的颜色设置为黑色，即将人体图像区域的像素点的像素值设为0。然后基于人体图像，确定每个视频帧的第一掩码图和第二掩码图；其中，第一掩码图中的背景区域不可见，而前景区域可见，即第一掩码图中属于人体图像的区域的像素点的像素值为0，而其他区域的像素点的像素值为255。而第二掩码图为对第一掩码图利用BitwiseNot(对图像取非操作函数)进行颜色取反后得到的，即第二掩码图中属于人体图像的区域的像素点的像素值为255，而其他区域的像素点的像素值为0。

这样，由于第一掩码图中的属于人体图像的区域的像素点的像素值为0，而其他区域的像素点的像素值为255，因此可以利用BitwiseAnd(对图像取与操作函数)让第一掩码图和视频帧进行与操作，对人体图像区域的颜色进行还原，得到人像上色的图像，即，去除背景图像的第一待处理视频帧。

在基于第二掩码图和设定背景图像，获得第二待处理视频帧时，第二掩码图中属于人体图像的区域的像素点的像素值为255，而其他区域的像素点的像素值为0，则在与设定背景图像进行与操作时，便可以对视频帧中属于背景的图像区域的颜色还原为设定背景图像的颜色，从而得到第二待处理视频帧，该第二待处理视频帧即为去除人体图像后的设定背景图像。

将第一待处理视频帧和第二待处理视频帧进行融合，可以得到背景替换后视频帧，具体地，可以将第一待处理视频帧和第二待处理视频帧进行矩阵相加得到背景替换后视频帧。采用此种实施方式时，获得的背景替换后视频帧中人体图像和设定背景图像之间融合得比较自然、不突兀。

可选地，作为一个实施例，参照图4所示，示出了利用子线程进行背景替换的步骤流程图，从所述视频流中的每个原始视频帧中去除不属于人体图像的背景图像，包括：对每个原始视频帧执行以下步骤：

步骤S310：将该原始视频帧划分为多个图像块。

针对每个原始视频帧，为了去除不属于人体图像的背景图像，可以将原始视频帧划分为多个图像块，然后对每个图像块进行人体部位识别。其中，图像块的面积大小是预设的、便于进行人体部分识别的、可以进行调整的值；也可以是将每个原始视频帧均分为预设数量的图像块。针对每个图像块进行人体部位识别，可以提高人体识别的结果准确性。

例如，将原始视频帧均等地进行十字形划分得到四个图像块，或者，按照九宫格进行划分得到九个图像块。

步骤S320：将所述多个图像块分别发送给各自对应的子线程；其中，不同的图像块对应不同的子线程，每个子线程用于去除所接收的图像块中不属于人体图像的背景图像。

本实施例中，参会终端或背景替换设备，可以具有多个子线程，利用多个子线程同时对多个图像块并行进行处理。可以理解的是，线程是操作***能够进行运算调度的单位，包含在进程之中，本实施例中的每条子线程可以执行去除背景图像的任务。

具体地，可以在得到多个图像块之后，将多个图像块发送给各自对应的子线程，由每个子线程去除接收到的图像块中不属于人体图像的背景图像。其中，不同的图像块可以发送给不同的子线程处理，或者一个或多个图像块可以发送给同一子线程处理。

其中，每个线程用于将接收到的图像块中属于背景图像的区域去除，以保留人体图像的区域。其中，子线程去除接收到的图像块中不属于人体图像的背景图像的详细方法，将在后文进行详细介绍。

步骤S330：获得所述子线程返回的去除了背景图像的处理后图像块。

每个子线程在得到去除了背景图像的处理后图像块后，可以将该处理后图像块返回给参会终端或背景替换设备。

步骤S340：对多个处理后图像块进行拼接，得到去除了所述背景图像保留了人体图像的视频帧。

此处的拼接可以是指位置上的拼接，具体地，可以按照处理后图像块在原始视频中的位置，对多个处理后图像块进行拼接。也就是说将每个原始视频帧中的多个处理后图像块还原到原始视频帧的相应位置，然后融合为替换了背景图像的视频帧。参会终端或背景替换设备对多个处理后图像块进行拼接，因为每个处理后图像块都为仅保留人体部位、去除了背景图像的图像块，因此将多个处理后图像块进行拼接后得到的是仅保留人体部位、去除了背景图像的视频帧。

采用本申请实施例的技术方案，同时利用多个子线程对多个图像块并行进行处理，可以有效提高对图像进行处理的效率，且每个子线程所处理的是原始视频帧中的部分图像，减小了每个子线程的计算量，从而提高了背景图像去除的效率，使目标终端能够更快接收到替换了背景的视频流，从而提升用户使用体验。并且，利用子线程对视频帧的每个图像块进行背景图像的去除，可以更加关注原始视频帧的局部细节，从而能精准地去除背景图像，提高对原始视频帧的人体图像区域识别的准确性，从而更加精准地去除背景图像，得到仅保留人体图像的视频帧。

在一种实施方式中，每个子线程在去除所接收的图像块中不属于人体图像的背景图像时，可以按照以下步骤进行：

步骤S410：对所接收的图像块中的人体部位所在区域进行框选，得到所述人体部位所在的人体预测框。

每个子线程对接收到的图像块进行二值化处理，得到二值化图像，即黑白图像，其中，二值化图像是指将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的黑白效果的过程。再利用AI人体部位识别技术对图像块进行人体识别，将图像块中的人体所在矩形区域进行框选，然后利用Opencv矩阵操作，将框选出来的人体所在矩形区域从图像块中抠除，得到图像块中的人体预测框。

可以理解的是，当利用AI人体部位识别技术对图像块进行人体识别，识别出该图像块中不包含人体部位，则可以直接舍弃该图像块，以节约计算资源。

步骤S420：对所述人体预测框中的图像进行人体部位识别，得到属于人体部位的图像区域。

在得到人体预测框后，对人体预测框中的图像进行边界描绘，利用Canny对人体预测框中的各个图像进行边界描绘，利用Opencv中的FindContours得到多个图像区域。如此可以将人体预测框中的各个形状都找出来，从而得到多个图像区域。再对多个图像区域进行人体识别，得到人体图像的图像区域。

步骤S430：对所述图像块中不属于所述人体部位的图像区域进行去除。

在识别出每个人体预测框中的人体图像区域之后，将每个人体预测框中不属于人体图像的背景图像进行去除，从而得到只保留人体图像的人体预测框，因为该人体预测框中只保留了人体图像，因此也可以将该人体预测框认为是只保留了人体图像的图像块。

采用此种实施方式时，可以获得多个子线程所发送的去除了背景图像的图像块，进而将只保留了人体图像的图像块拼接到空白图像中，得到去除了背景图像保留了人体图像的视频帧。

采用本申请实施例的技术方案，可以对每个图像块进行人体部位识别，将没有识别到人体部位的图像块直接舍弃，从而节约计算资源；将识别到人体部位的图像块中的人体部位进行框选，从而只对框选出来的人体预测框中的图像进行处理，进一步降低了计算量，可以进一步节约计算资源。

可选地，作为一个实施例，对所述人体预测框中的图像进行人体部位识别，得到为人体部位的图像区域时，可以对所述人体预测框中的图像进行边界描绘，得到多种图像区域；去除所述多种图像区域中图像区域的面积小于预设面积的目标图像区域；对所述多种图像区域中去除目标图像区域后的其他图像区域进行人体部位识别，得到属于人体部位的图像区域。

在对人体预测框中的图像进行边界描绘，得到多种图像区域之后，可以从多个图像区域中去除面积小于预设面积的目标图像区域，这样，可以去除一些黑点、白点等噪点，可以做到对图像的精细化处理。

可选地，在一种示例中，还可以将为开放性的边界的图像区域去除，开放性的边界是指边界两端未连通，这种情况一般多见于有物品被人体遮挡的场景中，此种情况下，可以将被人体遮挡的物品的图像区域去除，从而得到背景较为纯净的人体图像。

接着，可以对去除了小面积区域后的剩余图像区域进行人体识别，得到图像区域为人体的人体图像，具体地，对多种图像区域中去除目标图像区域后的其他图像区域进行人体识别，得到图像区域为人体的人体图像。具体地，人体识别可以利用相关技术即可，例如，利用人体识别模型进行人体识别，本申请不再赘述。

可选地，作为一个实施例，在替换视频流中原始视频帧中的背景图像时，为进一步提高替换效率，可以利用多个主线程，对多个原始视频帧进行并行的背景图像替换。参照图5所示，示出了利用主线程进行背景替换的步骤流程图，将所述视频流中每个原始视频帧中的背景图像替换为当前时刻的设定背景图像，得到背景替换后视频帧时，具体可以包括以下步骤：

步骤S510：按照所述视频流中各原始视频帧的拼接顺序，每次将预设数量的原始视频帧分别发送给各自对应的主线程；所述主线程分别用于执行所述将所述视频流中每个原始视频帧中的背景图像替换为当前时刻的设定背景图像的步骤。

可以理解的是，主线程和上述的子线程一样，是操作***能够进行运算调度的单位，包含在进程之中，本实施例中的每条主线程可以执行替换背景图像的任务。

其中，原始视频帧的拼接顺序可以是每个原始视频帧的时间戳大小的顺序，或者是接收时刻的大小顺序。可以理解的是，视频帧的提取顺序和拼接顺序相同。其中，预设数量可以是主线程的数量，或者根据实际需求提出的其他预设数量，例如每个主线程只处理一个原始视频帧时，预设数量便可以是主线程的数量，当一个主线程可以处理多个原始视频帧时，预设数量便可以是主线程所能处理的原始视频帧的总数量。

每个主线程可以按照上述所述的背景图像替换的过程，对接收到的原始视频帧执行背景图像操作。如此，多个主线程可以并行地对预设数量的原始视频帧进行处理，从而对原始视频帧进行批量的背景替换。其中，每个主线程对原始视频帧进行背景替换的具体方法可以参见其它实施例中对原始视频帧进行背景替换的方法，在此不再赘述。

示例地，主线程数量有10个，视频会议时，持续地接收到参会终端发送的视频流，从接收到的视频流中提取出多个原始视频帧，每个原始视频帧都携带了一个时间戳，表征该原始视频帧在视频流中的时间，时间戳的大小越小表征时间越早；按照时间戳从小到大将每10个原始视频帧分为一批，每次同时将一批10个原始视频帧发送给10个主线程，10个主线程同时对10个原始视频帧进行背景替换，得到10个背景替换后视频帧。

又一示例地，主线程数量有多个，视频会议时，持续地接收到参会终端发送的视频流，从接收到的视频流中提取出多个原始视频帧，按照接收的时间顺序，将每个原始视频帧按接收的时间顺序依次发送给多个主线程进行背景替换，每个主线程完成一个原始视频帧的背景替换后，立马将下一个原始视频帧发送给该主线程，保证所有主线程都处于工作状态，从而得到每个主线程持续输出的背景替换后视频帧。

步骤S520：获得各所述主线程返回的背景替换后视频帧。

各主线程对预设数量的原始视频帧进行背景替换后，会得到预设数量的背景替换后视频帧，各主线程将背景替换后视频帧返回给作为执行主体的参会终端或背景替换设备。

步骤S530：将多个所述背景替换后视频帧作为待发送的视频流，发送给与所述视频调取请求对应的目标终端，包括：按照所述拼接顺序，将多个所述背景替换后视频帧拼接为待发送的视频流，并发送给所述目标终端。

此处的拼接是指时间上的拼接，将多个背景替换后视频帧按时间顺序融合为背景替换后视频流；按照拼接顺序，将多个背景替换后视频帧拼接为待发送的视频流，并发送给视频调取请求对应的目标终端。目标终端是请求获取视频流的终端，待发送的视频流为处理后的视频流。作为执行主体的参会终端或背景替换设备可以将处理后的视频流通过服务器发送给目标终端，或者直接与目标终端建立通信将处理后的视频流发送给目标终端。而在目标终端上，可以对处理后的视频流进行解码播放，如此，在目标终端上观看到的便是将背景图像替换为设定背景图像的视频画面。

采用本申请实施例的技术方案，多个主线程可以并行工作，批量对原始视频帧进行背景替换，相对于单线程进行原始视频帧的背景替换，必须等到前一个原始视频帧背景替换完后才能进行后一原始视频帧的处理，采用多个主线程进行背景替换可以节约时间，从而满足视频实时性的要求，提升用户使用体验。

当然，在由多个子线程对原始视频帧的多个图像块执行背景去除时，每个主线程之下还可以包括多个子线程，其中，每个主线程下的多个子线程可以将背景去除后的图像块发送给该主线程，接着，主线程可以将多个背景去除后的图像块按照位置关系进行拼接后，将设定背景图像替换到拼接后的视频帧中，从而得到背景替换后视频帧。

可选地，作为一个实施例，所述参会终端的数量为多个，所述方法还包括：

步骤S610：针对每个参会终端，获得该参会终端所采集的视频流中每个原始视频帧。

视频调取请求对应的来源参会终端的数量为多个时，获取该视频调取请求对应的每个参会终端采集的视频流。根据每路视频流，获取多个原始视频帧。其中，为了便于对原始视频帧进行拼接，针对每路视频流获取的原始视频帧的帧率可以相同。

步骤S620：针对所述多个参会终端，将属于相同时间戳或相同接收时刻的原始视频帧进行拼接，得到拼接视频帧。

此处的拼接是指一种基于画面尺寸的拼接，将多个原始视频帧进行首尾相连的排布。其中，可以是基于长度的拼接，也可以是基于宽度的拼接。在基于长度的拼接时，拼接后的视频帧的长度是用于拼接的多个视频帧的长度之和。在基于宽度的拼接时，拼接后的视频帧的宽度是用于拼接的多个视频帧的宽度之和。

在得到每个参会终端各自对应的多个原始视频帧时，可以对多个参会终端的相应原始视频帧进行拼接。例如，将参会终端1对应的其中一个原始视频帧1和参会终端2对应的其中一个原始视频帧2进行拼接，从而得到拼接视频帧。

具体地，在进行视频帧拼接时，可以将多个来自不同的参会终端且时间戳相同的视频帧进行拼接，或者，将多个来自不同的参会终端且接收时刻相同的视频帧进行拼接。如此，可以将来源于不同参会终端但是时间戳相同的视频帧拼接为一个视频帧，或者将来源于不同参会终端但是接收时刻相同的视频帧拼接为一个视频帧。

示例地，视频会议时，持续地接收到两个不同参会终端发送的视频流。将同一时间接收到的两个视频流，从每个参会终端的视频流中都提取出100个原始视频帧，一共得到200个原始视频帧。因为是同一时间接收到的视频流，因此这200个视频帧中，每两个原始视频帧的被接收到的时间是相同的。将接收时间相同的每两个视频帧进行拼接，可以得到100个拼接后的视频帧。

又一示例，接收到两个不同的参会终端各自采集的视频流，所述视频流上携带着时间戳。从每个参会终端的视频流中都提取出100个原始视频帧，一共得到200个原始视频帧，其中每一个原始视频帧都携带着时间戳。将其中时间戳相同的原始视频帧拼接在一起。因为同一段视频流中的每一个原始视频帧的时间戳都必然不同，因此，只会将来自不同视频流的视频帧拼接在一起，而不会将来自同一个视频流的视频帧拼接在一起。

步骤S630：将所述拼接视频帧的尺寸调整为所述原始视频帧的尺寸。

由于拼接视频帧可以是指将多个视频帧进行首尾相连的排布，即是一种基于画面尺寸的拼接，因而在拼接后，可以将多个拼接视频帧分别调整至预设尺寸，然后将调整后的多个拼接视频帧合成待发送的视频流。

步骤S640：将所述视频流中每个原始视频帧中的背景图像替换为当前时刻的设定背景图像，得到背景替换后视频帧，包括：将调整尺寸后的拼接视频帧中的背景图像替换为所述设定背景图像，得到背景替换后视频帧。

在获得调整尺寸后的拼接视频帧后，将该拼接视频帧的背景图像替换为当前时刻的设定背景图像，得到背景替换后视频帧。其中，对拼接视频帧进行背景替换的方法可以参见其它实施例中对原始视频帧进行背景替换的方法，在此不再赘述。

采用本申请实施例的技术方案，可以获取多个参会终端的背景替换后视频帧，并合成待发送的视频流。如此，可以对多路视频流进行拼接，得到拼接后的视频流，以将拼接后的视频流发送给目标终端，从而满足不同的视频会议场景需求，例如满足不处于同一物理空间中的人物合照等需求；同时还可以减小待发送的视频流的数据量，从而提高视频流的发送速度。

可选地，作为一个实施例，得到背景替换后视频帧之后，所述方法还包括：

步骤S710：对所述背景替换后视频帧进行人体姿势识别。

背景替换后视频帧，可以是针对单张原始视频帧进行了背景替换后的视频帧，也可以是针对拼接后的视频帧进行了背景替换后的视频帧。在得到背景替换后视频帧后，可以利用AI技术，对每一个背景替换后视频帧进行人体姿势识别。。

步骤S720：在检测到人体姿势识别的识别结果为表征预设类型的人体姿势时，读取与所述人体姿势对应的预存素材图像。

预设多种类型的人体姿势，预设类型的人体姿势具有对应的预存素材图像。其中，不同视频会议针对不同类型的姿势所上传的预存素材图像可以是不同的，同一视频会议中，不同时刻的预存素材图像也可以是不同的。预存素材图像也可以是用户上传的，上传和切换预存素材图像的方法可以参照上传和切换设定背景图像的方法。

将背景替换后视频帧的人体图像中的人体姿势与预设类型的人体姿势进行匹配，在检测到二者匹配时，便可以确定检测到人体姿势识别的识别结果为匹配的预设类型的人体姿势，然后读取该人体姿势对应的预存素材图像。

例如预设了领奖类型的姿势，该领奖姿势为双手伸出，该领奖姿势对应的预存的素材图像为奖状；当识别到人体姿势为领奖类型的姿势，即识别到人体将双手伸出时，则读取预存的奖状图像。

步骤S730：确定所述背景替换后视频帧中与所述预设类型的人体姿势对应的图像位置。

可以预先设置不同预设类型的人体姿势对应的预存素材图像的显示位置，根据预先设置的显示位置，在多个背景替换后视频帧中确定与人体姿势对应的素材图像的位置。

示例地，人体姿势为双手伸出，匹配到的预设类型的人体姿势为领奖姿势，领奖姿势对应的预存素材图像为奖状，对应的预存素材图像的显示位置为手上。

步骤S740：在所述背景替换后视频帧中的图像位置处添加图层，得到图层叠加后的视频帧。

在确定不同预设类型的人体姿势对应的图像位置后，在该图像位置处添加图层，该图层为该预设类型的人体姿势对应的预存素材图像。图层叠加后的视频帧为在识别到的预设类型的人体姿势对应的图像位置处添加了对应的预存素材图像的视频帧。

示例地，人体姿势为双手伸出，匹配到的预设类型的人体姿势为领奖姿势，领奖姿势对应的预存素材图像为奖状，对应的预存素材图像的显示位置为手上；在每一个识别到领奖姿势的视频帧中，都将奖状图像显示在手上；因此尽管不同视频帧中手的位置进行了改变，但只要是双手伸出的领奖姿势，都会将奖状显示在手上；从而使最后合成的视频流中呈现一种人体双手伸出领取奖状的状态。

可选地，所添加的图层可以位于视频帧所在的图层之上，可以设置添加的图层和视频帧所在的图层各自的显示权重，以让图层上叠加的预存素材图像可以更自然地显示到相应位置。

步骤S750：将多个所述背景替换后视频帧作为待发送的视频流，发送给与所述视频调取请求对应的目标终端，包括：将多个图层叠加后的视频帧作为待发送的视频流，发送给与所述视频调取请求对应的目标终端。

将多个在识别到的预设类型的人体姿势对应的图像位置处添加了对应的预存素材图像的视频帧进行时间上的拼接，得到待发送的视频流。

因为在每一个视频帧中，都在该帧内人体姿势对应的图像位置添加了素材图像，因此，在素材图像在合成的待发送视频流中的显示位置是实时更新的。例如在每一个识别到领奖姿势的视频帧中，都将奖状图像显示在手上；因此尽管不同视频帧中手的位置进行了改变，但只要是双手伸出的领奖姿势，都会将奖状显示在手上；从而使最后合成的待发送的视频流中呈现一种人体双手伸出领取奖状的状态。

可以理解的是，本示例只是粗略地描述了领奖姿势对应的素材图像的显示位置，在实际应用中可以详细设置不同的模式下不同的姿势对应的不同预存的素材图像的显示位置和显示方法，从而使合成的视频流中的人体呈现一种更加符合常理更加自然的状态。例如会议控制终端可以将某个时间段设置为颁奖模式，设置该模式下识别到人体第一次伸出手时没有奖状，在该人体第二次伸出手时出现一个奖状；等等。

采用本申请实施例的技术方案，可以在线对原始视频帧或者拼接后视频帧进行背景替换，并灵活添加素材图像，从而满足视频会议中多种参会场景上的设置需求，例如虽然参会人员A和B处于不同空间，但可以在视频会议中呈现出参会人员A对参会人员B进行在设定的颁奖的背景图像中进行颁奖的情景。如此，可以实现在视频会议中进行颁奖等，而无需提前进行会场的布置，节省了会议成本和时间资源，增加了视频会议中人和人的互动，进一步提高了视频会议的灵活性，优化了视频会议中的用户体验。

可选地，作为一个实施例，参照图6所示，视联网终端和背景替换设备通过HDMI采集卡相连。视联网终端(极光启明等设备)作为参会终端，通过HDMI采集卡和背景替换设备连接。利用会议控制终端将需要替换虚拟背景的参会终端切换为发言人，这样该参会终端采集的视频流会通过视联网输送到各参会终端。连接有背景替换设备的终端会将视频流通过HDMI线输出到背景替换设备。背景替换设备采集到视频流后对视频流进行背景消除，再添加设定的虚拟背景，根据指令添加其他图层，如果有多路连接到背景替换设备，则触发多路视频合流然后处理。

可选地，作为一个实施例，参照图7示出的背景替换设备执行视频会议中视频的处理方法流程示意图，如图7所示，背景替换终端为虚拟背景设备，参会终端为视联网终端，会议控制终端是视频会议中的控制方，可以将视联网终端切换为发言人，并广播发言人的视频，其中，视频会议中视频的处理方法包括：

视联网终端(极光启明等设备)作为参会终端被会议控制终端切换为发言人，其可以通过HDMI采集卡和虚拟背景设备连接，同时，会议控制终端可以将需要添加虚拟背景设备也切换为发言人，以使其可以作为参会方发送背景替换后的视频流，如此，背景替换后的视频流可以通过视联网输送到各个会场终端。

其中，连接有虚拟背景设备的视联网终端会可以通过HDMI线将视频流输出到虚拟背景设备。

虚拟背景设备采集到视频流后，首先提取视频流的原始视频帧，然后对原始视频帧进行图片二值化处理，例如，进行灰度处理和二值化处理，之后利用AI算法识别出人体区域的坐标，例如，利用Opencv矩阵操作，将人体矩形区域从原始视频帧中扣除，接着，对人像区域利用canny进行边界描绘，利用Opencv的FinndContours，找出区域内的各形状，然后计算形状面积，去除过小的面积区域，将区域内的颜色设置为黑色，然后复制一个和原图大小相同的三通道空白图像Mask(掩码图)，将扣除的人像粘贴到空白图像中。

之后，利用掩膜对图像上色，即对人像重新上色，例如，利用BitwiseAnd让mask和原图进行与操作得到人像上色的图像img1(图像1)。利用BitwiseNot，对mask图像颜色取反mask_inv(取反掩码图)，然后让mask_inv和背景图进行与操作得到上色的背景img2(图像2)。img1和img2按时阵相加得到一个替换背景的图片，继而得到合成视频流。

在得到合成视频流后，可以将合成视频流直接发送给视联网中的视联网服务器，从而转发给其他会场终端。

如图7所示，还可以进行视频流的图层叠加。视频流的图层叠加指的是对视频流图像上添加图片。应用场景可以是在会议结束颁奖环节，将证书输出到视频画面上。具体流程可以是：会议控制终端设置颁奖模式，将颁奖模式指令发送到视联网终端，视联网终端转发给虚拟背景设备，虚拟背景设备可以利用AI技术检测人体姿势，当发现人体手势伸出，则识别出手势位置，读取设定好的证书，将证书利用copyto(复制到)方法放置到手势位置并实时更新，这样达到证书跟随人手移动效果。当手势后撤，则证书消失，接奖人手伸出同样识别出手势同样将证书出现在接奖人手中。图层叠加中图层大小采用实时跳转策略，利用会议控制终端将设置的大小进行传输到终端。

其中，还可以进行多终端人物合照，具体地，多终端人物合照就是多台参会终端连接到虚拟背景设备，虚拟背景设备接收到视频流将视频流合并，然后进行处理。多终端人物合照支持远程切换背景，具体地，通过会议控制终端上传背景，利用会议控制终端将背景下发给终端，终端接收到背景通过HDMI线输出到背景替换设备，背景替换设备接收到新的背景后reset(重置)背景数据。

采用本申请实施例的技术方案，按照不同的需求，视频流的背景替换、图层叠加、多终端人物合照等技术手段可以任意组合使用，从而满足视频会议的多种场景需求，以减少提前准确工具、布置会场花费的时间和资源，有效提升用户体验。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参考图8，示出了一种视频会议中视频的处理装置，所述装置包括：

响应模块，用于响应于对视频会议中参会终端的视频调取请求，获得所述参会终端各自所采集的视频流；

可选地，作为一个实施例，所述背景替换模块包括：

去除子模块，用于从所述视频流中的每个原始视频帧中去除不属于人体图像的背景图像；

处理子模块，用于基于每个原始视频帧中被保留的人体图像和当前时刻的设定背景图像，对去除所述背景图像后的原始视频帧进行处理，得到背景替换后视频帧；其中，所述背景替换后视频帧中包括所述设定背景图像和所述被保留的人体图像。

可选地，作为一个实施例，所述去除子模块包括：

执行单元，用于对每个原始视频帧执行以下步骤：将该原始视频帧划分为多个图像块；将所述多个图像块分别发送给各自对应的子线程；其中，不同的图像块对应不同的子线程，每个子线程用于去除所接收的图像块中不属于人体图像的背景图像；获得所述子线程返回的去除了背景图像的处理后图像块；对多个处理后图像块进行拼接，得到去除了所述背景图像保留了人体图像的视频帧。

可选地，作为一个实施例，所述执行单元包括：

执行子单元，用于使每个子线程用于执行以下步骤，以去除所接收的图像块中不属于人体图像的背景图像：对所接收的图像块中的人体部位所在区域进行框选，得到所述人体部位所在的人体预测框；对所述人体预测框中的图像进行人体部位识别，得到属于人体部位的图像区域；对所述图像块中不属于所述人体部位的图像区域进行去除。

可选地，作为一个实施例，所述执行子单元包括：

边界描绘子单元，用于对所述人体预测框中的图像进行边界描绘，得到多种图像区域；

小面积去除子单元，用于去除所述多种图像区域中图像区域的面积小于预设面积的目标图像区域；

识别子单元，用于对所述多种图像区域中去除目标图像区域后的其他图像区域进行人体部位识别，得到属于人体部位的图像区域。

可选地，作为一个实施例，所述背景替换模块包括：

主线程子模块，用于按照所述视频流中各原始视频帧的拼接顺序，每次将预设数量的原始视频帧分别发送给各自对应的主线程；所述主线程分别用于执行所述将所述视频流中每个原始视频帧中的背景图像替换为当前时刻的设定背景图像的步骤；

返回子模块，用于获得各所述主线程返回的背景替换后视频帧；

所述发送模块包括：拼接发送子模块，用于按照所述拼接顺序，将多个所述背景替换后视频帧拼接为待发送的视频流，并发送给所述目标终端。

可选地，作为一个实施例，所述参会终端的数量为多个，所述装置还包括：

获得模块，用于针对每个参会终端，获得该参会终端所采集的视频流中每个原始视频帧；

拼接模块，用于针对所述多个参会终端，将属于相同时间戳或相同接收时刻的原始视频帧进行拼接，得到拼接视频帧；

调整模块，用于将所述拼接视频帧的尺寸调整为所述原始视频帧的尺寸；

所述背景替换模块包括：替换子模块，用于将调整尺寸后的拼接视频帧中的背景图像替换为所述设定背景图像，得到背景替换后视频帧。

可选地，作为一个实施例，得到背景替换后视频帧之后，所述装置还包括：

姿势识别模块，用于对所述背景替换后视频帧进行人体姿势识别；

读取模块，用于在检测到人体姿势识别的识别结果为表征预设类型的人体姿势时，读取与所述人体姿势对应的预存素材图像；

位置确定模块，用于确定所述背景替换后视频帧中与所述预设类型的人体姿势对应的图像位置；

图层添加模块，用于在所述背景替换后视频帧中的图像位置处添加图层，得到图层叠加后的视频帧；

所述发送模块包括：叠加发送子模块，用于将多个图层叠加后的视频帧作为待发送的视频流，发送给与所述视频调取请求对应的目标终端。

采用本申请实施例的技术方案，视频会议中视频的处理装置可以响应于对视频会议中参会终端的视频调取请求，获得所述参会终端各自所采集的视频流；将所述视频流中每个原始视频帧中的背景图像替换为当前时刻的设定背景图像，得到背景替换后视频帧；其中，所述背景图像为原始视频帧中不属于人体图像的图像区域；将多个所述背景替换后视频帧拼接为待发送的视频流，发送给与所述视频调取请求对应的目标终端。如此，在目标终端上播放的即是将背景图像替换为设定背景图像的视频画面。由此，在视频会议开始前，无需人工准备工具、布置会场背景等，继而可以节约视频会议成本和时间消耗，优化视频会议中的参会用户的参会体验。

需要说明的是，装置实施例与方法实施例相近，故描述的较为简单，相关之处参见方法实施例即可。

本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一实施例所述的视频会议中视频的处理方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，其存储的计算机程序使得处理器执行上述任一实施例所述的视频会议中视频的处理方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的视频会议中视频的处理方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频会议中视频的处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，将所述视频流中每个原始视频帧中的背景图像替换为当前时刻的设定背景图像，得到背景替换后视频帧，包括：

3.根据权利要求2所述的方法，其特征在于，从所述视频流中的每个原始视频帧中去除不属于人体图像的背景图像，包括：

对每个原始视频帧执行以下步骤：

将该原始视频帧划分为多个图像块；

获得所述子线程返回的去除了背景图像的处理后图像块；

4.根据权利要求3所述的方法，其特征在于，所述去除所接收的图像块中不属于人体图像的背景图像，包括：

对所述图像块中不属于所述人体部位的图像区域进行去除。

5.根据权利要求4所述的方法，其特征在于，对所述人体预测框中的图像进行人体部位识别，得到属于人体部位的图像区域，包括：

6.根据权利要求1-5任一所述的方法，其特征在于，将所述视频流中每个原始视频帧中的背景图像替换为当前时刻的设定背景图像，得到背景替换后视频帧，包括：

获得各所述主线程返回的背景替换后视频帧；

7.根据权利要求1-5任一项所述的方法，其特征在于，所述参会终端的数量为多个，所述方法还包括：

将所述拼接视频帧的尺寸调整为所述原始视频帧的尺寸；

8.根据权利要求1-5任一所述的方法，其特征在于，得到背景替换后视频帧之后，所述方法还包括：

对所述背景替换后视频帧进行人体姿势识别；

9.一种视频会议中视频的处理装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一项所述的视频会议中视频的处理方法的步骤。

11.一种计算机可读存储介质，其特征在于，其存储的计算机程序使得处理器执行如权利要求1-8任一项所述的视频会议中视频的处理方法。