CN112492323A

CN112492323A - 直播蒙版的生成方法、可读存储介质及计算机设备

Info

Publication number: CN112492323A
Application number: CN201910862862.8A
Authority: CN
Inventors: 张抗抗; 时英选; 刘若衡; 高龙文
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2021-03-12
Anticipated expiration: 2039-09-12
Also published as: CN112492323B

Abstract

本发明公开了一种直播蒙版的生成方法，属于通信技术领域，包括以下步骤：建立图像分割模型，对所述图像分割模型进行训练获取目标模型；获取视频流，采用所述目标模型逐个对所述视频流中的帧数据进行处理，获取蒙版帧数据，本发明实现了实时直播蒙版的生成，提高了用户观看体验。

Description

直播蒙版的生成方法、可读存储介质及计算机设备

技术领域

本发明涉及通信技术领域，尤其涉及一种直播蒙版的生成方法、可读存储介质及计算机设备。

背景技术

随着网络技术的发展，网络直播平台的应用越来越广泛，除了传统的评论功能外，弹幕已经成为了直播界面的一种互动方式，弹幕技术的出现对于提高用户观看体验，增强互动性、趣味性有着不可或缺的作用，然而，随着弹幕数量的增加，会导致无法看清直播界面中的画面，从而影响正常的视频观看。

现有技术中，为了提高用户的观看体验，一般会在视频中***蒙版，用于控制弹幕在设定的区域内显示，蒙版的生成采用图像语义分割技术实现，当前图像语义分割的主流方法均采用了卷积神经网络作为其主要框架，卷积神经网络不仅能很好地实现图像分类，而且在分割问题中也取得了很大的进展。

但是为了达到分割精度较高的目标，卷积层数比较多且网络框架的结构往往很复杂，因此需要大量的运算时间和成本，这些都会给对实时性要求高的领域，例如在直播场景中的应用带来阻碍，因此需要一种能够提高运行速度的方法以满足直播蒙版的生成。

发明内容

针对现有技术中语义分割技术为了实现较好的效果，导致计算量较大，运行速度较慢，无法满足实时直播场景使用的问题，现提供一种直播蒙版的生成方法、可读存储介质及计算机设备。

本发明提供了一种直播蒙版的生成方法，包括以下步骤：

建立图像分割模型，对所述图像分割模型进行训练获取目标模型；

获取视频流，采用所述目标模型逐个对所述视频流中的帧数据进行处理，获取蒙版帧数据

优选的，所述图像分割模型包括第一特征提取模块、第二特征提取模块以及融合处理模块。

优选的，所述对所述图像分割模型进行训练获取目标模型，包括以下步骤：

获取训练样本；

根据所述训练样本训练图像分割模型，获得目标模型。

优选的，在所述获取训练样本前，包括以下步骤：

获取训练视频数据，采用实例分割模型获取与所述视频数据的时间戳对应的实例蒙版数据；

对所述实例蒙版数据进行筛选，过滤异常蒙版帧数据，获得至少一个蒙版样本帧数据集；

根据时间戳将所述蒙版样本帧数据集与对应的训练视频数据中的样本帧数据配对生成训练样本。

优选的，所述根据所述训练样本训练图像分割模型，获得目标模型，包括以下步骤：

获取所述训练样本中至少一样本对数据，所述样本对数据包括蒙版样本帧数据以及与所述蒙版样本帧数据对应的训练视频数据中的样本帧数据；

将所述样本帧数据输入所述图像分割模型；

采用所述第一特征提取模块对所述样本帧数据进行降采样，并对经降采样后的样本帧数据进行特征提取，获得第一样本特征图；

采用第二特征提取模块对所述样本帧数据进行特征提取，获得第二样本特征图；

通过将所述第一样本特征图和所述第二样本特征图进行融合，并对融合后的特征图进行处理获得图像分割结果；

将所述第一样本特征图映射，获得第一分割结果，将所述第二样本特征图映射，获得第二分割结果；

基于所述第一分割结果、所述第二分割结果、所述图像分割结果分别与所述蒙版样本帧数据的比对，调整所述第一特征提取模块、所述第二特征提取模块和所述融合处理模块中的参数值；

直至完成对所述图像分割模型的训练，获取所述目标模型。

优选的，所述将所述第一样本特征图和所述第二样本特征图进行融合，包括以下步骤：

将所述第一样本特征图升采样，直至第一样本特征图映射图像与所述第二样本特征图映射图像尺寸一致，获得处理后的第一样本特征图；

基于所述处理后的第一样本特征图和所述第二样本特征图，获得融合后的特征图。

优选的，在所述获得融合后的特征图后，包括以下步骤：

获取所述样本帧数据在训练样本中对应的前一帧样本帧数据；

获取所述前一帧样本帧数据对应的融合后的特征图；

基于所述前一帧样本帧数据对应的融合后的特征图监督所述样本帧数据对应的融合后的特征图。

优选的，采用所述目标模型逐个对所述视频流中的帧数据进行处理，获取蒙版帧数据，包括以下步骤：

获取所述视频流中至少一个帧数据；

将所述帧数据降采样处理后，对经降采样处理的帧数据输入特征提取单元进行特征提取，获得第一特征图；

将所述帧数据进行特征提取，获得第二特征图；

将所述第一特征图和所述第二特征图进行融合，基于融合后的特征图获取蒙版帧数据。

优选的，所述将所述第一特征图和所述第二特征图进行融合，包括以下步骤：

将所述第一特征图升采样，直至第一特征图映射图像与所述第二特征图映射图像尺寸一致，获得处理后的第一特征图；

基于所述处理后的第一特征图和所述第二特征图，获得融合后的特征图。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述方法的步骤。

本发明还提供了一种计算机设备，所述计算机设备包括：

存储器，用于存储可执行程序代码；以及

处理器，用于调用所述存储器中的所述可执行程序代码，执行步骤包括如上所述的直播蒙版的生成方法。

上述技术方案的有益效果：

本技术方案中，对图像分割模型的训练获得目标模型，通过目标模型实时获取蒙版帧数据，分别对视频帧数据进行不同深度提取特征后融合处理获得蒙版帧数据，解决了现有技术中义分割技术为了实现较好的效果，造成网络结构复杂，计算量较大，运行速度较慢，无法满足实时直播场景使用的问题，获得了既能提高运行速度，又能保持较好图像分割结果的目标模型，实现直播蒙版的生成，减少直播界面中弹幕遮挡内容的情况，提升用户体验。

附图说明

图1为本发明的***架构图的一种实施例的框架图；

图2为本发明所述直播蒙版的生成方法的一种实施例的流程图；

图3为本发明所述直播蒙版的生成方法的一种实施例中对所述图像分割模型进行训练获取目标模型的流程图；

图4为本发明所述直播蒙版的生成方法的一种实施例中获取训练样本前的流程图；

图5为本发明所述直播蒙版的生成方法的一种实施例中根据所述训练样本训练图像分割模型，获得目标模型的流程图；

图6为本发明所述直播蒙版的生成方法的一种实施例中将所述第一样本特征图和所述第二样本特征图进行融合的流程图；

图7为本发明所述直播蒙版的生成方法的一种实施例中在获得融合后的特征图后的流程图；

图8为本发明所述直播蒙版的生成方法的一种实施例中采用所述目标模型逐个对所述视频流中的帧数据进行处理，获取蒙版帧数据的流程图；

图9为本发明所述直播蒙版的生成方法的一种实施例中所述将所述第一特征图和所述第二特征图进行融合的流程图；

图10为本发明所述直播蒙版的生成***的一种实施例的模块图；

图11为本发明实施例提供的直播蒙版的生成方法的计算机设备的硬件结构示意图。

具体实施方式

以下结合附图与具体实施例进一步阐述本发明的优点。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在本发明的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本发明及区别每一步骤，因此不能理解为对本发明的限制。

本申请实施例的直播蒙版应用的显示终端可以是大型视频播放设备、游戏机、台式计算机、智能手机、平板电脑、膝上型便携计算机、电子书阅读器以及其它可用于直播显示的终端。

本申请实施例的视频不仅可以应用于特定的直播应用程序中，而且还可以应用在任何可呈现直播效果的应用场景，比如说，可以应用在一些节目中等等。本申请实施例以直播界面应用于大面积显示直播场景为例，但是并不局限于此。

本申请实施例中，请参考图1，图1是本申请实施例提供的所述直播蒙版使用的***架构图。主播端(推流端)向视频云源站发送直播视频流，视频云源站向蒙版控制端发送转码请求，蒙版控制端向蒙版调度端发送转码请求，蒙版调度端接收到转码请求后，向蒙版集群发送任务分配请求，查询蒙版集群中是否有空闲的AI机器，其中，AI机器为蒙版识别实例，每一个AI机器为一个直播间服务；若没有空闲的AI机器则向蒙版控制端反馈异常状态回调，若有空闲的AI机器，则向视频云源站拉取RTMP(Real Time Messaging Protocol，实时消息传输协议)视频流，通过AI机器对视频流中的每一个帧图像进行识别生成蒙版帧数据，并将蒙版帧数据推流至视频云源站，视频云源站根据将蒙版帧数据与源视频流中的帧图像进行合成，生成携带有蒙版帧数据的视频流并推送至CDN(Content DeliveryNetwork，即内容分发网络)节点中，用户观看直播视频时，通过播放端(拉流端)向配置后台请求播放链接，配置后台接收到播放链接请求后，向蒙版控制端查询开启状态请求，蒙版控制端查询数据库(DB)，获取直播间是否允许开启蒙版服务，并将获取的反馈通知，若用户访问的直播间允许开启蒙版服务，则用户的播放端可通过CDN拉取携带有蒙版帧数据的视频流，播放端对该视频流进行解析，通过播放器播放视频信息，对蒙版弹幕进行渲染，从而在播放端的显示屏幕上显示视频图像、蒙版帧及弹幕信息，使弹幕显示于蒙版帧以外的区域，从而提升用户的观看效果。

此处只给出两个配置后台、一个播放端和一个主播端，此处的应用场景还可以包括多个配置后台、多个播放端，以及多个主播端。视频云源站可以是云端服务器，还可以是本地服务器。播放端和主播端的设备可以是移动设备，或其他可以进行上传视频的智能终端均可适用。

针对现有技术中语义分割技术为了实现较好的效果，导致计算量较大，运行速度较慢，无法满足实时直播场景使用的问题，本申请实施例中提供了一种直播蒙版的生成方法，参阅图2，其为一符合本发明一优选实施例所述直播蒙版的生成方法的流程示意图，所述直播蒙版的生成方法应用于服务器端，从图2中可以看出，包括以下步骤：

S1：建立图像分割模型，对所述图像分割模型进行训练获取目标模型；

具体的，上述图像分割模型包括第一特征提取模块、第二特征提取模块以及融合处理模块，在本具体实施方式中，第一特征提取模块对输入图像分割模型的帧数据的进行处理，在处理后采用轻量级卷积神经网络进行特征提取获得特征图，在上述过程中，所述处理为将帧数据16倍降采样，设置16倍降采样主要是为了在准确度和速度上保持平衡，降采样后的帧数据通过较为复杂的卷积神经网络，可以减少计算量，提高计算速度，第一特征提取模块的输出的特征图为所述输入图像的降16倍采样，既能保持第一特征提取模块的处理速度较快，又能获得准确度较高的特征图，上述复杂的卷积神经网络采用mobilenet v2，mobilenet v2为现有的一种轻量级卷积神经网络，在本应用场景中，为了实现16倍降采样需求，对标准的mobilenetv2进行处理，具体步骤如下：采用deeplab+mobilenet的结构，将标准的mobilenetv2最后一个block(块)的stride(步幅)设为1，并加入扩张卷积，对输入图像进行降采样处理，同时在本应用场景中，考虑到在特征提取过程中第一特征提取模块主体的范围变化没有那么剧烈以及特征提取中的计算量，未使用deeplabv3中的ASPP层。

第二特征提取模块用于对输入图像分割模型的帧数据进行特征提取获得特征图，第二特征提取模块中采用较为简单的卷积神经网络，具体为五层卷积网络，通过减少卷积层数实现计算量的减少，为了实现较好的分割精度，将第一特征提取模块、第二特征提取模块获得特征图通过融合处理模块融合，获得合并后的特征图，减少在帧数据通过第一特征提取模块或第二特征提取模块过程中造成的特征丢失。

除了上述mobilenetv2和五层卷积神经网络外，其他现有的复杂或简单的神经网络可分别替代，满足降采样后帧数据通过复杂神经网络，原帧数据通过简单神经网络，实现计算量的减少以及运行速度的提升即可。

具体的，所述对所述图像分割模型进行训练获取目标模型，参阅图3，包括以下步骤：

S11：获取训练样本；

在所述获取训练样本前，参阅图4，包括以下步骤：

S10-1：获取训练视频数据，采用实例分割模型获取与所述视频数据的时间戳对应的实例蒙版数据；

具体地，采用实例分割模型对视频数据中的每一帧图像进行识别，获取帧图像中的主体区域，根据该主体区域生成实例蒙版帧数据；每一实例蒙版帧数据的时间戳与其对应的帧图像的时间戳相对应。

其中，上述主体区域可选自以下至少一种：

人物区域范围、动物区域范围、风景区域范围、建筑区域范围、艺术品区域范围、文字区域范围，以及区别于人物、动物、建筑、艺术的背景区域范围。

需要说明的是，在本具体实施例中，上述训练视频数据采用了线下会场现场视频，蒙版帧数据对应的主体区域采用了人物区域范围。

S10-2：对所述实例蒙版数据进行筛选，过滤异常蒙版帧数据，获得至少一个蒙版样本帧数据集；

在上述实施步骤中，根据预设规则对实例蒙版数据的筛选和过滤，例如过滤掉面积太小、抖动严重、数据集过短等蒙版数据集，预设规则可根据使用场景调整，通过对所述实例蒙版数据的筛选过滤实现对训练样本的效果增强，获得稳定的训练样本，提高通过训练样本训练图像分割模型后获得的目标模型效果。

S10-3：根据时间戳将所述蒙版样本帧数据集与对应的训练视频数据中的样本帧数据配对生成训练样本。

具体的，在上述实施步骤中，根据时间戳将每一蒙版样本帧数据均与对应的训练视频数据中的样本帧数据配对，具体实现方式为将实例蒙版帧数据集与训练视频数据的时间轴校对好，并剪切出包含对应帧数据的视频片段数据，将蒙版帧数据与对应的视频帧数据组成一样本对数据。

通过上述实施方式，可以将实例分割模型的效果通过训练样本的迁移到图像分割模型上去，实例分割不但要进行像素级别的分类，还需在具体的类别基础上区别开不同的实例，通过实例分割模型获得训练样本训练图像分割模型，获得目标模型，能够大幅提升目标模型的图像分割效果，以满足实时场景下的应用，提高通过目标模型获得蒙版帧数据的准确性。

S12：根据所述训练样本训练图像分割模型，获得目标模型。

具体的，上述根据所述训练样本训练图像分割模型，获得目标模型，参阅图5，包括以下步骤：

S121：获取所述训练样本中至少一样本对数据；

其中，所述样本对数据包括蒙版样本帧数据以及与所述蒙版样本帧数据对应的训练视频数据中的样本帧数据；

样本帧数据输入图像分割模型获得图像分割结果，并与蒙版样本帧数据比对进行学习，训练图像分割模型直至获得目标模型。

S122：将所述样本帧数据输入所述图像分割模型；

S123：采用所述第一特征提取模块对所述样本帧数据进行降采样，并对经降采样后的样本帧数据进行特征提取，获得第一样本特征图；

在本具体实施方式中，降采样具体为将样本帧数据进行1/2降采样处理，一方面可以保留具有标识性的特征信息，另一方面减少输入卷积神经网络的计算量，提高运行速度，具体的降采样倍数可以与使用的卷积神经网络配合。

S124：将所述第一样本特征图映射，获得第一分割结果；

S125：采用第二特征提取模块对所述样本帧数据进行特征提取，获得第二样本特征图；

S126：将所述第二样本特征图映射，获得第二分割结果；

S127：通过将所述第一样本特征图和所述第二样本特征图进行融合，并对融合后的特征图进行处理，获得图像分割结果；

具体的，在获得融合后的特征图后，对融合后的特征图进行单层卷积处理，即采用单层卷积神经网络处理融合后的特征图，获得图像分割结果。

S128：基于所述第一分割结果、所述第二分割结果、所述图像分割结果分别与所述蒙版样本帧数据的比对，调整所述第一特征提取模块、所述第二特征提取模块和所述融合处理模块中的参数值；

S129：直至完成对所述图像分割模型的训练，获取所述目标模型。

在训练过程中，根据第一分割结果与所述蒙版样本帧数据对比计算第一损失函数，根据第二分割结果与所述蒙版样本帧数据对比计算第二损失函数，根据图像分割结果分别与所述蒙版样本帧数据的比对计算第三损失函数，在训练过程中不断调整上述三个损失函数，直至完成训练。

在上述实施方式中，由第一样本特征图和第二样本特征图分别获得第一分割结果和第二分割结果，在实际操作过程中通过softmax函数实现，获得该第一分割结果和第二分割结果后分别与蒙版样本帧数据对比，可以分别对第一特征提取模块和第二特征提取模块进行监督，在训练图像分割模型时使用第一特征提取模块和第二特征提取输出的特征分别生成分割结果并计算各自损失函数，可监督第一特征提取模块和第二特征提取模块各自都学到信息，进而使训练获得的目标模型更加稳定。

第一分割结果和第二分割结果会映射到图像分割结果，基于第一分割结果和第二分割结果对图像分割结果进行补充和调整，使图像分割结果更接近蒙版样本帧数据，获得较好的训练效果。

具体的，所述将所述第一样本特征图和所述第二样本特征图进行融合，参阅图6，包括以下步骤：

S127-1：将所述第一样本特征图升采样，直至第一样本特征图映射图像与所述第二样本特征图映射图像尺寸一致，获得处理后的第一样本特征图；

以样本帧数据中的图像大小为320px×320px为例，降采样后为160px×160px，经过mobilenetv2输出后为10px×10px的特征图，经过五层卷积网络输出后为20px×20px的特征图，此时需要将输出的10px×10px的特征图升采样至20px×20px，升采样和降采样为较为常见的技术手段，使用效果稳定且方便操作。

S127-2：基于所述处理后的第一样本特征图和所述第二样本特征图，获得融合后的特征图。

具体的，获得处理后的第一样本特征图和第二样本特征图后，通过采用concat来融合特征，concat是一种经常用于特征联合的操作，用于多个卷积神经网络提取的特征融合或者是将卷积神经网络输出层的信息进行融合。

在上述实施方式中，通过第一特征图和第二特征图的融合，可以补充第一特征图或第二特征图内丢失的特征，具体的，可以基于处理后的第一样本特征图对所述第二样本特征图进行调整或补充，也可以基于所述第二样本特征图对所述处理后的第一样本特征图进行调整和补充。

在上述实施方式中，在采用concat来融合特征后采用自适应的注意力机制进行调整，即在concat后增加channel attention，具体的，采用两层卷积神经网络(CNN)来学习channel权重，CNN每一层都会输出一个C(channel)x H(height)x W(width)的特征图，concat会得到C x H x W的特征图，对于每一个channel，相应的H x W的spatial feature(空间特征)进行global pooling(全局池化),获得每一个channel的上下文信息，再将得到的1x C维特征上输入到两个连续的全连接层，得到每个channel的权重，最后将channel权重各自乘回原来channel上，采用上述自适应的注意力机制调整特征图融合，自适应的注意力机制可以基于hidden state(隐藏状态层)关注第一样本特征图和第二样本特征图的不同区域，以便获得更准确的融合后的特征图。

具体的在所述获得融合后的特征图后，参阅图7，包括以下步骤：

S127-31：获取所述样本帧数据在训练样本中对应的前一帧样本帧数据；

具体的，训练样本中包含多个蒙版样本帧数据集和对应的视频片段，训练样本输入图像分割模型为多段视频，基于此可以获取任意一段视频内相邻帧数据对应的融合后的特征图。

S127-32：获取所述前一帧样本帧数据对应的融合后的特征图；

S127-33：基于所述前一帧样本帧数据对应的融合后的特征图监督所述样本帧数据对应的融合后的特征图。

在上述实施方式中，通过当前样本帧数据与前一帧样本帧数据各自对应的融合后的特征图进行比对，计算损失函数，根据前一帧样本帧数据对应的融合后的特征图调整当前样本帧数据对应的融合后的特征图，控制当前样本帧数据对应的融合后的特征图与前一帧样本帧数据对应的融合后的特征图之间的偏差不太大，进一步提高训练获得的目标模型的稳定性，减少目标模型在使用过程中由于输入的帧数据对应图像光线、角度等因素影响蒙版帧数据的准确性。

需要说明的是，在本具体实施方式中，实现前一帧样本帧数据与当前样本帧数据之间的监督通过在损失函数后设置l2惩罚项实现，即对损失函数中的某些参数进行限制，以获得需要的效果。

S2：获取视频流，采用所述目标模型逐个对所述视频流中的帧数据进行处理，获取蒙版帧数据。

具体的，采用所述目标模型逐个对所述视频流中的帧数据进行处理，获取蒙版帧数据，参阅图8，包括以下步骤：

S21：获取所述视频流中至少一个帧数据；

S22：将所述帧数据降采样处理后，对经降采样处理的帧数据输入特征提取单元进行特征提取，获得第一特征图；

S23：将所述帧数据进行特征提取，获得第二特征图；

S24：将所述第一特征图和所述第二特征图进行融合，基于融合后的特征图获取蒙版帧数据。

在上述实施方式中，服务器端获取视频流，将视频流中的帧数据逐帧输入目标模型中，以一视频帧数据A，识别视频帧数据A图像中的人像区域为例，经过1/2降采样后提取特征获得第一特征图，未经降采样直接提取特征获得第二特征图，将第一特征图和第二特征图通过concat和channel attention处理获得融合后的特征图，再经过单层卷积处理识别特征获得人像区域特征，进而获得蒙版帧数据，在此过程中降采样的帧数据通过轻量级卷积神经网络，未降采样的帧数据通过五层卷积网络，即小尺寸的帧数据经过深层卷积，大尺寸的帧数据经过浅层卷积，获得特征的同时提高运行速度，满足在实时场景中的应用。

所述将所述第一特征图和所述第二特征图进行融合，参阅图9，包括以下步骤：

S231：将所述第一特征图升采样，直至第一特征图映射图像与所述第二特征图映射图像尺寸一致，获得处理后的第一特征图；

S232：基于所述处理后的第一特征图和所述第二特征图，获得融合后的特征图。

在上述实施方式中，第一特征图和第二特征图需要保持尺寸一致方可进行融合处理，因此需要对降采样帧数据获得的第一特征图进行处理，完成第一特征图的处理后可基于处理后的第一特征图对所述第二特征图进行调整补充，获得融合后的特征图，也可基于第二特征图对处理后的第一特征图再处理，获得融合后的特征图。

在生成蒙版帧数据后，根据时间戳会将蒙版帧数据与视频流中的帧数据匹配合成带有蒙版帧数据的视频流，客户端获取带有蒙版帧数据的视频流以及弹幕流并在显示界面展示，弹幕信息通过蒙版帧数据重合的区域时显示蒙版帧数据，即弹幕通过人像区域时隐藏，从而减少在直播过程中弹幕遮挡直播界面而影响用户观看体验。

一种直播蒙版的生成***，如图9所示，包括：

训练单元31，用于建立图像分割模型，对所述图像分割模型进行训练获取目标模型；

训练单元31中还包括获取模块，用于获取训练样本；

训练。

生成单元32，用于获取视频流，采用所述目标模型逐个对所述视频流中的帧数据进行处理，获取蒙版帧数据。

所述训练单元31获取训练样本并对所述图像分割模型进行训练；

其中，图像分割模型包括第一特征提取模块、第二特征提取模块以及融合处理模块。

在直播蒙版的生成***中，训练单元31对所述图像分割模型进行训练，包括以下步骤：

将所述样本帧数据输入所述图像分割模型；

通过将所述第一样本特征图和所述第二样本特征图进行融合，并将融合后的特征图进行卷积处理，获得图像分割结果；

直至完成对所述图像分割模型的训练，获取所述目标模型。

所述生成单元32通过目标模型生成蒙版帧数据；

采用所述目标模型逐个对所述视频流中的帧数据进行处理，获取蒙版帧数据，包括以下步骤：

获取所述视频流中至少一个帧数据；

将所述帧数据进行特征提取，获得第二特征图；

将所述第一特征图和所述第二特征图进行融合，将融合后的特征图进行卷积处理，获取蒙版帧数据。

如图10所示，一种计算机设备4，所述计算机设备4包括：

存储器41，用于存储可执行程序代码；以及

处理器42，用于调用所述存储器41中的所述可执行程序代码，执行步骤包括上述的直播蒙版的生成方法。

图11中以一个处理器42为例。

存储器41作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的直播蒙版的生成方法对应的程序指令/模块(例如，图10所示的训练单元31、生成单元32)。处理器42通过运行存储在存储器41中的非易失性软件程序、指令以及模块，从而执行计算机设备4的各种功能应用以及数据处理，即实现上述方法实施例直播蒙版的生成方法。

存储器41可以包括存储程序区和存储数据区，其中，存储程序区可存储搡作***、至少一个功能所需要的应用程序；存储数据区可存储用户在计算机设备4的皮肤数据信息。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器41可选包括相对于处理器42远程设置的存储器41，这些远程存储器41可以通过网络连接至直播蒙版的生成***。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器41中，当被所述一个或者多个处理器42执行时，执行上述任意方法实施例中的直播蒙版的生成方法，例如，执行以上描述的图2中的方法步骤S1至步骤S2、图3中的方法步骤S11至步骤S12、图4中的方法步骤S10-1至步骤S10-3、图5中的方法步骤S121至步骤S129，图6中的方法步骤S127-1至步骤S127-2，图7中的方法步骤S127-31至步骤S127-33，图8中的方法步骤S21至步骤S24，图9中的方法步骤S231至步骤S232，实现图10所示的训练单元31、生成单元32的功能。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的计算机设备4以多种形式存在，包括但不限于:

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、***总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

本申请实施例提供了一种非易失性计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如图11中的一个处理器42，可使得上述一个或多个处理器42可执行上述任意方法实施例中的直播蒙版的生成方法，例如，执行以上描述的图2中的方法步骤S1至步骤S2、图3中的方法步骤S11至步骤S12、图4中的方法步骤S10-1至步骤S10-3、图5中的方法步骤S121至步骤S129，图6中的方法步骤S127-1至步骤S127-2，图7中的方法步骤S127-31至步骤S127-33，图8中的方法步骤S21至步骤S24，图9中的方法步骤S231至步骤S232，实现图10所示的训练单元31、生成单元32的功能。

以上述实施例为基础，第一实际应用过程包括：

主播通过直播端进行直播，直播端将视频流发送至服务器，服务器对接收到的视频流内的帧数据进行逐帧处理，将帧数据通过目标模型，降采样后特征提取获得第一特征图，原帧数据特征提取后获得第二特征图，将第一特征图和第二特征图融合处理生成人像区域的蒙版帧数据，根据时间戳将蒙版帧数据与视频帧数据匹配生成携带有蒙版的视频流，用户端发送弹幕流至服务器，服务器将携带有蒙版的视频流以及弹幕流推送至CDN节点，用户端从CDN节点获取带有蒙版的视频流与弹幕流，以使视频帧数据、相应的蒙版帧数据和相应的弹幕信息在时间戳对应的时刻同时展示于显示屏幕中进行播放，弹幕信息经过蒙版帧数据时，显示蒙版帧数据，避免弹幕信息遮挡人像区域，影响用户体验。

以上述实施例为基础，第二实际应用过程包括：

某一线下平台活动，通过现场摄像录制实时视频并传输至现场显示屏，同时线上直播，服务器端获取实时视频流，并根据视频流中的帧数据输入目标模型获得蒙版帧数据，根据时间戳将蒙版帧数据与视频帧数据匹配生成携带有蒙版的视频流，服务器端获得观看用户端的弹幕信息，服务器将携带有蒙版的视频流以及弹幕流推送至CDN节点，用户端从CDN节点获取带有蒙版的视频流与弹幕流，以使视频帧数据、相应的蒙版帧数据和相应的弹幕信息在时间戳对应的时刻同时展示于显示屏幕中进行播放，弹幕信息经过蒙版帧数据时，显示蒙版帧数据，避免弹幕信息遮挡人像区域，影响用户体验。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种直播蒙版的生成方法，其特征在于，包括以下步骤：

获取视频流，采用所述目标模型逐个对所述视频流中的帧数据进行处理，获取蒙版帧数据。

2.根据权利要求1所述的直播蒙版的生成方法，其特征在于：

所述图像分割模型包括第一特征提取模块、第二特征提取模块以及融合处理模块。

3.根据权利要求2所述的直播蒙版的生成方法，其特征在于：

所述对所述图像分割模型进行训练获取目标模型，包括以下步骤：

获取训练样本；

根据所述训练样本训练图像分割模型，获得目标模型。

4.根据权利要求3所述的直播蒙版的生成方法，其特征在于：

在所述获取训练样本前，包括以下步骤：

5.根据权利要求3所述的直播蒙版的生成方法，其特征在于：

所述根据所述训练样本训练图像分割模型，获得目标模型，包括以下步骤：

将所述样本帧数据输入所述图像分割模型；

通过将所述第一样本特征图和所述第二样本特征图进行融合，并对融合后的特征图进行处理，获得图像分割结果；

直至完成对所述图像分割模型的训练，获取所述目标模型。

6.根据权利要求5所述的直播蒙版的生成方法，其特征在于：

所述将所述第一样本特征图和所述第二样本特征图进行融合，包括以下步骤：

7.根据权利要求6所述的直播蒙版的生成方法，其特征在于，

在所述获得融合后的特征图后，包括以下步骤：

获取所述前一帧样本帧数据对应的融合后的特征图；

8.根据权利要求1所述的直播蒙版的生成方法，其特征在于：

获取所述视频流中至少一个帧数据；

将所述帧数据进行特征提取，获得第二特征图；

9.根据权利要求8所述的直播蒙版的生成方法，其特征在于：

所述将所述第一特征图和所述第二特征图进行融合，包括以下步骤：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：

所述计算机程序被处理器执行时实现权利要求1至9任一项所述方法的步骤。

11.一种计算机设备，其特征在于：所述计算机设备包括：

存储器，用于存储可执行程序代码；以及

处理器，用于调用所述存储器中的所述可执行程序代码，执行步骤包括如权利要求1至9中任一项所述的直播蒙版的生成方法。