CN107341434A

CN107341434A - 视频图像的处理方法、装置和终端设备

Info

Publication number: CN107341434A
Application number: CN201610697472.6A
Authority: CN
Inventors: 栾青; 张伟
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-08-19
Filing date: 2016-08-19
Publication date: 2017-11-10
Also published as: WO2018033143A1

Abstract

本发明实施例提供一种视频图像的处理方法、装置和终端设备。所述方法包括：对当前播放的包含人脸信息的视频图像进行人脸的面部表情检测；当确定检测到的面部表情与对应的预定面部表情相匹配时，确定待展现的业务对象在所述视频图像中的展现位置；在所述展现位置绘制所述业务对象。采用本发明实施例，可以节约网络资源和/或客户端的***资源，而且为视频图像增加了趣味性，同时还不会打扰用户正常观看视频，从而可以减少用户对视频图像中展现的业务对象的反感，而且能够在一定程度上吸引观众的注意力，提高业务对象的影响力。

Description

视频图像的处理方法、装置和终端设备

技术领域

本发明涉及信息处理技术，尤其涉及一种视频图像的处理方法、装置和终端设备。

背景技术

随着互联网技术的发展，人们越来越多地使用互联网观看视频，由此，互联网视频为许多新的业务提供了商机。因为互联网视频可以成为重要的业务流量入口，因而被认为是广告植入的优质资源。

现有视频广告主要通过植入的方式，在视频播放的某个时间***固定时长的广告，或在视频播放的区域及其周边区域固定位置放置广告。

但是，一方面，这种视频广告方式不但占用网络资源，也占用客户端的***资源；另一方面，这种视频广告方式往往打扰观众的正常视频观看体验，引起观众反感，不能达到预想的广告效果。

发明内容

本发明的目的在于，提供一种视频图像处理的方案。

根据本发明实施例的一方面，提供一种视频图像的处理方法。所述方法包括，对当前播放的包含人脸信息的视频图像进行人脸的面部表情检测；当确定检测到的面部表情与对应的预定面部表情相匹配时，确定待展现的业务对象在所述视频图像中的展现位置；在所述展现位置采用计算机绘图方式绘制所述业务对象。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述对当前播放的包含人脸信息的视频图像进行人脸的面部表情检测，包括：基于当前播放的包含人脸信息的视频图像中的人脸信息，使用预先训练的、用于检测图像中人脸属性的第一卷积网络模型，对所述视频图像进行人脸的面部表情检测。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，对所述第一卷积网络模型进行预先训练，包括：获取多张包括人脸信息的样本图像作为训练样本，其中，所述样本图像包含被标注的人脸属性的信息；对所述人脸属性中具有大小顺序特征的属性进行编码；将编码后的属性作为训练所述第一卷积网络模型的监督信息，使用所述训练样本对所述第一卷积网络模型进行训练，得到用于检测图像中人脸属性的第一卷积网络模型。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，获取多张包括人脸信息的样本图像作为训练样本，包括：获取多张包括人脸信息的样本图像；对每张所述样本图像，检测样本图像中的人脸和人脸关键点，通过所述人脸关键点将样本图像中的人脸进行定位，得到人脸定位信息；将包含所述人脸定位信息的所述样本图像作为训练样本。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述确定待展现的业务对象在所述视频图像中的展现位置，包括：提取与检测到的面部表情相应的人脸区域内人脸属性的特征点；根据所述人脸属性的特征点，确定所述待展现的业务对象在所述视频图像中的展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述根据所述人脸属性的特征点，确定所述待展现的业务对象在所述视频图像中的展现位置，包括：根据所述人脸属性的特征点，使用预先训练的、用于确定业务对象在视频图像中的展现位置的第二卷积网络模型，确定所述待展现的业务对象在所述视频图像中的展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，对所述第二卷积网络模型的预先训练，包括：获取训练样本的样本图像的特征向量，其中，所述特征向量中包含有所述样本图像中的业务对象的位置信息和/或置信度信息，以及样本图像中人脸属性对应的人脸特征向量；对所述特征向量进行卷积处理，获取特征向量卷积结果；判断所述特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断所述特征向量卷积结果中对应的人脸特征向量是否满足人脸收敛条件；若都满足，则完成对所述第二卷积网络模型的训练；否则，调整第二卷积网络模型的网络参数并根据调整后的第二卷积网络模型的网络参数对第二卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息以及所述人脸特征向量均满足相应的收敛条件。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述根据所述人脸属性的特征点，确定所述待展现的业务对象在所述视频图像中的展现位置，包括：根据所述人脸属性的特征点和所述待展现的业务对象的类型，确定待展现的业务对象在所述视频图像中的展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，根据所述人脸属性的特征点和所述待展现的业务对象的类型，确定待展现的业务对象在所述视频图像中的展现位置，包括：根据所述人脸属性的特征点和所述待展现的业务对象的类型，获得待展现的业务对象在所述视频图像中的多个展现位置；从所述多个展现位置中选择至少一个展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述确定待展现的业务对象在所述视频图像中的展现位置，包括：从预先存储的面部表情与展现位置的对应关系中，获取所述预定面部表情对应的目标展现位置作为所述待展现的业务对象在所述视频图像中的展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述业务对象为包含有语义信息的特效；所述视频图像为直播类视频图像。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述展现位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。

可选地，结合本发明实施例提供的任一种视频图像的处理方法，其中，所述面部表情包括以下至少之一：开心、愤怒、痛苦和悲伤。

根据本发明实施例的另一方面，提供一种视频图像的处理装置。所述装置包括：视频图像检测模块，用于对当前播放的包含人脸信息的视频图像进行人脸的面部表情检测；展现位置确定模块，用于当确定检测到的面部表情与对应的预定面部表情相匹配时，确定待展现的业务对象在所述视频图像中的展现位置；业务对象绘制模块，用于在所述展现位置采用计算机绘图方式绘制所述业务对象。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述视频图像检测模块，用于基于当前播放的包含人脸信息的视频图像中的人脸信息，使用预先训练的、用于检测图像中人脸属性的第一卷积网络模型，对所述视频图像进行人脸的面部表情检测。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述装置还包括：训练样本获取模块，用于获取多张包括人脸信息的样本图像作为训练样本，其中，所述样本图像包含被标注的人脸属性的信息；编码模块，用于对所述人脸属性中具有大小顺序特征的属性进行编码；第一卷积网络模型确定模块，用于将编码后的属性作为训练所述第一卷积网络模型的监督信息，使用所述训练样本对所述第一卷积网络模型进行训练，得到用于检测图像中人脸属性的第一卷积网络模型。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述训练样本获取模块，包括：样本图像获取单元，用于获取多张包括人脸信息的样本图像；人脸定位信息确定单元，用于对每张所述样本图像，检测样本图像中的人脸和人脸关键点，通过所述人脸关键点将样本图像中的人脸进行定位，得到人脸定位信息；训练样本确定单元，用于将包含所述人脸定位信息的所述样本图像作为训练样本。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述展现位置确定模块，包括：特征点提取单元，用于提取与检测到的面部表情相应的人脸区域内人脸属性的特征点；展现位置确定单元，用于根据所述人脸属性的特征点，确定所述待展现的业务对象在所述视频图像中的展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述展现位置确定模块，用于根据所述人脸属性的特征点，使用预先训练的、用于确定业务对象在视频图像中的展现位置的第二卷积网络模型，确定所述待展现的业务对象在所述视频图像中的展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述装置还包括：特征向量获取模块，用于获取训练样本的样本图像的特征向量，其中，所述特征向量中包含有所述样本图像中的业务对象的位置信息和/或置信度信息，以及样本图像中人脸属性对应的人脸特征向量；卷积模块，用于对所述特征向量进行卷积处理，获取特征向量卷积结果；收敛条件判断模块，用于判断所述特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断所述特征向量卷积结果中对应的人脸特征向量是否满足人脸收敛条件；模型训练模块，用于若都满足，则完成对所述第二卷积网络模型的训练；否则，调整第二卷积网络模型的网络参数并根据调整后的第二卷积网络模型的网络参数对第二卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息以及所述人脸特征向量均满足相应的收敛条件。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述展现位置确定模块，用于根据所述人脸属性的特征点和所述待展现的业务对象的类型，确定待展现的业务对象在所述视频图像中的展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述展现位置确定模块，包括：展现位置获取单元，用于根据所述人脸属性的特征点和所述待展现的业务对象的类型，获得待展现的业务对象在所述视频图像中的多个展现位置；展现位置选择单元，用于从所述多个展现位置中选择至少一个展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述展现位置确定模块，用于从预先存储的面部表情与展现位置的对应关系中，获取所述预定面部表情对应的目标展现位置作为所述待展现的业务对象在所述视频图像中的展现位置。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述业务对象为包含有语义信息的特效；所述视频图像为直播类视频图像。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述展现位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。

可选地，结合本发明实施例提供的任一种视频图像的处理装置，其中，所述面部表情包括以下至少之一：开心、愤怒、痛苦和悲伤。

根据本发明实施例的又一方面，提供一种终端设备。所述终端设备包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上述提供的视频图像的处理方法对应的操作。

根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于对当前播放的包含人脸信息的视频图像进行人脸的面部表情检测的可执行指令；用于当确定检测到的面部表情与对应的预定面部表情相匹配时，确定待展现的业务对象在所述视频图像中的展现位置的可执行指令；用于在所述展现位置绘制所述业务对象的可执行指令。

根据本发明实施例提供的视频图像的处理方法、装置和终端设备，通过对当前播放的包含人脸信息的视频图像进行面部表情检测，并将检测到的面部表情与对应的预定面部表情进行匹配，当两者相匹配时，确定待展现的业务对象在视频图像中的展现位置，进而在该展现位置采用计算机绘图的方式绘制业务对象，这样当业务对象用于展示广告时，与传统的视频广告方式相比，一方面，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和/或客户端的***资源；另一方面，业务对象与视频图像中的面部表情紧密结合，既保留了视频图像中视频主体(如主播)的主要形象和动作，又为视频图像增加了趣味性，同时还不会打扰用户正常观看视频，从而可以减少用户对视频图像中展现的业务对象的反感，而且能够在一定程度上吸引观众的注意力，提高业务对象的影响力。

附图说明

图1是示出根据本发明实施例一的一种视频图像的处理方法的流程图；

图2是示出根据本发明实施例二的一种第一卷积网络模型的获取方法的流程图；

图3是示出根据本发明实施例二的一种第一卷积网络模型结构示意图；

图4是示出根据本发明实施例三的一种视频图像的处理方法的流程图；

图5是示出根据本发明实施例四的一种视频图像的处理方法的流程图；

图6是示出根据本发明实施例五的一种视频图像的处理装置的结构框图；

图7是示出根据本发明实施例六的一种视频图像的处理装置的结构框图；

图8是示出根据本发明实施例七的一种终端设备的结构示意图。

具体实施方式

下面结合附图详细描述本发明的示例性实施例。

实施例一

图1是示出根据本发明实施例一的视频图像的处理方法的流程图。通过包括视频图像的处理装置的计算机***执行所述方法。

参照图1，在步骤S110，对当前播放的包含人脸信息的视频图像进行人脸的面部表情检测。

其中，人脸信息可以包括与面部、眼睛、鼻子和/或头发等相关的信息。视频图像可以是正在直播的直播视频的图像，也可以是已录制完成的视频中的视频图像等。面部表情包括但不限于开心、愤怒、痛苦、悲伤等。

在实施中，以视频直播为例，目前，视频直播平台包括多个，如花椒直播平台、YY直播平台等，每一个直播平台包括有多个直播房间，而每个直播房间中会包括至少一个主播，主播可以通过终端设备的摄像头向其所在的直播房间中的粉丝直播视频图像。上述视频图像中的主体通常为一个主要人物(即主播)和简单的背景，主播常常在视频图像中所占的区域较大。当需要在视频直播的过程中***业务对象(如广告等)时，可以获取当前视频直播过程中的视频图像，然后，可以通过预先设置的人脸检测机制对该视频图像进行人脸检测，以判断该视频图像中是否包括主播的人脸信息，如果包括，则获取或记录该视频图像，如果不包括，则可以继续对下一帧视频图像执行上述相关处理，以得到包括主播的人脸信息的视频图像。

此外，视频图像还可以是已录制完成的短视频中的视频图像，对于此种情况，用户可以使用其终端设备播放该短视频，在播放的过程中，终端设备可以检测每一帧视频图像中是否包括主播的人脸信息，如果包括，则获取该视频图像，如果不包括，则可以丢弃该视频图像或者不对该视频图像做任何处理，并获取下一帧视频图像继续进行上述处理。

播放视频图像的终端设备或者主播使用的终端设备中设置有对视频图像进行人脸的面部表情检测的机制，通过该机制可以对当前播放的包括人脸信息的每一帧视频图像进行检测，得到从视频图像中检测到的人脸的面部表情，一种可行的处理过程可以为，终端设备获取当前正在播放的一帧视频图像，通过预先设定的机制可以从该视频图像中截取出包括人脸区域的图像，然后，可以对人脸区域的图像进行分析和特征提取，得到人脸区域中各个部位(包括眼睛、嘴和面部等)的特征数据，通过对该特征数据的分析，确定视频图像中人脸的面部表情属于开心、愤怒、痛苦、悲伤等表情中的哪一种。

在步骤S120，当确定检测到的面部表情与对应的预定面部表情相匹配时，确定待展现的业务对象在视频图像中的展现位置。

其中，业务对象是根据一定的业务需求而创建的对象，例如广告等。展现位置可以是视频图像中指定区域的中心位置，或者可以是上述指定区域中多个边缘位置的坐标等。

在实施中，可以预先存储多种不同的面部表情的特征数据，并对不同的面部表情进行相应的标记，以区分各个面部表情所代表的含义。通过上述步骤S110的处理可以从视频图像中检测到人脸的面部表情，可以将检测到的人脸的面部表情分别与预先存储的每一种面部表情进行比对，如果预先存储的多种不同的面部表情中包括与检测到人脸的面部表情相同的面部表情，则可以确定检测到的面部表情与对应的预定面部表情相匹配。

为了提高匹配的准确度，可以通过计算的方式确定上述匹配结果，例如，可以设置匹配算法计算任意两个面部表情之间的匹配度，例如，可以使用检测到人脸的面部表情的特征数据和预先存储的任一种面部表情的特征数据进行匹配计算，得到两者之间的匹配度数值，通过上述方式分别计算得到检测到的人脸的面部表情与预先存储的每一种面部表情之间的匹配度数值，从得到的匹配度数值中选取最大的匹配度数值，如果该最大的匹配度数值超过预定的匹配阈值，则可以确定最大的匹配度数值对应的预先存储的面部表情与检测到的面部表情相匹配。如果该最大的匹配度数值未超过预定的匹配阈值，则匹配失败，即检测到的面部表情不是预定面部表情，此时，可以继续执行上述步骤S110的处理。

进一步地，当确定检测到的面部表情与对应的预定面部表情相匹配时，可以先确定匹配到的面部表情所代表的含义，可以在预先设定的多个展现位置中选取与其含义相关或相应的展现位置作为待展现的业务对象在视频图像中的展现位置。例如，以视频直播为例，当检测到主播开心的面部表情时，可以将面部区域或背景区域选取为与其相关或相应的展现位置。

在步骤S130，在展现位置采用计算机绘图方式绘制业务对象。

例如，以视频直播为例，当检测到主播开心的面部表情时，可以在视频图像中主播的面部所在的区域内采用计算机绘图方式绘制相应的业务对象(如带有预定商品标识的图片广告等)，如果粉丝对该业务对象感兴趣，则可以点击该业务对象所在的区域，粉丝的终端设备可以获取该业务对象对应的网络链接，并通过该网络链接进入与该业务对象相关的页面，粉丝可以在该页面中获取与该业务对象相关的资源。

其中，对业务对象采用计算机绘图方式绘制可以通过适当的计算机图形图像绘制或渲染等方式实现，包括但不限于：基于OpenGL图形绘制引擎进行绘制等。OpenGL定义了一个跨编程语言、跨平台的编程接口规格的专业的图形程序接口，其与硬件无关，可以方便地进行2D或3D图形图像的绘制。通过OpenGL，不仅可以实现2D效果如2D贴纸的绘制，还可以实现3D特效的绘制及粒子特效的绘制等等。但不限于OpenGL，其它方式，如Unity或OpenCL等也同样适用。

本发明实施例提供的视频图像的处理方法，通过对当前播放的包含人脸信息的视频图像进行面部表情检测，并将检测到的面部表情与对应的预定面部表情进行匹配，当两者相匹配时，确定待展现的业务对象在视频图像中的展现位置，进而在该展现位置采用计算机绘图的方式绘制业务对象，这样当业务对象用于展示广告时，与传统的视频广告方式相比，一方面，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和/或客户端的***资源；另一方面，业务对象与视频图像中的面部表情紧密结合，既保留了视频图像中视频主体(如主播)的主要形象和动作，又为视频图像增加了趣味性，同时还不会打扰用户正常观看视频，从而可以减少用户对视频图像中展现的业务对象的反感，而且能够在一定程度上吸引观众的注意力，提高业务对象的影响力。

实施例二

图2是示出根据本发明实施例二的第一卷积网络模型的获取方法的流程图。

上述实施例一中步骤S110的对视频图像进行人脸的面部表情检测的处理可以采用相应的特征提取算法或者使用神经网络模型如卷积网络模型等实现。本实施例中以卷积网络模型为例，对视频图像进行人脸的面部表情检测，为此，可以预先训练用于检测图像中人脸属性的第一卷积网络模型。

本实施例的视频图像的处理方法可以由任意具有数据采集、处理和传输功能的设备执行，包括但不限于移动终端和PC等，本发明实施对此不做限定。

参照图2，首先，为了对第一卷积网络模型进行训练，可以通过多种方式获取训练样本，该训练样本可以是多张包括人脸信息的样本图像，而且，该样本图像中包含有被标注的人脸属性的信息。具体处理可以参见下述步骤S210～步骤S230。

在步骤S210，获取多张包括人脸信息的样本图像，其中，样本图像包含被标注的人脸属性的信息。

其中，人脸属性可包括局部属性和全局属性，其中，局部属性包括但不限于头发颜色、头发长短、眉毛长短、眉毛浓密或稀疏、眼睛大小、眼睛睁开或闭合、鼻梁高低、嘴巴大小、嘴巴张开或闭合、是否佩戴眼镜、是否戴口罩等，全局属性包括但不限于人种、性别、年龄和表情等。样本图像可以是视频或连续拍摄的多张图像，也可以是任意图像(其中可包括包含人脸的图像和不包含人脸的图像等)。

在实施中，由于图像的分辨率越大其数据量也就越大，进行人脸属性检测时，所需要的计算资源越多，检测速度越慢，鉴于此，在本发明的一种具体实现方式中，上述样本图像可以是满足预设分辨率条件的图像。例如，上述预设分辨率条件可以是：图像的最长边不超过640个像素点，最短边不超过480个像素点等等。

样本图像可以是通过图像采集设备得到，其中，用于采集用户的人脸信息的图像采集设备可以是专用相机或集成在其他设备中的相机等。然而，实际应用中由于图像采集设备的硬件参数不同、设置不同等等，所采集的图像可能不满足上述预设分辨率条件，为得到满足上述预设分辨率条件的样本图像，在本发明的一种可选实现方式中，还可以在图像采集设备采集到图像之后，对所采集到的图像进行缩放处理，以获得符合条件的样本图像。

得到样本图像后，可以在每张样本图像中标注人脸属性的信息，例如开心、痛苦等，可以将每张样本图像中被标注的人脸属性的信息与该样本图像作为训练数据存储。

为了使得对样本图像中的人脸属性的检测更加准确，可以对样本图像中的人脸进行定位，从而得到样本图像中人脸的准确位置，具体可参见下述步骤S220的处理。

在步骤S220，对每张样本图像，检测样本图像中的人脸和人脸关键点，通过人脸关键点将样本图像中的人脸进行定位，得到人脸定位信息。

在实施中，每张人脸都有一定的特征点，比如眼角、眉毛的末端、嘴角、鼻尖等特征点，再比如人脸的边界点等，在获得了人脸关键点(即关键特征点)后，通过人脸关键点可以计算该样本图像中的人脸到预先设定的标准人脸的映射或者相似变换，将该样本图像中的人脸与上述标准人脸对齐，从而将样本图像中的人脸进行定位，得到样本图像中人脸的定位信息。

在步骤S230，将包含人脸定位信息的样本图像作为训练样本。

为了使得训练得到的第一卷积网络模型输出的检测结果更加准确，可以预先设置对第一卷积网络模型进行训练的监督信息，具体可参见下述步骤S240的处理。

在步骤S240，对人脸属性中具有大小顺序特征的属性进行编码。

其中，大小顺序的特征的属性可以为年龄、两眼睛之间的距离等。

在实施中，以年龄为例，设定标准年龄a,其编码可以为以下几种形式之一或者其组合。

形式一：编码为x₁，x₂，…x_i…，其中x_i为二值的数值，取值为0或者1，如果年龄i小于等于a，则x_i为1，如果年龄i大于a，则x_i为0。

形式二：编码为x₁，x₂，…x_i…，其中x_i为二值的数值，取值为0或者1，如果年龄i等于a除以k，则x_i为1，否则，x_i为0。其中k可以为任意正整数，其数值可以人工定义或者随机选取。

在步骤S250，将编码后的属性作为训练第一卷积网络模型的监督信息，使用训练样本对第一卷积网络模型进行训练，得到用于检测图像中人脸属性的第一卷积网络模型。

在实施中，第一卷积网络模型的前端可以包括多个卷积层、池化层和非线性层的组合，其后端可以是损耗层(如基于softmax和/或crossentropy等算法的损耗层)。

第一卷积网络模型的结构如图3所示，其中，

A为输入层，该层用于读入样本图像、人脸属性及部分人脸属性的编码等。该层可以对样本图像进行预处理，输出包括定位信息的人脸图像、人脸属性的信息或者部分人脸属性的编码等。输入层将经过预处理的人脸图像输出到卷积层，同时将经过预处理的人脸属性的信息和/或部分人脸属性的编码输入到损耗层。

B层为卷积层，其输入是经过预处理的人脸图像或者图像特征，通过预定的线性变换输出得到人脸图像的特征。

C层为非线性层，可以通过非线性函数对卷积层B输入的特征进行非线性变换，使得其输出的特征有较强的表达能力。

D为池化层，池化层可以将多个数值映射到一个数值，因此，该层不但可以进一步加强学***移(即人脸平移)不变性，提取的特征保持不变。其中，池化层的输出特征可以再次作为卷积层B的输入数据或者全连接层的输入数据。

如图3所示，卷积层B、非线性层C和池化层D最外面的矩形框表示B、C、D层可以重复一次或者多次，即卷积层B、非线性层C和池化层D组合可以重复一次或多次，其中，对于每一次，池化层的输出数据可以作为卷积层的再次输入数据。B、C、D三层的多次组合，可以更好的处理输入的样本图像，使得样本图像中的特征具有最佳的表达能力。

E层为全连接层，它对池化层的输入数据进行线性变换，将学习得到的特征投影到一个更好的子空间以利于属性预测。

F层为非线性层，与非线性层C的功能一样，对全连接层E的输入特征进行非线性变换。其输出特征可以作为损耗层G的输入数据或者再次作为全连接层E的输入数据。

如图3所示，全连接层E和非线性层F最外面的矩形框表示E层和F层可以重复一次或者多次。

G层为一个或者多个损耗层，其主要负责计算预测的人脸属性的信息和/或编码与输入的人脸属性的信息和/或编码的误差。

通过向后传递的梯度下降算法，训练得到第一卷积网络模型中的网络参数，这样可以使得输入层A只需输入图像，即可输出与输入图像中的人脸相应的人脸属性的信息，从而得到第一卷积网络模型。

通过上述过程，输入层A负责简单处理输入，卷积层B、非线性层C和池化层D的组合负责对样本图像的特征提取，全连接层E和非线性层F是提取的特征到人脸属性的信息和/或编码的映射，损耗层G负责计算预测误差。通过上述第一卷积网络模型的多层设计保证提取的特征具有丰富的表达能力，而从更好的预测人脸属性。同时，多个人脸属性的信息和编码同时连接损耗层G，可确保多个任务同时学习，共享卷积网络学到的特征。

本实施例中，通过训练得到的第一卷积网络模型，可方便后续对当前播放的包含人脸信息的视频图像进行面部表情检测，并将检测到的面部表情与对应的预定面部表情进行匹配，当两者相匹配时，确定待展现的业务对象在视频图像中的展现位置，进而在该展现位置采用计算机绘图的方式绘制业务对象，这样当业务对象用于展示广告时，与传统的视频广告方式相比，一方面，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和/或客户端的***资源；另一方面，业务对象与视频图像中的面部表情紧密结合，既保留了视频图像中视频主体(如主播)的主要形象和动作，又为视频图像增加了趣味性，同时还不会打扰用户正常观看视频，从而可以减少用户对视频图像中展现的业务对象的反感，而且能够在一定程度上吸引观众的注意力，提高业务对象的影响力。

实施例三

图4是示出根据本发明实施例三的视频图像的处理方法的流程图。本实施例中，业务对象为包含有语义信息的特效，具体地，业务对象可包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效等。视频图像为直播类视频图像，如花椒直播平台中某主播进行视频直播时的视频图像。

在步骤S410，获取当前播放的包含人脸信息的视频图像。

其中，上述步骤S410的具体处理可参见上述实施例一中步骤S110中的相关内容，在此不再赘述。

在步骤S420，基于视频图像中的人脸信息，使用预先训练的、用于检测图像中人脸属性的第一卷积网络模型，对视频图像进行人脸的面部表情检测。

在实施中，可以将获取到的包含人脸信息的视频图像输入到上述实施例二中训练得到的第一卷积网络模型中，通过第一卷积网络模型中的网络参数可以分别对视频图像进行如缩放等预处理、特征提取、映射和变换等处理，以对视频图像进行人脸的面部表情检测，得到视频图像中包含的人脸的面部表情。

在步骤S430，当确定检测到的面部表情与对应的预定面部表情相匹配时，提取与检测到的面部表情相应的人脸区域内人脸属性的特征点。

在实施中，对于包含人脸信息的每个视频图像，其中人脸中都会包含有一定的特征点，如眼睛、鼻子、嘴巴、脸部轮廓等特征点。对视频图像中的人脸进行检测并确定特征点，可以采用任意适当的相关技术中的方式实现，本发明实施例对此不作限定。例如，线性特征提取方式如PCA主成分分析、LDA线性判别分析、ICA独立成分分析等；再例如非线性特征提取方式如Kernel PCA核主成分分析、流形学习等；也可以使用训练完成的神经网络模型如本发明实施例中的卷积网络模型进行人脸属性的特征点的提取。

以视频直播为例，在进行视频直播的过程中，从直播的视频图像中检测人脸并确定人脸属性的特征点；再例如，在某一已录制完成的视频的播放过程中，从播放的视频图像中检测人脸并确定人脸属性的特征点；又例如，在某一视频的录制过程中，从录制的视频图像中检测人脸并确定人脸属性的特征点等等。

在步骤S440，根据人脸属性的特征点，确定待展现的业务对象在视频图像中的展现位置。

在实施中，在人脸属性的特征点确定后，可以以此为依据，确定待展示的业务对象在视频图像中的一个或多个展现位置。

在本实施例中，在根据目标对象的特征点确定待展示的业务对象在视频图像中的展现位置时，可行的实现方式包括：

方式一，根据人脸属性的特征点，使用预先训练的、用于确定业务对象在视频图像中的展现位置的第二卷积网络模型，确定待展现的业务对象在视频图像中的展现位置；方式二，根据人脸属性的特征点和待展现的业务对象的类型，确定待展现的业务对象在视频图像中的展现位置。

以下，分别对上述两种方式进行详细说明。

方式一

在使用方式一确定待展示的业务对象在视频图像中的展现位置时，需要预先训练一个卷积网络模型(即第二卷积网络模型)，训练完成的第二卷积网络模型具有确定业务对象在视频图像中的展现位置的功能；或者，也可以直接使用第三方已训练完成的、具有确定业务对象在视频图像中的展现位置的功能的卷积网络模型。

需要说明的是，本实施例中，着重对业务对象的训练进行说明，但本领域技术人员应当明了，第二卷积网络模型在对业务对象进行训练的同时，也可以对人脸进行训练，实现人脸和业务对象的联合训练。

当需要预先训练第二卷积网络模型时，一种可行的训练方式包括以下过程：

(1)获取训练样本的样本图像的特征向量。

其中，特征向量中包含有训练样本的样本图像中的业务对象的位置信息和/或置信度信息，以及样本图像中人脸属性对应的人脸特征向量。业务对象的置信度信息指示了业务对象展示在当前位置时，能够达到的效果(如被关注或被点击或被观看)的概率，该概率可以根据对历史数据的统计分析结果设定，也可以根据仿真实验的结果设定，还可以根据人工经验进行设定。在实际应用中，可以根据实际需要，仅对业务对象的位置信息进行训练，也可以仅对业务对象的置信度信息进行训练，还可以对二者均进行训练。对二者均进行训练，能够使得训练后的第二卷积网络模型更为有效和精准地确定业务对象的位置信息和置信度信息，以便为业务对象的展示提供依据。

第二卷积网络模型通过大量的样本图像进行训练，本发明实施例中，训练样本的样本图像可以是上述实施例二中的多张包括人脸信息的样本图像，而且需要使用包含有业务对象的业务对象样本图像对第二卷积网络模型进行训练，本领域技术人员应当明了的是，用来训练的业务对象样本图像中，除了包含业务对象外，也应当包含人脸信息。此外，本发明实施例中的业务对象样本图像中的业务对象可以被预先标注位置信息，或者置信度信息，或者二种信息都有。当然，在实际应用中，这些信息也可以通过其它途径获取。而通过预先在对业务对象进行相应信息的标注，可以有效节约数据处理的数据和交互次数，提高数据处理效率。

将具有业务对象的位置信息和/或置信度信息，以及某种人脸属性的样本图像作为训练样本，对其进行特征向量提取，获得包含有业务对象的位置信息和/或置信度信息的特征向量，以及人脸属性对应的人脸特征向量。

可选地，可以使用第二卷积网络模型对人脸和业务对象同时进行训练，在此情况下，样本图像的特征向量中，也应当包含人脸的特征。

对特征向量的提取可以采用相关技术中的适当方式实现，本发明实施例在此不再赘述。

(2)对特征向量进行卷积处理，获取特征向量卷积结果。

在实施中，获取的特征向量卷积结果中包含有业务对象的位置信息和/或置信度信息，人脸属性对应的人脸特征向量对应的特征向量卷积结果。在对人脸和业务对象进行联合训练的情况下，特征向量卷积结果中还包含人脸信息。

对特征向量的卷积处理次数可以根据实际需要进行设定，也即，第二卷积网络模型中，卷积层的层数根据实际需要进行设置，在此不再赘述。

卷积结果是对特征向量进行了特征提取后的结果，该结果能够有效表征视频图像中人脸的特征对应的业务对象。

本发明实施例中，当特征向量中既包含业务对象的位置信息，又包含业务对象的置信度信息时，也即，对业务对象的位置信息和置信度信息均进行了训练的情况下，该特征向量卷积结果在后续分别进行收敛条件判断时共享，无须进行重复处理和计算，减少了由数据处理引起的资源损耗，提高了数据处理速度和效率。

(3)判断特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断特征向量卷积结果中对应的人脸特征向量是否满足人脸收敛条件。

其中，收敛条件由本领域技术人员根据实际需求适当设定。当信息满足收敛条件时，可以认为第二卷积网络模型中的网络参数设置适当；当信息不能满足收敛条件时，可以认为第二卷积网络模型中的网络参数设置不适当，需要对其进行调整，该调整是一个迭代的过程，直至使用调整后的网络参数对特征向量进行卷积处理的结果满足收敛条件。

一种可行方式中，收敛条件可以根据预设的标准位置和/或预设的标准置信度进行设定，如，将特征向量卷积结果中业务对象的位置信息指示的位置与预设的标准位置之间的距离是否满足一定阈值作为业务对象的位置信息的收敛条件；将特征向量卷积结果中业务对象的置信度信息指示的置信度与预设的标准置信度之间的差别是否满足一定阈值作为业务对象的置信度信息的收敛条件等。

其中，优选地，预设的标准位置可以是对训练样本的样本图像中的业务对象的位置进行平均处理后获得的平均位置；预设的标准置信度可以是对训练样本的样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。因样本图像为待训练样本且数据量庞大，可依据训练样本的样本图像中的业务对象的位置和/或置信度设定标准位置和/或标准置信度，这样设定的标准位置和标准置信度也更为客观和精确。

在具体进行特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足收敛条件的判断时，一种可行的方式包括：

获取特征向量卷积结果中对应的业务对象的位置信息，通过计算对应的业务对象的位置信息指示的位置与预设的标准位置之间的欧式距离，得到对应的业务对象的位置信息指示的位置与预设的标准位置之间的第一距离，根据第一距离判断对应的业务对象的位置信息是否满足收敛条件；

和/或，

获取特征向量卷积结果中对应的业务对象的置信度信息，计算对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的欧式距离，得到对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的第二距离，根据第二距离判断对应的业务对象的置信度信息是否满足收敛条件。其中，采用欧式距离的方式，实现简单且能够有效指示收敛条件是否被满足。但不限于此，其它方式，如马式距离，巴式距离等也同样适用。

优选地，如前所述，预设的标准位置为对训练样本的样本图像中的业务对象的位置进行平均处理后获得的平均位置；和/或，预设的标准置信度为对训练样本的样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。

对于判断该特征向量卷积结果中对应的人脸特征向量是否满足人脸收敛条件可以由本领域技术人员根据实际情况进行设定，本发明实施例对此不做限定。

(4)若都满足，则完成对第二卷积网络模型的训练；否则，调整第二卷积网络模型的网络参数并根据调整后的第二卷积网络模型的网络参数对第二卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息以及人脸特征向量均满足相应的收敛条件。

通过对第二卷积网络模型进行上述训练，第二卷积网络模型可以对基于人脸进行展示的业务对象的展现位置进行特征提取和分类，从而具有确定业务对象在视频图像中的展现位置的功能。其中，当展现位置包括多个时，通过上述业务对象置信度的训练，第二卷积网络模型还可以确定出多个展现位置中的展示效果的优劣顺序，从而确定最优的展现位置。在后续应用中，当需要展示业务对象时，根据视频中的当前图像即可确定出有效的展现位置。

此外，在对第二卷积网络模型进行上述训练之前，还可以预先对样本图像进行预处理，包括：获取多个样本图像，其中，每个样本图像中包含有业务对象的标注信息；根据标注信息确定业务对象的位置，判断确定的业务对象的位置与预设位置的距离是否小于或等于设定阈值；将小于或等于设定阈值的业务对象对应的样本图像，确定为训练样本的样本图像。其中，预设位置和设定阈值均可以由本领域技术人员采用任意适当方式进行适当设置，如根据数据统计分析结果或者相关距离计算公式或者人工经验等，本发明实施例对此不作限定。

通过预先对业务对象样本图像进行预处理，可以过滤掉不符合条件的样本图像，以保证训练结果的准确性。

通过上述过程实现了第二卷积网络模型的训练，训练完成的第二卷积网络模型可以用来确定业务对象在视频图像中的展现位置。例如，在视频直播过程中，若主播点击业务对象指示进行业务对象展示时，在第二卷积网络模型获得了直播的视频图像中主播的面部特征点后，可以指示出展示业务对象的最优位置如主播的额头位置，进而控制直播应用在该位置展示业务对象；或者，在视频直播过程中，若主播点击业务对象指示进行业务对象展示时，第二卷积网络模型可以直接根据直播的视频图像确定业务对象的展现位置。

方式二

根据人脸属性的特征点和待展现的业务对象的类型，确定待展现的业务对象在视频图像中的展现位置。

在实施中，在获取了人脸属性的特征点之后，可以按照设定的规则确定待展示的业务对象的展现位置。其中，确定待展示的业务对象的展现位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域等。

在确定了展现位置后，可以进一步确定待展示的业务对象在视频图像中的展现位置。例如，以展现位置的中心点为业务对象的展现位置中心点进行业务对象的展示；再例如，将展现位置对应的展现区域中的某一坐标位置确定为展现位置的中心点等，本发明实施例对此不作限定。

在一种优选的实施方案中，在确定待展示的业务对象在视频图像中的展现位置时，不仅根据人脸属性的特征点，还根据待展示的业务对象的类型，确定待展示的业务对象在视频图像中的展现位置。其中，业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。但不限于此，业务对象的类型还可以为其它适当类型，如虚拟瓶盖类型，虚拟杯子类型、文字类型等等。

由此，根据业务对象的类型，可以以人脸属性的特征点为参考，为业务对象选择适当的展现位置。

此外，在根据人脸属性的特征点和待展示的业务对象的类型，获得待展示的业务对象在视频图像中的多个展现位置的情况下，可以从多个展现位置中选择至少一个展现位置。例如，对于文字类型的业务对象，可以展示在背景区域，也可以展示在人物的额头或身体区域等。

此外，可以预先存储面部表情与展现位置的对应关系，在确定检测到的面部表情与对应的预定面部表情相匹配时，可从预先存储的面部表情与展现位置的对应关系中，获取预定面部表情对应的目标展现位置作为待展现的业务对象在视频图像中的展现位置。其中，需要说明的是，尽管存在上述面部表情与展现位置的对应关系，但是，面部表情与展现位置并没有必然关系，面部表情仅仅是触发业务对象展现的一种方式，而且展现位置与人脸也不存在必然关系，也即是业务对象可以展现在人脸的某一个区域，也可以显示在人脸之外的其它区域，如视频图像的背景区域等。

在步骤S450，在展现位置采用计算机绘图方式绘制业务对象。

当业务对象为包含有语义信息的贴纸，如广告贴纸时，在进行业务对象的绘制之前，可以先获取业务对象的相关信息，如业务对象的标识、大小等。在确定了展现位置后，可以根据展现位置的坐标，对业务对象进行缩放、旋转等调整，然后，通过相应的绘图方式如OpenGL方式对业务对象进行绘制。在某些情况下，广告还可以以三维特效形式展示，如通过粒子特效方式展示广告的文字或LOGO等。例如，通过虚拟瓶盖类型的广告贴纸展示某一产品的名称，吸引观众观看，提高广告投放和展示效率。

本发明实施例提供的视频图像的处理方法，当业务对象用于展示广告时，与传统的视频广告方式相比，一方面，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和/或客户端的***资源；另一方面，业务对象与视频图像中的面部表情紧密结合，既保留了视频图像中视频主体(如主播)的主要形象和动作，又为视频图像增加了趣味性，同时还不会打扰用户正常观看视频，从而可以减少用户对视频图像中展现的业务对象的反感，而且能够在一定程度上吸引观众的注意力，提高业务对象的影响力。

实施例四

图5是示出根据本发明实施例四的视频图像的处理方法的流程图。

本实施例以业务对象为包含有广告信息的二维贴纸特效，具体为广告贴纸为例，对本发明实施例的视频图像处理方案进行说明。

本实施例的视频图像的处理方法包括以下步骤：

在步骤S501，获取多张包括人脸信息的样本图像作为训练样本，其中，样本图像包含被标注的人脸属性的信息。

在步骤S502，对人脸属性中具有大小顺序特征的属性进行编码。

在步骤S503，将编码后的属性作为训练第一卷积网络模型的监督信息，使用训练样本对第一卷积网络模型进行训练，得到用于检测图像中人脸属性的第一卷积网络模型。

上述步骤S501～步骤S503的步骤内容与上述实施例二中的步骤内容相同，在此不再赘述。

在步骤S504，获取上述训练样本的样本图像的特征向量。

其中，特征向量中包含有业务对象样本图像中的业务对象的位置信息和/或置信度信息，以及样本图像中人脸属性对应的人脸特征向量。

其中，每一张样本图像中人脸属性(即人脸的面部表情)可以是在对第一卷积网络模型进行训练时确定。

在实施中，样本图像中存在一些不符合第二卷积网络模型的训练标准的样本图像，需要通过对样本图像的预处理将这部分样本图像过滤掉。

首先，本实施例中，每个样本图像中都包含有业务对象，且每个业务对象都标注有位置信息和置信度信息。一种可行的实施方案中，将业务对象的中心点的位置信息作为该业务对象的位置信息。本步骤中，仅根据业务对象的位置信息对样本图像进行过滤。获得位置信息指示的位置的坐标，将该坐标与预设的该类型的业务对象的位置坐标进行比对，计算二者的位置方差。若该位置方差小于或等于设定的阈值，则该样本图像可以作为训练样本的样本图像；若该位置方差大于设定的阈值，则过滤掉该业务对象样本图像。其中，预设的位置坐标和设定的阈值均可以由本领域技术人员根据实际情况适当设置，例如，因为一般用于第二卷积网络模型训练的图像具有相同的大小，因此设定的阈值可以为图像长或宽的1/20～1/5，优选地，可以为图像长或宽的1/10。

此外，还可以对确定的训练样本的样本图像中的业务对象的位置和置信度进行平均，获取平均位置和平均置信度，该平均位置和平均置信度可以作为后续确定收敛条件的依据。

当以业务对象为广告贴纸为实例时，本实施例中用于训练的样本图像需要标注有最优广告位置的坐标和该广告位的置信度。其中，最优广告位置可以在人脸、前背景等地方标注，因此可以实现面部特征点、前背景等地方的广告位的联合训练，这相对于基于面部表情等某一项技术单独训练的方案，有利于节省计算资源。置信度的大小表示了这个广告位是最优广告位的概率，例如，如果这个广告位是被遮挡多，则置信度低。

在步骤S505，对特征向量进行卷积处理，获取特征向量卷积结果。

需要说明的是，对该特征向量进行卷积处理时，既需要对样本图像中的业务对象的位置信息和/或置信度信息对应的特征向量进行卷积处理，还需要对每一张样本图像中人脸属性对应的人脸特征向量进行卷积处理，分别得到相应的特征向量卷积结果。

在步骤S506，判断特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断特征向量卷积结果中对应的人脸特征向量是否满足人脸收敛条件。

在步骤S507，若都满足，则完成对第二卷积网络模型的训练；否则，调整第二卷积网络模型的网络参数并根据调整后的第二卷积网络模型的网络参数对第二卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息以及人脸特征向量均满足相应的收敛条件。

上述步骤S505～步骤S507的具体处理可以参见上述实施例三中的相关内容，在此不再赘述。

通过上述步骤S504～步骤S507的处理可以得到训练完成的第二卷积网络模型。其中，第二卷积网络模型的结构可以参考上述实施例二中第一卷积网络模型的结构，在此不再赘述。

通过上述训练得到的第一卷积网络模型和第二卷积网络模型可以对视频图像进行相应的处理，具体可以包括以下步骤S508～步骤S512。

在步骤S508，获取当前播放的包含人脸信息的视频图像。

在步骤S509，基于视频图像中的人脸信息，使用预先训练的、用于检测图像中人脸属性的第一卷积网络模型，对视频图像进行人脸的面部表情检测。

在步骤S510，当确定检测到的面部表情与对应的预定面部表情相匹配时，提取与检测到的面部表情相应的人脸区域内人脸属性的特征点。

在步骤S511，根据人脸属性的特征点，使用预先训练的、用于确定业务对象在视频图像中的展现位置的第二卷积网络模型，确定待展现的业务对象在视频图像中的展现位置。

在步骤S512，在展现位置采用计算机绘图方式绘制业务对象。

随着互联网直播和短视频分享的兴起，越来越多的视频以直播或者短视频的方式出现。这类视频常常以人物为主角(单一人物或少量人物)，以人物加简单背景为主要场景，观众主要在手机等移动终端上观看。在此情况下，对于某些业务对象的投放(如广告投放)来说，一方面，由于移动终端的屏幕展示区域有限，如果以传统的固定位置放置广告，往往占用主要的用户体验区域，容易引起用户反感；另一方面，对于主播类直播应用，由于直播的即时性，传统的***固定时长的广告会明显打扰用户与主播交流的连贯性，影响用户观看体验；再一方面，对于短视频广告，由于直播或者短视频的内容时长本来就较短，也给采用传统方式***固定时长的广告带来了困难。而通过本实施例提供的方案，可以实时对视频播放过程中的视频图像进行检测，给出效果最优的广告投放位置，且不影响用户的观看体验，投放效果更好；通过将业务对象与视频播放相结合，从而无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和/或客户端的***资源；而且，业务对象与视频图像中的面部表情紧密结合，既保留了视频图像中视频主体(如主播)的主要形象和动作，又为视频图像增加了趣味性，同时还不会打扰用户正常观看视频，从而可以减少用户对视频图像中展现的业务对象的反感，而且能够在一定程度上吸引观众的注意力，提高业务对象的影响力。

实施例五

基于相同的技术构思，图6是示出根据本发明实施例五的视频图像的处理装置的逻辑框图。参照图6，该视频图像的处理装置包括视频图像检测模块601、展现位置确定模块602和业务对象绘制模块603。

视频图像检测模块601，用于对当前播放的包含人脸信息的视频图像进行人脸的面部表情检测。

展现位置确定模块602，用于当确定检测到的面部表情与对应的预定面部表情相匹配时，确定待展现的业务对象在视频图像中的展现位置。

业务对象绘制模块603，用于在展现位置采用计算机绘图方式绘制业务对象。

通过本实施例提供的视频图像的处理装置，通过对当前播放的包含人脸信息的视频图像进行面部表情检测，并将检测到的面部表情与对应的预定面部表情进行匹配，当两者相匹配时，确定待展现的业务对象在视频图像中的展现位置，进而在该展现位置采用计算机绘图的方式绘制业务对象，这样当业务对象用于展示广告时，与传统的视频广告方式相比，一方面，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和/或客户端的***资源；另一方面，业务对象与视频图像中的面部表情紧密结合，既保留了视频图像中视频主体(如主播)的主要形象和动作，又为视频图像增加了趣味性，同时还不会打扰用户正常观看视频，从而可以减少用户对视频图像中展现的业务对象的反感，而且能够在一定程度上吸引观众的注意力，提高业务对象的影响力。

实施例六

基于相同的技术构思，图7是示出根据本发明实施例六的视频图像的处理装置的逻辑框图。

本实施例的视频图像的处理装置包括：视频图像检测模块601，用于对当前播放的包含人脸信息的视频图像进行人脸的面部表情检测。展现位置确定模块602，用于当确定检测到的面部表情与对应的预定面部表情相匹配时，确定待展现的业务对象在该视频图像中的展现位置。业务对象绘制模块603，用于在该展现位置采用计算机绘图方式绘制业务对象。

可选地，视频图像检测模块601，用于基于当前播放的包含人脸信息的视频图像中的人脸信息，使用预先训练的、用于检测图像中人脸属性的第一卷积网络模型，对视频图像进行人脸的面部表情检测。

可选地，该装置还包括：训练样本获取模块604，用于获取多张包括人脸信息的样本图像作为训练样本，其中，样本图像包含被标注的人脸属性的信息；编码模块605，用于对人脸属性中具有大小顺序特征的属性进行编码；第一卷积网络模型确定模块606，用于将编码后的属性作为训练第一卷积网络模型的监督信息，使用训练样本对第一卷积网络模型进行训练，得到用于检测图像中人脸属性的第一卷积网络模型。

可选地，训练样本获取模块604包括：样本图像获取单元，用于获取多张包括人脸信息的样本图像；人脸定位信息确定单元，用于对每张样本图像，检测样本图像中的人脸和人脸关键点，通过人脸关键点将样本图像中的人脸进行定位，得到人脸定位信息；训练样本确定单元，用于将包含人脸定位信息的样本图像作为训练样本。

可选地，展现位置确定模块602，包括：特征点提取单元，用于提取与检测到的面部表情相应的人脸区域内人脸属性的特征点；展现位置确定单元，用于根据人脸属性的特征点，确定待展现的业务对象在视频图像中的展现位置。

可选地，展现位置确定模块602，用于根据人脸属性的特征点，使用预先训练的、用于确定业务对象在视频图像中的展现位置的第二卷积网络模型，确定待展现的业务对象在视频图像中的展现位置。

可选地，装置还包括：特征向量获取模块607，用于获取训练样本的样本图像的特征向量，其中，特征向量中包含有样本图像中的业务对象的位置信息和/或置信度信息，以及样本图像中人脸属性对应的人脸特征向量；卷积模块608，用于对特征向量进行卷积处理，获取特征向量卷积结果；收敛条件判断模块609，用于判断特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断特征向量卷积结果中对应的人脸特征向量是否满足人脸收敛条件；模型训练模块610，用于若都满足，则完成对第二卷积网络模型的训练；否则，调整第二卷积网络模型的网络参数并根据调整后的第二卷积网络模型的网络参数对第二卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息以及人脸特征向量均满足相应的收敛条件。

可选地，展现位置确定模块602，用于根据人脸属性的特征点和待展现的业务对象的类型，确定待展现的业务对象在视频图像中的展现位置。

可选地，展现位置确定模块602包括：展现位置获取单元，用于根据人脸属性的特征点和待展现的业务对象的类型，获得待展现的业务对象在视频图像中的多个展现位置；展现位置选择单元，用于从多个展现位置中选择至少一个展现位置。

可选地，展现位置确定模块602，用于从预先存储的面部表情与展现位置的对应关系中，获取预定面部表情对应的目标展现位置作为待展现的业务对象在视频图像中的展现位置。

可选地，业务对象为包含有语义信息的特效；视频图像为直播类视频图像。

可选地，业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。

可选地，展现位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域。

可选地，业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。

可选地，面部表情包括以下至少之一：开心、愤怒、痛苦和悲伤。

实施例七

参照图8，示出了根据本发明实施例七的一种终端设备的结构示意图，本发明具体实施例并不对终端设备的具体实现做限定。

如图8所示，该终端设备可以包括：处理器(processor)802、通信接口(Communications Interface)804、存储器(memory)806、以及通信总线808。

其中：

处理器802、通信接口804、以及存储器806通过通信总线808完成相互间的通信。

通信接口804，用于与其它设备比如其它客户端或服务器等的网元通信。

处理器802，用于执行程序810，具体可以执行上述方法实施例中的相关步骤。

具体地，程序810可以包括程序代码，该程序代码包括计算机操作指令。

处理器810可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路，或者是图形处理器GPU(Graphics Processing Unit)。终端设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU，或者，一个或多个GPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个GPU。

存储器806，用于存放程序810。存储器806可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序810具体可以用于使得处理器802执行以下操作：对当前播放的包含人脸信息的视频图像进行人脸的面部表情检测；当确定检测到的面部表情与对应的预定面部表情相匹配时，确定待展现的业务对象在该视频图像中的展现位置；在该展现位置采用计算机绘图方式绘制该业务对象。

在一种可选的实施方式中，程序810还用于使得处理器802在对当前播放的包含人脸信息的视频图像进行人脸的面部表情检测，包括：基于当前播放的包含人脸信息的视频图像中的人脸信息，使用预先训练的、用于检测图像中人脸属性的第一卷积网络模型，对该视频图像进行人脸的面部表情检测。

在一种可选的实施方式中，程序810还用于使得处理器802在对该第一卷积网络模型进行预先训练，包括：获取多张包括人脸信息的样本图像作为训练样本，其中，该样本图像包含被标注的人脸属性的信息；对该人脸属性中具有大小顺序特征的属性进行编码；将编码后的属性作为训练该第一卷积网络模型的监督信息，使用该训练样本对该第一卷积网络模型进行训练，得到用于检测图像中人脸属性的第一卷积网络模型。

在一种可选的实施方式中，程序810还用于使得处理器802在获取多张包括人脸信息的样本图像作为训练样本，包括：获取多张包括人脸信息的样本图像；对每张该样本图像，检测样本图像中的人脸和人脸关键点，通过该人脸关键点将样本图像中的人脸进行定位，得到人脸定位信息；将包含该人脸定位信息的该样本图像作为训练样本。

在一种可选的实施方式中，程序810还用于使得处理器802在确定待展现的业务对象在该视频图像中的展现位置，包括：提取与检测到的面部表情相应的人脸区域内人脸属性的特征点；根据该人脸属性的特征点，确定该待展现的业务对象在该视频图像中的展现位置。

在一种可选的实施方式中，程序810还用于使得处理器802在根据该人脸属性的特征点，确定该待展现的业务对象在该视频图像中的展现位置，包括：根据该人脸属性的特征点，使用预先训练的、用于确定业务对象在视频图像中的展现位置的第二卷积网络模型，确定该待展现的业务对象在该视频图像中的展现位置。

在一种可选的实施方式中，程序810还用于使得处理器802在对该第二卷积网络模型的预先训练，包括：获取训练样本的样本图像的特征向量，其中，该特征向量中包含有样本图像中的业务对象的位置信息和/或置信度信息，以及样本图像中人脸属性对应的人脸特征向量；对该特征向量进行卷积处理，获取特征向量卷积结果；判断特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断特征向量卷积结果中对应的人脸特征向量是否满足人脸收敛条件；若都满足，则完成对第二卷积网络模型的训练；否则，调整第二卷积网络模型的网络参数并根据调整后的第二卷积网络模型的网络参数对第二卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息以及人脸特征向量均满足相应的收敛条件。

在一种可选的实施方式中，程序810还用于使得处理器802在根据该人脸属性的特征点，确定该待展现的业务对象在该视频图像中的展现位置，包括：根据该人脸属性的特征点和该待展现的业务对象的类型，确定待展现的业务对象在该视频图像中的展现位置。

在一种可选的实施方式中，程序810还用于使得处理器802在该人脸属性的特征点和该待展现的业务对象的类型，确定待展现的业务对象在该视频图像中的展现位置，包括：根据该人脸属性的特征点和该待展现的业务对象的类型，获得待展现的业务对象在该视频图像中的多个展现位置；从该多个展现位置中选择至少一个展现位置。

在一种可选的实施方式中，程序810还用于使得处理器802在确定待展现的业务对象在该视频图像中的展现位置，包括：从预先存储的面部表情与展现位置的对应关系中，获取该预定面部表情对应的目标展现位置作为该待展现的业务对象在该视频图像中的展现位置。

在一种可选的实施方式中，业务对象为包含有语义信息的特效；视频图像为直播类视频图像。

在一种可选的实施方式中，业务对象包括包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。

在一种可选的实施方式中，展现位置包括以下至少之一：视频图像中人物的头发区域、额头区域、脸颊区域、下巴区域、头部以外的身体区域、视频图像中的背景区域、视频图像中以手部所在的区域为中心的设定范围内的区域、视频图像中预先设定的区域。

在一种可选的实施方式中，业务对象的类型包括以下至少之一：额头贴片类型、脸颊贴片类型、下巴贴片类型、虚拟帽子类型、虚拟服装类型、虚拟妆容类型、虚拟头饰类型、虚拟发饰类型、虚拟首饰类型。

在一种可选的实施方式中，面部表情包括以下至少之一：开心、愤怒、痛苦和悲伤。

通过本实施例提供的终端设备，通过对当前播放的包含人脸信息的视频图像进行面部表情检测，并将检测到的面部表情与对应的预定面部表情进行匹配，当两者相匹配时，确定待展现的业务对象在视频图像中的展现位置，进而在该展现位置采用计算机绘图的方式绘制业务对象，这样当业务对象用于展示广告时，与传统的视频广告方式相比，一方面，该业务对象与视频播放相结合，无须通过网络传输与视频无关的额外广告视频数据，节约了网络资源和/或客户端的***资源；另一方面，业务对象与视频图像中的面部表情紧密结合，既保留了视频图像中视频主体(如主播)的主要形象和动作，又为视频图像增加了趣味性，同时还不会打扰用户正常观看视频，从而可以减少用户对视频图像中展现的业务对象的反感，而且能够在一定程度上吸引观众的注意力，提高业务对象的影响力。

需要指出，根据实施的需要，可将本申请中描述的各个步骤/部件拆分为更多步骤/部件，也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件，以实现本发明的目的。

上述根据本发明的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频图像的处理方法，其特征在于，所述方法包括：

对当前播放的包含人脸信息的视频图像进行人脸的面部表情检测；

当确定检测到的面部表情与对应的预定面部表情相匹配时，确定待展现的业务对象在所述视频图像中的展现位置；

在所述展现位置采用计算机绘图方式绘制所述业务对象。

2.根据权利要求1所述的方法，其特征在于，所述对当前播放的包含人脸信息的视频图像进行人脸的面部表情检测，包括：

基于所述视频图像中的人脸信息，使用预先训练的、用于检测图像中人脸属性的第一卷积网络模型，对所述视频图像进行人脸的面部表情检测。

3.根据权利要求2所述的方法，其特征在于，对所述第一卷积网络模型进行预先训练，包括：

获取多张包括人脸信息的样本图像作为训练样本，其中，所述样本图像包含被标注的人脸属性的信息；

对所述人脸属性中具有大小顺序特征的属性进行编码；

将编码后的属性作为训练所述第一卷积网络模型的监督信息，使用所述训练样本对所述第一卷积网络模型进行训练，得到用于检测图像中人脸属性的第一卷积网络模型。

4.根据权利要求3所述的方法，其特征在于，获取多张包括人脸信息的样本图像作为训练样本，包括：

获取多张包括人脸信息的样本图像；

对每张所述样本图像，检测样本图像中的人脸和人脸关键点，通过所述人脸关键点将样本图像中的人脸进行定位，得到人脸定位信息；

将包含所述人脸定位信息的所述样本图像作为训练样本。

5.根据权利要求1-4任一所述的方法，其特征在于，所述确定待展现的业务对象在所述视频图像中的展现位置，包括：

提取与检测到的面部表情相应的人脸区域内人脸属性的特征点；

根据所述人脸属性的特征点，确定所述待展现的业务对象在所述视频图像中的展现位置。

6.根据权利要求5所述的方法，其特征在于，所述根据所述人脸属性的特征点，确定所述待展现的业务对象在所述视频图像中的展现位置，包括：

根据所述人脸属性的特征点，使用预先训练的、用于确定业务对象在视频图像中的展现位置的第二卷积网络模型，确定所述待展现的业务对象在所述视频图像中的展现位置。

7.根据权利要求6所述的方法，其特征在于，对所述第二卷积网络模型的预先训练，包括：

获取训练样本的样本图像的特征向量，其中，所述特征向量中包含有所述样本图像中的业务对象的位置信息和/或置信度信息，以及样本图像中人脸属性对应的人脸特征向量；

对所述特征向量进行卷积处理，获取特征向量卷积结果；

判断所述特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断所述特征向量卷积结果中对应的人脸特征向量是否满足人脸收敛条件；

若都满足，则完成对所述第二卷积网络模型的训练；

否则，调整第二卷积网络模型的网络参数并根据调整后的第二卷积网络模型的网络参数对第二卷积网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息以及所述人脸特征向量均满足相应的收敛条件。

8.根据权利要求5-7任一所述的方法，其特征在于，所述根据所述人脸属性的特征点，确定所述待展现的业务对象在所述视频图像中的展现位置，包括：

根据所述人脸属性的特征点和所述待展现的业务对象的类型，确定待展现的业务对象在所述视频图像中的展现位置。

9.一种视频图像的处理装置，其特征在于，所述装置包括：

视频图像检测模块，用于对当前播放的包含人脸信息的视频图像进行人脸的面部表情检测；

展现位置确定模块，用于当确定检测到的面部表情与对应的预定面部表情相匹配时，确定待展现的业务对象在所述视频图像中的展现位置；

业务对象绘制模块，用于在所述展现位置采用计算机绘图方式绘制所述业务对象。

10.一种终端设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1至8任一项所述的视频图像的处理方法对应的操作。