WO2018033156A1

WO2018033156A1 - 视频图像的处理方法、装置和电子设备

Info

Publication number: WO2018033156A1
Application number: PCT/CN2017/098216
Authority: WO
Inventors: 栾青; 石建萍
Original assignee: 北京市商汤科技开发有限公司
Priority date: 2016-08-19
Filing date: 2017-08-21
Publication date: 2018-02-22
Also published as: US10580179B2; US20180122114A1; US20200111241A1; US10776970B2

Abstract

本申请实施例提供了一种视频图像的处理方法、装置和电子设备，涉及人工智能技术领域，其中，所述方法包括：获取待处理的视频图像和待展示的业务对象；确定所述视频图像的背景区域，采用计算机绘图方式在所述视频图像的背景区域绘制所述业务对象。本申请实施例可实现业务对象在视频图像的背景区域展示，有利于避免业务对象遮挡前景区域，不影响观众的正常视频观看体验，不易引起观众反感，有利于实现预想的业务对象展示效果。

Description

视频图像的处理方法、装置和电子设备

本申请要求在2016年08月19日提交中国专利局、申请号为CN201610694814.9、发明名称为“图像前背景分割及网络模型训练、图像处理方法和装置”、2016年08月19日提交中国专利局、申请号为CN201610694601.6、发明名称为“视频图像的处理方法、装置和终端设备”、和2016年08月19日提交中国专利局、申请号为CN201610697316.X、发明名称为“视频图像处理方法、装置和终端设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及人工智能技术，尤其涉及一种视频图像的处理方法、装置和电子设备。

背景技术

随着互联网技术的发展，人们越来越多地使用互联网观看视频，互联网视频为许多新的业务提供了商机。互联网视频已成为重要的业务流量入口，并且被认为是广告植入的优质资源。

现有视频广告主要通过植入的方式，一种常见的植入方式，是在视频播放之前、或者视频播放的某个时间***固定时长的广告，或者在视频播放的区域及其周边区域固定位置放置广告。

发明内容

本申请实施例提供了视频图像的处理技术方案。

根据本申请实施例的一个方面，提供了一种视频图像的处理方法，包括：获取待处理的视频图像和待展示的业务对象；确定所述视频图像的背景区域；采用计算机绘图方式在所述视频图像的背景区域绘制所述业务对象。

根据本申请实施例的另一方面，还提供了一种视频图像的处理装置，包括：获取模块，用于获取待处理的视频图像和待展示的业务对象；背景区域确定模块，用于确定所述视频图像的背景区域；绘制模块，用于采用计算机绘图方式在所述视频图像的背景区域绘制所述业务对象。

根据本申请实施例的又一方面，还提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存储至少一可执行指令，所述可执行指令使所述处理器执行本申请任一实施例所述的视频图像的处理方法对应的操作。

根据本申请实施例的又一方面，还提供了另一种电子设备，包括：处理器和本申请任一实施例所述的视频图像的处理装置；

在处理器运行所述视频图像的处理装置时，本申请任一实施例所述的视频图像的处理装置中的单元被运行。

根据本申请实施例的再一方面，还提供了一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现本申请任一实施例所述的视频图像的处理方法中各步骤的指令。

根据本申请实施例的还一方面，还提供了一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时实现本申请任一实施例所述的视频图像的处理方法中各步骤的操作。

根据本申请实施例提供的技术方案，获取待处理的视频图像和待展示的业务对象，确定待处理的视频图像的背景区域，采用计算机绘图方式在视频图像的背景区域绘制业务对象，实现业务对象在视频图像的背景区域展示，可以避免业务对象遮挡前景区域，不影响观众的正常视频观看体验，不易引起观众反感，有利于实现预想的业务对象展示效果。

下面通过附图和实施例，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施例，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1是本申请实施例视频图像的处理方法一实施例的流程图；

图2是本申请视频图像的处理方法另一实施例的流程图；

图3是本申请视频图像的处理方法又一实施例的流程图；

图4是本申请视频图像的处理方法再一实施例的流程图；

图5是本申请视频图像的处理方法还一实施例的流程图；

图6是本申请视频图像的处理装置一实施例的结构框图；

图7是本申请视频图像的处理装置另一实施例的结构框图；

图8是本申请电子设备一实施例的结构示意图；

图9为本申请电子设备另一实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本领域技术人员可以理解，本申请实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

本申请实施例可以应用于终端设备、计算机***、服务器等电子设备，其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

图1是本申请实施例视频图像的处理方法一实施例的流程图。本申请各实施例视频图像的处理方法可以示例性地由任意具有数据采集、处理和传输功能的设备执行，包括但不限于终端设备、个人计算机(PC)、服务器等电子设备。本申请实施例不对实现本申请实施例视频图像的处理方法的设备进行限制。参照图1，本实施例视频图像的处理方法包括：

步骤S100：获取待处理的视频图像和待展示的业务对象。

例如，在直播场景中，获取当前正在显示的视频图像，即直播类视频图像；再如，在视频录制场景中，获取当前正在录制的视频图像；又如，在录制完成的视频中，获取当前播放的视频图像等。另外，本发明各实施例中的视频图像还可以是静态图像。其中，本实施例对视频图像类型、获取方式和具体获取手段不作限制。

另外，本申请各实施例中以对一张视频图像的处理为例，但本领域技术人员应当明了，对于多张视频图像或视频流中的视频图像序列均可参照本申请各实施例进行视频图像的处理。

本申请各实施例中，待展示的业务对象是根据一定的业务需求而创建的、可以在视频图像中展示的对象。在一个可选示例中，业务对象例如可以包括但不限于以下任意一项或多项：包含有语义信息(例如广告、娱乐、天气预报、交通预报、宠物等信息)的特效(可称为目标特效)，视频(可称为目标视频)，图像(可称为目标图像)等，其中目标特效例如可以是三维(3D)形式的特效，如使用3D特效形式展示的广告等3D形式的广告特效；也可以是二维(2D)形式的贴纸，如使用贴纸形式展示的广告等2D形式的广告贴纸特效；还可以是粒子特效等。例如，目标视频可以为景象视频，既可以为录制完毕的景象视频，又可以为正在直播的景象视频；目标视频还可以为体育视频，既可以为录制完毕的体育视频，又可以为正在直播的体育视频。但不限于此，其它形式的业务对象也同样适用本申请各实施例的技术方案，如应用(APP)或应用的文字说明或介绍，或者一定形式的与视频观众交互的对象(如电子宠物)等，本实施例对目标视频的具体形式和内容不做限制。

本申请各实施例中，对待展示的业务对象的获取过程可以与待处理的视频图像的获取过程同时执行，也可以在待处理的视频图像的获取过程之后或者之前执行，本实施例对待展示的业务对象的获取过程在本实施例中的执行顺序不做限制。

在一个可选示例中，步骤S100可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的获取模块600执行。

步骤S102：确定视频图像的背景区域。

在本申请各实施例的一个可选示例中，确定视频图像的背景区域时，可以从视频图像中检测视频图像的前景区域和背景区域；或者，可以从视频图像中直接检测视频图像的背景区域；或者可以从视频图像中检测视频图像的前景区域，然后将视频图像中前景区域以外的区域确定为该视频图像的背景区域。本实施例对确定视频图像的前景区域的技术手段不做限制。

在本申请各实施例中，在视频直播场景中，直播类视频图像的前景区域包括人物所在的区域，直播类视频图像的背景区域包括除了人物所在的区域之外的至少局部区域。

在一个可选示例中，步骤S102可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的背景区域确定模块602执行。

步骤S104：采用计算机绘图方式在视频图像的背景区域绘制业务对象。

在确定了视频图像的背景区域以后，采用计算机绘图方式将业务对象绘制在视频图像的背景区域例如，可以采用计算机绘图方式将业务对象绘制在视频图像的背景区域，即采用计算机绘图方式将业务对象绘制在视频图像的整个背景区域或者部分背景区域。

其中，采用计算机绘图方式在确定出的背景区域绘制业务对象，可以通过适当的计算机图形图像绘制或渲染等方式实现，例如可以包括但不限于：基于开放图形语言(OpenGL)图形绘制引擎进行绘制等。OpenGL定义了一个跨编程语言、跨平台的编程接口规格的专业的图形程序接口，其与硬件无关，可以方便地进行2D或3D图形图像的绘制。通过OpenGL图形绘制引擎，不仅可以实现2D效果如2D贴纸的绘制，还可以实现3D特效的绘制及粒子特效的绘制等等。但本申请不限于基于OpenGL图形绘制引擎的绘制方式，还可以采取其它方式，例如基于Unity或OpenCL等图形绘制引擎的绘制方式也同样适用于本申请各实施例。

在一个可选示例中，步骤S104可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的绘制模块604执行。

需要说明的是，本申请各实施例中，待展示的业务对象和确定视频图像的背景区域的操作之间的执行顺序可以为任意顺序，即：可以限制性其中任意一个操作、后执行另一个操作，也可以同时执行这两个操作，均不影响本申请实施例的实现。

通过本实施例提供的视频图像的处理方法，获取待处理的视频图像和待展示的业务对象，确定待处理的视频图像的背景区域，采用计算机绘图方式在视频图像的背景区域绘制业务对象，实现业务对象在视频图像的背景区域展示，可以避免业务对象遮挡前景区域，不影响观众的正常视频观看体验，不易引起观众反感，有利于实现预想的业务对象展示效果。

图2是本申请实施例视频图像的处理方法另一实施例的流程图。参照图2，本实施例视频图像的处理方法包括：

步骤S200：获取待处理的视频图像和待展示的业务对象。

在一个可选示例中，步骤S200可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的获取模块600执行。

步骤S202：确定视频图像的前景区域和背景区域，以及业务对象在视频图像中的展示位置。

在本申请各实施例的一个可选示例，确定视频图像的前景区域时，可以从视频图像中检测视频图像的前景区域和背景区域；或者，可以从视频图像中直接检测视频图像的前景区域；或者可以从视频图像中检测视频图像的背景区域，将视频图像中背景区域以外的区域确定为视频图像的前景区域。本实施例对确定视频图像的前景区域的技术手段不做限制。同理，确定视频图像的背景区域的确定可以参照上述确定视频图像的前景区域的实现方式，在此不再赘述。

本申请各实施例中，展示位置可以是视频图像中指定区域的中心位置，或者可以是上述指定区域中多个边缘位置的坐标等。

在一个可选示例中，步骤S200可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的前景区域确定模块6042、背景区域确定模块602和展示位置确定模块6040执行。

步骤S204：根据上述展示位置判断业务对象与前景区域是否存在重叠部分。若存在，则执行步骤S206；若不存在，则执行步骤S208。

本步骤中，判断业务对象与前景区域是否存在重叠部分的目的是判断业务对象是否对视频图像的前景区域造成遮挡。若存在重叠部分，则表示业务对象对视频图像的前景区域造成遮挡；若不存在重叠部分，则表示业务对象对视频图像的前景区域未造成遮挡。

在一个可选示例中，步骤S204可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的判断模块6044执行。

步骤S206：采用计算机绘图方式，在背景区域绘制业务对象中除重叠部分之外的部分。

一种可选的方式中，例如，业务对象Y与视频图像S的前景区域q存在重叠部分c，在视频图像S的背景区域b绘制业务对象Y中除重叠部分c之外的部分w，其中，重叠部分c和部分w共同组成业务对象Y，前景区域q和背景区域b共同组成业务对象Y。

另一种可选的方式中，若业务对象对视频图像的前景区域造成遮挡，则可以采用调整前景区域的显示图层的方式将前景区域置于业务对象之上展示，或者还可以采用调整业务对象的显示图层的方式将业务对象置于前景区域之下展示。本申请各实施例对将前景区域置于业务对象之上展示的技术手段不做具体限制。

在一个可选示例中，步骤S206可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的展示模块6046执行。

之后，不执行本实施例的后续流程。

步骤S208：采用计算机绘图方式，在背景区域绘制整个业务对象。

在一个可选示例中，步骤S208可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的绘制模块604执行。

通过本实施例提供的视频图像的处理方法，获取待处理的视频图像和待展示的业务对象，确定待处理的视频图像的前景区域和背景区域，以及业务对象在视频图像中的展示位置，然后根据业务对象在视频图像中的展示位置判断业务对象与视频图像的前景区域是否存在重叠部分，若存在重叠部分，表示部分或全部业务对象位于前景区域内，则对于该重叠部分，将前景区域置于业务对象之上展示，避免业务对象遮挡前景区域，不影响观众的正常视频观看体验，不易引起观众反感，可以有效实现预想的效果。

图3是本申请实施例视频图像的处理方法又一实施例的流程图。参照图3，本实施例视频图像的处理方法包括：

步骤S300：获取待处理的视频图像和待展示的业务对象。

在一个可选示例中，步骤S300可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的获取模块600执行。

步骤S302：通过预先训练好的第一卷积神经网络模型确定视频图像的背景区域。

本实施例中，使用预先训练好的、用于分割视频图像中的前景区域和背景区域的第一卷积神经网络模型，对视频图像进行检测，确定视频图像的背景区域。用于分割视频图像中的前景区域和背景区域的第一卷积神经网络模型通过标注有前景区域和背景区域的样本图像进行训练后，可以采用该第一卷积神经网络检测视频图像，获得视频图像的前景区域的预测信息和背景区域的预测信息，基于背景区域的预测信息便可确定视频图像中的背景区域，可以准确、高效地确定视频图像中的前景区域和背景区域。

当需要预先训练第一卷积神经网络模型时，一种可选的训练方式包括以下过程：

(1)利用第一卷积神经网络模型获取第一样本图像的第一特征向量。

其中，第一样本图像为包含有前景区域和背景区域标记信息的样本图像，也即，第一样本图像为已标记了前景区域和背景区域的样本图像。本实施例中，前景区域可以为图像主体所在区域，例如人物所在区域；背景区域可以为除了主体所在区域外的其它区域，可以是其它区域中的全部或者部分。

在一种可选的实施方式中，第一样本图像可以包括至少一个视频流的多帧样本图像。在此方式中，在获取待第一样本图像的第一特征向量之前，可以将包括多帧样本图像的视频流输入第一卷积神经网络模型。在实现时，一种可选方式包括：先确定视频流的多个关键帧的图像为样本图像，对这些样本图像进行前景区域和背景区域的标注；在此基础上，将进行了标注的样本图像进行组合，再将组合后的包括多帧进行了标注的样本图像的视频流输入第一卷积神经网络模型。其中，对视频流抽取关键帧并对抽取的关键帧进行标注，均可以由本领域技术人员采用任意适当的方式实现，例如通过均匀采样的方式抽取关键帧等。在抽取了关键帧后，可以结合视频上下文对抽取的关键帧标注区分前景和背景，得到较精确的标注边界。将进行了标注后的样本图像作为第一样本图像，提取其第一特征向量。此外，本步骤中，对第一特征向量的提取可以采用相关技术中的适当方式实现，本实施例在此不再赘述。

(2)利用第一卷积神经网络模型对第一特征向量进行卷积处理，获取第一特征向量卷积结果。获取的第一特征向量卷积结果中包含有用于分辨视频图像的前景区域和背景区域的信息。对第一特征向量的卷积处理次数可以根据实际需要进行设定，也即，第一卷积神经网络模型中，卷积层的层数可以根据实际需要进行设置。

第一特征向量卷积结果是对第一特征向量进行了特征提取后的结果，该结果能够有效表征视频图像中前景区域和背景区域的特征和分类。

(3)对第一特征向量卷积结果进行放大处理。

一种可选方式中，对第一特征向量卷积结果的放大可以采用线性插值的方式，例如包括但不限于：线性插值、双线性插值、三线性插值等方式。其中使用的线性插值公式可以由本领域技术人员根据实际需要采用适当的公式，本实施例对此不作限制。可选地，可以通过对第一特征向量卷积结果进行双线性插值来放大第一特征向量卷积结果。通过对第一特征向量卷积结果进行放大处理，可以得到与用于训练的原始图像同样大小的输出图像，获得每一个像素点的特征信息，有利于精确地确定图像的前景区域和背景区域。另外，通过对卷积处理后的第一特征向量的放大处理，第一卷积神经网络模型可以学习到一个较为准确的放大系数，基于该放大系数和放大后的第一特征向量，有利于减少第一卷积神经网络模型的参数调整和计算量，降低第一卷积神经网络模型训练成本，提高训练效率，缩短训练时间。

在其中一个示例中，在获得第一特征向量卷积结果后，通过线性插值层对第一特征向量卷积结果进行双线性插值，以放大卷积处理后的图像特征，并得到的原始图像同样大小(图像长宽相同)的输出。需要说明的是，本实施例中对双线性插值的具体实现手段不作限制。

(4)判断放大后的第一特征向量卷积结果是否满足卷积收敛条件。

其中，卷积收敛条件可以由本领域技术人员根据实际需求适当设定。当放大后的第一特征向量卷积结果满足卷积收敛条件时，可以认为第一卷积神经网络模型中的网络参数设置适当；当放大后的第一特征向量卷积结果不能满足卷积收敛条件时，可以认为第一卷积神经网络模型中的网络参数设置不适当，需要对其进行调整，该调整可以是一个迭代的过程，直至使用调整后的网络参数对第一特征向量进行卷积处理的结果满足卷积收敛条件。

本实施例中，在通过线性插值层对第一特征向量卷积结果进行放大后，可以在损失层使用损失函数对放大后的第一特征向量卷积结果进行计算，进而根据计算结果确定是否满足卷积收敛条件。也即，使用设定的损失函数计算放大后的第一特征向量卷积结果的损失值；根据损失值判断放大后的第一特征向量卷积结果是否满足卷积收敛条件。其中，损失层和损失函数可以根据实际情况由本领域技术人员适当设定，如通过基于代价函数(softmax)函数或者罗吉特(Logistic)函数等。通过损失函数对第一特征向量卷积结果和预定的标准输出特征向量进行计算，获得损失值。在获得损失值后，一种可选方式中，可以根据该损失值放大后的第一特征向量卷积结果是否满足卷积收敛条件，如该损失值是否小于或等于设定阈值，从而确定本次训练结果是否满足卷积收敛条件；另一种可选方式中，可判断对该损失值的计算是否已达到设定次数，也即，在本次训练中对第一卷积神经网络模型的迭代训练次数是否已达到设定次数，如达到则满足卷积收敛条件。

需要说明的是，当输入的是视频流中的多帧图像时，损失层的损失函数也可以分别对该视频流中的多帧图像进行损失值计算，输出多帧的结果，使第一卷积神经网络模型在得到视频上更加稳定的结果，并通过多帧图像的并行计算，提升计算效率。

(5)若满足卷积收敛条件，则完成对第一卷积神经网络模型的训练；若不满足卷积收敛条件，则根据放大后的第一特征向量卷积结果调整第一卷积神经网络模型的网络参数，并根据调整后的第一卷积神经网络模型的网络参数对该第一卷积说明网络模型进行迭代训练，直至迭代训练后的第一特征向量卷积结果满足卷积收敛条件。

通过对第一卷积神经网络模型进行上述训练，得到的第一卷积神经网络模型可以对视频图像的图像特征进行特征提取和分类，从而具有确定视频图像中的前景区域和背景区域的功能。在实际应用中，可以使用该第一卷积***网络模型识别出视频图像中的背景区域。

为了使训练的结果更为精准，在一种可选的实施方式中，可以通过测试样本图像测试该训练出的第一卷积神经网络模型是否准确，进而根据测试结果决定使用该第一卷积神经网络模型还是对该第一卷积神经网络模型进行再训练。在此方式中，在完成了对第一卷积神经网络模型的初步训练后，还可以获取测试样本图像，使用训练后的第一卷积神经网络模型对测试样本图像进行前背景区域的预测，其中，测试样本图像可为未进行任何标注的样本图像；检验预测的前背景区域是否正确；若不正确，则对第一卷积神经网络模型进行再次训练；若正确，则该第一卷积神经网络模型可用于进行视频图像的前背景确定，或者，为了使第一卷积神经网络模型更为精准，再获取其它测试样本图像进行测试；或者，使用与原训练样本图像不同的样本图像进行再次训练。

当通过测试样本图像检验到使用第一卷积神经网络模型预测的前背景区域不正确时，需要对该第一卷积神经网络模型进行再次训练。在一种再次训练方式中，可以仅使用从测试样本图像中获取的前背景区域预测不正确的样本图像作为再次训练使用的样本图像；然后，使用这些预测不正确的样本图像对第一卷积神经网络模型进行再次训练。这些进行再次训练的测试样本图像在用于训练前，可进行前背景标注。通过这种再训练方式，不仅使得训练更有针对性，也有利于节约训练成本。本申请实施例不限于此，在实际使用中，也可以使用其它进行了前背景标注的样本图像进行训练。

在一个可选示例中，步骤S302可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的背景区域确定模块602执行。

步骤S304：确定业务对象在视频图像中的展示位置。

本步骤中，可以确定业务对象在视频图像中的一个或者多个展示位置，一种可选的实现方式包括：

方式一、从业务对象对应的多帧展示图像中，确定待展示的展示图像；确定该待展示的展示图像在视频图像中的展示位置。方式二、按照设定规则确定业务对象在视频图像中的展示位置。

以下，分别对上述两种方式进行示例性说明。

方式一

从业务对象对应的具有播放顺序的多帧展示图像中，选择首帧未被播放过的展示图像，将选择的展示图像确定为待展示的展示图像。

其中，从业务对象对应的具有播放顺序的多帧展示图像中，选择首帧未被播放过的展示图像，具体可以先从业务对象对应的具有播放顺序的多帧展示图像中，确定播放状态为未播放的展示图像，再选择播放状态为未播放的展示图像中的首帧展示图像。在此情况下，在选择的首帧未被播放过的展示图像播放完毕之后，对具有播放顺序的多帧展示图像的播放状态进行更新。

需要说明的是，无论业务对象为动态业务对象还是静态业务对象，业务对象均可由多帧图像组成。视频图像中的每帧图像与业务对象的每帧图像保持时间对齐，在视频图像播放下一帧图像时，也可以同步展示对应的业务对象的下一帧图像。

方式二

按照设定规则确定业务对象在视频图像中的展示位置；其中，设定规则例如可以包括：设定规则1、预先设定的业务对象在视频图像的设定展示位置，或者，设定规则2、根据前景区域中的目标对象的动作检测数据，确定业务对象在视频图像中的展示位置。

基于设定规则1:预先设定的业务对象与其在视频图像中的展示位置存在对应关系，若待展示的业务对象确定为预先设定的业务对象，则待展示的业务对象的展示位置相应地确定为预先设定的业务对象在视频图像中的设定展示位置。

基于设定规则2：可以分别使用预先训练好的第二卷积神经网络模型和前景区域中的目标对象的动作检测数据，确定业务对象在视频图像中的展示位置；还可以根据业务对象的类型和前景区域中的目标对象的动作检测数据，确定业务对象在视频图像中的展示位置；或者可以根据预先设定的动作数据和前景区域中的目标对象的动作检测数据确定业务对象在视频图像中的展示位置。以下对上述三种确定业务对象在视频图像中的展示位置的方式进行示例性介绍。

1)使用预先训练好的第二卷积神经网络模型和前景区域中的目标对象的动作检测数据，确定业务对象在视频图像中的展示位置。

其中，预先训练一个卷积神经网络模型(即第二卷积神经网络模型)，训练完成的第二卷积神经网络模型具有确定业务对象在视频图像中的展示位置的功能；或者，也可以直接使用第三方已训练完成的、具有确定业务对象在视频图像中的展示位置的功能的卷积神经网络模型。

预先训练第二卷积神经网络模型时，一种可选的训练方式包括以下过程：

(1)获取第二样本图像的第二特征向量。

其中，第二特征向量中包含有第二样本图像中的业务对象的位置信息和/或置信度信息，以及第二样本图像中目标对象的目标对象特征向量。业务对象的置信度信息指示了业务对象展示在当前位置时，能够达到的效果(如被关注或被点击或被观看)的概率，该概率可以根据对历史数据的统计分析结果设定，也可以根据仿真实验的结果设定，还可以根据人工经验进行设定。在实际应用中，可以根据实际需要，仅对业务对象的位置信息进行训练，也可以仅对业务对象的置信度信息进行训练，还可以对二者均进行训练。对二者均进行训练，能够使得训练后的第二卷积神经网络模型更为有效和精准地确定业务对象的位置信息和置信度信息，以便为视频图像的处理提供依据。

第二卷积神经网络模型对大量的第二样本图像进行训练，本实施例中，可使用包含有业务对象的第二样本图像对第二卷积神经网络模型进行训练，本领域技术人员应当明了的是，用来训练的第二样本图像中，除了包含业务对象外，也可以包含目标对象属性的信息，即人脸的面部表情和/或动作、人手的手势和/或动作等等信息。此外，本实施例中的第二样本图像中的业务对象可以被预先标注位置信息、或者置信度信息，或者位置信息和置信度二种信息都标注。当然，在实际应用中，这些信息也可以通过其它途径获取。而通过预先在对业务对象进行相应信息的标注，可以有效节约数据处理的数据和交互次数，提高数据处理效率。

将具有业务对象的位置信息和/或置信度信息，以及某种目标对象属性的第二样本图像作为训练样本，对其进行特征向量提取，获得包含有业务对象的位置信息和/或置信度信息的业务对象特征向量，以及目标对象属性对应的目标对象特征向量。

可选地，可以使用第二卷积神经网络模型对目标对象和业务对象同时进行训练，在此情况下，第二样本图像的第二特征向量中，也包含目标对象的特征。

对第二特征向量的提取可以采用相关技术中的适当方式实现，本实施例在此不再赘述。

(2)对第二特征向量进行卷积处理，获取第二特征向量卷积结果。

在本实施例中，获取的第二特征向量卷积结果中包含有业务对象的位置信息和/或置信度信息，目标对象属性对应的目标对象特征向量对应的特征向量卷积结果。在对目标对象和业务对象进行联合训练的情况下，特征向量卷积结果中还包含目标对象信息。

对第二特征向量的卷积处理次数可以根据实际需要进行设定，也即，第二卷积神经网络模型中，卷积层的层数根据实际需要进行设置，在此不再赘述。

第二特征向量卷积结果是对第二特征向量进行了特征提取后的结果，该结果可以有效表征视频图像中目标对象的特征对应的业务对象。

本实施例中，当第二特征向量中既包含业务对象的位置信息、又包含业务对象的置信度信息时，也即，对业务对象的位置信息和置信度信息均进行了训练的情况下，该第二特征向量卷积结果在后续分别进行收敛条件判断时共享，无须进行重复处理和计算，可以减少由数据处理引起的资源损耗，提高数据处理速度和效率。

(3)判断第二特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断第二特征向量卷积结果中对应的目标对象特征向量是否满足目标对象收敛条件。

其中，业务对象收敛条件和目标对象收敛条件可以由本领域技术人员根据实际需求适当设定。当位置信息和/或置信度信息满足业务对象收敛条件，且目标对象特征向量满足目标对象收敛条件时，可以认为第二卷积神经网络模型中的网络参数设置适当；当位置信息和/或置信度信息不满足业务对象收敛条件，和/或目标对象特征向量不满足目标对象收敛条件时，可以认为第二卷积神经网络模型中的网络参数设置不适当，需要对其网络参数进行调整，该调整过程可以是一个迭代的过程，直至使用调整后的网络参数对第二特征向量进行卷积处理的结果满足收敛条件。

一种可选方式中，业务对象收敛条件可以根据预设的标准位置和/或预设的标准置信度进行设定，例如，将第二特征向量卷积结果中业务对象的位置信息指示的位置与预设的标准位置之间的距离满足一定阈值作为业务对象的位置信息的收敛条件；将第二特征向量卷积结果中业务对象的置信度信息指示的置信度与预设的标准置信度之间的差别满足一定阈值作为业务对象的置信度信息的收敛条件等。

其中，可选地，预设的标准位置可以是对待训练的第二样本图像中的业务对象的位置进行平均处理后获得的平均位置；预设的标准置信度可以是对待训练的第二样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。因第二样本图像为待训练样本且数据量庞大，可依据待训练的第二样本图像中的业务对象的位置和/或置信度设定标准位置和/或标准置信度，这样设定的标准位置和标准置信度也更为客观和精确。

在具体进行第二特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件的判断时，一种可选的方式包括：

获取第二特征向量卷积结果中对应的业务对象的位置信息，通过计算对应的业务对象的位置信息指示的位置与预设的标准位置之间的欧式距离，得到对应的业务对象的位置信息指示的位置与预设的标准位置之间的第一距离，根据第一距离判断对应的业务对象的位置信息是否满足业务对象收敛条件；

和/或，

获取第二特征向量卷积结果中对应的业务对象的置信度信息，计算对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的欧式距离，得到对应的业务对象的置信度信息指示的置信度与预设的标准置信度之间的第二距离，根据第二距离判断对应的业务对象的置信度信息是否满足业务对象收敛条件。其中，采用欧式距离的方式，实现简单且能够有效指示收敛条件是否被满足。但本申请实施例并不限于此，还可以采用马式距离、巴式距离等其它方式。

可选地，如前所述，预设的标准位置为对待训练的第二样本图像中的业务对象的位置进行平均处理后获得的平均位置；和/或，预设的标准置信度为对待训练的第二样本图像中的业务对象的置信度进行平均处理后获取的平均置信度。

当第二特征向量卷积结果中还包含目标对象的信息时，对目标对象的信息是否收敛的判断可以参照相关使用第二卷积神经网络模型的收敛条件进行判断，在此不再赘述。若目标对象的信息满足收敛条件，即第二特征向量卷积结果中的目标对象特征向量满足目标对象收敛条件，则可对目标对象进行分类，明确目标对象的所属类别，以为后续业务对象的展示位置确定提供参考和依据。

(4)若上述收敛条件都满足，即：位置信息和/或置信度信息满足业务对象收敛条件，且目标对象特征向量满足目标对象收敛条件，则完成对第二卷积神经网络模型的训练；若不满足任一或全部收敛条件，即：位置信息和/或置信度信息不满足业务对象收敛条件，和/或目标对象特征向量不满足目标对象收敛条件，则根据第二特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息，和第二特征向量卷积结果中的目标对象特征向量，调整该第二卷积神经网络模型的参数，并根据调整后的第二卷积神经网络模型的网络参数对该第二卷积神经网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息满足收敛条件，目标对象特征向量满足目标对象收敛条件。

通过对第二卷积神经网络模型进行上述训练，第二卷积神经网络模型可以对基于业务对象的展示位置进行特征提取和分类，从而具有确定业务对象在视频图像中的展示位置的功能。其中，当展示位置包括多个时，通过上述业务对象置信度的训练，第二卷积神经网络模型还可以确定出多个展示位置中的展示效果的优劣顺序，从而确定最终的展示位置。在后续应用中，当需要展示业务对象时，根据视频图像即可确定出有效的展示位置。

此外，在对第二卷积神经网络模型进行上述训练之前，还可以预先对第二样本图像进行预处理，包括：获取多个第二样本图像，其中，每个第二样本图像中包含有业务对象的标注信息；根据标注信息确定业务对象的位置，判断确定的业务对象的位置与预设位置的距离是否小于或等于设定阈值；将小于或等于设定阈值的业务对象对应的第二样本图像，确定为待训练的第二样本图像。其中，预设位置和设定阈值均可以由本领域技术人员采用任意适当方式进行适当设置，例如根据数据统计分析结果或者相关距离计算公式或者人工经验等，本实施例对此不作限制。

在一种可选方式中，根据标注信息确定的业务对象的位置可以是业务对象的中心位置。在根据标注信息确定业务对象的位置，判断确定的业务对象的位置与预设位置的距离是否小于或等于设定阈值时，可以根据标注信息确定业务对象的中心位置；进而判断该中心位置与预设位置的方差是否小于或等于设定阈值。

通过预先对第二样本图像进行预处理，可以过滤掉不符合条件的样本图像，以保证训练结果的准确性。

通过上述过程实现了第二卷积神经网络模型的训练，训练完成的第二卷积神经网络模型可以用来确定业务对象在视频图像中的展示位置。例如，在视频直播过程中，若主播点击业务对象指示进行业务对象展示时，在第二卷积神经网络模型获得了直播的视频图像中主播的面部特征点后，可以指示出展示业务对象的最终位置如背景区域中距离主播的头部预设距离的位置，进而控制直播应用在该位置展示业务对象；或者，在视频直播过程中，若主播点击业务对象指示进行业务对象展示时，第二卷积神经网络模型可以直接根据直播的视频图像确定业务对象的展示位置。

2)根据业务对象的类型和前景区域中的目标对象的动作检测数据，确定业务对象在视频图像中的展示位置。

首先根据前景区域中的目标对象的动作检测数据和业务对象的类型，获得业务对象在视频图像中的多个展示位置；然后从多个展示位置中选择至少一个展示位置作为业务对象在所述视频图像中的最终展示位置。其中，目标对象的动作类型例如包括但不限于：人脸类型、手部类型和动作类型。其中，人脸类型用于指示人脸在视频图像中占据主要部分，手部类型用于指示手部在视频图像中占据主要部分，而动作类型则用于指示人物进行了某种动作。目标对象的动作检测数据例如可以包括但不限于以下任意一项或多项：眨眼数据、张嘴数据、点头数据、摇头数据、亲吻数据、微笑数据、挥手数据、剪刀手数据、握拳数据、托手数据、大拇指数据、***姿势数据、OK手数据等，上述动作检测数据对应的目标对应的动作例如可以包括但不限于以下任意一项或多项：眨眼、张嘴、点头、摇头、亲吻、微笑、挥手、剪刀手、握拳、托手、大拇指、***姿势、OK手等。

3)根据预先设定的动作数据和前景区域中的目标对象的动作检测数据确定业务对象在视频图像中的展示位置。

判断前景区域中的目标对象的动作检测数据与预先设定的动作数据是否匹配，即：判断前景区域中的目标对象的动作与预先设定的动作是否匹配；若匹配，则从预先存储的动作数据与展示位置的对应关系中，获取预先设定的动作数据对应的目标展示位置作为业务对象在视频图像中的展示位置。

在实施中，可以预先设定多种不同的动作数据，并对不同的动作数据进行相应的标记，如标记为脸部的动作或者手部的动作等等。不同的动作数据对应着不同的展示位置。将前景区域中的目标对象的动作检测数据与预先设定的动作数据进行匹配，如果动作检测数据与预先设定的动作数据相同，即：前景区域中的目标对象的动作与预先设定的动作相同，则可以确定前景区域中的目标对象的动作检测数据与预先设定的动作数据进行匹配。

为了提高匹配的准确度，可以通过计算的方式确定上述匹配结果，例如，可以设置匹配算法计算动作检测数据和预先设定的动作数据之间的匹配度，例如，可以使用动作检测数据和预先设定的动作数据进行匹配计算，得到两者之间的匹配度数值，通过上述方式分别计算动作检测数据与预先设定的每一个动作数据之间的匹配度数值，从得到的匹配度数值中选取最大的匹配度数值，如果该最大的匹配度数值超过预定的匹配阈值，则可以确定最大的匹配度数值对应的预先设定的动作数据与动作检测数据相匹配。如果该最大的匹配度数值未超过预定的匹配阈值，则匹配失败。

需要说明的是，上述步骤S302和步骤S304可以同时执行，也可以按照任意顺序执行，例如，先执行步骤S302，后执行步骤S304，或者先执行步骤S304，后执行步骤S302，本实施例对步骤S302和步骤S304的执行顺序不做具体限定。

在一个可选示例中，步骤S304可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的展示位置确定模块6040执行。

步骤S306：根据展示位置判断业务对象与前景区域是否存在重叠部分。若存在，则执行步骤S308；若不存在，则执行步骤S310。

在一个可选示例中，步骤S306可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的判断模块6044执行。

步骤S308：采用计算机绘图方式，在背景区域绘制业务对象中除重叠部分之外的部分。

另一种可选的方式中，若业务对象对视频图像的前景区域造成遮挡，则可以采用调整前景区域的显示图层的方式将前景区域置于业务对象之上展示，或者还可以采用调整业务对象的显示图层的方式将业务对象置于前景区域之下展示。本实施例对将前景区域置于业务对象之上展示的技术手段不做具体限制。

本实施例中，将前景区域置于业务对象之上展示时，可以将重叠部分对应的前景区域置于重叠部分对应的业务对象之上展示。

在一个可选示例中，步骤S308可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的展示模块6046执行。

之后，不执行本实施例的后续流程。

步骤S310：采用计算机绘图方式，在背景区域绘制整个业务对象。

在一个可选示例中，步骤S310可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的绘制模块604执行。

通过本实施例提供的视频图像的处理方法，获取待处理的视频图像和待展示的业务对象，确定待处理的视频图像的前景区域，以及业务对象在视频图像中的展示位置，然后根据业务对象在视频图像中的展示位置判断业务对象与视频图像的前景区域是否存在重叠部分，若存在重叠部分，表示部分或全部业务对象位于前景区域内，则对于该重叠部分，将前景区域置于业务对象之上展示，以避免业务对象遮挡前景区域，不影响观众的正常视频观看体验，不易引起观众反感，有利于实现预想的业务对象展示效果。

在本申请各实施例的一个可选示例中，可以利用训练好的第一卷积神经网络模型，对图像进行检测，分割出图像的前背景。一种可选的实现方式包括：

获取待检测的视频图像。其中，该图像可以包括静态图像或视频中的图像；

采用训练好的第一卷积神经网络模型检测视频图像，获得该视频图像的前景区域的预测信息和背景区域的预测信息。

在一种可选方案中，上述视频图像为直播类视频中的图像。在另一种可选方案中，上述视频图像包括视频流中的多帧图像。由于视频流中的多帧图像存在较多的上下文关联，通过训练好的第一卷积神经网络模型，可以快速高效地对视频流中每帧图像的前背景进行检测。

图4是本申请视频图像的处理方法再一实施例的流程图。本申请各实施例中，业务对象可以是包含有语义信息的目标特效，其中，目标特效可以包含广告信息的以下至少一种形式的特效：二维贴纸特效、三维特效、粒子特效。本实施例以业务对象为二维广告贴纸特效、视频图像为直播类视频图像为例，对本申请实施例的视频图像的处理方案进行说明。参照图4。

本实施例视频图像的处理方法包括：

步骤S400：获取待处理的直播类视频图像和待展示的广告贴纸特效。

可以从直播类视频应用中获取待处理的直播类视频图像。待展示的广告贴纸特效可以为广告商定制的广告贴纸特效，或者可以为主播选择的广告贴纸特效。

在一个可选示例中，步骤S400可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的获取模块600执行。

步骤S402：确定直播类视频图像的主播区域，以及广告贴纸特效在直播类视频图像中的展示位置。

其中，直播类视频图像可以划分为两部分区域，分别为主播区域和背景区域。其中，主播区域为主播本身的区域，背景区域为直播类视频图像中除主播区域以外的区域。

本步骤确定主播区域以及展示位置的执行过程可以按照上述实施例中的相关内容，在此不再赘述。

在一个可选示例中，步骤S402可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的展示位置确定模块6040执行。

步骤S404：根据展示位置判断广告贴纸特效与主播区域是否存在重叠部分。若存在，则执行步骤S406；若不存在，则执行步骤S408。

在一个可选示例中，步骤S402可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的判断模块6044执行。

步骤S406：将主播区域置于广告贴纸特效之上展示。

在一个可选示例中，步骤S406可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的展示模块6046执行。

之后，不执行本实施例的后续流程。

步骤S408：采用计算机绘图方式，在背景区域绘制整个业务对象。

在一个可选示例中，步骤S406可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的绘制模块604执行。

本实施例中，当视频图像的主体为主播时，观众主要关注的区域为主播的脸部区域和肢体动作，为了能够既让观众注意到广告贴纸特效的内容，又不会影响到主播，可以通过增强现实感效果，给视频图像相关区域加上有语义的虚拟物品如广告贴纸特效。并通过虚拟物品上的展示效果和信息达到商业价值。通过这种方式，既保留了主播的主要形象和动作，同时通过增强现实的特效为视频图像增加了趣味性，减少了观众对广告投放引起的可能的反感，并能够吸引到观众的注意力，可形成商业的价值。例如，若广告贴纸特效为一个飞鸟贴纸特效，飞鸟贴纸特效在视频图像中展示，当飞鸟贴纸特效的展示位置与主播区域存在重叠部分时，即飞鸟贴纸特效遮挡主播区域时，将主播区域置于飞鸟贴纸特效之上展示。具体地，若飞鸟贴纸特效与主播区域的重叠部分为飞鸟贴纸特效的头部，飞鸟贴纸特效的其余部分不与主播区域重叠，则将主播区域置于飞鸟贴纸特效的头部之上展示，展示效果为可见飞鸟贴纸特效除头部以外的部分和主播区域。若飞鸟贴纸特效与主播区域的重叠部分为整个飞鸟贴纸特效，则将主播区域置于整个飞鸟贴纸特效之上展示，展示效果为不可见整个飞鸟贴纸特效，可见主播区域。

需要说明的是，上述广告贴纸特效，以飞鸟贴纸特效为例，可以为静态的广告贴纸特效，也可以为动态的广告贴纸特效。当广告贴纸特效为动态的广告贴纸特效时，可以将动态的广告贴纸特效的每一帧作为一个静态的广告贴纸特效进行处理，该处理过程可以参照上述实施例中的相关内容，在此不再赘述。

随着互联网直播的兴起，越来越多的视频以直播的方式出现。这类视频具有场景简单、实时、因观众主要在手机等移动终端上观看而视频图像尺寸较小等特点。本实施例通过业务对象投放广告，将广告投放与视频直播内容有效融合，方式灵活，效果生动，不仅不影响用户的直播观看体验，且有利于提升广告的投放效果。对于使用较小的显示屏幕进行业务对象展示，广告投放等场景尤其适用。

此外，本实施例的视频图像处理方法可以在任意适当的具有数据采集、处理和传输功能的电子设备实现，本申请实施例对实现设备不作限制。

另外，在本申请视频图像的处理方法的又一实施例中，待展示的业务对象用于在后续绘制的步骤中绘制在视频图像的背景区域，可以使业务对象覆盖视频图像的背景区域中的原始内容。该待展示的业务对象可以包括多种形式，本申请各实施例对业务对象的具体形式不做限制。例如，待显示的业务对象可以是包含沙滩场景的图片A，视频图像的背景区域中的原始内容为包含室内场景的图片B。该实施例中，采用计算机绘图方式在视频图像的背景区域绘制所述业务对象，可以采用计算机绘图方式在所述背景区域绘制所述业务对象，使所述业务对象覆盖所述背景区域的原始内容。

在确定了背景区域以后，可以采用计算机绘图方式将业务对象绘制在视频图像的背景区域即采用计算机绘图方式将业务对象绘制在视频图像的整个背景区域。实现绘制业务对象后的背景区域替换背景区域的原始内容。例如，视频图像的原始背景区域为一幅室内场景图片，业务对象为一幅瀑布图片，绘制业务对象后的背景区域中显示的是一幅瀑布图片，而不是原始的室内场景图片，视频图像的前景区域可以保持不变。

通过本实施例视频图像的处理方法，采用计算机绘图方式在确定出的背景区域绘制业务对象，以使业务对象覆盖视频图像中的背景区域的原始内容，可以有效实现预想的业务对象投放效果。

本申请各实施例视频图像的处理方法中，采用计算机绘图方式在视频图像的背景区域绘制所述业务对象之后，除了可以在本地显示在背景区域绘制了业务对象的视频图像之外，还可以将在背景区域绘制了业务对象的视频图像发送至其他设备，例如，移动终端、PC、服务器或者平板电脑等等，可以实现在背景区域绘制了业务对象的视频图像的共享。

图5是本申请视频图像的处理方法还一实施例的流程图。本实施例重点强调与上述实施例的不同之处，相同之处可以参照上述实施例的介绍和说明，在此不再赘述。参见图5，本实施例视频图像的处理方法包括：

步骤S500、获取待展示的业务对象。

本申请各实施例中，例如可以通过但不限于使用以下方式获取待展示的业务对象：从预定存储位置获取业务对象，或者从视频源接收业务对象。例如，业务对象存储在移动终端本地，可以从移动终端本地直接读取业务对象，本地存储的业务对象可以为上述介绍的目标视频、目标图像、目标特效中的任意一种或者几种；当业务对象为目标视频时，可以从视频源接收目标视频，若目标视频为直播类视频，则可以从直播摄影机接收该直播类视频。

在一个可选示例中，步骤S500可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的获取模块600执行。

步骤S502、通过预先训练的第一卷积神经网络模型检测视频图像的背景区域。

本实施例中，使用已训练好的、用于分割视频图像中的前景区域和背景区域的第一卷积神经网络模型，对视频图像进行检测，确定其背景区域。该第一卷积神经网络模型通过标注有前景区域和背景区域的样本图像进行训练后，可以准确、高效地确定视频图像中的前景区域和背景区域。

在本申请各实施例的一种可选方式中，第一卷积网络模型为全卷积网络模型，与具有全连接层的卷积网络模型相比，采用全卷积网络模型所需的卷积层参数较少，训练速度较快。

在其中一个可选示例中，对第一卷积神经网络模型的一个示例性结构的简要说明如下：

(1)输入层

例如，可以输入待训练的样本图像的特征向量，该特征向量中包含有样本图像的背景区域的信息，或者，该特征向量中包含有样本图像的前景区域的信息和背景区域的信息。

(2)卷积层

//第一阶段，对待训练的样本图像的特征向量进行卷积处理，获得卷积结果。

2.<＝1卷积层1_1(3x3x64)

3.<＝2非线性响应ReLU层

4.<＝3卷积层1_2(3x3x64)

5.<＝4非线性响应ReLU层

6.<＝5池化层(3x3/2)

7.<＝6卷积层2_1(3x3x128)

8.<＝7非线性响应ReLU层

9.<＝8卷积层2_2(3x3x128)

10.<＝9非线性响应ReLU层

11.<＝10池化层(3x3/2)

12.<＝11卷积层3_1(3x3x256)

13.<＝12非线性响应ReLU层

14.<＝13卷积层3_2(3x3x256)

15.<＝14非线性响应ReLU层

16.<＝15卷积层3_3(3x3x256)

17.<＝16非线性响应ReLU层

18.<＝17池化层(3x3/2)

19.<＝18卷积层4_1(3x3x512)

50.<＝19非线性响应ReLU层

21.<＝50卷积层4_2(3x3x512)

22.<＝21非线性响应ReLU层

23.<＝22卷积层4_3(3x3x512)

24.<＝23非线性响应ReLU层

25.<＝24池化层(3x3/2)

26.<＝25卷积层5_1(3x3x512)

27.<＝26非线性响应ReLU层

28.<＝27卷积层5_2(3x3x512)

29.<＝28非线性响应ReLU层

30.<＝29卷积层5_3(3x3x512)

31.<＝30非线性响应ReLU层

//第二阶段，对第一阶段获得的卷积结果进行插值放大，并进行损失函数的计算。

32.<＝31线性差值层

33.<＝32损失层，进行损失函数的计算

(3)输出层

第一，在通过前31层的处理获得特征向量后，线性插值层通过双线性插值法对前31层处理后的特征向量进行插值，以放大中间层特征，得到和训练的样本图像同样大小(图像长宽一样)的输出图像。

第二，本实施例中，33层的损失层采用Softmax函数进行处理。一种可选的Softmax函数如下：

其中，x表示输入的特征，j表示第j类别，y表示输出的类别，K表示总共类别数，k表示第k类别，W_j表示第j类别的分类参数，X_T表示X向量的转置，P(y＝j|x)表示给定输入x，预测为第j类的概率。

但不限于此，在实际使用中，本领域技术人员也可以采用其它Softmax函数，本发明实施例对此不做限制。

第三，上述卷积层对特征向量进行的处理可以是迭代多次进行的，每完成一次，根据损失层计算出的结果调整第一卷积神经网络模型的参数(如卷积核的值、层间输出线性变化的权重等等)，基于参数调整后的第一卷积神经网络模型再进行处理，迭代多次，直至满足收敛条件。

第四，本实施例中，收敛条件可以是对第一卷积神经网络模型进行迭代训练的次数达到最大迭代次数，如10000～50000次。

第五，上述第一卷积神经网络模型对于视频图像的学习，可以单帧视频图像输入，也可以通过多帧视频图像输入，输出多帧视频图像的结果。即第一层输入层可以输入一帧视频图像，也可以输入一个视频流，这个视频流包含多帧视频图像。

最后一层损失层，可以针对一帧视频图像计算损失函数，也可以对视频流的多帧视频图像计算损失函数。

通过视频流方式的训练和学习，可以使第一卷积神经网络模型得到视频上较为稳定的结果，同时通过多帧视频图像的并行计算，提升计算效率。

其中，可以通过修改输入层和输出层的特征图谱的大小实现多帧视频图像的同时输入和输出。

第六，上述卷积网络结构的说明中，2.<＝1表明当前层为第二层，输入为第一层；卷积层后面括号为卷积层参数(3x3x64)表明卷积核大小为3x3,通道数为64；池化层后面括号(3x3/2)表明池化核大小为3x3,间隔为2。其它依此类推，不再赘述。

在上述第一卷积神经网络模型结构中，每个卷积层之后都有一个非线性响应单元，该非线性响应单元采用纠正线性单元(Rectified Linear Units，ReLU)，通过在卷积层后增加上述纠正线性单元，将卷积层的映射结果尽量稀疏，以便更接近人的视觉反应，从而使图像处理效果更好。

将卷积层的卷积核设为3x3，可以较好地综合局部信息。

设定池化层(Max pooling)的步长stride，使上层特征在不增加计算量的前提下获得更大的视野，池化层的步长stride还有增强空间不变性的特征，即允许同样的输入出现在不同的图像位置上，而输出结果响应相同。

线性差值层可以将之前的特征放大到原图大小，得到每个像素的预测值。

综上所述，该全卷积神经网络模型的卷积层可以用于信息归纳和融合，最大池化层(Max pooling)进行高层信息的归纳，该第一卷积神经网络模型结构可以进行微调来适应不同的性能和效率的权衡。

但本领域技术人员应当明了的是，上述卷积核的大小、通道数、池化核的大小、间隔以及卷积层的层数数量均为示例性说明，在实际应用中，本领域技术人员可以根据实际需要进行适应性调整，本发明实施例对此不做限制。此外，本实施例中的第一卷积神经网络模型中的所有层的组合及参数都是可选的，可以任意组合。

通过本实施例中的第一卷积神经网络模型，可以实现对视频图像中前背景区域的有效分割。

在一个可选示例中，步骤S502可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的背景区域确定模块602执行。

步骤S504、采用计算机绘图方式在确定出的背景区域绘制业务对象，以使业务对象覆盖视频图像中的背景区域的原始内容。

在一个可选示例中，步骤S504可以由处理器调用存储器存储的相应指令执行，也可以由被处理器运行的绘制模块604执行。

步骤S506、发送在背景区域绘制了业务对象的视频图像。

在一个可选示例中，步骤S504可以由处理器调用存储器存储的相应指令执行，也可以由电子设备上的通信模块执行。

例如，上述步骤S500-S504可以在移动终端A上执行，可以在移动终端A上显示在背景区域绘制了业务对象的视频图像，以及/或者发送在背景区域绘制了业务对象的视频图像至移动终端B、移动终端C、服务器D等等。

除了上述执行本申请实施例方法的设备将在背景区域绘制了业务对象的视频图像发送至其他设备以外，还可以直接在其他设备上绘制业务对象。可以先获取到待展示的业务对象，可以获取业务对象本身，还可以获取业务对象的属性信息，根据业务对象的属性信息，从业务对象的存储库中获取到业务对象本身；再将业务对象绘制在视频图像的背景区域中。其中，业务对象的属性信息可以来源于包括视频图像和业务对象的属性信息的传输流。其中，业务对象的属性信息可以用于标识业务对象本身，一个业务对象的属性信息对应着唯一一个业务对象本身或者唯一一类业务对象本身。例如，业务对象的属性信息可以为具有唯一标识的编号等。

需要说明的是，业务对象的存储库可以包括执行本申请实施例方法的当前设备的业务对象的存储库和其他设备的业务对象的存储库。另外，当前设备的业务对象的存储库和其他设备的业务对象的存储库中的业务对象本身及业务对象的属性信息可以保持同步。

上述图5所述实施例可以应用在一种示例性的应用场景中，例如，主播终端获取主播直播时的视频图像，其中，视频图像为直播类视频图像。从视频图像检测背景区域，在主播终端本地获取业务对象或者从第三方摄像机实时接收业务对象，采用计算机绘图方式在视频图像的背景区域绘制业务对象，在主播终端上显示绘制业务对象后的视频图像，并将绘制业务对象后的视频图像发送至服务器或者粉丝终端，在服务器进行中转或者存储，在粉丝终端进行显示。其中，直播类视频图像的背景区域包括直播类视频图像中除了主播图像之外的区域。

需要说明的是，上述步骤S500和步骤S502之间的执行顺序可以为先执行步骤S500，后执行步骤S502；还可以为先执行步骤S502，后执行步骤S500；或者可以为同时执行步骤S500和步骤S502，本实施例对步骤S500和步骤S502的执行顺序不做限制，本实施例仅以先执行步骤S500，后执行步骤S502为例进行说明。

通过本实施例提供的视频图像的处理方法，可以采用计算机绘图方式在确定出的背景区域绘制业务对象，使业务对象覆盖视频图像中的背景区域的原始内容，使得业务对象与视频播放相结合，有利于节约网络资源和/或客户端的***资源，并且丰富了背景区域的类型，可以有效实现预想的业务对象投放效果；另外，若在视频图像的背景区域绘制接收到的目标视频，实现了在视频图像的背景区域观看视频的效果。若业务对象的内容与视频图像的内容具有相关性，例如，业务对象为目标视频，目标视频为自由女神的介绍视频，主播在视频图像中正在介绍自由女神，则绘制业务对象后的背景区域可以作为视频图像的辅助显示，提升了视频图像的显示效果。

图6是本申请视频图像的处理装置一实施例的结构框图。本申请各实施例视频图像的处理装置可用于实现本申请上述各视频图像的处理方法实施例。参照图6，本实施例视频图像的处理装置包括：获取模块600，用于获取待处理的视频图像和待展示的业务对象；背景区域确定模块602，用于确定视频图像的背景区域；绘制模块604，用于采用计算机绘图方式在视频图像的背景区域绘制业务对象。

通过本实施例提供的视频图像的处理装置，获取待处理的视频图像和待展示的业务对象，确定待处理的视频图像的背景区域，采用计算机绘图方式在视频图像的背景区域绘制业务对象，实现业务对象在视频图像的背景区域展示，可以避免业务对象遮挡前景区域，不影响观众的正常视频观看体验，不易引起观众反感，有利于实现预想的业务对象展示效果。

在本申请各实施例的一个可选示例中，绘制模块604，用于采用计算机绘图方式在视频图像的背景区域绘制待展示的业务对象，使该业务对象覆盖背景区域的原始内容。

图7是本申请视频图像的处理装置另一实施例的结构框图。如图7所示，与图6所示实施例相比，视频图像的处理装置中，绘制模块604包括：展示位置确定模块6040，用于确定业务对象在视频图像中的展示位置；前景区域确定模块6042，用于确定视频图像的前景区域；判断模块6044，用于根据展示位置判断业务对象与前景区域是否存在重叠部分；展示模块6046，用于若业务对象与前景区域存在重叠部分，则采用计算机绘图方式，在背景区域绘制业务对象中除重叠部分之外的部分。

可选地，背景区域确定模块602，用于通过预先训练好的第一卷积神经网络模型确定视频图像的背景区域。

可选地，本实施例的视频图像的处理装置还可以包括：第一训练模块606，用于对第一卷积神经网络模型进行训练。

在其中一个可选示例中，第一训练模块606可以包括：第一特征向量获取模块6060，用于利用第一卷积神经网络模型获取第一样本图像的第一特征向量，其中，第一样本图像为包含有前景标注信息和背景标注信息的样本图像；第一卷积处理模块6061，用于利用第一卷积神经网络模型对第一特征向量进行卷积处理，获取第一特征向量卷积结果；放大处理模块6062，用于对第一特征向量卷积结果进行放大处理；第一条件判断模块6063，用于判断放大后的第一特征向量卷积结果是否满足卷积收敛条件；第一执行模块6064，用于若放大后的第一特征向量卷积结果满足卷积收敛条件，则完成对第一卷积神经网络模型的训练；若放大后的第一特征向量卷积结果不满足卷积收敛条件，则根据放大后的第一特征向量卷积结果调整第一卷积神经网络模型的网络参数并根据调整后的第一卷积神经网络模型的网络参数对第一卷积网络模型进行迭代训练，直至迭代训练后的第一特征向量卷积结果满足卷积收敛条件。

可选地，放大处理模块6064，用于通过对第一特征向量卷积结果进行双线性插值，放大第一特征向量卷积结果。

可选地，放大处理模块6064，用于将第一特征向量卷积结果放大到放大后的第一特征向量卷积结果对应的图像的大小与原始图像大小一致。

可选地，第一条件判断模块6066，用于使用设定的损失函数计算放大后的第一特征向量卷积结果和预定的标准输出特征向量的损失值；以及根据损失值判断放大后的第一特征向量卷积结果是否满足收敛条件。

可选地，再参见图7，第一训练模块606还可以包括：预测模块6065，用于获取测试样本图像，使用训练后的第一卷积神经网络模型对测试样本图像进行前背景区域的预测；检验模块6066，用于检验预测的前背景区域是否正确；再训练模块6067，用于若检验模块的检验结果不正确，使用测试样本图像对第一卷积神经网络模型进行再次训练。

可选地，再训练模块6067，用于若检验模块的检验结果不正确，从测试样本图像中获取前背景区域预测不正确的样本图像；以及使用预测不正确的样本图像对第一卷积神经网络模型进行再次训练，其中，预测不正确的样本图像包含有前景信息和背景信息。

可选地，再参见图7，第一训练模块606还可以包括：视频流模块6068，用于在第一向量获取模块获取第一样本图像的第一特征向量之前，将包括多帧样本图像的视频流输入第一卷积神经网络模型。

可选地，再参见图7，第一训练模块606还可以包括：标注模块6069，用于在视频流模块将包括多帧样本图像的视频流输入第一卷积神经网络模型之前，确定视频流的多个关键帧的图像为样本图像，对样本图像进行前景区域和背景区域的标注。

可选地，本申请各实施例中的第一卷积神经网络模型可以包括全卷积神经网络模型。

可选地，展示位置确定模块6040，用于按照设定规则确定业务对象在视频图像中的展示位置；其中，该设定规则包括：预先设定的业务对象在视频图像的设定展示位置，或者，展示位置确定模块6040根据前景区域中的目标对象的动作检测数据，确定业务对象在视频图像中的展示位置。

可选地，展示位置确定模块6040，用于根据前景区域中的目标对象的动作检测数据，通过预先训练好的第二卷积神经网络模型确定业务对象在视频图像中的展示位置。

可选地，本实施例的视频图像的处理装置还可以包括：第二训练模块608，用于对第二卷积神经网络模型进行训练。

在其中一个可选示例中，第二训练模块608可以包括：第二特征向量获取模块6080，用于利用第二卷积神经网络模型获取第二样本图像的第一特征向量，其中，第二特征向量中包含有第二样本图像中的业务对象的位置信息和/或置信度信息，以及第二样本图像中目标对象的目标对象特征向量；第二卷积处理模块6082，用于利用第二卷积神经网络模型对第二特征向量进行卷积处理，获取第二特征向量卷积结果；第二条件判断模块6084，用于判断第二特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断第二特征向量卷积结果中的目标对象特征向量是否满足目标对象收敛条件；第二执行模块6086，用于若第二特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息满足业务对象收敛条件，且第二特征向量卷积结果中的目标对象特征向量满足目标对象收敛条件，则完成对第二卷积神经网络模型的训练；否则，调整第二卷积神经网络模型的网络参数并根据调整后的第二卷积神经网络模型的网络参数对第二卷积神经网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息和目标对象特征向量均满足相应的收敛条件。

可选地，展示位置确定模块6040，用于根据前景区域中的目标对象的动作检测数据和业务对象的类型，确定业务对象在视频图像中的展示位置。

可选地，展示位置确定模块6040包括：展示位置获得模块60400，用于根据前景区域中的目标对象的动作检测数据和业务对象的类型，获得业务对象在视频图像中的多个展示位置；展示位置选择模块60402，用于从多个展示位置中选择至少一个展示位置作为所述业务对象在视频图像中的最终展示位置。

可选地，展示位置确定模块6040包括：数据判断模块60404，用于判断前景区域中的目标对象的动作检测数据与预先设定的动作数据是否匹配；位置获取模块60406，用于若前景区域中的目标对象的动作检测数据与预先设定的动作数据匹配，则从预先存储的动作数据与展示位置的对应关系中，获取预先设定的动作数据对应的目标展示位置作为业务对象在视频图像中的展示位置。

可选地，获取模块600，用于从预定存储位置获取待展示的业务对象，或者从视频源接收业务对象。

可选地，业务对象例如可以但不限于包括以下任意一项或多项：目标视频、目标图像、包含有语义信息的特效；视频图像可以包括：静态图像或直播类视频图像。

可选地，目标特效可以包含广告信息的以下任意一种或多种形式的特效：二维贴纸特效、三维特效、粒子特效等。

可选地，直播类视频图像的前景区域为人物所在的区域。

可选地，直播类视频图像的背景区域包括除了人物所在的区域之外的至少局部区域。

可选地，目标对象的动作检测数据包括以下任意一项或多项：眨眼数据、张嘴数据、点头数据、摇头数据、亲吻数据、微笑数据、挥手数据、剪刀手数据、握拳数据、托手数据、大拇指数据、***姿势数据、OK手数据。

本实施例视频图像的处理装置用于实现前述多个方法实施例中相应的视频图像的处理方法，并具有相应的方法实施例的有益效果，在此不再赘述。

此外，本实施例的视频图像的处理装置可以设置于适当的电子设备中，包括但不限于移动终端、PC、服务器等。

图8是本申请视频图像的处理装置又一实施例的结构框图。本申请实施例并不对电子设备的具体实现做限定。如图8所示，该电子设备可以包括：处理器(processor)802、通信接口(Communications Interface)804、存储器(memory)806、以及通信总线808。其中：

处理器802、通信接口804、以及存储器806通过通信总线808完成相互间的通信。

通信接口804，用于与其它设备比如其它客户端或服务器等的网元通信。

处理器802可能是中央处理器(CPU)，或者是特定集成电路(Application Specific Integrated Circuit，ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路，或者是图形处理器(GraphicsProcessing Unit，GPU)。终端设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU，或者，一个或多个GPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个GPU。

存储器806，用于至少一可执行指令，该可执行指令使处理器802执行如本申请上述任一实施例在视频图像中展示业务对象的方法对应的操作。存储器806可能包含高速随机存取存储器(random access memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

图9为本申请电子设备一个实施例的结构示意图。下面参考图9，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。如图9所示，该电子设备包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)901，和/或一个或多个图像处理器(GPU)913等，处理器可以根据存储在只读存储器(ROM)902中的可执行指令或者从存储部分908加载到随机访问存储器(RAM)903中的可执行指令而执行各种适当的动作和处理。通信部912可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，处理器可与只读存储器902和/或随机访问存储器903中通信以执行可执行指令，通过总线904与通信部912相连、并经通信部912与其他目标设备通信，从而完成本申请实施例提供的任一视频图像的处理方法对应的操作，例如，获取待处理的视频图像和待展示的业务对象；确定所述视频图像的背景区域；采用计算机绘图方式在所述视频图像的背景区域绘制所述业务对象。

此外，在RAM 903中，还可存储有装置操作所需的各种程序和数据。CPU901、ROM902以及RAM903通过总线904彼此相连。在有RAM903的情况下，ROM902为可选模块。RAM903存储可执行指令，或在运行时向ROM902中写入可执行指令，可执行指令使处理器901执行上述视频图像的处理方法对应的操作。输入/输出(I/O)接口905也连接至总线904。通信部912可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器911也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器911上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

需要说明的，如图9所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图9的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本申请公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，获取待处理的视频图像和待展示的业务对象的指令；确定所述视频图像的背景区域的指令；采用计算机绘图方式在所述视频图像的背景区域绘制所述业务对象的指令。

另外，本申请实施例还提供了一种计算机程序，该计算机程序包括计算机可读代码，该程序代码包括计算机操作指令，当计算机可读代码在设备上运行时，设备中的处理器执行用于实现本申请任一实施例视频图像的处理方法中各步骤的指令。

根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，获取待处理的视频图像和待展示的业务对象；确定所述视频图像的背景区域；采用计算机绘图方式在所述视频图像的背景区域绘制所述业务对象。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于装置、设备、程序、存储介质等实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本申请的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置。根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。用于所述方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CDROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的处理方法。此外，当通用计算机访问用于实现在此示出的处理的代码时，代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

一种视频图像的处理方法，其特征在于，包括：

获取待处理的视频图像和待展示的业务对象；

确定所述视频图像的背景区域；

采用计算机绘图方式在所述视频图像的背景区域绘制所述业务对象。
根据权利要求1所述的方法，其特征在于，所述采用计算机绘图方式在所述视频图像的背景区域绘制所述业务对象，包括：

确定所述业务对象在所述视频图像中的展示位置和所述视频图像的前景区域；

根据所述展示位置判断所述业务对象与所述视频图像的前景区域是否存在重叠部分；

若存在，则采用计算机绘图方式，在所述背景区域绘制所述业务对象中除所述重叠部分之外的部分。
根据权利要求1所述的方法，其特征在于，所述采用计算机绘图方式在所述视频图像的背景区域绘制所述业务对象，包括：

采用计算机绘图方式在所述背景区域绘制所述业务对象，使所述业务对象覆盖所述背景区域的原始内容。
根据权利要求1-3任一所述的方法，其特征在于，所述确定所述视频图像的背景区域包括：

通过预先训练好的第一卷积神经网络模型确定所述视频图像的背景区域。
根据权利要求4所述的方法，其特征在于，所述通过预先训练好的第一卷积神经网络模型确定所述视频图像的背景区域，包括：

采用所述第一卷积神经网络检测所述视频图像，获得所述视频图像的前景区域的预测信息和背景区域的预测信息。
根据权利要求5所述的方法，其特征在于，所述对所述第一卷积神经网络模型的预先训练，包括：

利用所述第一卷积神经网络模型获取第一样本图像的第一特征向量，其中，所述第一样本图像为包含有前景标注信息和背景标注信息的样本图像；

利用所述第一卷积神经网络模型对所述第一特征向量进行卷积处理，获取第一特征向量卷积结果；

对所述第一特征向量卷积结果进行放大处理；

判断放大后的所述第一特征向量卷积结果是否满足卷积收敛条件；

若满足，则完成对所述第一卷积神经网络模型的训练；

若不满足，则根据放大后的所述第一特征向量卷积结果调整所述第一卷积神经网络模型的网络参数，并根据调整后的所述第一卷积神经网络模型的网络参数对所述第一卷积神经网络模型进行迭代训练，直至迭代训练后的所述第一特征向量卷积结果满足所述卷积收敛条件。
根据权利要求6所述的方法，其特征在于，所述对所述第一特征向量卷积结果进行放大处理，包括：

通过对所述第一特征向量卷积结果进行双线性插值，放大所述第一特征向量卷积结果。
根据权利要求6或7所述的方法，其特征在于，所述对所述第一特征向量卷积结果进行放大处理，包括：

将所述第一特征向量卷积结果放大到放大后的第一特征向量卷积结果对应的图像的大小与原始图像大小一致。
根据权利要求6-8任一所述的方法，其特征在于，所述判断放大后的所述第一特征向量卷积结果是否满足卷积收敛条件包括：

使用设定的损失函数计算放大后的所述第一特征向量卷积结果和预定的标准输出特征向量的损失值；

根据所述损失值判断放大后的所述第一特征向量卷积结果是否满足收敛条件。
根据权利要求6-9任一所述的方法，其特征在于，还包括：

获取测试样本图像，使用训练后的所述第一卷积神经网络模型对所述测试样本图像进行前背景区域的预测；

检验预测的前背景区域是否正确；

若不正确，则使用所述测试样本图像对所述第一卷积神经网络模型进行再次训练。
根据权利要求10所述的方法，其特征在于，所述使用所述测试样本图像对所述卷积神经网络模型进行再次训练，包括：

从所述测试样本图像中获取前背景区域预测不正确的样本图像；

使用预测不正确的样本图像对所述第一卷积神经网络模型进行再次训练，其中，所述预测不正确的样本图像包含有前景信息和背景信息。
根据权利要求6-11任一所述的方法，其特征在于，所述获取第一样本图像的第一特征向量之前，还包括：

将包括多帧样本图像的视频流输入所述第一卷积神经网络模型。
根据权利要求12所述的方法，其特征在于，所述将包括多帧样本图像的视频流输入所述第一卷积神经网络模型之前，还包括：

确定所述视频流的多个关键帧的图像为样本图像，对所述样本图像进行前景区域和背景区域的标注。
根据权利要求6-13任一所述的方法，其特征在于，所述第一卷积神经网络模型包括全卷积神经网络模型。
根据权利要求2-14任一所述的方法，其特征在于，所述确定所述业务对象在所述视频图像中的展示位置，包括：

按照设定规则确定所述业务对象在所述视频图像中的展示位置；

其中，所述设定规则包括：预先设定的所述业务对象在所述视频图像的设定展示位置，或者，根据所述前景区域中的目标对象的动作检测数据，确定所述业务对象在所述视频图像中的展示位置。
根据权利要求15所述的方法，其特征在于，所述根据所述前景区域中的目标对象的动作检测数据，确定所述业务对象在所述视频图像中的展示位置，包括：

根据所述前景区域中的目标对象的动作检测数据，通过预先训练好的、第二卷积神经网络模型确定所述业务对象在所述视频图像中的展示位置。
根据权利要求16所述的方法，其特征在于，所述对所述第二卷积神经网络模型的预先训练，包括：

利用所述第二卷积神经网络模型获取第二样本图像的第一特征向量，其中，所述第二特征向量中包含有所述第二样本图像中的业务对象的位置信息和/或置信度信息，以及所述第二样本图像中目标对象的目标对象特征向量；

利用所述第二卷积神经网络模型对所述第二特征向量进行卷积处理，获取第二特征向量卷积结果；

判断所述第二特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断所述第二特征向量卷积结果中的目标对象特征向量是否满足目标对象收敛条件；

若均满足，则完成对所述第二卷积神经网络模型的训练；

否则，调整所述第二卷积神经网络模型的网络参数并根据调整后的所述第二卷积神经网络模型的网络参数对所述第二卷积神经网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息和目标对象特征向量均满足相应的收敛条件。
根据权利要求15所述的方法，其特征在于，所述根据所述前景区域中的目标对象的动作检测数据，确定所述业务对象在所述视频图像中的展示位置，包括：

根据所述前景区域中的目标对象的动作检测数据和所述业务对象的类型，确定所述业务对象在所述视频图像中的展示位置。
根据权利要求18所述的方法，其特征在于，所述根据所述前景区域中的目标对象的动作检测数据和所述业务对象的类型，确定所述业务对象在所述视频图像中的展示位置，包括：

根据所述前景区域中的目标对象的动作检测数据和所述业务对象的类型，获得所述业务对象在所述视频图像中的多个展示位置；

从所述多个展示位置中选择至少一个展示位置作为所述业务对象在所述视频图像中的展示位置。
根据权利要求15所述的方法，其特征在于，所述根据所述前景区域中的目标对象的动作检测数据，确定所述业务对象在所述视频图像中的展示位置，包括：

判断所述前景区域中的目标对象的动作检测数据与预先设定的动作数据是否匹配；

若匹配，从预先存储的动作数据与展示位置的对应关系中，获取所述预先设定的动作数据对应的目标展示位置作为所述业务对象在所述视频图像中的展示位置。
根据权利要求1-20任一所述的方法，其特征在于，所述获取待展示的所述业务对象包括：

从预定存储位置获取所述业务对象，或者从视频源接收所述业务对象。
根据权利要求1-21任一所述的方法，其特征在于，所述业务对象包括以下任意一项或多项：目标视频、目标图像、包含有语义信息的目标特效；所述视频图像包括：静态图像或直播类视频图像。
根据权利要求22所述的方法，其特征在于，所述目标特效包括包含广告信息的以下任意一种或多种形式的特效：二维贴纸特效、三维特效、粒子特效。
根据权利要求23所述的方法，其特征在于，所述直播类视频图像的前景区域包括人物所在的区域。
根据权利要求22-24任一所述的方法，其特征在于，所述直播类视频图像的背景区域包括除了人物所在的区域之外的至少局部区域。
根据权利要求15-25任一所述的方法，其特征在于，所述目标对象的动作检测数据包括以下任意一项或多项：眨眼数据、张嘴数据、点头数据、摇头数据、亲吻数据、微笑数据、挥手数据、剪刀手数据、握拳数据、托手数据、大拇指数据、***姿势数据、OK手数据。
一种视频图像的处理装置，其特征在于，包括：

获取模块，用于获取待处理的视频图像和待展示的业务对象；

背景区域确定模块，用于确定所述视频图像的背景区域；

绘制模块，用于采用计算机绘图方式在所述视频图像的背景区域绘制所述业务对象。
根据权利要求27所述的装置，其特征在于，所述绘制模块包括：

展示位置确定模块，用于确定所述业务对象在所述视频图像中的展示位置；

前景区域确定模块，用于确定所述视频图像的前景区域；

判断模块，用于根据所述展示位置判断所述业务对象与所述前景区域是否存在重叠部分；

展示模块，用于若所述业务对象与所述前景区域存在重叠部分，则采用计算机绘图方式，在所述背景区域绘制所述业务对象中除所述重叠部分之外的部分。
根据权利要求27所述的装置，其特征在于，所述绘制模块，用于采用计算机绘图方式在所述背景区域绘制所述业务对象，使所述业务对象覆盖所述背景区域的原始内容。
根据权利要求27-29任一所述的装置，其特征在于，所述背景区域确定模块，用于通过预先训练好的第一卷积神经网络模型确定所述视频图像的背景区域。
根据权利要求30所述的装置，其特征在于，还包括：第一训练模块，用于对所述第一卷积神经网络模型进行训练；

所述第一训练模块包括：

第一特征向量获取模块，用于利用所述第一卷积神经网络模型获取第一样本图像的第一特征向量，其中，所述第一样本图像为包含有前景标注信息和背景标注信息的样本图像；

第一卷积处理模块，用于利用所述第一卷积神经网络模型对所述第一特征向量进行卷积处理，获取第一特征向量卷积结果；

放大处理模块，用于对所述第一特征向量卷积结果进行放大处理；

第一条件判断模块，用于判断放大后的所述第一特征向量卷积结果是否满足卷积收敛条件；

第一执行模块，用于若放大后的所述第一特征向量卷积结果满足卷积收敛条件，则完成对所述第一卷积神经网络模型的训练；若放大后的所述第一特征向量卷积结果不满足卷积收敛条件，则根据放大后的所述第一特征向量卷积结果调整所述第一卷积神经网络模型的网络参数并根据调整后的所述第一卷积神经网络模型的网络参数对所述第一卷积网络模型进行迭代训练，直至迭代训练后的所述第一特征向量卷积结果满足所述卷积收敛条件。
根据权利要求31所述的装置，其特征在于，所述放大处理模块，用于通过对所述第一特征向量卷积结果进行双线性插值，放大所述第一特征向量卷积结果。
根据权利要求31或32所述的装置，其特征在于，所述放大处理模块，用于将所述第一特征向量卷积结果放大到放大后的第一特征向量卷积结果对应的图像的大小与原始图像大小一致。
根据权利要求31-33任一所述的装置，其特征在于，第一条件判断模块，用于使用设定的损失函数计算放大后的所述第一特征向量卷积结果和预定的标准输出特征向量的损失值；以及根据所述损失值判断放大后的所述第一特征向量卷积结果是否满足收敛条件。
根据权利要求31-34任一所述的装置，其特征在于，所述第一训练模块还包括：

预测模块，用于获取测试样本图像，使用训练后的所述第一卷积神经网络模型对所述测试样本图像进行前背景区域的预测；

检验模块，用于检验预测的前背景区域是否正确；

再训练模块，用于若所述检验模块的检验结果不正确，使用所述测试样本图像对所述第一卷积神经网络模型进行再次训练。
根据权利要求35所述的装置，其特征在于，所述再训练模块，用于若所述检验模块的检验结果不正确，从所述测试样本图像中获取前背景区域预测不正确的样本图像；以及使用预测不正确的样本图像对所述第一卷积神经网络模型进行再次训练，其中，所述预测不正确的样本图像包含有前景信息和背景信息。
根据权利要求31-36任一所述的装置，其特征在于，所述第一训练模块还包括：

视频流模块，用于在所述第一向量获取模块获取第一样本图像的第一特征向量之前，将包括多帧样本图像的视频流输入所述第一卷积神经网络模型。
根据权利要求37所述的装置，其特征在于，所述第一训练模块还包括：

标注模块，用于在所述视频流模块将包括多帧样本图像的视频流输入所述第一卷积神经网络模型之前，确定所述视频流的多个关键帧的图像为样本图像，对所述样本图像进行前景区域和背景区域的标注。
根据权利要求30-38任一所述的装置，其特征在于，所述第一卷积神经网络模型包括全卷积神经网络模型。
根据权利要求28-39任一所述的装置，其特征在于，所述展示位置确定模块，用于按照设定规则确定所述业务对象在所述视频图像中的展示位置；

其中，所述设定规则包括：预先设定的所述业务对象在所述视频图像的设定展示位置，或者，所述展示位置确定模块根据所述前景区域中的目标对象的动作检测数据，确定所述业务对象在所述视频图像中的展示位置。
根据权利要求40所述的装置，其特征在于，所述展示位置确定模块，用于根据所述前景区域中的目标对象的动作检测数据，通过预先训练好的第二卷积神经网络模型确定所述业务对象在所述视频图像中的展示位置。
根据权利要求41所述的装置，其特征在于，还包括：

第二训练模块，用于对所述第二卷积神经网络模型进行训练；

所述第二训练模块包括：

第二特征向量获取模块，用于利用所述第二卷积神经网络模型获取第二样本图像的第一特征向量，其中，所述第二特征向量中包含有所述第二样本图像中的业务对象的位置信息和/或置信度信息，以及所述第二样本图像中目标对象的目标对象特征向量；

第二卷积处理模块，用于利用所述第二卷积神经网络模型对所述第二特征向量进行卷积处理，获取第二特征向量卷积结果；

第二条件判断模块，用于判断所述第二特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息是否满足业务对象收敛条件，并判断所述第二特征向量卷积结果中的目标对象特征向量是否满足目标对象收敛条件；

第二执行模块，用于若所述第二特征向量卷积结果中对应的业务对象的位置信息和/或置信度信息满足业务对象收敛条件，且所述第二特征向量卷积结果中的目标对象特征向量满足目标对象收敛条件，则完成对所述第二卷积神经网络模型的训练；否则，调整所述第二卷积神经网络模型的网络参数并根据调整后的所述第二卷积神经网络模型的网络参数对所述第二卷积神经网络模型进行迭代训练，直至迭代训练后的业务对象的位置信息和/或置信度信息和目标对象特征向量均满足相应的收敛条件。
根据权利要求40所述的装置，其特征在于，所述展示位置确定模块，用于根据所述前景区域中的目标对象的动作检测数据和所述业务对象的类型，确定所述业务对象在所述视频图像中的展示位置。
根据权利要求43所述的装置，其特征在于，所述展示位置确定模块包括：

展示位置获得模块，用于根据所述前景区域中的目标对象的动作检测数据和所述业务对象的类型，获得所述业务对象在所述视频图像中的多个展示位置；

展示位置选择模块，用于从所述多个展示位置中选择至少一个展示位置作为所述业务对象在所述视频图像中的展示位置。
根据权利要求40所述的装置，其特征在于，所述展示位置确定模块包括：

数据判断模块，用于判断所述前景区域中的目标对象的动作检测数据与预先设定的动作数据是否匹配；

位置获取模块，用于若所述前景区域中的目标对象的动作检测数据与预先设定的动作数据匹配，则从预先存储的动作数据与展示位置的对应关系中，获取所述预先设定的动作数据对应的目标展示位置作为所述业务对象在所述视频图像中的展示位置。
根据权利要求27-45任一所述的装置，其特征在于，所述获取模块，用于从预定存储位置获取所述业务对象，或者从视频源接收所述业务对象。
根据权利要求27-46任一所述的装置，其特征在于，所述业务对象包括以下任意一项或多项：目标视频、目标图像、包含有语义信息的目标特效；所述视频图像包括：静态图像或直播类视频图像。
根据权利要求47所述的装置，其特征在于，所述目标特效包括包含广告信息的以下任意一种或多种形式的特效：二维贴纸特效、三维特效、粒子特效。
根据权利要求48所述的装置，其特征在于，所述直播类视频图像的前景区域包括人物所在的区域。
根据权利要求47-49任一所述的装置，其特征在于，所述直播类视频图像的背景区域包括除了人物所在的区域之外的至少局部区域。
根据权利要求40-50任一所述的装置，其特征在于，所述目标对象的动作检测数据包括以下任意一项或多项：眨眼数据、张嘴数据、点头数据、摇头数据、亲吻数据、微笑数据、挥手数据、剪刀手数据、握拳数据、托手数据、大拇指数据、***姿势数据、OK手数据。
一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-26任一所述的视频图像的处理方法对应的操作。
一种电子设备，其特征在于，包括：

处理器和权利要求27-52任一所述的视频图像的处理装置；

在处理器运行所述视频图像的处理装置时，权利要求26-51任一所述的视频图像的处理装置中的单元被运行。
一种计算机程序，包括计算机可读代码，其特征在于，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现权利要求1-26任一项所述的视频图像的处理方法中各步骤的指令。
一种计算机可读存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时实现权利要求1-26任一项所述的视频图像的处理方法中各步骤的操作。