CN108875900B

CN108875900B - 视频图像处理方法和装置、神经网络训练方法、存储介质

Info

Publication number: CN108875900B
Application number: CN201711063311.2A
Authority: CN
Inventors: 彭超; 俞刚
Original assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2022-05-24
Anticipated expiration: 2037-11-02
Also published as: CN108875900A

Abstract

一种基于神经网络的视频图像处理方法和装置、用于视频图像处理的神经网络的训练方法以及计算机可读存储介质。该基于神经网络的视频图像处理方法包括：获取图像组，其中，图像组包括第i帧图像、第i帧概率图和第i+1帧图像，i为正整数；以及利用神经网络对输入的图像组执行图像分割处理以获得第i+1帧图像的第i+1帧概率图。

Description

视频图像处理方法和装置、神经网络训练方法、存储介质

技术领域

本公开涉及图像处理领域，更具体地，本公开涉及基于神经网络的视频图像处理方法和装置、用于视频图像处理的神经网络的训练方法以及计算机可读存储介质。

背景技术

视频抠像技术可以用于将一个视频中的人物或者其他前景，通过智能抠像技术抓取出来，并嵌入合成到另一虚拟的或者其他实际的场景背景中，以形成一段具有特殊效果的视频。视频抠像技术可以使观看视频的用户感觉到视频中的人物正处在后期合成的场景中，并可以进一步使人物与场景背景有互动。视频抠像技术可以广泛应用于影视制作、远程视频会议、虚拟现实、增强现实、数字家庭娱乐等方面。视频抠像技术可以用于对视频中的人物进行人形抠像。人形抠像技术能够智能识别非纯色复杂背景下的所有人形，从而可以广泛应用于直播、美图、影视制作等领域。

目前，人形抠像***主要基于单张图片进行训练和使用，然而真实的视频数据主要包括由摄像头提供的视频数据。仅使用单张图片来做相应的预测推断会使视频数据的时序信息丢失，从而使人形抠像***缺乏视频连贯性，从而导致出现画面闪烁、抖动等不良现象，影响用户体验。另一方面，由于视频数据的连贯性，针对每帧图像进行处理既浪费了运算力，又浪费了不同帧图像之间的时序信息。

发明内容

鉴于上述问题而提出了本公开。本公开提供了一种基于神经网络的视频图像处理方法和装置、用于视频图像处理的神经网络的训练方法以及计算机可读存储介质。

本公开至少一实施例提供一种基于神经网络的视频图像处理方法，包括：获取图像组，其中，所述图像组包括第i帧图像、第i帧概率图和第i+1帧图像，i为正整数；以及利用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+1帧图像的第i+1帧概率图。

例如，在本公开一实施例提供的视频图像处理方法中，所述神经网络包括第一子神经网络，所述第一子神经网络包括第一卷积层组、第一求和层和第二卷积层组，所述第一卷积层组包括第一卷积层和第二卷积层。利用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+1帧图像的第i+1帧概率图，包括：利用所述第一卷积层分别对所述第i帧图像和第i+1帧图像执行卷积处理，以得到所述第i帧图像的特征图和第i+1帧图像的特征图；利用所述第二卷积层对所述第i帧概率图执行卷积处理，以得到所述第i帧概率图的特征图；利用所述第一求和层对所述第i帧图像的特征图、第i+1帧图像的特征图和所述第i帧概率图的特征图执行求和处理；以及利用所述第二卷积层组对所述第一求和层的输出执行卷积处理。

例如，在本公开一实施例提供的视频图像处理方法中，所述第一子神经网络还包括瓶颈层组，所述瓶颈层组包括第一瓶颈层和第二瓶颈层。利用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+1帧图像的第i+1帧概率图，还包括：经由所述第二瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获得所述第二瓶颈层的中间分数图，以及对所述第二瓶颈层的中间分数图执行上采样处理以获得所述第二瓶颈层的分数图；经由所述第一瓶颈层对所述第二瓶颈层的分数图和所述第i帧概率图执行求和处理以获得所述第i+1帧概率图。

例如，在本公开一实施例提供的视频图像处理方法中，所述第一子神经网络还包括瓶颈层组，所述瓶颈层组包括第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层和第五瓶颈层。利用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+1帧图像的第i+1帧概率图，还包括：经由所述第五瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获得所述第五瓶颈层的中间分数图，以及对所述第五瓶颈层的中间分数图执行上采样处理以获得所述第五瓶颈层的分数图；经由所述第四瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获得所述第四瓶颈层的中间分数图，对所述第五瓶颈层的分数图和所述第四瓶颈层的中间分数图进行求和处理以获得所述第四瓶颈层的融合图，以及对所述第四瓶颈层的融合图执行上采样处理以获得所述第四瓶颈层的分数图；经由所述第三瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获得所述第三瓶颈层的中间分数图，对所述第四瓶颈层的分数图和所述第三瓶颈层的中间分数图进行求和处理以获得所述第三瓶颈层的融合图，以及对所述第三瓶颈层的融合图执行上采样处理以获得所述第三瓶颈层的分数图；经由所述第二瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获得所述第二瓶颈层的中间分数图，对所述第三瓶颈层的分数图和所述第二瓶颈层的中间分数图进行求和处理以获得所述第二瓶颈层的融合图，以及对所述第二瓶颈层的融合图执行上采样处理以获得所述第二瓶颈层的分数图；经由所述第一瓶颈层对所述第二瓶颈层的分数图和所述第i帧概率图执行求和处理以获得所述第i+1帧概率图。

例如，在本公开一实施例提供的视频图像处理方法中，所述神经网络包括第一子神经网络和第二子神经网络，所述第二子神经网络包括光流卷积层组和光流层。利用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+1帧图像的第i+1帧概率图，包括：利用所述第一子神经网络对输入的所述图像组执行图像分割处理以获得所述第i+1帧图像的第i+1帧中间概率图；利用所述光流卷积层组对所述第i帧图像和第i+1帧图像执行卷积处理；利用所述光流层对所述光流卷积层组中最后的光流卷积层的输出执行光流处理以获得第i+1帧像素偏移图像；根据所述第i+1帧像素偏移图像对所述第i帧概率图执行插值处理，以获得第i+1帧插值概率图；以及对所述第i+1帧中间概率图和所述第i+1帧插值概率图执行相加处理，以获得所述第i+1帧概率图。

例如，在本公开一实施例提供的视频图像处理方法中，所述第i+1帧像素偏移图像包括第i+1帧水平像素偏移图像和第i+1帧垂直像素偏移图像。

例如，在本公开一实施例提供的视频图像处理方法中，所述神经网络包括第一子神经网络、第二子神经网络和输出层，所述第二子神经网络包括光流卷积层组和光流层。利用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+1帧图像的第i+1帧概率图，包括：利用所述第一子神经网络对输入的所述图像组执行图像分割处理以获得所述第i+1帧图像的第i+1帧中间概率图；利用所述光流卷积层组对所述第i帧图像和第i+1帧图像执行卷积处理；利用所述光流层对所述光流卷积层组中最后的光流卷积层的输出执行光流处理以获得第i+1帧像素偏移图像；根据所述第i+1帧像素偏移图像对所述第i帧概率图执行插值处理，以获得第i+1帧插值概率图；对所述第i+1帧中间概率图和所述第i+1帧插值概率图执行相加处理，以获得所述第i+1帧图像的光流图像；以及利用所述输出层对光流图像组进行加权平均处理以获得第i+1帧概率图，其中，所述光流图像组包括前i+1帧图像的光流图像。

例如，在本公开一实施例提供的视频图像处理方法中，所述神经网络还包括输入层，所述方法还包括：利用所述输入层对所述第i帧图像和所述第i+1帧图像执行颜色格式变换处理；以及经由所述输入层将所述第i帧图像、所述第i帧概率图和所述第i+1帧图像输入至所述第一子神经网络。

例如，在本公开一实施例提供的视频图像处理方法中，所述神经网络为全卷积神经网络。

本公开至少一实施例还提供一种用于视频图像处理的神经网络的训练方法，其包括：获取训练图像组，所述训练图像组包括第i帧训练图像、第i帧训练概率图和第i+1帧训练图像，i为正整数；经由所述神经网络对所述训练图像组执行图像分割处理以获得第i+1帧训练概率图；根据所述第i+1帧训练概率图调整所述神经网络的参数；以及在所述神经网络的损失函数满足预定条件时，获得训练好的所述神经网络，在所述神经网络的损失函数不满足预定条件时，继续输入所述训练图像组以重复执行上述训练过程。

例如，在本公开一实施例提供的训练方法中，所述神经网络包括第一子神经网络，所述第一子神经网络包括第一卷积层组、第一求和层和第二卷积层组，所述第一卷积层组包括第一卷积层和第二卷积层。经由所述神经网络对所述训练图像组执行图像分割处理以获得第i+1帧训练概率图包括：利用所述第一卷积层分别对所述第i帧训练图像和第i+1帧训练图像执行卷积处理，以得到所述第i帧训练图像的训练特征图和第i+1帧训练图像的训练特征图；利用所述第二卷积层对所述第i帧训练概率图执行卷积处理，以得到所述第i帧训练概率图的训练特征图；利用所述第一求和层对所述第i帧训练图像的训练特征图、第i+1帧训练图像的训练特征图和所述第i帧训练概率图的训练特征图执行求和处理；利用所述第二卷积层组对所述第一求和层的输出执行卷积处理。

例如，在本公开一实施例提供的训练方法中，所述第一子神经网络还包括瓶颈层组，所述瓶颈层组包括第一瓶颈层和第二瓶颈层。经由所述神经网络对所述训练图像组执行图像分割处理以获得第i+1帧训练概率图还包括：经由所述第二瓶颈层对所述第二卷积层组中对应的卷积层输出的训练特征图执行卷积计算以获得所述第二瓶颈层的中间训练分数图，以及对所述第二瓶颈层的中间训练分数图执行上采样处理以获得所述第二瓶颈层的训练分数图；经由所述第一瓶颈层对所述第二瓶颈层的训练分数图和所述第i帧训练概率图执行求和处理以获得第i+1帧训练概率图。

例如，在本公开一实施例提供的训练方法中，所述神经网络包括第一子神经网络和第二子神经网络，所述第二子神经网络包括光流卷积层组和光流层。经由所述神经网络对所述训练图像组执行图像分割处理以获得第i+1帧训练概率图包括：利用所述第一子神经网络对输入的所述训练图像组执行图像分割处理以获得所述第i+1帧训练图像的第i+1帧中间训练概率图；利用所述光流卷积层组对所述第i帧训练图像和第i+1帧训练图像执行卷积处理；利用所述光流层对所述光流卷积层组中最后的光流卷积层的输出执行光流处理以获得第i+1帧训练像素偏移图像；根据所述第i+1帧训练像素偏移图像对所述第i帧训练概率图执行插值处理，以获得第i+1帧训练插值概率图；以及对所述第i+1帧中间训练概率图和所述第i+1帧训练插值概率图执行相加处理，以获得所述第i+1帧训练概率图。

本公开至少一实施例还提供一种视频图像处理装置，其包括：图像获取模块，用于获取第i帧图像和第i+1帧图像，i为正整数；视频图像处理模块，用于利用神经网络对图像组执行图像处理，其中，所述图像组包括所述第i帧图像、所述第i+1帧图像和第i帧概率图。所述视频图像处理模块具体用于：利用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+1帧图像的第i+1帧概率图。

例如，在本公开一实施例提供的视频图像处理装置中，所述神经网络包括第一子神经网络，所述第一子神经网络包括第一卷积层组、第一求和层和第二卷积层组，所述第一卷积层组包括第一卷积层和第二卷积层。所述视频图像处理模块用于：利用所述第一卷积层分别对所述第i帧图像和第i+1帧图像执行卷积处理，以得到所述第i帧图像的特征图和第i+1帧图像的特征图；利用所述第二卷积层对所述第i帧概率图执行卷积处理，以得到所述第i帧概率图的特征图；利用所述第一求和层对所述第i帧图像的特征图、第i+1帧图像的特征图和所述第i帧概率图的特征图执行求和处理；利用所述第二卷积层组对所述第一求和层的输出执行卷积处理。

例如，在本公开一实施例提供的视频图像处理装置中，所述第一子神经网络还包括瓶颈层组，所述瓶颈层组包括第一瓶颈层和第二瓶颈层。所述视频图像处理模块用于：经由所述第二瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获得所述第二瓶颈层的中间分数图，以及对所述第二瓶颈层的中间分数图执行上采样处理以获得所述第二瓶颈层的分数图；经由所述第一瓶颈层对所述第二瓶颈层的分数图和所述第i帧概率图执行求和处理以获得第i+1帧概率图。

例如，在本公开一实施例提供的视频图像处理装置中，所述第一子神经网络还包括瓶颈层组，所述瓶颈层组包括第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层和第五瓶颈层。所述视频图像处理模块用于：经由所述第五瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获得所述第五瓶颈层的中间分数图，以及对所述第五瓶颈层的中间分数图执行上采样处理以获得所述第五瓶颈层的分数图；经由所述第四瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获得所述第四瓶颈层的中间分数图，对所述第五瓶颈层的分数图和所述第四瓶颈层的中间分数图进行求和处理以获得所述第四瓶颈层的融合图，以及对所述第四瓶颈层的融合图执行上采样处理以获得所述第四瓶颈层的分数图；经由所述第三瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获得所述第三瓶颈层的中间分数图，对所述第四瓶颈层的分数图和所述第三瓶颈层的中间分数图进行求和处理以获得所述第三瓶颈层的融合图，以及对所述第三瓶颈层的融合图执行上采样处理以获得所述第三瓶颈层的分数图；经由所述第二瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获得所述第二瓶颈层的中间分数图，对所述第三瓶颈层的分数图和所述第二瓶颈层的中间分数图进行求和处理以获得所述第二瓶颈层的融合图，以及对所述第二瓶颈层的融合图执行上采样处理以获得所述第二瓶颈层的分数图；经由所述第一瓶颈层对所述第二瓶颈层的分数图和所述第i帧概率图执行求和处理以获得第i+1帧概率图。

例如，在本公开一实施例提供的视频图像处理装置中，所述神经网络包括第一子神经网络和第二子神经网络，所述第二子神经网络包括光流卷积层组和光流层。所述视频图像处理模块还用于：利用所述第一子神经网络对输入的所述图像组执行图像分割处理以获得所述第i+1帧图像的第i+1帧中间概率图；利用所述光流卷积层组对所述第i帧图像和第i+1帧图像执行卷积处理；利用所述光流层对所述光流卷积层组中最后的光流卷积层的输出执行光流处理以获得第i+1帧像素偏移图像；根据所述第i+1帧像素偏移图像对所述第i帧概率图执行插值处理，以获得第i+1帧插值概率图；以及对所述第i+1帧中间概率图和所述第i+1帧插值概率图执行相加处理，以获得所述第i+1帧概率图。

例如，在本公开一实施例提供的视频图像处理装置中，所述神经网络包括第一子神经网络、第二子神经网络和输出层，所述第二子神经网络包括光流卷积层组和光流层。所述视频图像处理模块还用于：利用所述第一子神经网络对输入的所述图像组执行图像分割处理以获得所述第i+1帧图像的第i+1帧中间概率图；利用所述光流卷积层组对所述第i帧图像和第i+1帧图像执行卷积处理；利用所述光流层对所述光流卷积层组中最后的光流卷积层的输出执行光流处理以获得第i+1帧像素偏移图像；根据所述第i+1帧像素偏移图像对所述第i帧概率图执行插值处理，以获得第i+1帧插值概率图；对所述第i+1帧中间概率图和所述第i+1帧插值概率图执行相加处理，以获得所述第i+1帧图像的光流图像；以及利用所述输出层对光流图像组进行加权平均处理以获得第i+1帧概率图，其中，所述光流图像组包括前i+1帧图像的光流图像。

本公开至少一实施例还提供一种视频图像处理装置，其包括：存储器，用于存储非暂时性计算机可读指令；以及处理器，用于运行所述计算机可读指令，所述计算机可读指令被所述处理器运行时可以执行根据上述任一所述的视频图像处理方法。

本公开至少一实施例还提供一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时可以执行根据上述任一所述的视频图像处理方法。

根据本公开实施例的基于神经网络的视频图像处理方法和装置、用于视频图像处理的神经网络的训练方法以及计算机可读存储介质，其利用神经网络对多帧视频图像进行处理，融合多帧视频图像之间的特征信息，并结合多帧视频图像之间的时序信息得到视频图像的分割结果，提升图像的分割精度，提高抠图的准确性，提升抠图的速度，从而实现实时抠图，提升用户体验。

要理解的是，前面的一般描述和下面的详细描述两者都是示例性的，并且意图在于提供要求保护的技术的进一步说明。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1为本公开一实施例提供的一种基于神经网络的视频图像处理方法的示意性流程图；

图2为本公开一实施例提供的一种神经网络的示意性框图；

图3为图1中步骤S10的示意性流程图；

图4A为本公开一实施例提供的一种神经网络中第一子神经网络的一种结构示意图；

图4B为本公开一实施例提供的一种神经网络中第一子神经网络的另一种结构示意图；

图4C为本公开一实施例提供的一种神经网络中第一子神经网络的又一种结构示意图；

图5为图1中步骤S20的示意性流程图；

图6A为图5中步骤S205的一种示意性流程图；

图6B为图5中步骤S205的另一种示意性流程图；

图7为本公开一实施例提供的一种第一子神经网络中的瓶颈层组的结构示意图；

图8为本公开一实施例提供的另一种基于神经网络的视频图像处理方法的示意性流程图；

图9A为本公开一实施例提供的一种神经网络的第二子神经网络的一种结构示意图；

图9B为本公开一实施例提供的一种神经网络的第二子神经网络的另一种结构示意图；

图10为本公开一实施例提供的又一种基于神经网络的视频图像处理方法的示意性流程图；

图11是本公开一实施例提供的一种用于视频图像处理的神经网络的训练方法的流程图；

图12是本公开一实施例提供的一种视频图像处理装置的示意性框图；

图13是本公开一实施例提供的又一种视频图像处理装置的示意性框图；以及

图14是本公开一实施例提供的一种计算机可读存储介质的示意图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

本公开涉及基于神经网络的视频图像处理方法和装置、用于视频图像处理的神经网络的训练方法以及计算机可读存储介质。

例如，利用神经网络进行视频图像分割处理可以分为两个阶段，即训练阶段和图像分割阶段。所谓训练阶段是指首先需要利用训练图像对神经网络进行训练，以调整神经网络的参数；所谓图像分割阶段是指利用训练好的神经网络对待进行图像分割处理的图像进行语义分割。

需要说明的是，在本公开下面的描述中，以每个图像组包括两帧视频图像为例进行说明，但不限于此，本公开实施例提供的视频图像处理方法还可以对多帧(例如三帧、四帧等)视频图像进行分割处理。

下面结合附图详细描述本公开的几个实施例，但是本公开并不限于这些具体的实施例。

首先，参照图1描述根据本公开实施例的基于神经网络的视频图像处理方法，即神经网络的图像分割阶段。

图1示出了本公开一实施例提供的一种基于神经网络的视频图像处理方法的示意性流程图。图2示出了本公开一实施例提供的一种神经网络的示意性框图。

例如，如图1所示，本公开实施例提供的基于神经网络的视频图像处理方法包括以下步骤：

步骤S10：获取图像组，其中，图像组包括第i帧图像、第i帧概率图和第i+1帧图像；

步骤S20：利用神经网络对输入的图像组执行图像分割处理以获得第i+1帧图像的第i+1帧概率图。

例如，在步骤S10中，本公开实施例提供的视频图像处理方法可以对多帧视频图像进行打包处理得到图像组，从而融合多帧视频图像的特征，提升图像分割精度。多帧视频图像例如可以为连续多帧视频图像。图像组可以为从视频中截取的至少两帧图像，即第i帧图像和第i+1帧图像。在本公开的一个实施例中，可以在直播场景中配置能够获取直播场景的视频数据的摄像头作为图像获取装置。获取图像组包括但不限于，通过图像获取装置采集第i帧图像和第i+1帧图像。在步骤S20中，视频图像处理装置可以包括神经网络。视频图像处理装置可以接收第i帧图像和第i+1帧图像，并利用神经网络对第i帧图像和第i+1帧图像执行图像语义分割处理。

例如，在步骤S10中，i为正整数。

例如，图像获取装置可以与视频图像处理装置中的其他模块或组件物理上位于同一位置甚至位于同一机壳内部。又例如，图像获取装置可以为视频图像处理装置上配置的摄像头。视频图像处理装置中的其他模块或组件经由内部总线接收从图像获取装置发送的第i帧图像和第i+1帧图像。

例如，第i帧图像和第i+1帧图像可以是图像获取装置从视频中直接采集到的原始图像，也可以是对原始图像进行预处理之后获得的图像。

例如，第i帧图像和第i+1帧图像可以为彩色图像，也可以为灰度图像。

例如，第i帧概率图为经过视频图像处理装置对第i-1帧图像和第i帧图像进行分割处理之后得到图像。若i＝1，则第一帧概率图可以为全0矩阵。第i帧概率图中每个像素点的值表示其属于不同类别的概率。例如，对于人形抠像，在第i帧概率图中，若某个像素点的值为0.8，即表示该像素点属于人形的概率为0.8，属于背景的概率为0.2。

例如，若需要对视频图像进行人形抠图，即从视频图像中分割出人物的形状，则第i+1帧概率图P_i+1可以仅包括一个通道。对于多类物体抠图，则第i+1帧概率图P_i+1可以包括多个通道。例如，若需要对视频图像进行人物、车辆、背景分别进行分类，则第i+1帧概率图P_i+1可以包括三个通道。

需要说明的是，第i帧概率图可以存储在图像获取装置或视频图像处理装置中，从而在步骤S10中，直接从图像获取装置或视频图像处理装置获取该第i帧概率图。

例如，图像获取装置和视频图像处理装置之间可以通过有线或者无线方式进行通信。也就是说，第i帧图像和第i+1帧图像可以通过有线或无线的方式从图像获取装置被传输至视频图像处理装置。

例如，如图2所示，在一个实施例中，本公开实施例的用于视频图像处理的神经网络10可以包括输入层11和第一子神经网络12。输入层11用于对每帧视频图像进行颜色格式转换，以方便后续第一子神经网络12进行图像分割处理。第一子神经网络12用于对多帧(例如两帧)视频图像进行图像分割以得到各帧视频图像的概率图。

例如，在步骤S10中，图像组可以被传输至输入层11，并经由输入层11输入至第一子神经网络12。也就是说，如图3所示，步骤S10可以包括：

步骤S101：获取图像组；

步骤S102：利用输入层对第i帧图像和第i+1帧图像执行颜色格式变换处理；

步骤S103：经由输入层将第i帧图像、第i帧概率图和第i+1帧图像输入至第一子神经网络。

例如，在一个示例中，第i帧图像和第i+1帧图像可以为彩色图像，且第i帧图像和第i+1帧图像的颜色模式为RGB模式。在步骤S101中，输入层11用于将第i帧图像和第i+1帧图像的颜色模式转换为BGR模式。

图4A为本公开一实施例提供的一种神经网络中第一子神经网络的一种结构示意图，图4B为本公开一实施例提供的一种神经网络中第一子神经网络的另一种结构示意图，图4C为本公开一实施例提供的一种神经网络中第一子神经网络的又一种结构示意图。图4A至4C所示的第一子神经网络仅为示例性的，而非限制性的。本公开实施例提供的第一子神经网络还可以具有其他结构，对此不作限制。

例如，在一个示例中，神经网络10可以为卷积神经网络(CNN)，例如全卷积神经网络(FCN)。该卷积神经网络的初始参数可以进行随机初始化，也可以利用之前已经训练好的网络(如VGG、ResNet等)进行初始化。第一子神经网络12包括第一卷积层组100、第一求和层和第二卷积层组200。第一卷积层组100包括至少两个卷积层，第二卷积层组200可以包括依次连接的多个卷积层。如图4A所示，在一个示例中，第一子神经网络12包括第一计算节点121和第二计算节点122，第一计算节点121包括第一卷积层C11，第二计算节点122包括第二卷积层C12，且第一卷积层C11和第二卷积层C12属于第一卷积层组100。第一子神经网络12还包括四个依次连接的计算节点，即第三计算节点123、第四计算节点124、第五计算节点125和第六计算节点126。第三计算节点123包括第三卷积层C13，第四计算节点124包括第四卷积层C14，第五计算节点125包括第五卷积层C15，第六计算节点126包括第六卷积层C16，且第三卷积层C13、第四卷积层C14、第五卷积层C15和第六卷积层C16属于第二卷积层组200。第二卷积层组200中的每个卷积层用于产生并输出特征图。Sum1为第一求和层。X_i为第i帧图像，X_i+1为第i+1帧图像，Y_i为第i帧概率图。

容易理解的是，本公开的范围不限于此，第一子神经网络12可以包括更多层卷积层，例如10层卷积层等。

例如，如图4A所示，第一卷积层组100可以仅提取一些低级特征，例如点、边缘、线条和角部等特征；随后，第二卷积层组200能从低级特征中迭代提取更复杂的特征，例如，直线、拐弯、三角形等特征。

例如，第一卷积层C11的卷积核和第二卷积层C12的卷积核具有不同的幅值。

需要说明的是，在第一计算节点121中也可以包括多个依次连接的卷积层，在第二计算节点122中也可以包括多个依次连接的卷积层。本公开对此不作限制。

例如，如图5所示，步骤S20可以包括：

步骤S201：利用第一卷积层分别对第i帧图像和第i+1帧图像执行卷积处理，以得到第i帧图像的特征图和第i+1帧图像的特征图；

步骤S202：利用第二卷积层对第i帧概率图执行卷积处理，以得到第i帧概率图的特征图；

步骤S203：利用第一求和层对第i帧图像的特征图、第i+1帧图像的特征图和第i帧概率图的特征图执行求和处理；

步骤S204：利用第二卷积层组对第一求和层的输出执行卷积处理。

例如，在步骤S201和步骤S202中，第i帧图像的特征图、第i+1帧图像的特征图和第i帧概率图的特征图可以具有相同的尺寸。

例如，在步骤S203中，利用第一求和层Sum1对第i帧图像的特征图、第i+1帧图像的特征图和第i帧概率图执行求和处理，以得到第i+1帧图像的融合图，从而第一求和层Sum1可以实现对于待检测的视频中的多帧信息的综合，提升图像的分割精度。例如，“求和处理”表示对第i帧图像的特征图、第i+1帧图像的特征图和第i帧概率图中对应的像素点的值进行相加处理。

例如，第二卷积层组200中的每个卷积层接收相邻上一计算节点的卷积层输出的特征图并执行卷积处理。如图4A所示，在步骤S203中，第三卷积层C13接收第一求和层Sum1的输出，即第i+1帧图像的融合图，并对第i+1帧图像的融合图执行卷积处理以得到特征图F11。第四卷积层C14接收特征图F11，并对特征图F11执行卷积处理以得到特征图F12。第五卷积层C15接收特征图F12，并对特征图F12执行卷积处理以得到特征图F13。第六卷积层C16接收特征图F13，并对特征图F13执行卷积处理以得到特征图F14。

需要说明的是，第一子神经网络12还可以包括至少一个第一下采样层。在一个示例中，第一下采样层的数量例如可以与第一子神经网络12中的卷积层的数量相同，从而在每个卷积层后可以设置一个第一下采样层，也就是说，第一子神经网络12中的每个计算节点中还设置一个第一下采样层。由此，第一子神经网络12中的每个计算节点的处理过程还可以包括下采样处理。如图4C所示，第一计算节点121还包括第一下采样层P11，第二计算节点122还包括第一下采样层P12。第三计算节点123还包括第一下采样层P13，第四计算节点124还包括第一下采样层P14，第五计算节点125还包括第一下采样层P15，第六计算节点126还包括第一下采样层P16。

例如，第一下采样层可以为池化层。一方面，池化层可以用于缩减输入的视频图像的规模，简化计算的复杂度，在一定程度上减小过拟合的现象；另一方面，池化层也可以进行特征压缩，提取输入的视频图像的主要特征。池化层能够减少特征图像的尺寸，但不改变特征图像的数量。例如，一个尺寸为12×12的输入图像，通过6×6的滤波器对其进行采样，那么可以得到2×2的输出图像，这意味着输入图像上的36个像素合并为输出图像中的1个像素。根据实际需要，每个计算节点中还可以设置一个归一化层，即每个计算节点的处理过程还可以包括归一化处理(LCN，local constant normalization)等。

例如，如图4A所示，第一子神经网络12还包括瓶颈层组300。瓶颈层组300可以减少神经网络的计算量，提升神经网络的计算速度，提高图像处理的效率。从而，如图5所示，步骤S20还可以包括：

步骤S205：利用瓶颈层组对第二卷积层组的输出执行图像分割处理以获得第i+1帧概率图。

例如，如图4A所示，在一个示例中，瓶颈层组300可以包括第一瓶颈层U1和第二瓶颈层U2。从而，如图6A所示，步骤S205可以包括：

步骤S2051：经由第二瓶颈层对第二卷积层组中对应的卷积层的输出执行卷积计算以获得第二瓶颈层的中间分数图，以及对第二瓶颈层的中间分数图执行上采样处理以获得第二瓶颈层的分数图；

步骤S2052：经由第一瓶颈层对第二瓶颈层的分数图和第i帧概率图执行求和处理以获得第i+1帧概率图。

例如，如图4A所示，第二瓶颈层U2可以接收第六卷积层C16输出的特征图F14，并对特征图F14执行卷积计算和上采样处理以获得第二瓶颈层U2的分数图S1。

例如，如图4A至图4C所示，第一子神经网络12还可以包括第七卷积层C17。从而，步骤S2052可以包括：经由第七卷积层C17对第i帧概率图执行卷积处理以获得特征图F15，其中，特征图F15与第二瓶颈层U2的分数图S1具有相同的尺寸；以及经由第一瓶颈层U1对第二瓶颈层U2的分数图S1和第七卷积层C17输出的特征图F15执行融合处理以获得第i+1帧概率图P_i+1，第i+1帧概率图P_i+1和第i+1帧图像具有相同的尺寸。

例如，第七卷积层C17可以包括3×3卷积核等。

需要说明的是，在图4A所示的示例中，第二瓶颈层U2与第二卷积层组200中的第六卷积层C16相对应，但不限于此，第二瓶颈层U2也可以与第二卷积层组200中的第三卷积层C13、第四卷积层C14或第五卷积层C15相对应，也就是说，第二瓶颈层U2也可以对第三卷积层C13、第四卷积层C14或第五卷积层C15输出的特征图进行处理。

例如，如图4B所示，在另一个示例中，瓶颈层组300可以包括五个瓶颈层，即第一瓶颈层U1、第二瓶颈层U2、第三瓶颈层U3、第四瓶颈层U4和第五瓶颈层U5。由此，如图6B所示，步骤S205可以包括：

步骤S2053：经由第五瓶颈层对第二卷积层组中对应的卷积层的输出执行卷积计算以获得第五瓶颈层的中间分数图，以及对第五瓶颈层的中间分数图执行上采样处理以获得第五瓶颈层的分数图；

步骤S2054：经由第四瓶颈层对第二卷积层组中对应的卷积层的输出执行卷积计算以获得第四瓶颈层的中间分数图，对第五瓶颈层的分数图和第四瓶颈层的中间分数图进行求和处理以获得第四瓶颈层的融合图，以及对第四瓶颈层的融合图执行上采样处理以获得第四瓶颈层的分数图；

步骤S2055：经由第三瓶颈层对第二卷积层组中对应的卷积层的输出执行卷积计算以获得第三瓶颈层的中间分数图，对第四瓶颈层的分数图和第三瓶颈层的中间分数图进行求和处理以获得第三瓶颈层的融合图，以及对第三瓶颈层的融合图执行上采样处理以获得第三瓶颈层的分数图；

步骤S2056：经由第二瓶颈层对第二卷积层组中对应的卷积层的输出执行卷积计算以获得第二瓶颈层的中间分数图，对第三瓶颈层的分数图和第二瓶颈层的中间分数图进行求和处理以获得第二瓶颈层的融合图，以及对第二瓶颈层的融合图执行上采样处理以获得第二瓶颈层的分数图；

步骤S2057：经由第一瓶颈层对第二瓶颈层的分数图和第i帧概率图执行求和处理以获得第i+1帧概率图。

例如，如图4B所示，第二瓶颈层U2与第二卷积层组200中的第三卷积层C13相对应。第三瓶颈层U3与第二卷积层组200中的第四卷积层C14相对应。第四瓶颈层U4与第二卷积层组200中的第五卷积层C15相对应。第五瓶颈层U5与第二卷积层组200中的第六卷积层C16相对应。

由此，步骤S2053可以包括：经由第五瓶颈层U5对第六卷积层C16输出的特征图F14执行卷积计算以获得第五瓶颈层U5的中间分数图，以及对第五瓶颈层U5的中间分数图执行上采样处理以获得第五瓶颈层的分数图S4。

步骤S2056可以包括：经由第二瓶颈层U2对第三卷积层C13输出的特征图F11执行卷积计算以获得第二瓶颈层U2的中间分数图，对第三瓶颈层U3的分数图S2和第二瓶颈层U2的中间分数图进行求和处理以获得第二瓶颈层U2的融合图，以及对第二瓶颈层U2的融合图执行上采样处理以获得第二瓶颈层U2的分数图S1。

需要说明的是，在步骤S2054和步骤S2055中，第三瓶颈层U3和第四瓶颈层U4的处理过程与第二瓶颈层U2类似，不同之处在于：第三瓶颈层U3用于接收并处理第四卷积层C14输出的特征图F12和第四瓶颈层U4的分数图S3，第四瓶颈层U4用于接收并处理第五卷积层C15输出的特征图F13和第五瓶颈层U5的分数图S4。在此将省略第三瓶颈层U3和第四瓶颈层U4的处理过程的重复描述。例如，步骤S2056中的“求和处理”表示对第三瓶颈层U3的分数图S2和第二瓶颈层U2的中间分数图对应的像素点的值进行相加处理。

需要说明的是，图6B所示的示例中的步骤S2057和图6A所示的示例中步骤S2052相同，重复之处不再赘述。

图7为本公开一实施例提供的一种第一子神经网络中的瓶颈层组的结构示意图。

例如，瓶颈层组200中的每个瓶颈层可以包括多个通道压缩子层。如图7所示，在一个示例中，瓶颈层组300中的每个瓶颈层可以包括第一通道压缩子层和第二通道压缩子层。第一通道压缩子层包括至少一个第一卷积核，第一卷积核例如可以为1×1卷积核。第二通道压缩子层包括多个第二卷积核，第二卷积核例如可以为3×3卷积核、5×5卷积核或7×7卷积核等。第一卷积核用于压缩输入的特征图的通道数。第二卷积核用于增大感受野。从而，瓶颈层组300可以在保证分割精度的情况下，提高计算速度，扩大感受野的范围。

例如，如图7所示，除第一瓶颈层U1外，瓶颈层组300中的每个瓶颈层还可以包括上采样子层。上采样子层可以采用反卷积算法、插值算法等算法进行上采样。上采样子层用于增加特征图的各个维度的值，从而增加特征图的数据量。又例如，如图7所示，除第五瓶颈层U5外，瓶颈层组300中的每个瓶颈层还可以包括求和子层。

由此，步骤S2053包括：利用第五瓶颈层U5的第一通道压缩子层和第二通道压缩子层依次对特征图F14执行卷积处理以获得第五瓶颈层U5的中间分数图；以及利用第五瓶颈层U5的上采样子层对第五瓶颈层U5的中间分数图执行上采样处理以获得第五瓶颈层U5的分数图S4。

例如，步骤S2056可以包括：利用第二瓶颈层U2的第一通道压缩子层和第二通道压缩子层依次对特征图F11执行卷积处理以获得的第二瓶颈层U2的中间分数图；利用第二瓶颈层U2的求和子层对第三瓶颈层U3的分数图S2和第二瓶颈层U2的中间分数图进行求和处理以获得第二瓶颈层U2的融合图；利用第二瓶颈层U2的上采样子层对第二瓶颈层U2的融合图执行上采样处理以获得第二瓶颈层U2的分数图S1。需要说明的是，第三瓶颈层U3和第四瓶颈层U4的处理过程与第二瓶颈层U2相同。

例如，如图7所示，在一个示例中，第一瓶颈层U1可以包括求和子层。由此，步骤S2057可以包括：经由第一瓶颈层U1的求和子层对第二瓶颈层U2的分数图S1和特征图F15执行融合处理以获得第i+1帧概率图P_i+1。

例如，根据实际情况，第一瓶颈层U1还可以包括上采样子层。步骤S2057还可以包括：利用第一瓶颈层U1的上采样子层对第一瓶颈层U1的求和子层的输出执行上采样处理，以使第i+1帧概率图P_i+1和第i+1帧图像X_i+1具有相同的尺寸。

以上，通过参照图1至图7描述了根据本公开一实施例的视频图像处理方法。如上所述，本公开一实施例的视频图像处理方法通过第一子神经网络对多帧视频图像进行处理，融合多帧视频图像之间的特征信息，并结合多帧视频图像之间的时序信息，以实现对视频图像进行分割，提升图像的分割精度和准确性，提升抠图的速度，从而实现实时抠图。

例如，如图2所示，在另一个实施例中，神经网络可以包括输入层11、第一子神经网络12和第二子神经网络13。输入层11用于对每帧视频图像进行颜色格式转换，以方便后续第一子神经网络12和第二子神经网络13进行图像分割处理。第一子神经网络12用于对多帧(例如两帧)视频图像进行图像分割以得到各帧视频图像的中间概率图。第二子神经网络13基于多帧视频图像之间的差异得到各帧视频图像的概率图。第二子神经网络13可以包括光流卷积层组和光流层。

图8为本公开一实施例提供的另一种基于神经网络的视频图像处理方法的示意性流程图。

例如，如图8所示，本公开实施例提供的视频图像处理方法包括：

步骤S12：获取图像组，其中，图像组包括第i帧图像、第i帧概率图和第i+1帧图像；

步骤S22：利用第一子神经网络对输入的图像组执行图像分割处理以获得第i+1帧图像的第i+1帧中间概率图；

步骤S30：利用光流卷积层组对第i帧图像和第i+1帧图像执行卷积处理；

步骤S31：利用光流层对光流卷积层组中最后的光流卷积层的输出执行光流处理以获得第i+1帧像素偏移图像；

步骤S32：根据第i+1帧像素偏移图像对第i帧概率图执行插值处理，以获得第i+1帧插值概率图；以及

步骤S33：对第i+1帧中间概率图和第i+1帧插值概率图执行相加处理，以获得第i+1帧概率图。

例如，在步骤S22中，第一子神经网络12可以输出第i+1帧中间概率图Q_i+1。关于第一神经网络12的结构和处理过程可以参看上述实施例中关于第一神经网络12的相关描述，在此不再赘述。

需要说明的是，图8所示的示例中的步骤S12和图1所示的示例中的步骤S10相同，重复之处不再赘述。

图9A为本公开一实施例提供的一种神经网络的第二子神经网络的一种结构示意图。图9B为本公开一实施例提供的一种神经网络的第二子神经网络的另一种结构示意图。

例如，如图9A所示，在一个示例中，第二子神经网络13可以包括光流卷积层组400和光流层OF。第二子神经网络13用于对第i+1帧中间概率图和第i帧概率图进行有机融合。第二子神经网络13包括依次连接的多个计算节点。如图9A所示，多个计算节点可以包括第七计算节点221、第八计算节点222和第九计算节点223。第七计算节点221可以包括第一光流卷积层C21，第八计算节点222可以包括第二光流卷积层C22，第九计算节点223可以包括第三光流卷积层C23，且第一光流卷积层C21、第二光流卷积层C22和第三光流卷积层C23属于光流卷积层组400。

例如，如图2所示，在步骤S12中，第i帧图像和第i+1帧图像可以被传输至输入层11，并经由输入层11输入至第二子神经网络13。

由此，步骤S30包括：经由第一光流卷积层C21对第i帧图像执行卷积处理以得到第i帧图像的特征图F21；经由第二光流卷积层C22对特征图F21执行卷积处理以得到第i帧图像的特征图F22；以及经由第三光流卷积层C23对特征图F22执行卷积处理以得到第i帧图像的特征图F23。步骤S30还包括：经由第一光流卷积层C21、第二光流卷积层C22和第三光流卷积层C23对第i+1帧图像执行卷积处理以分别得到第i+1帧图像的特征图F31、特征图F32和特征图F33。在步骤S30中，对第i+1帧图像执行的卷积处理与对第i帧图像执行的卷积处理相同，在此将省略其重复描述。

例如，第一光流卷积层C21、第二光流卷积层C22和第三光流卷积层C23的参数可以分别与第一卷积层C11、第三卷积层C13和第四卷积层C14相同，从而在第二子神经网络13中可以复用第一卷积层C11、第三卷积层C13和第四卷积层C14，进而简化神经网络的结构。但不限于此，第一光流卷积层C21、第二光流卷积层C22和第三光流卷积层C23的参数也可以与第一卷积层C11、第三卷积层C13和第四卷积层C14的参数不相同。

例如，在步骤S31中，利用光流层OF对第三光流卷积层C23输出的特征图F23和特征图F33执行光流处理以获得第i+1帧像素偏移图像M(i，j)。第i+1帧像素偏移图像M(i，j)为一个三维张量，且与第i+1帧图像的尺寸相同。

例如，第i+1帧像素偏移图像M(i，j)可以包括第i+1帧水平像素偏移图像M(i,j,0)和第i+1帧垂直像素偏移图像M(i,j,1)。第i+1帧水平像素偏移图像M(i,j,0)表示第i+1帧图像中(i,j)处的像素点相对于第i帧图像中相应的(i,j)处的像素点的水平偏移量。第i+1帧垂直像素偏移图像M(i,j,1)表示第i+1帧图像中(i,j)处的像素点相对于第i帧图像中相应的(i,j)处的像素点的垂直偏移量。

例如，如图9A所示，第二子神经网络13还可以包括插值层IT。在步骤32中，插值层IT可以根据第i+1帧像素偏移图像M(i，j)对第i帧概率图Y_i执行插值运算以获得第i+1帧插值概率图T_i+1。

例如，插值运算可以包括内插值、两次立方插值算法(Bicubic Interprolation)、拉格朗日插值、牛顿插值以及Hermite插值等。

例如，如图9A所示，第二子神经网络13还可以包括第二求和层Sum2。在步骤S33中，第二求和层Sum2可以对第i+1帧中间概率图Q_i+1和第i+1帧插值概率图T_i+1执行相加处理，以获得第i+1帧概率图P_i+1。

需要说明的是，第二子神经网络13还可以包括至少一个第二下采样层。在一个示例中，第二下采样层的数量例如可以与光流卷积层组400中光流卷积层的数量相同，从而在每个光流卷积层后可以设置一个第二下采样层，也就是说，第二子神经网络13中的每个计算节点包括一个第二下采样层。由此，第二子神经网络13中的每个计算节点还包括对输入的特征图执行下采样处理。如图9B所示，第七计算节点221包括第二下采样层P21，第八计算节点222包括第二下采样层P22，第九计算节点223包括第二下采样层P23。例如，第二下采样层也可以为池化层。

以上，通过参照图8至图9B描述了根据本公开另一实施例的视频图像处理方法。如上所述，本公开另一实施例的视频图像处理方法通过第二神经子网络对对第i+1帧中间概率图和第i帧概率图进行有机融合，以改善视觉效果，平滑图像分割结果，减弱图像分割的闪烁效果，提升用户体验。

例如，如图2所示，在又一个实施例中，神经网络10可以包括输入层11、第一子神经网络12、第二子神经网络13和输出层14。输入层11用于对每帧视频图像进行颜色格式转换，以方便后续第一子神经网络12和第二子神经网络13进行图像分割处理。第一子神经网络12用于对多帧(例如两帧)视频图像进行图像分割以得到各帧视频图像的中间概率图。第二子神经网络13基于多帧视频图像之间的差异得到各帧视频图像的光流图像。输出层14用于整合所有已经处理后的视频图像的光流图像以得到各帧视频图像的概率图。

例如，关于第二子神经网络13的结构和处理过程可以参看上述实施例中关于第二子神经网络13的相关描述，重复之处不再赘述。

图10为本公开一实施例提供的又一种基于神经网络的视频图像处理方法的示意性流程图。如图10所示，本公开实施例提供的视频图像处理方法可以包括：

步骤S14：获取图像组，其中，图像组包括第i帧图像、第i帧概率图和第i+1帧图像；

步骤S24：利用第一子神经网络对输入的图像组执行图像分割处理以获得第i+1帧图像的第i+1帧中间概率图；

步骤S35：利用光流卷积层组对第i帧图像和第i+1帧图像执行卷积处理；

步骤S36：利用光流层对光流卷积层组中最后的光流卷积层的输出执行光流处理以获得第i+1帧像素偏移图像；

步骤S37：根据第i+1帧像素偏移图像对第i帧概率图执行插值处理，以获得第i+1帧插值概率图；

步骤S40：对第i+1帧中间概率图和第i+1帧插值概率图执行相加处理，以获得第i+1帧图像的光流图像；以及

步骤S41：利用输出层对光流图像组进行加权平均处理以获得第i+1帧概率图。

例如，在步骤S40中，第二子神经网络13可以输出第i+1帧图像的光流图像R_i+1，第i+1帧图像的光流图像R_i+1融合两帧视频图像的特征信息，其分割结果已经比较精确。为了融合更多帧视频图像的分割结果，输出层14配置为对多帧视频图像的光流图像进行有机融合，从而进一步提高图像分割的精确度。

例如，在步骤S41中，光流图像组包括前i+1帧图像的光流图像，也就是说，光流图像组包括从第1帧图像的光流图像至i+1帧图像的光流图像。第i+1帧概率图P_i+1可以表示如下：

其中，P_i+1表示第i+1帧概率图，R_j表示第j帧图像的光流图像，φ_j表示第j帧图像的光流图像的系数。φ_j可以预先设置。例如，在一个示例中，φ_j可以表示为：

φ_j＝γ^i-1-j,γ∈(0,1)

又例如，在另一个示例中，对于比较复杂的场景，也可以采用梯度下降等算法学习出合理的φ_j。

需要说明的是，图10所示的示例中的步骤S14、步骤S24、步骤S35、步骤S36和步骤S37分别与图8所示的示例中的步骤S12、步骤S22、步骤S30、步骤S31和步骤S32相同，重复之处不再赘述。

以上，通过参照图10和图11描述了根据本公开又一实施例的视频图像处理方法。如上所述，本公开另一实施例的视频图像处理方法通过输出层对多帧视频图像的光流图像进行有机融合，实现了融合更多帧视频图像的分割结果，从而进一步提高图像分割的精确度和准确性。

图11是本公开一实施例提供的一种用于视频图像处理的神经网络的训练方法的流程图。

例如，在一个示例中，神经网络包括第一卷积神经网络。如图11所示，训练方法可以包括以下步骤：

步骤S50：获取训练图像组，训练图像组包括第i帧训练图像、第i帧训练概率图和第i+1帧训练图像；

步骤S51：经由神经网络对训练图像组执行图像分割处理以获得第i+1帧训练概率图；

步骤S52：根据第i+1帧训练概率图调整神经网络的参数；

步骤S53：判断神经网络的损失函数是否满足预定条件；

在神经网络的损失函数满足预定条件时，执行步骤S54，即获得训练好的神经网络；

在神经网络的损失函数不满足预定条件时，返回到步骤S50，即继续输入训练图像组以重复执行上述训练过程。

例如，在步骤S50中，i为正整数。

例如，在一个示例中，预定条件对应于在一定训练图像组输入下神经网络的损失函数的最小化。在另一个示例中，预定条件为神经网络的训练次数或训练周期达到预定数目。

例如，损失函数表示第i+1帧训练概率图与第i+1帧训练图像的目标概率图的差异。

例如，在一个实施例中，神经网络包括输入层和第一子神经网络。第一子神经网络包括第一卷积层组、第一求和层和第二卷积层组。第一卷积层组包括第一卷积层和第二卷积层。

例如，步骤S50的相关处理过程可以参考图1所示的示例中的步骤S10。

例如，步骤S51可以包括：首先利用第一卷积层分别对第i帧训练图像和第i+1帧训练图像执行卷积处理，以得到第i帧训练图像的训练特征图和第i+1帧训练图像的训练特征图；然后利用第二卷积层对第i帧训练概率图执行卷积处理，以得到第i帧训练概率图的训练特征图；然后利用第一求和层对第i帧训练图像的训练特征图、第i+1帧训练图像的训练特征图和第i帧训练概率图的训练特征图执行求和处理；然后利用第二卷积层组对第一求和层的输出执行卷积处理。

例如，第一子神经网络还包括瓶颈层组。瓶颈层组可以包括第一瓶颈层和第二瓶颈层。

例如，利用第二卷积层组对第一求和层的输出执行卷积处理后，步骤S51还可以包括：首先经由第二瓶颈层对第二卷积层组中对应的卷积层输出的训练特征图执行卷积计算以获得第二瓶颈层的中间训练分数图，以及对第二瓶颈层的中间训练分数图执行上采样处理以获得第二瓶颈层的训练分数图；然后经由第一瓶颈层对第二瓶颈层的训练分数图和第i帧训练概率图执行求和处理以获得第i+1帧训练概率图。

需要说明的是，关于第一卷积神经网络的处理过程可以参考上述视频图像处理方法的实施例中的相关说明。

例如，在另一个实施例中，神经网络可以包括输入层、第一子神经网络和第二子神经网络。第二子神经网络包括光流卷积层组和光流层。

例如，步骤S51可以包括：首先利用第一子神经网络对输入的训练图像组执行图像分割处理以获得第i+1帧训练图像的第i+1帧中间训练概率图；然后利用光流卷积层组对第i帧训练图像和第i+1帧训练图像执行卷积处理；然后利用光流层对光流卷积层组中最后的光流卷积层的输出执行光流处理以获得第i+1帧训练像素偏移图像；接着根据第i+1帧训练像素偏移图像对第i帧训练概率图执行插值处理，以获得第i+1帧训练插值概率图；最后对第i+1帧中间训练概率图和第i+1帧训练插值概率图执行相加处理，以获得第i+1帧训练概率图。

需要说明的是，关于第二卷积神经网络的处理过程也可以参考上述视频图像处理方法的实施例中的相关说明。

图12是本公开一实施例提供的一种视频图像处理装置的示意性框图。如图12所示，视频图像处理装置70包括图像获取模块705和视频图像处理模块710。这些组件通过总线***和/或其它形式的连接机构(未示出)互连。应当注意，图12所示的视频图像处理装置70的组件和结构只是示例性的，而非限制性的，根据需要，视频图像处理装置70也可以具有其他组件和结构。

例如，图像获取模块705用于获取第i帧图像和第i+1帧图像，i为正整数。视频图像处理模块710用于利用神经网络7105对图像组执行图像处理，图像组包括第i帧图像、第i+1帧图像和第i帧概率图。视频图像处理模块710具体用于：利用神经网络7105对输入的图像组执行图像分割处理以获得第i+1帧图像的第i+1帧概率图。

例如，第i帧概率图为经过视频图像处理装置710对第i-1帧图像和第i帧图像进行分割处理之后得到图像。

例如，图像获取模块705可以包括一个或多个摄像头。例如，图像获取模块705可以是智能手机的摄像头、平板电脑的摄像头、个人计算机的摄像头、或者甚至可以是网络摄像头。

例如，图像获取模块705可以为硬件、软件、固件以及它们的任意可行的组合。

例如，图像获取模块705可以经由有线或者无线方式将第i帧图像和第i+1帧图像传输至视频图像处理模块710。

例如，在一个实施例中，神经网络7105包括第一子神经网络，第一子神经网络包括第一卷积层组、第一求和层和第二卷积层组。第一卷积层组包括第一卷积层和第二卷积层。视频图像处理模块710还用于：利用第一卷积层分别对第i帧图像和第i+1帧图像执行卷积处理，以得到第i帧图像的特征图和第i+1帧图像的特征图；利用第二卷积层对第i帧概率图执行卷积处理，以得到第i帧概率图的特征图；利用第一求和层对第i帧图像的特征图、第i+1帧图像的特征图和第i帧概率图的特征图执行求和处理；利用第二卷积层组对第一求和层的输出执行卷积处理。

例如，第一子神经网络还可以包括瓶颈层组。在一个示例中，瓶颈层组包括第一瓶颈层和第二瓶颈层。视频图像处理模块710还用于：经由第二瓶颈层对第二卷积层组中对应的卷积层的输出执行卷积计算以获得第二瓶颈层的中间分数图，以及对第二瓶颈层的中间分数图执行上采样处理以获得第二瓶颈层的分数图；经由第一瓶颈层对第二瓶颈层的分数图和第i帧概率图执行求和处理以获得第i+1帧概率图。

例如，在另一个示例中，瓶颈层组包括第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层和第五瓶颈层。视频图像处理模块710用于：经由第五瓶颈层对第二卷积层组中对应的卷积层的输出执行卷积计算以获得第五瓶颈层的中间分数图，以及对第五瓶颈层的中间分数图执行上采样处理以获得第五瓶颈层的分数图；经由第四瓶颈层对第二卷积层组中对应的卷积层的输出执行卷积计算以获得第四瓶颈层的中间分数图，对第五瓶颈层的分数图和第四瓶颈层的中间分数图进行求和处理以获得第四瓶颈层的融合图，以及对第四瓶颈层的融合图执行上采样处理以获得第四瓶颈层的分数图；经由第三瓶颈层对第二卷积层组中对应的卷积层的输出执行卷积计算以获得第三瓶颈层的中间分数图，对第四瓶颈层的分数图和第三瓶颈层的中间分数图进行求和处理以获得第三瓶颈层的融合图，以及对第三瓶颈层的融合图执行上采样处理以获得第三瓶颈层的分数图；经由第二瓶颈层对第二卷积层组中对应的卷积层的输出执行卷积计算以获得第二瓶颈层的中间分数图，对第三瓶颈层的分数图和第二瓶颈层的中间分数图进行求和处理以获得第二瓶颈层的融合图，以及对第二瓶颈层的融合图执行上采样处理以获得第二瓶颈层的分数图；经由第一瓶颈层对第二瓶颈层的分数图和第i帧概率图执行求和处理以获得第i+1帧概率图。

例如，在另一个实施例中，神经网络7105可以包括输入层、第一子神经网络和第二子神经网络。第二子神经网络包括光流卷积层组和光流层。视频图像处理模块710还用于：利用第一子神经网络对输入的图像组执行图像分割处理以获得第i+1帧图像的第i+1帧中间概率图；利用光流卷积层组对第i帧图像和第i+1帧图像执行卷积处理；利用光流层对光流卷积层组中最后的光流卷积层的输出执行光流处理以获得第i+1帧像素偏移图像；根据第i+1帧像素偏移图像对第i帧概率图执行插值处理，以获得第i+1帧插值概率图；以及对第i+1帧中间概率图和第i+1帧插值概率图执行相加处理，以获得第i+1帧概率图。

例如，在又一个实施例中，神经网络7105包括输入层、第一子神经网络、第二子神经网络和输出层。第二子神经网络包括光流卷积层组和光流层。视频图像处理模块710还用于：利用第一子神经网络对输入的图像组执行图像分割处理以获得第i+1帧图像的第i+1帧中间概率图；利用光流卷积层组对第i帧图像和第i+1帧图像执行卷积处理；利用光流层对光流卷积层组中最后的光流卷积层的输出执行光流处理以获得第i+1帧像素偏移图像；根据第i+1帧像素偏移图像对第i帧概率图执行插值处理，以获得第i+1帧插值概率图；对第i+1帧中间概率图和第i+1帧插值概率图执行相加处理，以获得第i+1帧图像的光流图像；以及利用输出层对光流图像组进行加权平均处理以获得第i+1帧概率图。例如，光流图像组包括前i+1帧图像的光流图像。

图13是本公开一实施例提供的一种视频图像处理装置的示意性框图。如图13所示，视频图像处理装置80可以包括存储器805和处理器810。存储器805用于存储非暂时性计算机可读指令；处理器810用于运行所述计算机可读指令，所述计算机可读指令被处理器810运行时可以执行根据上文所述的视频图像处理方法中的一个或多个步骤。

例如，处理器810可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制视频图像处理装置80中的其它组件以执行期望的功能。

例如，存储器805可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机可读指令，处理器810可以运行所述计算机可读指令，以实现视频图像处理装置的各种功能。

例如，关于视频图像处理方法的处理过程的详细说明可以参考视频图像处理方法的实施例中的相关描述，重复之处不再赘述。

图14是本公开一实施例提供的一种计算机可读存储介质的示意图。例如，如图14所示，在计算机可读存储介质900上可以存储一个或多个非暂时性计算机可读指令901。例如，当所述非暂时性计算机可读指令901由计算机执行时可以执行根据上文所述的视频图像处理方法中的一个或多个步骤。又例如，当所述非暂时性计算机可读指令901由计算机执行时还可以执行根据上文所述的视频图像处理的神经网络的训练方法中的一个或多个步骤。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。

以上，参照附图描述了基于神经网络的视频图像处理方法和装置、用于视频图像处理的神经网络的训练方法以及计算机可读存储介质，其利用神经网络对多帧视频图像进行处理，融合多帧视频图像之间的特征信息，并结合多帧视频图像之间的时序信息得到视频图像的分割结果，提升图像的分割精度，提高抠图的准确性，提升抠图的速度，从而实现实时抠图，提升用户体验。

以上所述仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，本公开的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于神经网络的视频图像处理方法，包括：

获取图像组，其中，所述图像组包括第i帧图像、第i帧概率图和第i+1帧图像，i为正整数；以及

利用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+1帧图像的第i+1帧概率图，

其中，所述神经网络包括第一子神经网络和输入层，

所述视频图像处理方法还包括：利用所述输入层对所述第i帧图像和所述第i+1帧图像执行颜色格式变换处理；以及经由所述输入层将所述第i帧概率图以及执行颜色格式变换处理后的所述第i帧图像和所述第i+1帧图像输入至所述第一子神经网络。

2.根据权利要求1所述的视频图像处理方法，其中，所述第一子神经网络包括第一卷积层组、第一求和层和第二卷积层组，所述第一卷积层组包括第一卷积层和第二卷积层，

利用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+1帧图像的第i+1帧概率图，包括：

利用所述第一卷积层分别对执行颜色格式变换处理后的所述第i帧图像和所述第i+1帧图像执行卷积处理，以得到所述第i帧图像的特征图和第i+1帧图像的特征图；

利用所述第二卷积层对所述第i帧概率图执行卷积处理，以得到所述第i帧概率图的特征图；

利用所述第一求和层对所述第i帧图像的特征图、第i+1帧图像的特征图和所述第i帧概率图的特征图执行求和处理；

利用所述第二卷积层组对所述第一求和层的输出执行卷积处理。

3.根据权利要求2所述的视频图像处理方法，其中，所述第一子神经网络还包括瓶颈层组，所述瓶颈层组包括第一瓶颈层和第二瓶颈层，

利用所述神经网络对输入的所述图像组执行图像分割处理以获得所述第i+1帧图像的第i+1帧概率图，还包括：

经由所述第二瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获得所述第二瓶颈层的中间分数图，以及对所述第二瓶颈层的中间分数图执行上采样处理以获得所述第二瓶颈层的分数图；

经由所述第一瓶颈层对所述第二瓶颈层的分数图和所述第i帧概率图执行求和处理以获得所述第i+1帧概率图。

4.根据权利要求2所述的视频图像处理方法，其中，所述第一子神经网络还包括瓶颈层组，所述瓶颈层组包括第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层和第五瓶颈层，

经由所述第五瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获得所述第五瓶颈层的中间分数图，以及对所述第五瓶颈层的中间分数图执行上采样处理以获得所述第五瓶颈层的分数图；

经由所述第四瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获得所述第四瓶颈层的中间分数图，对所述第五瓶颈层的分数图和所述第四瓶颈层的中间分数图进行求和处理以获得所述第四瓶颈层的融合图，以及对所述第四瓶颈层的融合图执行上采样处理以获得所述第四瓶颈层的分数图；

经由所述第三瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获得所述第三瓶颈层的中间分数图，对所述第四瓶颈层的分数图和所述第三瓶颈层的中间分数图进行求和处理以获得所述第三瓶颈层的融合图，以及对所述第三瓶颈层的融合图执行上采样处理以获得所述第三瓶颈层的分数图；

经由所述第二瓶颈层对所述第二卷积层组中对应的卷积层的输出执行卷积计算以获得所述第二瓶颈层的中间分数图，对所述第三瓶颈层的分数图和所述第二瓶颈层的中间分数图进行求和处理以获得所述第二瓶颈层的融合图，以及对所述第二瓶颈层的融合图执行上采样处理以获得所述第二瓶颈层的分数图；

5.根据权利要求1所述的视频图像处理方法，其中，所述神经网络还包括第二子神经网络，所述第二子神经网络包括光流卷积层组和光流层，

利用所述第一子神经网络对输入的所述第i帧概率图以及执行颜色格式变换处理后的所述第i帧图像和所述第i+1帧图像执行图像分割处理以获得所述第i+1帧图像的第i+1帧中间概率图；

利用所述光流卷积层组对所述第i帧图像和第i+1帧图像执行卷积处理；

利用所述光流层对所述光流卷积层组中最后的光流卷积层的输出执行光流处理以获得第i+1帧像素偏移图像；

根据所述第i+1帧像素偏移图像对所述第i帧概率图执行插值处理，以获得第i+1帧插值概率图；以及

对所述第i+1帧中间概率图和所述第i+1帧插值概率图执行相加处理，以获得所述第i+1帧概率图。

6.根据权利要求5所述的视频图像处理方法，其中，所述第i+1帧像素偏移图像包括第i+1帧水平像素偏移图像和第i+1帧垂直像素偏移图像。

7.根据权利要求1所述的视频图像处理方法，其中，所述神经网络还包括第二子神经网络和输出层，所述第二子神经网络包括光流卷积层组和光流层，

根据所述第i+1帧像素偏移图像对所述第i帧概率图执行插值处理，以获得第i+1帧插值概率图；

对所述第i+1帧中间概率图和所述第i+1帧插值概率图执行相加处理，以获得所述第i+1帧图像的光流图像；以及

利用所述输出层对光流图像组进行加权平均处理以获得第i+1帧概率图，其中，所述光流图像组包括前i+1帧图像的光流图像。

8.根据权利要求1-7任一项所述的视频图像处理方法，其中，所述神经网络为全卷积神经网络。

9.一种用于视频图像处理的神经网络的训练方法，包括：

获取训练图像组，所述训练图像组包括第i帧训练图像、第i帧训练概率图和第i+1帧训练图像，i为正整数；

经由所述神经网络对所述训练图像组执行图像分割处理以获得第i+1帧训练概率图；

根据所述第i+1帧训练概率图调整所述神经网络的参数；以及

在所述神经网络的损失函数满足预定条件时，获得训练好的所述神经网络，在所述神经网络的损失函数不满足预定条件时，继续输入所述训练图像组以重复执行上述训练过程；

其中，所述神经网络包括第一子神经网络和输入层，

所述训练方法还包括：利用所述输入层对所述第i帧训练图像和所述第i+1帧训练图像执行颜色格式变换处理；以及经由所述输入层将所述第i帧训练概率图以及执行颜色格式变换处理后的所述第i帧训练图像和所述第i+1帧训练图像输入至所述第一子神经网络。

10.根据权利要求9所述的训练方法，其中，所述第一子神经网络包括第一卷积层组、第一求和层和第二卷积层组，所述第一卷积层组包括第一卷积层和第二卷积层，

经由所述神经网络对所述训练图像组执行图像分割处理以获得第i+1帧训练概率图，包括：

利用所述第一卷积层分别对执行颜色格式变换处理后的所述第i帧训练图像和所述第i+1帧训练图像执行卷积处理，以得到所述第i帧训练图像的训练特征图和第i+1帧训练图像的训练特征图；

利用所述第二卷积层对所述第i帧训练概率图执行卷积处理，以得到所述第i帧训练概率图的训练特征图；

利用所述第一求和层对所述第i帧训练图像的训练特征图、第i+1帧训练图像的训练特征图和所述第i帧训练概率图的训练特征图执行求和处理；

11.根据权利要求10所述的训练方法，其中，所述第一子神经网络还包括瓶颈层组，所述瓶颈层组包括第一瓶颈层和第二瓶颈层，

经由所述神经网络对所述训练图像组执行图像分割处理以获得第i+1帧训练概率图，还包括：

经由所述第二瓶颈层对所述第二卷积层组中对应的卷积层输出的训练特征图执行卷积计算以获得所述第二瓶颈层的中间训练分数图，以及对所述第二瓶颈层的中间训练分数图执行上采样处理以获得所述第二瓶颈层的训练分数图；

经由所述第一瓶颈层对所述第二瓶颈层的训练分数图和所述第i帧训练概率图执行求和处理以获得第i+1帧训练概率图。

12.根据权利要求9所述的训练方法，其中，所述神经网络还包括第二子神经网络，所述第二子神经网络包括光流卷积层组和光流层，

利用所述第一子神经网络对输入的所述第i帧训练概率图以及执行颜色格式变换处理后的所述第i帧训练图像和所述第i+1帧训练图像执行图像分割处理以获得所述第i+1帧训练图像的第i+1帧中间训练概率图；

利用所述光流卷积层组对所述第i帧训练图像和第i+1帧训练图像执行卷积处理；

利用所述光流层对所述光流卷积层组中最后的光流卷积层的输出执行光流处理以获得第i+1帧训练像素偏移图像；

根据所述第i+1帧训练像素偏移图像对所述第i帧训练概率图执行插值处理，以获得第i+1帧训练插值概率图；以及

对所述第i+1帧中间训练概率图和所述第i+1帧训练插值概率图执行相加处理，以获得所述第i+1帧训练概率图。

13.一种视频图像处理装置，包括：

图像获取模块，用于获取第i帧图像和第i+1帧图像，i为正整数；

视频图像处理模块，用于利用神经网络对图像组执行图像处理，其中，所述图像组包括所述第i帧图像、所述第i+1帧图像和第i帧概率图，

所述视频图像处理模块具体用于：

所述神经网络包括第一子神经网络和输入层，

所述视频图像处理模块还用于：利用所述输入层对所述第i帧图像和所述第i+1帧图像执行颜色格式变换处理；以及经由所述输入层将所述第i帧概率图以及执行颜色格式变换处理后的所述第i帧图像和所述第i+1帧图像输入至所述第一子神经网络。

14.一种视频图像处理装置，包括：

存储器，用于存储非暂时性计算机可读指令；以及

处理器，用于运行所述计算机可读指令，所述计算机可读指令被所述处理器运行时可以执行根据权利要求1-8任一所述的视频图像处理方法。

15.一种计算机可读存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时可以执行根据权利要求1-8任一所述的视频图像处理方法。