CN112465826A

CN112465826A - 视频语义分割方法及装置

Info

Publication number: CN112465826A
Application number: CN201910840038.2A
Authority: CN
Inventors: 吴长虹; 张明; 邝宏武
Original assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Current assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2021-03-09
Anticipated expiration: 2039-09-06
Also published as: CN112465826B

Abstract

本发明实施例提供一种视频语义分割方法及装置，该方法包括：根据视频图像获取图像序列，所述图像序列包括关键帧图像和非关键帧图像；将所述关键帧图像输入已训练好的第一深度神经网络中得到第一语义分割结果，将所述非关键帧图像输入已训练好的第二深度神经网络中得到第二语义分割结果，所述已训练好的第一深度神经网络包括第一全卷积网络，所述已训练好的第二深度神经网络包括第二全卷积网络，所述第一全卷积网络的通道数大于所述第二全卷积网络的通道数；根据所述第一语义分割结果和所述第二语义分割结果，得到所述视频图像的语义分割结果。本发明实施例提供的视频语义分割方法及装置，能够解决现有技术耗时量较大以及计算量较大的问题。

Description

视频语义分割方法及装置

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种视频语义分割方法及装置。

背景技术

语义分割是指将图像像素按照图像中表达语义含义的不同进行分组，在自动驾驶领域，通过车载摄像头或者激光雷达探查到道路的相关图像后，根据语义分割可以将图像进行分割归类，以避让行人和车辆等障碍，因此对道路场景的语义分割对自动驾驶有着十分重要的意义。

现有的道路场景的语义分割方法将探查到的视频分为一帧一帧的图像，针对每一帧图像获取其全局和局部的上下文信息，对每一帧图像分别进行语义分割。由于实际中，采集到的道路场景通常是以视频的方式呈现，而一个视频中可以包括很多帧图像，对于每一帧图像，都需要进行语义分割。因此，当对多帧图像进行语义分割时，由于图像数量较大，这种语义分割的方法在保证分割性能的基础上耗时通常较大，模型的计算量较大。

因此，现在亟需一种视频语义分割方法解决现有技术耗时量较大以及计算量较大的问题。

发明内容

本发明实施例提供一种视频语义分割方法及装置，以解决现有技术耗时量较大以及计算量较大的问题。

第一方面，本发明实施例提供一种视频语义分割方法，包括：

根据视频图像获取图像序列，所述图像序列包括关键帧图像和非关键帧图像；

将所述关键帧图像输入已训练好的第一深度神经网络中得到第一语义分割结果，将所述非关键帧图像输入已训练好的第二深度神经网络中得到第二语义分割结果，所述已训练好的第一深度神经网络包括第一全卷积网络，所述已训练好的第二深度神经网络包括第二全卷积网络，所述第一全卷积网络的通道数大于所述第二全卷积网络的通道数；

根据所述第一语义分割结果和所述第二语义分割结果，得到所述视频图像的语义分割结果。

在一种可能的实现方式中，所述已训练好的第一深度神经网络还包括第一时序记忆单元，所述已训练好的第二深度神经网络还包括第二时序记忆单元；所述将所述关键帧图像输入已训练好的第一深度神经网络中得到第一语义分割结果，将所述非关键帧图像输入已训练好的第二深度神经网络中得到第二语义分割结果，包括：

将第一图像的第一记忆单元状态和所述关键帧图像，输入到所述已训练好的第一深度神经网络中，得到所述关键帧图像的第一语义分割结果，其中，所述第一图像为所述关键帧图像的前一帧图像，所述第一记忆单元状态用于指示所述第一图像与所述第一图像的前一帧图像的差别特征；

将第二图像的第二记忆单元状态和所述非关键帧图像，输入到所述已训练好的第二深度神经网络中，得到所述非关键帧图像的第二语义分割结果，其中，所述第二图像为所述非关键帧图像的前一帧图像，所述第二记忆单元状态用于指示所述第二图像与所述第二图像的前一帧图像的差别特征。

在一种可能的实现方式中，所述第一时序记忆单元具体为第一卷积长短期记忆网络，所述将第一图像的第一记忆单元状态和所述关键帧图像，输入到所述已训练好的第一深度神经网络中，得到所述关键帧图像的第一语义分割结果，包括：

将所述关键帧图像输入到所述第一全卷积网络中，得到对应的第一语义分割特征；

将所述第一语义分割特征和所述第一图像的第一记忆单元状态输入到所述第一卷积长短期记忆网络中，得到所述关键帧图像的第一语义分割结果；

所述第二时序记忆单元具体为第二卷积长短期记忆网络，所述将第二图像的第二记忆单元状态和所述非关键帧图像，输入到所述已训练好的第二深度神经网络中，得到所述非关键帧图像的第二语义分割结果，还包括：

将所述非关键帧图像输入到所述第二全卷积网络中，得到对应的第二语义分割特征；

将所述第二语义分割特征和所述第二图像的第二记忆单元状态输入到所述第二卷积长短期记忆网络中，得到所述非关键帧图像的第二语义分割结果。

在一种可能的实现方式中，所述根据所述第一语义分割结果和所述第二语义分割结果，得到所述视频图像的语义分割结果，包括：

对所述第一语义分割结果进行上采样，得到第一分割图，所述第一分割图与所述关键帧图像的尺寸一致；

对所述第二语义分割结果进行上采样，得到第二分割图，所述第二分割图与所述非关键帧图像的尺寸一致；

根据所述第一分割图和所述第二分割图，得到所述视频图像语义分割结果。

在一种可能的实现方式中，所述已训练好的第一深度神经网络和所述已训练好的第二深度神经网络通过如下步骤获取：

获取样本图像序列和样本标注结果，所述样本图像序列包括样本关键帧图像和样本非关键帧图像，所述样本标注结果包括所述样本关键帧图像和所述样本非关键帧图像的语义分割的标注信息；

根据第一深度神经网络、所述样本关键帧和所述样本关键帧的语义分割的标注信息，得到所述已训练好的第一深度神经网络，其中，所述第一深度神经网络是由第一全卷积网络和第一时序记忆单元构建得到；

对所述第一深度神经网络进行处理，得到第二深度神经网络；

根据所述第二深度神经网络、所述样本非关键帧图像和所述样本非关键帧图像的语义分割的标注信息，得到已训练好的第二深度神经网络。

在一种可能的实现方式中，所述根据所述样本关键帧和所述样本关键帧的语义分割的标注信息，得到已训练好的第一深度神经网络，包括：

将第一样本图像的样本记忆单元状态和所述样本关键帧图像，输入到所述第一深度神经网络中，得到所述样本关键帧图像的第一样本记忆单元状态和第一样本分割特征，其中，所述第一样本图像为所述样本关键帧图像的前一帧图像，所述第一样本图像的样本记忆单元状态用于指示所述第一样本图像与所述第一样本图像的前一帧图像的差别特征；

根据样本关键帧图像的语义分割的标注信息和所述第一样本分割特征得到第一损失函数；

根据所述第一损失函数调整所述第一深度神经网络的权重参数，得到所述已训练好的第一深度神经网络。

在一种可能的实现方式中，所述根据所述第二深度神经网络、所述样本非关键帧图像和所述样本非关键帧图像的语义分割的标注信息，得到已训练好的第二深度神经网络，包括：

将第二样本图像的样本记忆单元状态和所述样本非关键帧图像，输入到所述第二深度神经网络中，得到所述样本非关键帧图像的第二样本记忆单元状态和第二样本分割特征，其中，所述第二样本图像为所述样本非关键帧图像的前一帧图像，所述第二样本图像的样本记忆单元状态用于指示所述第二样本图像与所述第二样本图像的前一帧图像的差别特征；

根据样本非关键帧图像的语义分割的标注信息和所述第二样本分割特征得到第二损失函数；

根据所述第二损失函数调整所述第二深度神经网络的权重参数，得到所述已训练好的第二深度神经网络。

在一种可能的实现方式中，所述对所述第一深度神经网络进行处理，得到第二深度神经网络，包括：

对所述第一全卷积网络的通道数和/或所述第一全卷积网络的卷积层数进行裁剪，得到所述第二全卷积网络；

基于所述第二全卷积网络和所述第二时序记忆单元，得到所述第二深度神经网络。

第二方面，本发明实施例提供一种视频语义分割装置，包括：

获取模块，用于根据视频图像获取图像序列，所述图像序列包括关键帧图像和非关键帧图像；

处理模块，用于将所述关键帧图像输入已训练好的第一深度神经网络中得到第一语义分割结果，将所述非关键帧图像输入已训练好的第二深度神经网络中得到第二语义分割结果，所述已训练好的第一深度神经网络包括第一全卷积网络，所述已训练好的第二深度神经网络包括第二全卷积网络，所述第一全卷积网络的通道数大于所述第二全卷积网络的通道数；

分割模块，用于根据所述第一语义分割结果和所述第二语义分割结果，得到所述视频图像的语义分割结果。

在一种可能的实现方式中，所述已训练好的第一深度神经网络还包括第一时序记忆单元，所述已训练好的第二深度神经网络还包括第二时序记忆单元；所述处理模块具体用于：

在一种可能的实现方式中，所述第一时序记忆单元具体为第一卷积长短期记忆网络，所述处理模块具体还用于：

所述第二时序记忆单元具体为第二卷积长短期记忆网络，所述处理模块具体还用于：

在一种可能的实现方式中，所述分割模块具体用于：

在一种可能的实现方式中，还包括训练模块，所述训练模块用于：

在一种可能的实现方式中，所述训练模块具体还用于：

第三方面，本发明实施例提供一种视频语义分割设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如第一方面任一项所述的视频语义分割方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面任一项所述的视频语义分割方法。

本发明实施例提供的视频语义分割方法及装置，首先根据视频图像获取图像序列，将图像序列划分为关键帧图像和非关键帧图像，然后将关键帧图像输入已训练好的第一深度神经网络中得到第一语义分割结果，将非关键帧图像输入已训练好的第二深度神经网络中得到第二语义分割结果，最后根据第一语义分割结果和第二语义分割结果得到视频图像的语义分割结果。本发明实施例将图像序列中的非关键帧图像输入到已训练好的第二深度神经网络中，由于已训练好的第二深度神经网络中的第二全卷积网络的通道数小于已训练好的第一深度神经网络中的第一全卷积网络的通道数，因此本发明实施例提供的视频语义分割方法，相对于现有技术耗时减少，模型的计算量较小。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的图像语义分割的示意图；

图2为本发明实施例提供的一种视频语义分割的应用场景示意图；

图3为本发明实施例提供的视频语义分割方法的流程示意图；

图4为本发明实施例提供的第一深度神经网络和第二深度神经网络的训练过程的流程示意图；

图5为本发明实施例提供的ConvLSTM的内部结构示意图；

图6为本发明实施例提供的第一深度神经网络的结构示意图；

图7为本发明实施例提供的第二深度神经网络的结构示意图；

图8为本发明又一实施例提供的视频语义分割方法的流程示意图；

图9为本发明实施例提供的视频语义分割框架图；

图10为本发明实施例提供的已训练好的第一深度神经网络对关键帧图像的分割结果示意图；

图11为本发明实施例提供的已训练好的第二深度神经网络对非关键帧图像的分割结果示意图；

图12为本发明实施例提供的视频语义分割装置的结构示意图；

图13为本发明实施例提供的视频语义分割设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解，首先对本申请中涉及到的专业名词进行解释。

图像语义分割：将图像像素按照图像中表达语义含义的不同进行分组。

图像语义分割的目标是将图像的每个像素所属类别进行标注，在实际分割中，不对同一类的实例进行分离，只关注图像中每个像素的类别，如果图像中有两个相同类别的对象，则图像语义分割并不将这两个相同类别的对象区分为单独的对象。图1为本发明实施例提供的图像语义分割的示意图，如图1所示，左边为一个待分割的图像，图像的内容是一个人在骑摩托车，图像中有三个类别，分别是人10、摩托车20和背景30，而图像语义分割的目的就是将人10、摩托车20和背景30区分开。实际分割中，是针对图像的每个像素进行分割的，如图1所示，右边为图像语义分割的结果，包括分割后的人100、分割后的摩托车200和分割后的背景300。

视频语义分割：针对图像序列进行语义分割。

视频是有一系列的图像组成的，视频语义分割就是首先将视频转化为对应的图像序列，针对每一个图像进行图像语义分割。

图2为本发明实施例提供的一种视频语义分割的应用场景示意图，如图2所示，包括监控设备21和服务器22，监控设备21和服务器22之间通过有线或无线连接，监控设备21的数量为一个或多个，主要用于获取视频图像，并发送给服务器22。服务器22根据视频图像获取图像序列，其中图像序列包括关键帧图像和非关键帧图像。服务器22将关键帧图像输入已训练好的第一深度神经网络中得到第一语义分割结果，将非关键帧图像输入已训练好的第二深度神经网络中得到第二语义分割结果，然后根据第一语义分割结果和第二语义分割结果，得到视频图像的语义分割结果。

本发明实施例提供的***可应用于多种场景下，例如包括高级车辆辅助驾驶或自动驾驶领域。在自动驾驶领域，监控设备21具体可以为车载摄像头、传感器等等。监控设备21获取道路场景的视频图像，然后发送给服务器22。服务器22对视频图像进行语义分割，能够应用于道路上障碍物的识别，以帮助道路上的车辆避开各种障碍物，安全驾驶等。

下面以具体的实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

图3为本发明实施例提供的视频语义分割方法的流程示意图，如图3所示，包括：

S31，根据视频图像获取图像序列，所述图像序列包括关键帧图像和非关键帧图像。

视频是由一帧一帧的图像构成的，对于一段待分割的视频图像，首先将其变换为图像序列，图像序列是由视频图像中各图像的先后顺序排列得到的。关键帧图像和非关键帧图像的设定可根据实际需要，例如，一种可能的设定是，每隔固定帧数设置一个关键帧，两个关键帧之间为非关键帧，另一种可能的设定是，人工选取图像序列中的部分图像作为关键帧图像，剩余图像作为非关键帧图像，关键帧图像之间的图像数量可以任意确定。具体的设定方式此次不作特别限定。

S32，将所述关键帧图像输入已训练好的第一深度神经网络中得到第一语义分割结果，将所述非关键帧图像输入已训练好的第二深度神经网络中得到第二语义分割结果，所述已训练好的第一深度神经网络包括第一全卷积网络，所述已训练好的第二深度神经网络包括第二全卷积网络，所述第一全卷积网络的通道数大于所述第二全卷积网络的通道数。

全卷积网络能够提取图像的更具表征能力的高层级特征，本发明实施例中，将关键帧图像输入已训练好的第一深度神经网络中，通过已训练好的第一深度神经网络来对关键帧图像进行语义分割，得到第一语义分割结果，其中，已训练好的第一深度神经网络是根据样本视频图像训练得到的。同样的，将非关键帧图像输入已训练好的第二深度神经网络中，通过已训练好的第二深度神经网络来对非关键帧图像进行语义分割，得到第二语义分割结果。其中，第一深度神经网络包括第一全卷积网络，第二深度神经网络包括第二全卷积网络，且第一全卷积网络的通道数大于第二全卷积网络的通道数，从而已训练好的第二深度神经网络对非关键帧图像提取的特征比已训练好的第一深度神经网络对关键帧图像提取的特征要少，而通道数的减少能够降低非关键帧图像语义分割的耗时和计算量。

S33，根据所述第一语义分割结果和所述第二语义分割结果，得到所述视频图像的语义分割结果。

得到关键帧图像对应的第一语义分割结果和非关键帧图像对应的第二语义分割结果后，即可得到视频图像的语义分割结果。

本发明实施例提供的视频语义分割方法，首先根据视频图像获取图像序列，将图像序列划分为关键帧图像和非关键帧图像，然后将关键帧图像输入已训练好的第一深度神经网络中得到第一语义分割结果，将非关键帧图像输入已训练好的第二深度神经网络中得到第二语义分割结果，最后根据第一语义分割结果和第二语义分割结果得到视频图像的语义分割结果。本发明实施例将图像序列中的非关键帧图像输入到已训练好的第二深度神经网络中，由于已训练好的第二深度神经网络中的第二全卷积网络的通道数小于已训练好的第一深度神经网络中的第一全卷积网络的通道数，因此本发明实施例提供的视频语义分割方法，相对于现有技术耗时减少，模型的计算量较小。

下面结合图4，并采用具体的实施例，对已训练好的第一深度神经网络和已训练好的第二深度神经网络的训练过程进行详细说明。图4为本发明实施例提供的第一深度神经网络和第二深度神经网络的训练过程的流程示意图，如图4所示，包括：

S41，获取样本图像序列和样本标注结果，所述样本图像序列包括样本关键帧图像和样本非关键帧图像，所述样本标注结果包括所述样本关键帧图像和所述样本非关键帧图像的语义分割的标注信息。

首先获取样本图像序列和样本标注结果，其中，可以将样本图像序列分为样本关键帧图像和样本非关键帧图像。区分样本关键帧图像和样本非关键帧图像，可以将样本图像序列中的部分图像设定为样本关键帧图像，剩余的图像作为样本非关键帧图像。每两个相邻的样本关键帧图像之间的图像帧数可以相同，也可以不同。

在将样本图像序列划分为样本关键帧图像和样本非关键帧图像后，需要获取样本标注结果，其中样本标注结果包括了每一帧样本关键帧图像的语义分割的标注信息和每一帧样本非关键帧图像的语义分割的标注信息。即，样本标注结果中包括了对每一帧样本图像的语义分割的结果，其中，样本标注结果可以由人工对样本图像进行标注得到，也可以借助标注工具标注得到。

S42，根据第一深度神经网络、所述样本关键帧和所述样本关键帧的语义分割的标注信息，得到所述已训练好的第一深度神经网络，其中，所述第一深度神经网络是由第一全卷积网络和第一时序记忆单元构建得到。

现有的分割方法如K-means聚类、Grab-Cut等主要依靠的是低层级的图像像素特征，特征表达能力无法满足复杂的道路场景应用需求。相较于现有的分割方法，本发明实施例采用全卷积网络来提取更具表征能力的高层级特征，例如FCN、DeepLab、SegNet等。时序记忆单元用于联系视频图像序列前后帧之间的语义分割上下文信息，本发明实施例中，时序记忆单元采用的是卷积长短期记忆网络(Convolution Long Short-Term Memory，以下简称ConvLSTM)，ConvLSTM是在全连接长短期记忆网络(Fully Connected Long Short-Term Memory，以下简称FC-LSTM)的基础上，将input-to-state和state-to-state部分由前馈式计算替换成卷积的形式，FC-LSTM的前馈式计算会将特征拉成一维向量，从而损失空间信息，而ConvLSTM不仅具有LSTM的时序建模能力，而且能像CNN一样刻画局部特征。图5为本发明实施例提供的ConvLSTM的内部结构示意图，如图5所示，ConvLSTM的工作原理如下：

其中“*”表示卷积操作，“o”表示Hadamard矩阵乘法，即对应元素相乘，i_t为输入门限，控制特征的输入，f_t为特征门限，指示不需要传递到下一帧图像的特征，i_t和f_t共同决定C_t，C_t为图像特征中不断记忆的部分，即前后帧图像中不同特征部分的信息，o_t为输出门限，σ为激活函数。

基于第一全卷积网络和第一时序记忆单元构建第一深度神经网络，下面对第一深度神经网络的构建过程进行说明。例如，可以在残差网络ResNet-34基础上设计第一深度神经网络。ResNet-34包括5个卷积模块、1个平均池化层和1个全连接层，图6为本发明实施例提供的第一深度神经网络的结构示意图，如图6所示，本发明实施例设计的第一深度神经卷积网络去掉了最后一个平均池化层和全连接层。第一个卷积模块包含一个卷积层和ReLU层，卷积核大小为7x7，通道数为64，池化层间隔为2；第二个卷积模块包含三个卷积层和ReLU层，卷积核大小为3x3，通道数为128，池化层间隔为2；第三个卷积模块包含4个残差模块，卷积核大小为3x3，通道数为128，池化层间隔为2；第四个卷积模块包含6个残差模块，卷积核大小为3x3，通道数为192，池化层间隔为2；第五个卷积模块包含3个残差模块，卷积核大小为3x3，通道数为192，池化层间隔为2。

首先将第一样本图像的样本记忆单元状态和所述样本关键帧图像，输入到所述第一深度神经网络中，得到所述样本关键帧图像的第一样本记忆单元状态和第一样本分割特征，其中，所述第一样本图像为所述样本关键帧图像的前一帧图像，所述第一样本图像的样本记忆单元状态用于指示所述第一样本图像与所述第一样本图像的前一帧图像的差别特征。

根据样本关键帧图像的语义分割的标注信息和所述第一样本分割特征得到第一损失函数。

训练过程中，样本关键帧图像t采用第一深度神经网络进行一次前向传播得到语义分割特征x_t，ConvLSTM输入上一时刻的第一样本图像的样本记忆单元状态(H_t-1,C_t-1)和语义分割特征x_t，输出第一样本记忆单元状态(H_t,C_t)，和经过记忆单元得到的第一样本分割特征o_t。对o_t进行上采样得到第一样本分割图。将样本关键帧的语义分割的标注信息与第一样本分割图进行比对，以lovasz loss和softmax loss损失为目标函数计算梯度更新第一深度神经网络的网络参数。

S43，对所述第一深度神经网络进行处理，得到第二深度神经网络。

第二深度卷积网络设计的准则是在保证分割性能的基础上尽量减少网络的计算量，降低语义分割过程的耗时。本发明实施例的第二深度神经网络的设计相比于第一深度神经网络在层数或者各层的通道数作适当的裁剪，图7为本发明实施例提供的第二深度神经网络的结构示意图，如图7所示，第二深度神经网络采用的其中一种设置是将第一全卷积网络的前4个卷积模块的通道数减半，得到第二全卷积网络，然后基于第二全卷积网络和第二时序记忆单元，得到第二深度神经网络，其中，第二时序记忆单元具体为ConvLSTM。

S44，根据所述第二深度神经网络、所述样本非关键帧图像和所述样本非关键帧图像的语义分割的标注信息，得到已训练好的第二深度神经网络。

首先将第二样本图像的样本记忆单元状态和所述样本非关键帧图像，输入到所述第二深度神经网络中，得到所述样本非关键帧图像的第二样本记忆单元状态和第二样本分割特征，其中，所述第二样本图像为所述样本非关键帧图像的前一帧图像，所述第二样本图像的样本记忆单元状态用于指示所述第二样本图像与所述第二样本图像的前一帧图像的差别特征；

类似的，对于非关键帧t+1，采用第二深度神经网络进行一次前向传播，ConvLSTM单元输入上一时刻的第二样本图像的样本记忆单元状态(H_t,C_t)和分割特征x_t+1，输出第二样本记忆单元状态(H_t+1,C_t+1)，和经过记忆单元得到的第二样本分割特征o_t+1。以类似更新第一深度神经网络的方式更新第二深度神经网络参数。

在上述第一深度神经网络和第二深度神经网络的基础上分别增加上采样操作获得与原图尺寸一致的分割图，由此得到端到端的第一深度神经网络和第二深度神经网络。

本发明实施例提供的视频语义分割方法，首先根据视频图像获取图像序列，将图像序列划分为关键帧图像和非关键帧图像，然后将关键帧图像输入已训练好的第一深度神经网络中得到第一语义分割结果，将非关键帧图像输入已训练好的第二深度神经网络中得到第二语义分割结果，最后根据第一语义分割结果和第二语义分割结果得到视频图像的语义分割结果。在对第一深度神经网络和第二深度神经网络训练过程中，在全卷积网络的基础上加上了长短时记忆单元缓存图像序列的上一时刻状态，将上一帧图像的部分特征传递到下一帧图像，从而能够利用前后帧的序列关系提升单帧图像的分割性能。同时，本发明实施例采用第一深度神经网络提取关键帧图像的分割特征信息，通过时序记忆单元辅助第二深度神经对非关键帧图像的分割，第一深度神经网络和第二深度神经网络结合，减小了视频语义分割任务的整体计算量，减小了耗时。

下面以一个具体的实施例对本申请的方案进行说明。

图8为本发明又一实施例提供的视频语义分割方法的流程示意图，如图8所示，包括：

S81，获取视频图像，将视频图像转换为图像序列。

现有的图像语义分割通常针对的是单帧图像，而在一个视频图像中，各个图像与其前后帧图像之间是有关联的，在图像序列中，帧与帧之间的一些特征是相同的，本发明实施例正是基于前后帧图像之间特征的相似性来实现的。

S82，将图像序列划分为关键帧图像和非关键帧图像。

具体的，可以针对上述图像序列，每隔固定帧数k设置一个关键帧图像t，每两个相邻的关键帧图像t之间，为非关键帧图像。

S83，将第一图像的第一记忆单元状态和所述关键帧图像，输入到所述已训练好的第一深度神经网络中，得到所述关键帧图像的第一语义分割结果。

其中，已训练好的第一深度神经网络包括第一全卷积网络和第一时序记忆单元，而第一时序记忆单元具体为ConvLSTM。将第一图像的第一记忆单元状态和所述关键帧图像，输入到所述已训练好的第一深度神经网络中，得到关键帧图像的第一语义分割结果，其中，第一图像为关键帧图像的前一帧图像，第一记忆单元状态用于指示第一图像与第一图像的前一帧图像的差别特征。

具体的，将所述关键帧图像输入到所述第一全卷积网络中，得到对应的第一语义分割特征；

将所述第一语义分割特征和所述第一图像的第一记忆单元状态输入到所述第一卷积长短期记忆网络中，得到所述关键帧图像的第一语义分割结果。

S84，将第二图像的第二记忆单元状态和所述非关键帧图像，输入到所述已训练好的第二深度神经网络中，得到所述非关键帧图像的第二语义分割结果。

具体的，将所述非关键帧图像输入到所述第二全卷积网络中，得到对应的第二语义分割特征；

S85，对所述第一语义分割结果进行上采样，得到第一分割图，所述第一分割图与所述关键帧图像的尺寸一致，对所述第二语义分割结果进行上采样，得到第二分割图，所述第二分割图与所述非关键帧图像的尺寸一致。

上采样的目的是放大图像，从而可以显示在更高分辨率的显示设备上，本发明实施例中，对第一语义分割结果和第二语义分割结果进行上采样，从而得到与关键帧图像尺寸一致的第一分割图和与非关键帧图像一致的第二分割图。根据第一分割图和第二分割图，得到视频图像的语义分割结果。

图9为本发明实施例提供的视频语义分割框架图，如图9所示，将视频图像分为图像序列(t，t+1，t+2，t+3...)，其中图像t为关键帧图像，图像t+1，t+2和t+3为非关键帧图像。将关键帧图像t输入第一全卷积网络后，得到第一语义分割特征，将第一语义分割特征和第一图像的第一记忆单元状态输入第一卷积长短期记忆网络中，得到关键帧图像t的第一语义分割结果和第一卷积长短期记忆网络的记忆单元状态，其中第一卷积长短期记忆网络的记忆单元状态进行一次前向传播。在非关键帧图像t+1输入到第二全卷积网络中，得到第二语义分割特征后，将第一卷积长短期记忆网络的记忆单元状态和第二语义分割特征输入第二卷积长短期记忆网络，得到非关键帧图像t+1的第二语义分割结果和第二卷积长短期记忆网络的记忆单元状态，其中第二卷积长短期记忆网络的记忆单元状态进行一次前向传播。卷积长短期记忆网络缓存了对应的图像序列的特征，而视频序列中前后帧图像中有部分特征是一致的，通过卷积长短期记忆网络能够将视频图像序列前后帧图像之间的语义分割上下文信息联系起来，不断向前传播，因此能够将前一帧图像的部分特征传递给后一帧图像。在此前提下，将第一深度神经网络的层数或各层的通道数进行裁剪得到第二深度神经网络，提取的特征减少，但是由于每一帧图像接收到了前一帧图像的部分特征，因此，本发明实施例提供的方法既能够减少网络的计算量和耗时，也能够保证视频语义分割的性能。

图10为本发明实施例提供的已训练好的第一深度神经网络对关键帧图像的分割结果示意图，图11为本发明实施例提供的已训练好的第二深度神经网络对非关键帧图像的分割结果示意图，其中，在图10和图11中，该关键帧图像为该非关键帧图像的前一帧图像，在语义分割时，已训练好的第一深度神经网络对关键帧图像的分割结果，会传递给已训练好的第二深度神经网络，以帮助第二深度神经网络对非关键帧图像的语义分割。

图12为本发明实施例提供的视频语义分割装置的结构示意图，如图12所示，包括获取模块121、处理模块122和分割模块123，其中：

获取模块121用于根据视频图像获取图像序列，所述图像序列包括关键帧图像和非关键帧图像；

处理模块122用于将所述关键帧图像输入已训练好的第一深度神经网络中得到第一语义分割结果，将所述非关键帧图像输入已训练好的第二深度神经网络中得到第二语义分割结果，所述已训练好的第一深度神经网络包括第一全卷积网络，所述已训练好的第二深度神经网络包括第二全卷积网络，所述第一全卷积网络的通道数大于所述第二全卷积网络的通道数；

分割模块123用于根据所述第一语义分割结果和所述第二语义分割结果，得到所述视频图像的语义分割结果。

在一种可能的实现方式中，所述已训练好的第一深度神经网络还包括第一时序记忆单元，所述已训练好的第二深度神经网络还包括第二时序记忆单元；所述处理模块122具体用于：

在一种可能的实现方式中，所述第一时序记忆单元具体为第一卷积长短期记忆网络，所述处理模块122具体还用于：

在一种可能的实现方式中，所述分割模块123具体用于：

在一种可能的实现方式中，所述训练模块具体还用于：

本发明实施例提供的装置，可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图13为本发明实施例提供的视频语义分割设备的硬件结构示意图，如图13所示，该视频语义分割设备包括：至少一个处理器131和存储器132。其中，处理器131和存储器132通过总线133连接。

可选地，该模型确定还包括通信部件。例如，通信部件可以包括接收器和/或发送器。

在具体实现过程中，至少一个处理器131执行所述存储器132存储的计算机执行指令，使得至少一个处理器131执行如上的视频语义分割方法。

处理器131的具体实现过程可参见上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

在上述图13所示的实施例中，应理解，处理器可以是中央处理单元(英文：CentralProcessing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：DigitalSignal Processor，简称：DSP)、专用集成电路(英文：Application Specific IntegratedCircuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的视频语义分割方法。

上述的计算机可读存储介质，上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits，简称：ASIC)中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种视频语义分割方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述已训练好的第一深度神经网络还包括第一时序记忆单元，所述已训练好的第二深度神经网络还包括第二时序记忆单元；所述将所述关键帧图像输入已训练好的第一深度神经网络中得到第一语义分割结果，将所述非关键帧图像输入已训练好的第二深度神经网络中得到第二语义分割结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一时序记忆单元具体为第一卷积长短期记忆网络，所述将第一图像的第一记忆单元状态和所述关键帧图像，输入到所述已训练好的第一深度神经网络中，得到所述关键帧图像的第一语义分割结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一语义分割结果和所述第二语义分割结果，得到所述视频图像的语义分割结果，包括：

5.根据权利要求2所述的方法，其特征在于，所述已训练好的第一深度神经网络和所述已训练好的第二深度神经网络通过如下步骤获取：

6.根据权利要求5所述的方法，其特征在于，所述根据第一深度神经网络、所述样本关键帧和所述样本关键帧的语义分割的标注信息，得到已训练好的第一深度神经网络，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据所述第二深度神经网络、所述样本非关键帧图像和所述样本非关键帧图像的语义分割的标注信息，得到已训练好的第二深度神经网络，包括：

8.根据权利要求5所述的方法，其特征在于，所述对所述第一深度神经网络进行处理，得到第二深度神经网络，包括：

9.一种视频语义分割装置，其特征在于，包括：

10.一种视频语义分割设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1至8任一项所述的视频语义分割方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至8任一项所述的视频语义分割方法。