CN109919044A

CN109919044A - 基于预测进行特征传播的视频语义分割方法及装置

Info

Publication number: CN109919044A
Application number: CN201910120021.XA
Authority: CN
Inventors: 鲁继文; 周杰; 朱文成; 饶永铭
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2019-06-21

Abstract

本发明公开了一种基于预测进行特征传播的视频语义分割方法及装置，其中，该方法包括：根据浅层的神经网络预测视频帧的语义差异，获取视频帧中的多个关键帧和多个非关键帧；根据图片语义分割网络获取多个关键帧的高阶语义特征，根据高阶语义特征的时序性信息，预测多个非关键帧的高阶语义特征；对多个关键帧的高阶语义特征和多个非关键的高阶语义特征进行分类，并采样到预设大小，生成视频语义分割结果。该方法不需要对高阶和低阶特征做出假设，通过预测和微调得到视频语义分割，能够在保证视频分割准确度的前提下，降低算法的时间复杂度。

Description

基于预测进行特征传播的视频语义分割方法及装置

技术领域

本发明涉及视频帧特征传播技术领域，特别涉及一种基于预测进行特征传播的视频语义分割方法及装置。

背景技术

特征传播技术对于实时性的任务具有至关重要的作用。特征传播技术能够再次利用已经得到的特征，并考虑序列数据在时间上的连续性，将其传播到下一时刻的任务中，用于获取该时刻的特征。据此特征传播技术可以显著地降低序列数据特征获取的时间复杂度，在考虑特征时序信息的同时，保证获得的特征具有较高的准确度。特征传播技术可以用于视频，音频等序列数据任务中。在本专利中，以视频数据中的语义分割任务为例，来说明我们提出的基于预测进行特征传播的视频语义分割技术。

语义分割任务的主要目标是将图片中的场景分成不同的语义区域。目前语义分割已经广泛应用到各种实际的任务中，比如自动驾驶中，分割出道路、行人、树木、天空、建筑物等前景以及背景信息；医疗图像中，分割出肿瘤区域；机器人应用中，对场景透彻的感知等等。

语义分割对于深层次的场景理解具有重要的作用，相较于基于图片的语义分割，基于视频的语义分割在现实应用中更加广泛和自然，因为现实中应用大多都是基于视频而不是图片的。

视频语义分割任务的目标是得到每个视频帧的语义分割。直接将图片语义分割应用到视频语义分割中每一帧是一种直接的方法，但是这种方法会导致过高的时间复杂度，无法满足实时性的要求。同时这种方法也没有考虑到视频帧的时序信息。对于视频语义分割来说，视频帧处理的速度和准确度都很重要，而基于图片的语义分割着重于图片分割的准确度。视频语义分割另一个难点是缺乏足够的标注数据，以至并不能对每个视频帧的语义分割进行监督。因此需要考虑针对于视频进行语义分割的视频语义分割技术。

目前视频语义分割的研究方法大致可以分为两类：基于非传播的方法以及基于传播的方法。这两类方法都利用视频帧的连续性信息，第一类方法利用视频数据中的时序信息来提高视频帧的分割精度；第二类方法利用时序信息传播高阶特征来降低时间复杂度的同时保持语义分割的精度。相关技术中考虑到三维空间中运动信息的加入会导致相邻帧之间像素点匹配关系的发现难度增大，因此引入了时间和空间约束，优化像素点到欧式特征空间的映射关系并利用条件随机场进行建模来得到语义分割。相关技术还利用卷积神经网络提取视频帧的空间信息，然后在之上使用LSTM(Long Short-Term Memory，长短期记忆网络)来建模视频帧之间的时间信息，最后利用分类器以及反卷积神经网络得到最终的语义分割。相关技术中首先计算出相邻帧之间光流，然后利用光流估计其对应的高阶信息，同时结合当前帧计算出来的语义分割得到更加精确的分割结果。第一类方法大多考虑的是如何提高语义分割的精度，并没有考虑如何降低算法的时间复杂度。第二类方法主要是降低算法的时间复杂度，同时尽量保持算法的性能。

对于视频语义分割来说，通过多层深度卷积网络获取视频帧的高阶信息是特别耗费时间的。因此如何避免计算每个视频帧的高阶信息是减少算法时间复杂度以及满足实时性要求的关键。同时考虑到在一个视频中，相邻的视频帧的变化是很小的，对应的高阶的语义信息差异会更小。因此基于传播的方法被提出来，这类方法主要是利用已有的高阶特征，并将其进行传播或者重用，避免重复计算高阶特征。相关技术把全连接卷积神经网络划分成不同地子模块，通过自适应地调度方式，重复利用某些子模块地特征，尽管这种方式能够重复利用特征，但是直接地复制特征，忽视了帧与帧之间的差异。相关技术提出了一种基于光流的方法来传播特征而不是重复利用特征，这种方法假定低阶特征和高阶特征共享光流信息。首先计算出相邻两帧之间的低阶光流特征，然后将其应用到对应的高阶特征之间，来获得下一帧的高阶特征。这种方法尽管避免了计算高阶特征，但是引入了计算光流的复杂度。相关技术也提出了基于空间不变核的方式，这种方法假定高低阶特征直接共享的是空间不变核而不是光流，因此避免了引入计算光流的复杂度。相关技术中通过当前帧和下一帧的低阶特征计算出空间不变核，然后将其应用到当前帧的高阶特征来获得下一帧的高阶特征，此外还提出了一种自适应的关键帧选取策略。

除了上述两大类方法外，还有其他的一些方法来权衡计算复杂度以及准确度。相关技术利用条件随机场在图像级别的语义分割上进行推理并且能够对视频帧进行联合推理。通过联合推断视频帧的语义分割，这种方法已经被验证是比较有效的语义分割方式。相关技术提出了代价敏感的语义分割框架，这个框架利用视觉注意力模型选取视频帧的子集合，并使用插值模型标注剩下的视频帧。这两种方法都尝试同时标注视频帧，但是需要事先获得整个视频，因此不能很好的处理在线的视频数据。

另外，关于视频语义分割任务，用于实验训练与测试的数据有以下两个公共的数据集，Cityscape和Camvid。Cityscape数据集是为了提高对城市场景的语义理解而建立，它包含有30个类别其中19个类别用来评价语义分割的性能，总共有5000张精细的标注数据以及20000张粗标记数据。每张图片的分辨率是1024*2048。精细的标注数据包括2975张训练数据、500张验证数据以及1525张测试数据。每张标注图像都是从一个连续的30帧视频小节中选取的第20帧图片。Camvid数据集是基于运动的分割和识别数据集包含701张图片，每张图片的分辨率是720*960。数据集包含有32个类别其中11个类别用来评价。数据集被划为为训练集、验证集以及测试集，分别包含了367、100、233张图片。

相关技术中，首先是直接将基于图片的语义分割方法迁移用来处理视频，这类方法有较高的准确度，但是需要处理视频的每一帧，并且这类方法无法利用视频的时序信息，因此算法的时间复杂度往往比较高。非传播特征的方法虽然能够取得优异的性能，但是这类方法大都只关注算法的准确度，忽略算法的效率问题。基于传播的方法能够很好的保证算法性能的同时降低算法复杂度，但是这类方法具有很强的先验假设，认为高阶特征以及低阶特征共享结构化信息比如光流和核，因而忽略了高阶特征和低阶特征之间存在的语义鸿沟。其他的视频分割方法比如同时标注的方法，需要事先获取整个视频，从而能够互相监督，但是现实应用中往往是无法得到整个视频的。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于预测进行特征传播的视频语义分割方法，该方法不需要对高阶和低阶特征做出假设，通过预测和微调得到视频语义分割。

本发明的另一个目的在于提出一种基于预测进行特征传播的视频语义分割装置。

为达到上述目的，本发明一方面实施例提出了一种基于预测进行特征传播的视频语义分割方法，包括：根据浅层的神经网络预测视频帧的语义差异，获取所述视频帧中的多个关键帧和多个非关键帧；根据图片语义分割网络获取所述多个关键帧的高阶语义特征，根据高阶语义特征的时序性信息，预测所述多个非关键帧的高阶语义特征；对所述多个关键帧的高阶语义特征和所述多个非关键的高阶语义特征进行分类，并采样到预设大小，生成视频语义分割结果。

本发明实施例的基于预测进行特征传播的视频语义分割方法，首先通过自适应的关键帧选取方法，判断当前帧是否是新的关键帧。关键帧的选取确保了随后的帧和此关键帧具有语义相似性，此外高阶特征的预测都是基于此关键帧高阶信息传播预测得到，可以确保视频语义分割通过预测的准确度；其次通过预测的方法能够利用高阶特征的时序信息，又考虑到连续视频帧之间高阶特征的相似性，能够有效的传播高阶特征；通过预测得到的高阶特征，虽然能够获取视频帧中主要的语义信息，但是缺少低阶信息所具有精细的空间位置关系以及边缘信息。通过融合低阶特征，对预测的高阶特征进行微调能够帮助高阶特征得到更精细的结果，在保证准确度的同时提高了算法的效率。

另外，根据本发明上述实施例的基于预测进行特征传播的视频语义分割方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，还包括：生成并训练所述图片语义分割网络，以对所述视频帧的每一帧进行语义分割。

进一步地，在本发明的一个实施例中，所述根据浅层的神经网络预测视频帧的语义差异，获取所述视频帧中的多个关键帧和多个非关键帧，具体包括：

判断当前帧和前一个关键帧的语义差异是否大于预设阈值；

如果大于所述预设阈值，则当前帧为新的关键帧，否则，当前帧是非关键帧。

进一步地，在本发明的一个实施例中，所述根据图片语义分割网络获取所述多个关键帧的高阶语义特征，根据高阶语义特征的时序性信息，预测所述多个非关键帧的高阶语义特征，具体包括：

若当前帧为关键帧，则根据所述图片语义分割网络的语义分割技术直接获取当前帧的高阶语义特征；

若当前帧为非关键帧，且当前帧的上一帧为关键帧，则根据上一帧的关键帧的高阶语义特征预测当前帧的高阶语义特征；

若当前帧为非关键帧，且当前帧的上一帧也为非关键帧，则根据当前帧的前两帧的高阶语义特征预测当前帧的高阶语义特征。

进一步地，在本发明的一个实施例中，还包括：

通过所述图片语义分割网络的空间分支部分生成所述多个非关键帧的低阶特征，根据所述低阶特征对预测的所述多个非关键帧的高阶语义特征进行调整，得到准确的所述多个非关键帧的高阶语义特征。

为达到上述目的，本发明另一方面实施例提出了一种基于预测进行特征传播的视频语义分割装置，包括：第一获取模块，用于根据浅层的神经网络预测视频帧的语义差异，获取所述视频帧中的多个关键帧和多个非关键帧；第二获取模块，用于根据图片语义分割网络获取所述多个关键帧的高阶语义特征，根据高阶语义特征的时序性信息，预测所述多个非关键帧的高阶语义特征；分割模块，用于对所述多个关键帧的高阶语义特征和所述多个非关键的高阶语义特征进行分类，并采样到预设大小，生成视频语义分割结果。

本发明实施例的基于预测进行特征传播的视频语义分割装置，首先通过自适应的关键帧选取方法，判断当前帧是否是新的关键帧。关键帧的选取确保了随后的帧和此关键帧具有语义相似性，此外高阶特征的预测都是基于此关键帧高阶信息传播预测得到，可以确保视频语义分割通过预测的准确度；其次通过预测的方法能够利用高阶特征的时序信息，又考虑到连续视频帧之间高阶特征的相似性，能够有效的传播高阶特征；通过预测得到的高阶特征，虽然能够获取视频帧中主要的语义信息，但是缺少低阶信息所具有精细的空间位置关系以及边缘信息。通过融合低阶特征，对预测的高阶特征进行微调能够帮助高阶特征得到更精细的结果，在保证准确度的同时提高了算法的效率。

另外，根据本发明上述实施例的基于预测进行特征传播的视频语义分割装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，还包括：训练模块，

所述训练模块，用于生成并训练所述图片语义分割网络，以对所述视频帧的每一帧进行语义分割。

进一步地，在本发明的一个实施例中，所述第一获取模块，包括：

判断单元，用于判断当前帧和前一个关键帧的语义差异是否大于预设阈值；

确认单元，用于当前帧和前一个关键帧的语义差异大于所述预设阈值时，确认当前帧为新的关键帧，否则，当前帧为非关键帧。

进一步地，在本发明的一个实施例中，所述第二获取模块具体用于，

进一步地，在本发明的一个实施例中，还包括：调整模块，

所述调整模块，用于通过所述图片语义分割网络的空间分支部分生成所述多个非关键帧的低阶特征，根据所述低阶特征对预测的所述多个非关键帧的高阶语义特征进行调整，得到准确的所述多个非关键帧的高阶语义特征。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例与传统的传播方法的对比图；

图2为根据本发明一个实施例的基于预测进行特征传播的视频语义分割方法流程图；

图3为根据本发明一个实施例的时序流程图；

图4为根据本发明一个实施例的高阶特征在时序上的流程图；

图5为根据本发明一个实施例的关键帧选取结果图；

图6为根据本发明一个实施例的基于预测进行特征传播的视频语义分割装置结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于预测进行特征传播的视频语义分割方法及装置。

首先将参照附图描述根据本发明实施例提出的基于预测进行特征传播的视频语义分割方法。

如图1所示，展示了本发明的实施例和传统的传播方法的对比图。其中图1(a)是基于全连接卷积网络的图片语义分割；图1(b)和图1(c)分别展示了基于光流以及空间不变核的特征传播方法，图1(d)是本发明实施例所提出的方法。本发明的实施例首先利用高阶语义特征的时序性信息，通过预测的方式得到当前帧的高阶语义特征，然后用低阶位置和纹理特征来调整预测的高阶语义特征，使得最终的高阶语义特征不仅具有抽象的语义特征还融合了位置以及纹理等空间信息。该方法的优点是不需要对高阶和低阶特征做出假设，通过预测和微调得到视频语义分割。

图2为根据本发明一个实施例的基于预测进行特征传播的视频语义分割方法流程图。

如图2所示，该基于预测进行特征传播的视频语义分割方法包括以下步骤：

在步骤S101中，根据浅层的神经网络预测视频帧的语义差异，获取视频帧中的多个关键帧和多个非关键帧。

进一步地，在本发明的一个实施例中，根据浅层的神经网络预测视频帧的语义差异，获取视频帧中的多个关键帧和多个非关键帧，具体包括：

判断当前帧和前一个关键帧的语义差异是否大于预设阈值；

如果大于预设阈值，则当前帧为新的关键帧，否则，当前帧是非关键帧。

具体地，关键帧的选取能够保证视频帧之间的紧密性，也就是关键帧之间的视频帧具有高度的相似性，通过预测或者传播的方式保证高阶特征的准确性。传统的关键帧选取方法是每隔固定帧数来确定一个关键帧，这种方式不能反映视频帧的语义差异。

进一步地，利用一种自适应的关键帧选取方法来选取关键帧，同时非关键帧的高阶语义信息是通过前一个关键帧的高阶语义信息传播得到，这样能够确保所提出视频语义分割的准确性。本方法能够在保证视频分割准确度的前提下，降低算法的时间复杂度。

本发明实施例利用一个浅层的神经网络来预测视频帧的抽象语义差异，动态的选取关键帧。使用两层256通道的卷积核，全局均值池化层和一个全连接层来回归视频帧之间高阶语义信息的偏差。网络的输入是两个视频帧分别通过基础网络的空间分支得到的低阶特征，网络的输出是这两个视频帧所对应的语义偏差。

如果前一关键帧与当前帧通过网络预测的高阶语义信息的偏差超过一个阈值，那么就判断该帧是一个新的关键帧，否则就判定该帧不是一个关键帧。图5展示了关键帧选取的结果，其中超过阈值的帧都被判为关键帧。随着当前帧和上一个关键帧之间帧数差异增加，其高阶语义信息偏差也逐渐增大，当两者之间的语义偏差大于一个阈值的时候，判定当前帧为新的关键帧。如果两者之间的偏差小于阈值，判定当前帧是非关键帧。关键帧和非关键帧选取会直接影响到高阶特征的获取。这种关键帧选取方法保证了关键帧之间的视频帧具有高度的相似性，也确保预测的方式获取视频帧高阶语义信息是合理的。

在步骤S102中，根据图片语义分割网络获取多个关键帧的高阶语义特征，根据高阶语义特征的时序性信息，预测多个非关键帧的高阶语义特征。

进一步地，在本发明的一个实施例中，还包括：生成并训练图片语义分割网络，以对视频帧的每一帧进行语义分割。

具体地，视频语义分割算法需要传播准确的高阶特征，从而得到精确的预测结果。本发明实施例的方法需要事先得到一个训练好的，并且能够对视频帧每一帧进行语义分割的网络，作为基础的网络来提取关键帧的高阶特征。在本发明实施例中选取BiSeNet框架作为基础的图片语义分割网络，这个网络有两个分支：第一个分支是空间分支，用来提取图片的低阶空间和位置特征；另外一个分支是上下文语义分支，用来获得图片的上下文语义信息。通过融合空间分支以及上下文语义分支来得到最终的高阶特征。选用BiSeNet框架的原因是其两个分支提取的特征具有互补性，视频帧的高阶语义信息具有相似性，可以通过预测的方式得到视频帧的主要的语义信息，具体的位置和空间信息可以融合低阶特征来得到，由于这两部分的互补性，可以避免计算高阶特征，同时具有上下文语义信息以及空间信息。此外这两个分支在硬件设备上能够有效的实现并行。

进一步地，在本发明的一个实施例中，根据图片语义分割网络获取多个关键帧的高阶语义特征，根据高阶语义特征的时序性信息，预测多个非关键帧的高阶语义特征，具体包括：

若当前帧为关键帧，则根据图片语义分割网络的语义分割技术直接获取当前帧的高阶语义特征；

进一步地，通过当前帧的前两帧高阶语义信息来预测得到当前帧的高阶语义信息，从而避免计算当前帧的高阶特征，能够利用了高阶特征在时序上的关系即高阶特征的运动信息。

具体地，如图1和图3所示，对于t时刻的视频帧，假若其被判定为关键帧，那么通过基础语义分割技术来获取其准确的高阶特征F^t，值得注意的是关键帧的高阶特征不是预测得到的，而是通过整个基础网络；如果t+1时刻的视频帧也被判定为关键帧，那么t+1时刻高阶特征和t时刻一样，通过整个基础网络来获取精确的高阶特征，否则t+1时刻的视频帧不被判定为关键帧，那么需要用t时刻的高阶特征来对t+1时刻视频帧的高阶特征进行预测，同时根据基础网络的空间分支部分得到的低阶特征来对预测得到的高阶特征进行融合微调，使其具有更加精细的空间和位置信息。最后得到t+1时刻的高维特征F^t+1。通过该模型预测非关键帧的高阶特征，利用了视频数据在时间上的连续性。

基于特征传播的方法认为如K果两个帧相似那么它们所对应的高阶特征更加相似：

f(x₁₎-f(x₂)|<K|x₁-x₂|

其中x₁和x₂是给定的两张图片，f(x₁₎和f(x₂)是其对应的高阶特征，K是一个常数。给定一张视频帧，若其通过前一阶段S0被认为是关键帧，那么这张图片需要通过整个基础语义分割网络来得到其高阶特征F^t。

进一步地，在本发明的一个实施例中，还包括：通过图片语义分割网络的空间分支部分生成多个非关键帧的低阶特征，根据低阶特征对预测的多个非关键帧的高阶语义特征进行调整，得到准确的多个非关键帧的高阶语义特征。

其中，低阶特征包括非关键帧的低阶位置和纹理特征，包含更多的空间位置信息以及精细的边缘信息，这些信息有助于得到更加准确的语义分割。

进一步地，通过当前帧预测得到的高阶语义信息虽然能够得到当前帧的主要的语义特征，但是缺少图片的位置以及纹理等空间信息。本实施例的方法需要融合当前帧的低阶特征对预测的高阶语义特征进行调整，使得当前帧的最终得到的高阶特征包含更多的空间位置信息以及精细的边缘信息，这些信息有助于得到更加准确的语义分割。

若一张视频帧不被认为是关键帧，那么首先通过其前两帧的高阶特征来预测当前帧的高阶特征，同时该视频帧通过基础网络的空间分支，得到其低阶特征。利用低阶特征对预测的高阶特征进行融合微调，来得到具有上下文信息以及空间信息的高阶特征。

图4展示了高阶特征在时序上的流程图，对于关键帧t来说，其高阶特征会传递给非关键帧t+1以及t+2时刻，用来预测各自的高阶特征。通过预测的方式获取高阶特征有两种方式，第一种方式是当前帧紧跟着关键帧，那么只能利用关键帧的高阶特征进行预测；第二种方式是当前帧不是关键帧，并且不是关键帧的下一帧，那么可以利用当前帧的前两帧的高阶特征进行预测。由于视频帧之间的相似性，降低了预测高阶特征的难度。本发明选用浅层的网络来对高阶特征进行预测。这个浅层网络包含2个块，其中每个块包含有2个卷积层，一个BN层以及一个Relu层，每个块通过ResBlock结构进行组合。

在步骤S103中，对多个关键帧的高阶语义特征和多个非关键的高阶语义特征进行分类，并采样到预设大小，生成视频语义分割结果。

具体地，获得了每个视频帧的高阶特征之后需要对其进行分类，采用softmax对高阶特征进行分类，然后将其上采样到原始图片大小，最后得到视频语义分割的结果。

根据本发明实施例提出的基于预测进行特征传播的视频语义分割方法，首先通过自适应的关键帧选取方法，判断当前帧是否是新的关键帧。关键帧的选取确保了随后的帧和此关键帧具有语义相似性，此外高阶特征的预测都是基于此关键帧高阶信息传播预测得到，可以确保视频语义分割通过预测的准确度；其次通过预测的方法能够利用高阶特征的时序信息，又考虑到连续视频帧之间高阶特征的相似性，能够有效的传播高阶特征；通过预测得到的高阶特征，虽然能够获取视频帧中主要的语义信息，但是缺少低阶信息所具有精细的空间位置关系以及边缘信息。通过融合低阶特征，对预测的高阶特征进行微调能够帮助高阶特征得到更精细的结果，在保证准确度的同时提高了算法的效率。

其次参照附图描述根据本发明实施例提出的基于预测进行特征传播的视频语义分割装置。

图6为根据本发明一个实施例的基于预测进行特征传播的视频语义分割装置结构示意图。

如图6所示，该视频语义分割装置10包括：第一获取模块100、第二获取模块200和分割模块300。

其中，第一获取模块100用于根据浅层的神经网络预测视频帧的语义差异，获取视频帧中的多个关键帧和多个非关键帧。

第二获取模块200用于根据图片语义分割网络获取多个关键帧的高阶语义特征，根据高阶语义特征的时序性信息，预测多个非关键帧的高阶语义特征。

分割模块300用于对多个关键帧的高阶语义特征和多个非关键的高阶语义特征进行分类，并采样到预设大小，生成视频语义分割结果。

该视频语义分割装置10不需要对高阶和低阶特征做出假设，通过预测和微调得到视频语义分割。

进一步地，在本发明的一个实施例中，还包括：训练模块，

训练模块，用于生成并训练图片语义分割网络，以对视频帧的每一帧进行语义分割。

进一步地，在本发明的一个实施例中，第一获取模块，包括：

确认单元，用于当前帧和前一个关键帧的语义差异大于预设阈值时，确认当前帧为新的关键帧，否则，当前帧为非关键帧。

进一步地，在本发明的一个实施例中，第二获取模块具体用于，

进一步地，在本发明的一个实施例中，还包括：调整模块，用于通过图片语义分割网络的空间分支部分生成多个非关键帧的低阶特征，根据低阶特征对预测的多个非关键帧的高阶语义特征进行调整，得到准确的多个非关键帧的高阶语义特征。

需要说明的是，前述对基于预测进行特征传播的视频语义分割方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的基于预测进行特征传播的视频语义分割装置，首先通过自适应的关键帧选取方法，判断当前帧是否是新的关键帧。关键帧的选取确保了随后的帧和此关键帧具有语义相似性，此外高阶特征的预测都是基于此关键帧高阶信息传播预测得到，可以确保视频语义分割通过预测的准确度；其次通过预测的方法能够利用高阶特征的时序信息，又考虑到连续视频帧之间高阶特征的相似性，能够有效的传播高阶特征；通过预测得到的高阶特征，虽然能够获取视频帧中主要的语义信息，但是缺少低阶信息所具有精细的空间位置关系以及边缘信息。通过融合低阶特征，对预测的高阶特征进行微调能够帮助高阶特征得到更精细的结果，在保证准确度的同时提高了算法的效率。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于预测进行特征传播的视频语义分割方法，其特征在于，包括以下步骤：

根据浅层的神经网络预测视频帧的语义差异，获取所述视频帧中的多个关键帧和多个非关键帧；

根据图片语义分割网络获取所述多个关键帧的高阶语义特征，根据高阶语义特征的时序性信息，预测所述多个非关键帧的高阶语义特征；

对所述多个关键帧的高阶语义特征和所述多个非关键的高阶语义特征进行分类，并采样到预设大小，生成视频语义分割结果。

2.根据权利要求1所述的方法，其特征在于，还包括：

生成并训练所述图片语义分割网络，以对所述视频帧的每一帧进行语义分割。

3.根据权利要求1所述的方法，其特征在于，所述根据浅层的神经网络预测视频帧的语义差异，获取所述视频帧中的多个关键帧和多个非关键帧，具体包括：

判断当前帧和前一个关键帧的语义差异是否大于预设阈值；

4.根据权利要求1所述的方法，其特征在于，所述根据图片语义分割网络获取所述多个关键帧的高阶语义特征，根据高阶语义特征的时序性信息，预测所述多个非关键帧的高阶语义特征，具体包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

6.一种基于预测进行特征传播的视频语义分割装置，其特征在于，包括：

第一获取模块，用于根据浅层的神经网络预测视频帧的语义差异，获取所述视频帧中的多个关键帧和多个非关键帧；

第二获取模块，用于根据图片语义分割网络获取所述多个关键帧的高阶语义特征，根据高阶语义特征的时序性信息，预测所述多个非关键帧的高阶语义特征；

分割模块，用于对所述多个关键帧的高阶语义特征和所述多个非关键的高阶语义特征进行分类，并采样到预设大小，生成视频语义分割结果。

7.根据权利要求6所述的装置，其特征在于，还包括：训练模块，

8.根据权利要求6所述的装置，其特征在于，所述第一获取模块，包括：

9.根据权利要求6所述的装置，其特征在于，所述第二获取模块具体用于，

10.根据权利要求6所述的装置，其特征在于，还包括：调整模块，