CN107977461A

CN107977461A - 一种视频特征提取方法及装置

Info

Publication number: CN107977461A
Application number: CN201711390947.8A
Authority: CN
Inventors: 刘旭; 丁大钧; 赵丽丽
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2018-05-01

Abstract

本申请实施例提供一种视频特征提取方法及装置，通过从目标视频中提取多个视频帧得到第一视频帧集合以及提取每个所述视频帧的相邻帧得到第二视频帧集合。然后，将所述第一视频帧集合和第二视频帧集合组合形成邻近帧对集合输入深度卷积网络提取每个视频帧的特征。最后，将提取得到的每个视频帧的特征接入由sigmoid激活函数、邻近帧对损失函数、以及类别交叉熵损失函数构成的视频特征哈希层进行计算，得到所述目标视频的哈希特征。使视频的特征表达更能反映视频内容信息，并有效的提高了视频特征表达的精度和利用效率。

Description

一种视频特征提取方法及装置

技术领域

本申请涉及视频处理技术领域，具体而言，涉及一种视频特征提取方法及装置。

背景技术

对视频进行哈希编码可以应用在视频检索、视频聚类、视频压缩等视频相关的领域。现有的视频哈希特征提取方法得到的哈希特征是否有效，是由两个因素决定的，一个因素是提取到的视频特征是否有效代表视频内容，另一因素是哈希算法的准确性。因此，如何设计视频哈希特征的提取方法，使得视频的特征表达更能反映视频的内容信息，提升视频特征表达的精度和利用率，是目前需要研究的一大课题。

发明内容

有鉴于此，本申请的目的在于提供一种视频特征提取方法及装置，以使视频的特征表达更能反映视频内容信息，并有效的提高了视频特征表达的精度和利用效率。

为了达到上述目的，本申请实施例采用如下技术方案：

一方面，本申请提供一种视频特征提取方法，包括：

从目标视频中提取多个视频帧得到第一视频帧集合以及提取每个所述视频帧的相邻帧得到第二视频帧集合；

将所述第一视频帧集合和第二视频帧集合组合形成邻近帧对集合输入深度卷积网络提取每个视频帧的特征；

将提取得到的每个视频帧的特征接入由sigmoid激活函数、邻近帧对损失函数、以及类别交叉熵损失函数构成的视频特征哈希层进行计算，得到所述目标视频的哈希特征；

其中，所述邻近帧对损失函数表示如下：

其中，f₁为所述邻近帧对集合中第一视频帧集合的特征表达，f₂为所述邻近帧对集合中第二视频帧集合的特征表达，m为预设的约束因子。

另一方面，本申请提供一种视频特征提取装置，包括：

邻近帧提取模块，用于从目标视频中提取多个视频帧得到第一视频帧集合以及提取每个所述视频帧的相邻帧得到第二视频帧集合；

卷积网络处理模块，用于将所述第一视频帧集合和第二视频帧集合组合形成邻近帧对集合输入深度卷积网络提取每个视频帧的特征；及

哈希特征计算模块，用于将提取得到的每个视频帧的特征接入由sigmoid激活函数、邻近帧对损失函数、以及类别交叉熵损失函数构成的视频特征哈希层进行计算，得到所述目标视频的哈希特征；

其中，所述邻近帧对损失函数表示如下：

相较于现有技术，本申请实施例提供的视频特征提取方法及装置，针对视频中邻近帧图像相似的特性，设计邻近帧对损失函数，使得邻近帧间的特征表达差异最小化，从而使视频的特征表达更能反映视频内容信息。其次，基于视频的类别，提出了一个全新的方法用来找到对于当前类别特征表达贡献最大的哈希编码位置，有效的提高了视频特征表达的精度和利用效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种视频特征提取方法的流程图。

图2为图1所示的步骤S101的子流程图。

图3为本申请实施例提供的通过深度哈希网络结构提取视频特征的过程示意图。

图4为本申请实施例提供的一种为intra-pair loss函数的示意图。

图5为本申请实施例提供的根据哈希特征的汉明距离进行相似视频检索任务的示意图。

图6为本申请实施例提供的用于实现上述视频特征提取方法的视频处理设备的方框示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

请参阅图1，是本申请实施例提供的一种视频特征提取方法的流程图。下面结合图1，对所述视频特征提取方法的各个步骤S101-S103进行详细描述。

步骤S101，从目标视频中提取多个视频帧得到第一视频帧集合以及提取每个所述视频帧的相邻帧得到第二视频帧集合。

详细地，如图2所示，步骤S101可以通过以下子步骤S111和S112来实现。

在步骤S111中，从所述目标视频中按照预设帧间距提取多个视频帧得到所述第一视频帧集合。

在步骤S112中，从所述目标视频中按照所述预设帧间距提取第一视频帧集合中每个视频帧的相邻帧形成所述第二视频帧集合。

在一个实例中，例如图3所示，可首先从所述目标视频中按照所述预设帧间距提取出A、B、C、D等四个视频帧。由该四个视频帧形成所述第一视频帧集合。然后，从所述目标视频中按照所述预设帧间距再提取出所述A、B、C、D四个视频帧的相邻帧A’、B’、C’、D’形成所述第二视频帧集合。例如，可首先根据所述视频帧A，找到该视频帧A的相邻帧(如A的前一帧或后一帧)A’，再从A’开始按照所述预设帧间距分别找到所述B、C、D相邻帧B’、C’、D’，从而组合形成所述第二视频帧集合。

步骤S102，将所述第一视频帧集合和第二视频帧集合组合形成邻近帧对集合输入深度卷积网络提取每个视频帧的特征。例如图3所示，在得到所述第一视频帧集合和第二视频帧集合之后，将将该第一视频帧集合和第二视频帧集合组合形成邻近视频帧对，输入深度卷积网络，进行视频帧特征的提取。

步骤S103，将提取得到的每个视频帧的特征接入由sigmoid激活函数、邻近帧对损失函数、以及类别交叉熵损失函数构成的视频特征哈希层进行计算，得到所述目标视频的哈希特征。

其中，所述邻近帧对损失函数表示如下：

本发明实施例中，所述邻近帧对损失函数为根据哈希特征提取过程特意设计的函数，也可称之为intra-pair loss函数，通过该函数对邻近帧之间的特征表达加之一个约束，使得相同视频邻近帧之间的特征表达尽可能相似。如图4所示，为intra-pair loss函数的示意图。其中，格子1-8代表了按顺序排列的视频间隔截帧的特征表达，提取邻近的帧构成intra-pair输入网络产生每个帧组的特征，对每对特征之间加以约束使之差值尽可能的小，因为视频中邻近帧的内容信息都是相同的，而浅层的图像信息又有不同，所以经过intra-pair loss函数约束后的视频特征更能反映视频内容层级的信息，而对浅层信息不敏感。

详细地，在步骤S103中，可通过所述sigmoid激活函数会将提取得到的每个视频帧的特征映射到0到1的区间，根据设定阈值将sigmoid激活函数的输出映射到二进制编码中形成哈希码并输出。其中，所述设定阈值可以是0.5。

在上述提取得到目标视频的哈希特征之后，在哈希特征的应用阶段，可通过以下方式进行：

首先，将所述sigmoid激活函数输出的哈希码通过一个类别掩码矩阵生成目标二进制哈希码，所述类别掩码矩阵是一个M*N的矩阵，其中M是预先得到的视频类别个数，N是哈希码长度。每个视频类别对应一个长为哈希码长度的权重参数，这些权重参数被用于获取当前视频最重要的哈希特征所对应的重要位置，这些重要位置与视频所属类别有关，每个类别对应的重要位置均不同。

然后，获得所目标视频所属的类别，并根据该类别获得对应的多个权重参数。在获得对应的多个权重参数后，可将多个所述权重参数取绝对值后进行排序，最后按照排序结果获取所述目标视频的哈希特征中预设个数的哈希码对应的位置，作为所述目标视频的哈希特征表达的目标位置。

详细地，可对上述这些权重参数取对决值后进行由大到小的排序，其中绝对值较大的参数的哈希码位置被认为是对于当前视频(如所述目标视频)哈希特征所表达更的重要位置(所述目标位置)。最后，可根据排序结果，设定一个特定比例取出特定长度的前若干位重要位置，作为所述目标位置。例如，可取排列在前20％的权重参数对应的哈希码位置作为所述目标位置。

所述类别矩阵的形状是类别个数＊哈希码长度。例如，假设类别是101，而哈希码长度是512，那么形状就是101*512。那么，根据某一类别(如所述目标视频的类别)取出的对应权重参数个数就是1*512个。对这512个参数进行绝对值排序之后即可根据所述特定比例去除若干权重参数对应的目标位置。

最后，基于上述目标位置的确定，在视频哈希特征的应用阶段，如图5所示，可根据哈希特征的汉明距离进行相似视频检索的任务，在被检索数据集中只对查询视频中相应的最重要的哈希特征位置进行检索，可以有效的提高检索精度。

例如，检索的方式可以是通过计算所述目标视频(查询视频)中所述目标位置对应的哈希特征与检索数据集中的每个视频中与所述目标位置对应的哈希特征之间的汉明距离，然后根据计算得到的汉明距离在所述检索数据集中查询与所述目标视频的相关视频。

发明人经过实际案例验证，得到不同权重系数对应的类别掩码矩阵生成的哈希码在UCF101[1]视频数据集上检索时的准确率(precision)-召回率(recall)曲线进行分析，发现权重系数为0.3～0.4时，哈希码的检索效果最好，远高于不使用类别掩码矩阵的检索效果。在权重系数为其它值时，相比不使用类别掩码矩阵的检索效果，也要更优。

如图6所示，是本发明实施例提供的用于实现所述视频特征提取方法的视频处理设备100的示意图。

所述视频处理设备100。所述视频处理设备100可以是，但不限于，个人电脑(personal computer，PC)、笔记本电脑、服务器等具备视频分析及处理能力的计算机设备。

所述视频处理设备100还包括视频特征提取装置11、存储器12以及处理器13。本发明较佳实施例中，视频特征提取装置11包括至少一个可以软件或固件(firmware)的形式存储于所述存储器12中或固化在所述视频处理设备100的操作***(operating system，OS)中的软件功能模块。所述处理器13用于执行所述存储器12中存储的可执行软件模块，例如所述视频特征提取装置11所包括的软件功能模块及计算机程序等。本实施例中，所述视频特征提取装置11也可以集成于所述操作***中，作为所述操作***的一部分。具体地，所述视频特征提取装置11包括邻近帧提取模块111、卷积网络处理模块112以及哈希特征计算模块113。所应说明的是，在其他实施例中，所述视频特征提取装置11包括的上述功能模块中的其中一部分也可省略，或者其还可以包括其他更多的功能模块。下面对上述各功能模块进行详细描述。

所述邻近帧提取模块111用于从目标视频中提取多个视频帧得到第一视频帧集合以及提取每个所述视频帧的相邻帧得到第二视频帧集合。

详细地，所述邻近帧提取模块111可用于执行上述步骤S101。所述邻近帧提取模块111可首先从所述目标视频中按照预设帧间距提取多个视频帧得到所述第一视频帧集合；然后从所述目标视频中按照所述预设帧间距提取第一视频帧集合中每个视频帧的相邻帧形成所述第二视频帧集合。

所述卷积网络处理模块112用于将所述第一视频帧集合和第二视频帧集合组合形成邻近帧对集合输入深度卷积网络提取每个视频帧的特征。详细地，所述卷积网络处理模块112可用于执行上述步骤S102，关于该模块的详细内容，可参对该步骤S102的描述。

所述哈希特征计算模块113用于将提取得到的每个视频帧的特征接入由sigmoid激活函数、邻近帧对损失函数、以及类别交叉熵损失函数构成的视频特征哈希层进行计算，得到所述目标视频的哈希特征。

其中，所述邻近帧对损失函数表示如下：

本实施例中，可通过所述sigmoid激活函数会将提取得到的每个视频帧的特征映射到0到1的区间，根据设定阈值将sigmoid激活函数的输出映射到二进制编码中形成哈希码并输出。其中，所述设定阈值可以是0.5。

详细地，所述哈希特征计算模块113可用于执行上述步骤S103，关于该模块的详细内容，可参对该步骤S103的描述。

本实施例中，再如图6所示，所述视频特征提取装置11还可以包括哈希特征检索模块114，用于将所述sigmoid激活函数输出的哈希码通过一个类别掩码矩阵生成目标二进制哈希码，所述类别掩码矩阵是一个M*N的矩阵，其中M是预先得到的视频类别个数，N是哈希码长度，每个类别对应一个长为哈希码长度的权重参数；然后，根据所述目标视频所属的类别，获得对应的多个权重参数；最后，将多个所述权重参数取绝对值后进行排序后，按照排序结果获取所述目标视频的哈希特征中预设个数的哈希码对应的位置，作为所述目标视频的哈希特征表达的目标位置。

另外，本实施例中，所述视频特征提取装置11还可以包括视频查询模块115，用于通过计算所述目标视频(查询视频)中所述目标位置对应的哈希特征与检索数据集中的每个视频中与所述目标位置对应的哈希特征之间的汉明距离，然后根据计算得到的汉明距离在所述检索数据集中查询与所述目标视频的相关视频。

综上所述，本申请实施例提供的视频特征提取方法及装置，针对视频中邻近帧图像相似的特性，设计邻近帧对损失函数，使得邻近帧间的特征表达差异最小化，从而使视频的特征表达更能反映视频内容信息。其次，基于视频的类别，提出了一个全新的方法用来找到对于当前类别特征表达贡献最大的哈希编码位置，有效的提高了视频特征表达的精度和利用效率。

在本申请提供的实施例中，应当理解，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请实施例的装置、方法和计算机程序产品可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分保护一个或多个用于实现对应的逻辑功能的可执行指令。

此外，还应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发发生。例如，两个连续的方框实际上可以并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。还应注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后，应说明的是，以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频特征提取方法，其特征在于，该方法包括：

其中，所述邻近帧对损失函数表示如下：

2.如权利要求1所述的视频特征提取方法，其特征在于，所述从目标视频中提取多个视频帧得到第一视频帧集合以及提取每个所述视频帧的相邻帧得到第二视频帧集合，包括：

从所述目标视频中按照预设帧间距提取多个视频帧得到所述第一视频帧集合；

从所述目标视频中按照所述预设帧间距提取第一视频帧集合中每个视频帧的相邻帧形成所述第二视频帧集合。

3.如权利要求1所述的视频特征提取方法，其特征在于，所述将提取得到的每个视频帧的特征接入由sigmoid激活函数、邻近帧对损失函数、以及类别交叉熵损失函数构成的视频特征哈希层进行计算，得到所述目标视频的哈希特征，的步骤包括：

通过所述sigmoid激活函数会将提取得到的每个视频帧的特征映射到0到1的区间，根据设定阈值将sigmoid激活函数的输出映射到二进制编码中形成哈希码并输出。

4.如权利要求3所述的视频特征提取方法，其特征在于，该方法还包括：

将所述sigmoid激活函数输出的哈希码通过一个类别掩码矩阵生成目标二进制哈希码，所述类别掩码矩阵是一个M*N的矩阵，其中M是预先得到的视频类别个数，N是哈希码长度，每个类别对应一个长为哈希码长度的权重参数；

获得所述目标视频所属的类别，并根据该类别获得对应的多个权重参数；

将多个所述权重参数取绝对值后进行排序；

按照排序结果获取所述目标视频的哈希特征中预设个数的哈希码对应的位置，作为所述目标视频的哈希特征表达的目标位置。

5.如权利要求1-4任意一项所述的视频特征提取方法，其特征在于，该方法还包括：

计算所述目标视频中目标位置对应的哈希特征与检索数据集中的每个视频中与所述目标位置对应的哈希特征之间的汉明距离；及

根据计算得到的汉明距离在所述检索数据集中查询与所述目标视频的相关视频。

6.一种视频特征提取装置，其特征在于，包括：

其中，所述邻近帧对损失函数表示如下：

7.如权利要求6所述的视频特征提取装置，其特征在于，所述邻近帧提取模块通过从所述目标视频中按照预设帧间距提取多个视频帧得到所述第一视频帧集合；以及通过从所述目标视频中按照所述预设帧间距提取第一视频帧集合中每个视频帧的相邻帧形成所述第二视频帧集合。

8.如权利要求6所述的视频特征提取装置，其特征在于，所述哈希特征计算模块通过所述sigmoid激活函数会将提取得到的每个视频帧的特征映射到0到1的区间，根据设定阈值将sigmoid激活函数的输出映射到二进制编码中形成哈希码并输出。

9.如权利要求8所述的视频特征提取装置，其特征在于，还包括：

哈希特征检索模块，用于：

将多个所述权重参数取绝对值后进行排序；

10.如权利要求6-9任意一项所述的视频特征提取装置，其特征在于，还包括：

视频查询模块，用于计算所述目标视频中目标位置对应的哈希特征与检索数据集中的每个视频中与所述目标位置对应的哈希特征之间的汉明距离，并根据计算得到的汉明距离在所述检索数据集中查询与所述目标视频的相关视频。