CN112215908B

CN112215908B - 面向压缩域的视频内容比对***、优化方法、比对方法

Info

Publication number: CN112215908B
Application number: CN202011086137.5A
Authority: CN
Inventors: 李扬曦; 缪亚男; 袁庆升; 胡卫明; 李兵; 刘雨帆; 胡赛军
Original assignee: Institute of Automation of Chinese Academy of Science; National Computer Network and Information Security Management Center
Current assignee: Institute of Automation of Chinese Academy of Science; National Computer Network and Information Security Management Center
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2022-12-02
Anticipated expiration: 2040-10-12
Also published as: CN112215908A

Abstract

本发明属于计算机视觉领域，具体涉及一种面向压缩域的视频内容比对***、优化方法、比对方法，旨在为了解决使用全解码信息完成视频内容比对效率不高的问题。本发明比对***包括：特征学习模块，基于输入视频的多种压缩域信息，分别获取多种模态的特征图；多模态压缩域信息融合模块，对所述特征学习模块输出的多种模态的特征图进行信息融合，得到所述输入视频的融合特征向量；第二模块，配置为获取两个输入视频的融合特征向量的L1距离；分类器为二分类网络，配置为基于所述第二模块输出的L1距离进行比对结果的二分类。本发明可以有效地提取视频内容的高层语义信息，保证了视频内容的比对高速度和高性能。

Description

面向压缩域的视频内容比对***、优化方法、比对方法

技术领域

本发明属于计算机视觉领域，具体涉及一种面向压缩域的视频内容比对***、优化方法、比对方法。

背景技术

在基于内容的视频理解***中，通常需要对大量视频进行处理。目前互联网视频流量99％以上都是H264、H265等编码标准，编码后的视频，体积大幅减少数十至百倍以上，但视频里的图像信息亦转为间接信息，需要解码才能恢复为组成视频的图像帧信息。现在的视频识别、对比、检索等算法或***，几乎都需要先将视频解码成图像帧，然后在图像序列上进行处理和分析。但是，视频解码是非常消耗计算资源且耗时的，这无疑将极大影响各类应用***的实用性和灵活性，特别是对一些的视频检索，比对应用***和要求实时性处理的场合。

于是研究面向压缩域，在部分解码的条件下进行视频内容理解、比对和识别方案是亟待解决的问题。与常规视频处理方法不同，面向压缩域的视频比对方法需直接在不解码或者尽量少解码的压缩数据上进行，省略解压缩和再压缩的附加环节，从而大大减少***总体处理时间。以视频内容对比任务为代表，如何发挥视频压缩域信息的高效性和粗糙性的特点，设计合适的网络结构，高效的完成视频内容理解的任务是需要解决的技术问题。

发明内容

为了解决现有技术中的上述问题，即为了解决使用视频全解码信息完成视频内容比对效率不高的问题，本发明的第一方面提出了一种面向压缩域的视频内容比对***，包括顺次连接的第一模块、第二模块、分类器；

所述第一模块包括特征学习模块、多模态压缩域信息融合模块；所述特征学习模块，配置为基于输入视频的多种压缩域信息，分别获取多种模态的特征图；所述多模态压缩域信息融合模块，配置为对所述特征学习模块输出的多种模态的特征图进行信息融合，得到所述输入视频的融合特征向量；

所述第二模块，配置为获取两个输入视频的融合特征向量的L1距离；

所述分类器为二分类网络，配置为基于所述第二模块输出的L1距离进行比对结果的二分类。

在一些优选的实施方式中，所述特征学习模块基于权重共享的孪生卷积神经网络构建。

在一些优选的实施方式中，所述第二模块获取L1距离的方法为：

两个输入视频的融合特征向量做按元素的差，获得对应的L1距离。

本发明的第二方面，提出了一种面向压缩域的视频内容比对***的优化方法，用于上述面向压缩域的视频内容比对***的优化，其方法包括：

基于预设的训练样本，进行第一模块的训练，得到优化的第一模块；

基于所述优化的第一模块、第二模块、分类器构建新的对比***；

基于预设的训练样本，固定所述优化的第一模块的参数，对所述新的对比***中分类器进行训练，得到优化的对比***。

在一些优选的实施方式中，“进行第一模块的训练”，所采用的损失函数L为

其中，N为样本个数，D_n为第n个样本对中两个视频的融合特征向量的欧氏距离，Y为两个样本是否匹配的标签，m为预设阈值。

在一些优选的实施方式中，“对所述新的对比***中分类器进行训练”，所采用的损失函数为分类的交叉熵损失。

在一些优选的实施方式中，所述训练样本，其获取方法为：

基于离线视频数据库，按照标注文件对不同视频中存在的拷贝视频片段进行视频裁剪，将按照标注文件裁剪下的相似视频片段对作为正类样本，在其他剩余的视频片段中随机选取1个视频，与原视频构成的对作为负类样本。

本发明的第三方面，提出了一种面向压缩域的视频内容比对方法，所述比对方法包括：

获取待对比视频对；

对所述待对比视频对中两个视频分别进行部分解码，抽取视频压缩域信息；

通过优化的对比***，获得比对结果；

其中，

所述优化的对比***，其获取方法为：基于上述的面向压缩域的视频内容比对***的优化方法，对上述面向压缩域的视频内容比对***进行优化获得。

本发明的第四方面，提出了一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的面向压缩域的视频内容比对***的优化方法，或上述的面向压缩域的视频内容比对方法。

本发明的第五方面，提出了一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的面向压缩域的视频内容比对***的优化方法，或上述的面向压缩域的视频内容比对方法。

本发明的有益效果：

1、本发明通过充分使用视频的压缩域信息，设计深度孪生神经网络，可以有效地提取视频内容的高层语义信息，保证了视频内容的比对高速度和高性能。通过使用压缩域信息代替视频全解码的信息，大大降低了视频内容理解任务的计算量。

2、本发明通过设计一个多模态压缩域信息的融合方式，使压缩域不同模态的信息有效的得以融合，构建了一种结合视频时空信息的高层视频语义的表示特征。使深度孪生神经网络有效使用了多种粗糙的压缩域信息，提高了视频内容对比的精度。

3、本发明通过使用深度孪生神经网络中对比损失的特点，即正样本是特征距离尽可能小，而负样本时特征距离尽可能大的特点，使得网络学到了一种类似于SVM大间距分类器的效果，使得学习到的视频特征更加具有判决性，网络的表现也具有更好的鲁棒性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的面向压缩域的视频内容比对***框架示意图；

图2是深度孪生神经网络的算法框架示意图；

图3是本发明一种实施例的面向压缩域的视频内容比对***的优化方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的一种面向压缩域的视频内容比对***，如图1所示，包括顺次连接的第一模块、第二模块、分类器；

为了更清晰地对本发明进行说明，下面结合附图对本方发明中各部分进行展开详述。

本发明一种实施例的面向压缩域的视频内容比对***，包括顺次连接的第一模块、第二模块、分类器。

本实施例中还包括视频压缩域信息提取模块，在进行视频内容比对之前，需要对待比对的视频对分别进行视频压缩域信息的提取。对视频进行部分解码，抽取视频压缩域信息，包括I帧、运动矢量，还可以包括残差。

本实施例中的视频压缩域信息提取模块使用FFmpeg的核心视频编解码框架，采用了H264码流的编解码方式，例如，在解码I帧时，设置有对码流进行熵解码、反量化和反变换等步骤。对于以宏块预测中存在的运动矢量的解码流在实施熵解码前，需要首先确定宏块的预测模式Mode或运动向量MV，以及块编码模式CBP，然后再分别对亮度和色度执行熵解码。基于FFmpeg的源代码进行c++代码的设计，并对关键解码流程的解码同时跳过不必要的解码信息和过程，完成对压缩域信息的高效提取。此外由于本实施例中整个网络的训练采用的是端到端的训练，在工程上需要完成c++和python的混编，使得从FFmepg用c++提取到的压缩域信息可以在使用PyTorch框架的训练中直接的进行数据交换。

1、第一模块

第一模块包括特征学习模块、多模态压缩域信息融合模块，构成了基于深度孪生网络的视频相似性判别网络，用于将输入的视频对的视频压缩域信息得到视频表述性的特征向量。

特征学习模块，配置为基于输入视频的多种压缩域信息，分别获取多种模态的特征图。如图2所示，该模块的结构为基于权重共享的孪生卷积神经网络结构，该模块以一对视频的压缩域信息作为输入，分别对不同的压缩域信息，如I帧和运动矢量，利用多流卷积神经网络作为孪生网络的分支，对压缩域信息进行分别的学习，具体在实现上对I帧使用resnet34骨架，而对于运动矢量使用resnet18骨架，都使用resnet结构中layer4输出的特征图作为学习模块的输出。该设计的特征学习网络结构包含但不限于以上结构配置。

多模态压缩域信息融合模块，配置为对所述特征学***操作)得到融合后的唯一的视频级特征向量，从而完成多模态信息的融合。

2、第二模块

第二模块，配置为获取两个输入视频的融合特征向量的L1距离。

第二模块获取L1距离的方法为：两个输入视频的融合特征向量做按元素的差，获得对应的L1距离。

3、分类器

分类器为二分类网络，配置为基于所述第二模块输出的L1距离进行比对结果的二分类。本实施例中的二分类网络为全连接层，其输出的神经元个数为相似和不相似两类，进而可以判断视频是否为拷贝视频。

本发明第二实施例的一种面向压缩域的视频内容比对***的优化方法，用于上述的面向压缩域的视频内容比对***的优化。

在优化前需要构建训练样本，本实施例采用了一种离线的采样方法，可以有效地获取大量训练所需的正负样本对。本发明在公开数据集VCDB上进行离线采样，按照标注文件对不同视频中存在的拷贝视频片段进行视频裁剪，将按照标注文件裁剪下的相似视频片段对作为正类样本，在其他剩余的视频片段中随机选取1个视频，与原视频构成的对作为负类样本。重复上述方法，完成数据集的构建。

本实施例的优化方法，如图3所示，包括以下步骤：

步骤S100，基于预设的训练样本，进行第一模块的训练，得到优化的第一模块。

将上述获得的训练样本分批次送入第一模块的特征学习模块，根据前向传播获得不同压缩域信息的特征图；然后将特征图送入第一模块的多模态压缩域信息融合模块,得到视频唯一的特征向量，用对比损失进行反向传播训练网络。其中，对比损失定义如下：

其中，

代表第n个样本对中两个视频的融合特征向量X₁和X₂的欧氏距离(二范数)，P表示融合特征向量的特征维数，Y为两个样本是否匹配的标签，Y＝1代表两个样本相似或者匹配，Y＝0则代表不匹配，m为设定的阈值，N为样本个数，W为第一模块输出融合特征向量的长度，这里选择512。

步骤S200，基于所述优化的第一模块、第二模块、分类器构建新的对比***。

基于步骤S100获得的优化参数，对第一模块进行参数固定，并与第二模块、分类器一起构建获得新的对比***。

步骤S300，基于预设的训练样本，固定所述优化的第一模块的参数，对所述新的对比***中分类器进行训练，得到优化的对比***。

在该步骤的训练过程中，使用分类的交叉熵损失对整个网络进行反向传播。设置训练结束条件为迭代次数和/或预设的收敛度，重复上述过程中前向传播和反向传播，设置迭代次数，对网络和哈希函数进行训练直至网络收敛，停止训练。

需要注意的是，本实施例的训练过程采用分阶段训练的方法，并采用了两个损失函数，包括步骤S100的对比损失、步骤S300分类的交叉熵损失。

本实施例还可以进行***化，例如通过面向压缩域的视频内容比对***的优化***进行优化，该优化***包括：第一训练模块、中间***构建模块、第二训练模块。

第一训练模块，配置为基于预设的训练样本，进行第一模块的训练，得到优化的第一模块；

中间***构建模块，配置为基于所述优化的第一模块、第二模块、分类器构建新的对比***；

第二训练模块，配置为基于预设的训练样本，固定所述优化的第一模块的参数，对所述新的对比***中分类器进行训练，得到优化的对比***。

如图2中所示，两个视频帧分别经过特征学习模块的特征抽取、多模态压缩域信息融合模块的多模态信息融合后，融合后的特征向量进行比对作差，获得两个融合特征向量的比对作差结果，再经全连接层进行分类获得判定结果。其中，在对第一模块进行训练时，仅利用多模态信息融合后的特征向量进行对比损失的计算，进而反向优化；在对分类器进行优化时，保持第一模块参数不变，基于训练样本的分类结果，通过交叉熵损失进行反向优化。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的优化方法的具体工作过程及有关说明，可以参考前述***实施例中的对应描述，上述描述的优化***的具体工作过程及有关说明，可以参考前述优化方法实施例中的对应描述，在此均不再赘述。

本发明第三实施例的一种面向压缩域的视频内容比对方法，所述比对方法包括：

获取待对比视频对；

通过优化的对比***，获得比对结果；

其中，所述优化的对比***，其获取方法为：基于上述的面向压缩域的视频内容比对***的优化方法，对上述面向压缩域的视频内容比对***进行优化获得。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的面向压缩域的视频内容比对方法的具体工作过程及有关说明，可以参考前述向压缩域的视频内容比对***、面向压缩域的视频内容比对***的优化方法实施例中的对应描述，在此不再赘述。

本发明第四实施例的一种存储装置，其中存储有多条程序，所述程序适于由处理器加载并执行以实现上述的面向压缩域的视频内容比对***的优化方法，或上述的面向压缩域的视频内容比对方法。

本发明第五实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的面向压缩域的视频内容比对***的优化方法，或上述的面向压缩域的视频内容比对方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的面向压缩域的视频内容比对***，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种面向压缩域的视频内容比对***，其特征在于，包括顺次连接的第一模块、第二模块和分类器；

所述第一模块包括特征学习模块和多模态压缩域信息融合模块；所述特征学习模块，配置为基于输入视频的多种压缩域信息，分别获取多种模态的特征图；所述多模态压缩域信息融合模块，配置为对所述特征学习模块输出的多种模态的特征图进行信息融合，得到所述输入视频的融合特征向量；

所述分类器为二分类网络，配置为基于所述第二模块输出的L1距离进行比对结果的二分类；

所述比对***的优化方法为：

其中，进行第一模块的训练，所采用的损失函数L为：

其中，N为样本个数，D_n为第n个样本对中两个视频的融合特征向量的欧氏距离，Y为两个样本是否匹配的标签，m为预设阈值；

基于所述优化的第一模块、第二模块和分类器构建新的对比***；

基于预设的训练样本，固定所述优化的第一模块的参数，对所述新的对比***中分类器进行训练，得到优化的对比***；其中，对所述新的对比***中分类器进行训练，所采用的损失函数为分类的交叉熵损失。

2.根据权利要求1所述的面向压缩域的视频内容比对***，其特征在于，所述特征学习模块基于权重共享的孪生卷积神经网络构建。

3.根据权利要求1所述的面向压缩域的视频内容比对***，其特征在于，所述第二模块获取L1距离的方法为：

4.根据权利要求1所述的面向压缩域的视频内容比对***，其特征在于，所述训练样本，其获取方法为：

5.一种面向压缩域的视频内容比对方法，其特征在于，所述比对方法包括：

获取待对比视频对；

通过如权利要求1-4中任一项所述的面向压缩域的视频内容比对***，获得比对结果。

6.一种存储装置，其中存储有多条程序，其特征在于，所述程序适于由处理器加载并执行以权利要求5所述的面向压缩域的视频内容比对方法。

7.一种处理装置，包括处理器和存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；其特征在于，所述程序适于由处理器加载并执行以实现权利要求5所述的面向压缩域的视频内容比对方法。