CN105989000B

CN105989000B - 音视频拷贝检测方法及装置

Info

Publication number: CN105989000B
Application number: CN201510041044.3A
Authority: CN
Inventors: 钱梦仁
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2015-01-27
Filing date: 2015-01-27
Publication date: 2019-11-19
Anticipated expiration: 2035-01-27
Also published as: CN105989000A

Abstract

本发明涉及一种音视频拷贝检测方法及装置，其方法包括：获取音视频图像，对音视频图像进行解码及预处理，对得到的音视频图像的音频部分和视频帧进行特征提取，得到对应的音频特征和视频帧的图像特征；对音视频图像对应的音频特征和视频帧的图像特征进行融合，得到音视频融合特征；基于预设的参考视频的特征库，对音视频融合特征进行匹配，得到帧集匹配结果；基于帧集匹配结果以及参考视频，对音视频图像进行拷贝判定及定位。本发明利用音视频相结合的方法，不仅增强了视频拷贝检测***的健壮性，而且通过将音视频特征进行融合，大大加快了拷贝检测***的执行效率，通过音视频共同分析，提高了拷贝片段定位精度。

Description

音视频拷贝检测方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种音视频拷贝检测方法及装置。

背景技术

在对视频图像进行拷贝检测时，现有方案主要是采用偏向基于内容的视频拷贝检测方法。目前主要有基于视频关键帧的图像特征的视频拷贝检测方案和基于音视频特征检测结果相结合的视频拷贝检测方案，其中：

基于视频关键帧的图像特征的视频拷贝检测方案，主要过程包括：视频解码及预处理、视频图像特征提取、特征索引和检索、拷贝判定及定位，最终判定查询视频是否构成拷贝，对于判定为拷贝的视频，判断拷贝片段的头尾，从而标记这部分片段为拷贝片段。但是，这种实现方案由于没有将音频信息纳入视频拷贝检测方案，而音频信息对于视频的画面内容是一个重要的补充，由此，不仅削弱了视频拷贝检测***的健壮性，而且对于拷贝片段的定位准确性不高，特别是当视频画面变化不大的情况下。

基于音视频特征检测结果相结合的视频拷贝检测方案，相比基于视频关键帧的图像特征的视频拷贝检测方案，该方案包含了音频特征，从而可以充分利用音频查询速度快、准确性较高的特点。然而，因为音视频特征本质上不相同，现有的拷贝检测方案往往是通过音视频分别进行视频拷贝检测，并在结果层面进行融合，从而判定查询视频是否是拷贝视频。然而，在结果层面对拷贝检测进行融合需要提取较多的特征，并且需要大部分的特征都完成整个拷贝检测流程，因而时间开销较大，并且增加了相应的算法复杂度。

发明内容

本发明实施例提供一种音视频拷贝检测方法及装置，旨在提高视频拷贝检测效率和精度。

本发明实施例提出一种音视频拷贝检测方法，包括：

获取音视频图像，对所述音视频图像进行解码及预处理，得到所述音视频图像的音频部分和视频帧；

对所述音视频图像的音频部分和视频帧进行特征提取，得到所述音视频图像对应的音频特征和视频帧的图像特征；

对所述音视频图像对应的音频特征和视频帧的图像特征进行融合，得到所述音视频图像的音视频融合特征；

基于预设的参考视频的特征库，对所述音视频融合特征进行匹配，得到所述音视频图像的帧集匹配结果；

基于所述音视频图像的帧集匹配结果以及参考视频，对所述音视频图像进行拷贝判定及定位。

本发明实施例还提出一种音视频拷贝检测装置，包括：

解码及预处理模块，用于获取音视频图像，对所述音视频图像进行解码及预处理，得到所述音视频图像的音频部分和视频帧；

特征提取模块，用于对所述音视频图像的音频部分和视频帧进行特征提取，得到所述音视频图像对应的音频特征和视频帧的图像特征；

融合模块，用于对所述音视频图像对应的音频特征和视频帧的图像特征进行融合，得到所述音视频图像的音视频融合特征；

匹配模块，用于基于预设的参考视频的特征库，对所述音视频融合特征进行匹配，得到所述音视频图像的帧集匹配结果；

拷贝判定模块，用于基于所述音视频图像的帧集匹配结果以及参考视频，对所述音视频图像进行拷贝判定及定位。

本发明实施例提出的一种音视频拷贝检测方法及装置，通过获取音视频图像，对所述音视频图像进行解码及预处理，得到所述音视频图像的音频部分和视频帧；对所述音视频图像的音频部分和视频帧进行特征提取，得到所述音视频图像对应的音频特征和视频帧的图像特征；对所述音视频图像对应的音频特征和视频帧的图像特征进行融合，得到所述音视频图像的音视频融合特征；基于预设的参考视频的特征库，对所述音视频融合特征进行匹配，得到所述音视频图像的帧集匹配结果；基于所述音视频图像的帧集匹配结果以及参考视频，对所述音视频图像进行拷贝判定及定位，从而利用音视频相结合的方法，不仅增强了视频拷贝检测***的健壮性，而且通过将音视频特征进行融合，大大加快了拷贝检测***的执行效率，通过音视频共同分析，提高了拷贝片段定位精度。

附图说明

图1是本发明音视频拷贝检测装置的硬件结构示意图；

图2是本发明音视频拷贝检测方法第一实施例的流程示意图；

图3是本发明实施例中音频子带能量差特征提取流程示意图；

图4是本发明实施例中提取音视频图像的视频帧的图像DCT特征的流程示意图；

图5是本发明实施例中图像特征和音频特征融合示意图；

图6是本发明实施例中涉及的simhash匹配算法示例图；

图7是本发明实施例中涉及的匹配算法设计示意图；

图8是本发明实施例中涉及的拷贝定位及扩展示意图；

图9是本发明音视频拷贝检测方法第二实施例的流程示意图；

图10是本发明音视频拷贝检测装置第一实施例的功能模块示意图；

图11是本发明音视频拷贝检测装置第二实施例的功能模块示意图。

为了使本发明的技术方案更加清楚、明了，下面将结合附图作进一步详述。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：将视频的音频信息纳入视频拷贝检测方案，利用音视频相结合的方法，不仅可以增强视频拷贝检测***的健壮性，而且通过将音视频特征进行融合，大大加快拷贝检测***的执行效率，通过音视频共同分析，提高拷贝片段定位精度。

具体地，本发明实施例考虑到，现有的视频拷贝检测方案，要么仅采用基于视频关键帧的图像特征的视频拷贝检测方案，不仅削弱了视频拷贝检测***的健壮性，而且对于拷贝片段的定位准确性不高；要么采用基于音视频特征检测结果相结合的视频拷贝检测方案，然而，在结果层面对拷贝检测进行融合需要提取较多的特征，并且需要大部分的特征都完成整个拷贝检测流程，因而增加了时间开销，而相应的算法复杂度与数据集成线性相关，从而增加了算法复杂度。

本实施例方案将视频的音频信息纳入视频拷贝检测方案，利用音视频相结合的方法，通过音视频解码及预处理、音视频特征提取、音视频特征融合、拷贝判定及定位等处理过程，不仅可以增强视频拷贝检测***的健壮性，而且通过将音视频特征进行融合，大大加快拷贝检测***的执行效率，通过音视频共同分析，提高拷贝片段定位精度。

具体地，本发明实施例音视频拷贝检测方案涉及的音视频拷贝检测装置的硬件结构可以如图1所示，该检测装置可以承载于PC端，也可以承载于手机、平板电脑、便携式手持设备等移动终端或者其他具有音视频拷贝检测功能的电子设备中，比如媒体播放设备。

如图1所示，该检测装置可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002，摄像头1006。其中，通信总线1002用于实现检测装置的这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，该检测装置在承载于移动终端时，还可以包括RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，该检测装置还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的装置结构并不构成对该检测装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及音视频拷贝检测应用程序。

在图1所示的检测装置中，网络接口1004主要用于连接后台管理平台，与后台管理平台进行数据通信；用户接口1003主要用于连接客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的音视频拷贝检测应用程序，并执行以下操作：

在一个实施例中，处理器1001调用存储器1005中存储的音视频拷贝检测应用程序可以执行以下操作：

对所述音视频图像的音频部分的音频帧进行滤波，并通过傅里叶变换转化到频率域的能量；

将得到的频率域能量按照对数关系划分成若干处于预定频率范围的子带；

计算相邻子带之间的能量的绝对值的差，得到音频帧的音频子带能量差特征；

按照预定间隔进行音频帧的采样，得到所述音视频图像的音频部分的音频子带能量差特征。

对所述音视频图像的视频帧，将其图像转化为灰度图像并进行压缩处理；

对压缩处理后的灰度图像分成若干子块；

计算每一子块的DCT能量值；

比较相邻两个子块之间的DCT能量值，得到所述视频帧的图像DCT特征；

依据上述处理过程，得到所述音视频图像的视频帧的图像DCT特征。

设定所述音频特征为每秒M个32比特的特征，视频帧的图像特征为每秒n个32比特的特征，其中，n为视频的帧率，n小于或等于60；

将一个视频帧对应到若干帧音频帧的方式来进行特征拼接，得到每秒产生M个64比特的音视频融合特征，其中，每一个音视频融合特征都对应一个单独的音频帧的音频特征，相邻的M/n个音视频融合特征对应相同的一个视频帧的图像特征。

从预设的参考视频的特征库中获取匹配表；

对于每一音视频融合特征，从所述匹配表中查询与所述音视频融合特征之间的汉明距离不超过预设阈值的特征，作为所述音视频融合特征的相似特征；

获取音视频融合特征的相似特征，得到所述音视频图像的帧集匹配结果。

对所述相似特征对应的参考视频的音视频帧进行时间扩展，得到所述音视频图像中对应的音视频帧相比所述参考视频构成的相似片段；

基于所述相似片段，计算所述音视频图像中对应的音视频帧与参考视频的相似度；

若所述相似度大于设定阈值，则判断所述音视频图像构成拷贝，并记录所述音视频图像的相似片段的起始位置和终止位置。

在所述参考视频的特征库中创建所述匹配表。

本实施例通过上述方案，具体通过获取音视频图像，对所述音视频图像进行解码及预处理，得到所述音视频图像的音频部分和视频帧；对所述音视频图像的音频部分和视频帧进行特征提取，得到所述音视频图像对应的音频特征和视频帧的图像特征；对所述音视频图像对应的音频特征和视频帧的图像特征进行融合，得到所述音视频图像的音视频融合特征；基于预设的参考视频的特征库，对所述音视频融合特征进行匹配，得到所述音视频图像的帧集匹配结果；基于所述音视频图像的帧集匹配结果以及参考视频，对所述音视频图像进行拷贝判定及定位，从而利用音视频相结合的方法，不仅增强了视频拷贝检测***的健壮性，而且通过将音视频特征进行融合，大大加快了拷贝检测***的执行效率，通过音视频共同分析，提高了拷贝片段定位精度。

基于上述硬件结构，提出本发明音视频拷贝检测方法实施例。

如图2所示，本发明第一实施例提出一种音视频拷贝检测方法，包括：

步骤S101，获取音视频图像，对所述音视频图像进行解码及预处理，得到所述音视频图像的音频部分和视频帧；

具体地，首先，获取需要进行拷贝检测的音视频图像，该音视频图像可以从本地获取，也可以通过网络从外部获取。

对获取的音视频图像进行解码及预处理，提取视频的音频，并降采样到单声道5512.5Hz；逐帧提取视频的每一帧，从而得到音视频图像的音频部分和每一帧的视频帧。

步骤S102，对所述音视频图像的音频部分和视频帧进行特征提取，得到所述音视频图像对应的音频特征和视频帧的图像特征；

该部分主要是对于一个视频对应的音频和全部视频帧进行特征提取。因为音频特征本身容易用二进制比特来表示，所以往往采用二进制的索引或LSH来加速查询。本发明所提取的音频特征为音频子带能量差特征，提取的视频帧的图像特征为DCT(DiscreteCosine Transform，离散余弦变换)特征。

其中，对所述音视频图像的音频部分进行特征提取，得到所述音视频图像对应的音频特征的过程包括：

对所述音视频图像的音频部分的每一音频帧进行滤波，并通过傅里叶变换转化到频率域的能量；将得到的频率域能量按照对数关系划分成若干处于预定频率范围的子带；计算相邻子带之间的能量的绝对值的差，得到每一音频帧的音频子带能量差特征；按照预定间隔进行音频帧的采样，得到所述音视频图像的音频部分的音频子带能量差特征。

更为具体地，本实施例音频子带能量差特征的提取流程如图3所示：

该音频子带能量差特征的提取涉及的算法的主要步骤是：

首先，将每0.37秒的时域音频波形信息(音频帧)经过汉宁窗(Hanning Window)滤波后通过傅里叶变换转化到频率域的能量；

其次，将得到的频率域能量按照对数关系(Bark等级)划分成33个位于人耳听觉范围(300Hz～2000Hz)的子带，并且计算相邻帧(间隔11毫秒)相邻子带之间的能量的绝对值的差，从而对每一个音频帧都可以得到一个32比特的音频特征。

其中的“1”代表当前音频帧某相邻两个子带的能量差大于下一个音频帧对应的相邻子带的能量差，否则为0。

具体过程如下：

在图3中，输入内容是一段音频；输出内容是这段音频对应的若干个(n个)音频特征。

其中，Framing:分帧，即：将该音频片段切分为若干个(n个)音频帧。本实例中按照每秒采集M＝2048个音频帧(其他实例中M还可以为其他设定值)，每个音频帧包含0.37秒的音频内容(相邻音频帧之间有2047/2048的重叠)。

Fourier Transform：傅里叶变换，用于将时域的波形信息(原始音频)转换为频率域的不同频段波的能量信息，便于进行分析处理。

ABS：取波能量信息的绝对值(即：只考虑振幅，不考虑振动方向)。

Band Division：分带，将整个频率域在300Hz-2000Hz之间分成33个互不重叠的频率带(按照对数关系进行划分，即：频率越低，该频率所属频率带范围越小)。这样，可以得到原始音频在这些不同频率带上的能量。

Energy Computation：计算每一个音频帧在这33个频率带上的能量值(每个音频帧得到33个能量值)。

Bit Derivation：导出比特：对上述的33个能量值进行依次比较(第i个子带的能量和第i+1个子带的能量进行比较)得到32个能量值的差值。比较当前音频帧a和下一个音频帧b之间这32个能量值差值的大小。假设a的第j个能量值差值比b的第j个能量值差值大，则a的第j位特征为1，否则，a的第j位特征为0。这样可以得到a与b之间32个能量值差值的大小关系，即为音频帧a的32比特的特征。

本发明采用了这种音频特征，并且按照1/2048秒的间隔进行音频帧的采样，从而对于每一秒的音频片段都会生成2048个32比特的音频特征。

对所述音视频图像的视频帧进行特征提取，得到音视频图像对应的视频帧的图像特征的过程可以包括：

对所述音视频图像的每一视频帧，将其图像转化为灰度图像并进行压缩处理；对压缩处理后的灰度图像分成若干子块；计算每一子块的DCT能量值；比较相邻两个子块之间的DCT能量值，得到所述视频帧的图像DCT特征；依据上述处理过程，得到所述音视频图像的视频帧的图像DCT特征。

更为具体地，本实施例提取音视频图像的视频帧的图像DCT特征的流程如图4所示：

针对互联网视频画面总体变化幅度不大的特点，本发明实施例选用了一种高效的图像全局特征来作为视频帧的图像特征：DCT特征。

DCT特征的算法思想是：将图像分割成若干个子块，通过比较相邻的子块之间的能量高低，从而得到整幅图像的能量分布情况。具体的算法步骤是：

首先，将彩色图像转化为灰度图像并压缩(改变宽高比)到宽64像素、高32像素。

然后，将灰度图像分成32子块(如图4所示的0～31)，每一块包含8x8像素的图像。

对于每一个子块，计算该子块的DCT能量值。选择最高能带的能量值的绝对值代表该子块的能量。

最后，计算相邻子块能量值相对大小并得到一个32比特的特征。如果第i子块的能量大于第i+1子块的能量，则第i比特位为1，否则为0。特别地：第31子块和第0子块进行比较。

通过上述过程，每一个视频帧都将得到一个32比特的图像DCT特征。

步骤S103，对所述音视频图像对应的音频特征和视频帧的图像特征进行融合，得到所述音视频图像的音视频融合特征；

在经过上述过程得到了视频对应的音频特征和视频帧的图像特征后，将得到的图像特征和音频特征进行融合。具体的融合方法如图5所示(其中：纵轴为时间轴)。

如图5所示，在本实施例中，设定音频特征为每秒M＝2048(该值可以设定)个32比特的特征，而视频帧的图像特征为每秒n个32比特的特征(n为视频的帧率，n一般不超过60)。

因而，本实施例通过将一个视频帧对应到若干音频帧的方式来进行特征拼接，即：每秒产生2048个64比特的音视频融合特征，其中，每一个融合特征都对应一个单独的音频帧的特征，而相邻的2048/n个音视频融合特征对应相同的一个视频帧的图像DCT特征。

通过上述对音视频图像对应的音频特征和视频帧的图像特征进行融合，得到音视频图像的音视频融合特征。

步骤S104，基于预设的参考视频的特征库，对所述音视频融合特征进行匹配，得到所述音视频图像的帧集匹配结果；

本实施例预先设定有参考视频的特征库，在参考视频的特征库中创建有匹配表，以方便待检测视频相应特征可以快速进行检索。

在对音视频融合特征进行匹配时，首先，从预设的参考视频的特征库中获取匹配表；对于每一音视频融合特征，从所述匹配表中查询符合预设条件的特征，作为音视频融合特征的相似特征。比如从所述匹配表中查询与音视频融合特征之间的汉明距离不超过预设阈值(比如3)的特征，作为所述音视频融合特征的相似特征；获取所有音视频融合特征的相似特征，得到所述音视频图像的帧集匹配结果。

更为具体地，本实施例考虑到：

对于一个查询视频(需要进行拷贝检测的视频)和一个参考视频，如果通过逐帧比较两者特征的相似度，所需要的时间复杂度与这两个视频都成正比，因而不利于扩展到大规模数据库的情况。因此，本发明基于已有的simhash技术，提出了一种基于音视频融合特征的索引及查询的匹配策略。

其中，Simhash索引的基本目的是：在众多64比特的特征库中，对于查询的一个64比特特征，快速查找到与这个64比特特征的汉明距离小于或等于3的所有特征(即64比特中最多有3比特与该特征不同)。该算法的原理示意图如图6所示。对于64比特数据，若限定汉明距离为3，那么将64比特划分成4个16比特，必定存在一个16比特与查询特征完全一致。类似的，在剩余的48比特中，一定存在一个12比特的分块与查询特征完全一致。通过两次索引查找匹配之后，可以在剩下的36比特中，枚举最多3个有差异的位，从而可以大大降低原有的算法的复杂度。

本发明使用的64比特音视频融合特征同样具有simhash一样的查询特性，即：需要找到与某个64位特征最多相差3比特的所有特征(认为这两个特征是相关的)。此外，还有如下的限定条件：即：这两个相关特征的前32位最多相差2比特，且这两个特征的后32位最多相差2比特。基于此，本实施例仿照simhash的做法，但是将索引表个数扩展到24个，具体扩展方法如图7所示：

如图7所示的匹配算法设计中，考虑后32位最多1比特差异的情况，则前32位最多有16比特差异，那么对于图7而言，A、B、C、D中至少有2块完全一致，并且E、F中至少有一块完全一致，因此可以构建一个32比特完全一致的匹配表。这样的查询表一共有C(4,2)*C(2,1)*2，因为也可能前32比特最多差2位。因此，可以一共构建了24个子表，作为创建的匹配表，用来快速查询音视频融合特征。

然后，通过查询上述构建的匹配表，获取音视频融合特征的相似特征，得到特征检索的结果。

步骤S105，基于所述音视频图像的帧集匹配结果以及参考视频，对所述音视频图像进行拷贝判定及定位。

根据上述过程中得到的特征检索的结果，并结合视频拷贝片段定位方法，从而判定查询视频是否为拷贝视频。如果判定查询视频是拷贝视频，则给出相应的拷贝片段定位。

本实施例考虑到：对于两个视频，如果计算这两个视频之间个帧之间的相似度，则会得到图8中最右边所示的相似度矩阵。从而，找到两个视频相似片段的目标也就转化成了在相似度矩阵中找到相似度高于一定阈值的线段，然而这种处理方式时间开销加大。

本实施例中对音视频图像进行拷贝判定及定位的原理是：通过上述匹配算法，可以找到相似度矩阵中最亮的一些点(代表这些点相似度最高)，如图8中最左边所示的亮点，并且通过这些点进行时间扩展，从而可以得到图8中间所示的相似片段(即可能的拷贝片段)，之后通过阈值进行筛选，从而可以判定某两个视频是否构成拷贝，且如果构成拷贝，则可以记录该相似片段的起始位置和终止位置分布时刻。

具体地，在对音视频图像进行拷贝判定及定位时，首先对上述过程获取的相似特征对应的参考视频的音视频帧(对应图8最左边图所示的亮点)进行时间扩展，得到所述参考视频的参考视频片段，对所述相似特征对应的音视频图像中的音视频帧进行时间扩展，得到所述音视频图像中相比所述参考视频构成的相似片段(如图8中间图所示)；计算所述音视频图像中所述相似片段与所述参考视频片段之间的相似度，即计算音视频图像中相似片段对应的音视频帧与参考视频片段对应的音视频帧的相似度，对得到的各音视频帧的相似度取平均值；若所述相似度大于设定阈值，则判断所述音视频图像构成拷贝，并记录所述音视频图像的相似片段的起始位置和终止位置。

也就是说，在计算音视频图像中相似片段对应的音视频帧与参考视频的相似度时，对该相似片段中的每一帧(包括64比特的特征)与参照视频片段对应帧进行特征对比，计算相似度，之后取平均值，将此平均值与预设阈值比较，若相似度大于设定阈值，则判断所述音视频图像构成拷贝，并记录所述音视频图像的相似片段的起始位置和终止位置。

举例如下：

若相似片段中，查询视频的10-20秒之间的100帧(即一个音视频序列)对应参考视频的30-40秒之间的100帧，则将查询视频的10-20秒之间的100帧中的每一帧对应与参考视频的30-40秒之间的100帧中的每一帧进行比对，分别计算每一帧的相似度，比如第一帧64比特中，有50比特的特征与参考视频帧相同，则该第一帧的相似度S1＝50/64≈0.78125；以此原理，得到第二帧的相似度S2，……，100帧的相似度S100，对各相似度取平均值，得到相似片段中，查询视频与参考视频的相似度，假设为0.95，将其与设定阈值(设为0.9)比较，由此可以判断查询视频构成拷贝，并记录该相似片段的起始位置和终止位置。

在上述拷贝判定和定位过程中，一个查询视频可能存在多个相似片段的情形，可以将该多个相似片段串起来记录。

需要说明的是，本实施例上述过程中，在根据帧集匹配结果来判断查询视频是否是参考视频库中某个视频的拷贝时，也可以使用其他算法来实现，比如：霍夫变换、SmithWaterman算法、Blast算法、时域金字塔算法等。通过这些算法找到查询视频与某个参考视频最相似的一段序列，并通过阈值来判定是否构成拷贝。对于判定为拷贝的视频，判断拷贝片段的头尾，从而标记这部分片段为拷贝片段。

本实施例通过上述方案，利用音视频相结合的方法，不仅增强了视频拷贝检测***的健壮性，而且通过将音视频特征进行融合，大大加快了拷贝检测***的执行效率，通过音视频共同分析，提高了拷贝片段定位精度。

如图9所示，本发明第二实施例提出一种音视频拷贝检测方法，基于上述实施例，在获取音视频图像的步骤之前，还包括：

步骤S100，在所述参考视频的特征库中创建所述匹配表。

具体地，创建匹配表，是为了方便待检测视频相应特征可以快速进行检索。

匹配表是基于参考视频创建的，具体创建过程如下：

首先，收集参考视频片段，对参考视频片段进行音视频解码及预处理，得到参考视频的音频部分和视频帧。

然后，对参考视频的音频部分和视频帧进行特征提取，得到参考视频的音频特征和视频帧的图像特征。

之后，对参考视频进行音视频特征融合，得到参考视频的音视频融合特征。

最后，基于该参考视频的音视频融合特征创建匹配表，以供后续的查询视频进行特征索引检索匹配。

其中，在基于该参考视频的音视频融合特征创建匹配表时，基于以下原理：

考虑到：对于一个查询视频(需要进行拷贝检测的视频)和一个参考视频，如果通过逐帧比较两者特征的相似度，所需要的时间复杂度与这两个视频都成正比，因而不利于扩展到大规模数据库的情况。因此，本发明基于已有的simhash技术，提出了一种基于音视频融合特征的索引及查询的匹配策略。

其中，Simhash索引的基本目的是：在众多64比特的特征库中，对于查询的一个64比特特征，快速查找到与这个64比特特征的汉明距离小于或等于3的所有特征(即64比特中最多有3比特与该特征不同)。该算法的示意图如图6所示。对于64比特数据，若限定汉明距离为3，那么将64比特划分成4个16比特，必定存在一个16比特与查询特征完全一致。类似的，在剩余的48比特中，一定存在一个12比特的分块与查询特征完全一致。通过两次索引查找匹配之后，可以在剩下的36比特中，枚举最多3个有差异的位，从而可以大大降低原有的算法的复杂度。

对应地，提出本发明实施例音视频拷贝检测装置的功能模块实施例。

如图10所示，本发明第一实施例提出一种音视频拷贝检测装置，包括：解码及预处理模块201、特征提取模块202、融合模块203、匹配模块204及拷贝判定模块205，其中：

解码及预处理模块201，用于获取音视频图像，对所述音视频图像进行解码及预处理，得到所述音视频图像的音频部分和视频帧；

特征提取模块202，用于对所述音视频图像的音频部分和视频帧进行特征提取，得到所述音视频图像对应的音频特征和视频帧的图像特征；

融合模块203，用于对所述音视频图像对应的音频特征和视频帧的图像特征进行融合，得到所述音视频图像的音视频融合特征；

匹配模块204，用于基于预设的参考视频的特征库，对所述音视频融合特征进行匹配，得到所述音视频图像的帧集匹配结果；

拷贝判定模块205，用于基于所述音视频图像的帧集匹配结果以及参考视频，对所述音视频图像进行拷贝判定及定位。

之后，对所述音视频图像的音频部分和视频帧进行特征提取，得到所述音视频图像对应的音频特征和视频帧的图像特征。

该音频子带能量差特征的提取涉及的算法的主要步骤是：

具体过程如下：

其中，Framing:分帧，即：将该音频片段切分为若干个(n个)音频帧。实例中按照每秒采集2048个音频帧，每个音频帧包含0.37秒的音频内容(相邻音频帧之间有2047/2048的重叠)。

之后，基于预设的参考视频的特征库，对所述音视频融合特征进行匹配，得到所述音视频图像的帧集匹配结果。

在对音视频融合特征进行匹配时，首先，从预设的参考视频的特征库中获取匹配表；对于每一音视频融合特征，从所述匹配表中查询符合预设条件的特征，作为音视频融合特征的相似特征。比如从所述匹配表中查询与音视频融合特征之间的汉明距离不超过预设阈值(比如3)的特征，作为所述音视频融合特征的相似特征；获取音视频融合特征的相似特征，得到所述音视频图像的帧集匹配结果。

更为具体地，本实施例考虑到：

其中，Simhash索引的基本目的是：在众多64比特的特征库中，对于查询的一个64比特特征，快速查找到与这个64比特特征的汉明距离小于或等于3的所有特征(即64比特中最多有3比特与该特征不同)。该算法的原理示意图如图6所示。对于64比特数据，若限定汉明距离为3，那么将64比特划分成4个16比特，必定存在一个16比特与查询特征完全一致。类似的，在剩余的48比特中，一定存在一个12比特的分块与查询特征完全一致。通过两次索引查找之后，可以在剩下的36比特中，枚举最多3个有差异的位，从而可以大大降低原有的算法的复杂度。

本实施例考虑到：对于两个视频，如果计算这两个视频之间每一个帧之间的相似度，则会得到图8中最右边所示的相似度矩阵。从而，找到两个视频相似片段的目标也就转化成了在相似度矩阵中找到相似度高于一定阈值的线段，然而这种处理方式时间开销加大。

本实施例中对音视频图像进行拷贝判定及定位的原理是：通过上述索引算法，可以找到相似度矩阵中最亮的一些点(代表这些点相似度最高)，如图8中最左边所示的亮点，并且通过这些点进行时间扩展，从而可以得到图8中间所示的相似片段(即可能的拷贝片段)，之后通过阈值进行筛选，从而可以判定某两个视频是否构成拷贝，且如果构成拷贝，则可以记录该相似片段的起始位置和终止位置分布时刻。

举例如下：

如图11所示，本发明第二实施例提出一种音视频拷贝检测装置，基于上述实施例，还包括：

创建模块200，用于在所述参考视频的特征库中创建所述匹配表。

匹配表是基于参考视频创建的，具体创建过程如下：

最后，基于该参考视频的音视频融合特征创建匹配表，以供后续的查询视频进行特征索引检索。

考虑到：对于一个查询视频(需要进行拷贝检测的视频)和一个参考视频，如果通过逐帧比较两者特征的相似度，所需要的时间复杂度与这两个视频都成正比，因而不利于扩展到大规模数据库的情况。因此，本发明基于已有的simhash技术，提出了一种基于音视频融合特征的索引及查询策略。

其中，Simhash索引的基本目的是：在众多64比特的特征库中，对于查询的一个64比特特征，快速查找到与这个64比特特征的汉明距离小于或等于3的所有特征(即64比特中最多有3比特与该特征不同)。该算法的示意图如图6所示。对于64比特数据，若限定汉明距离为3，那么将64比特划分成4个16比特，必定存在一个16比特与查询特征完全一致。类似的，在剩余的48比特中，一定存在一个12比特的分块与查询特征完全一致。通过两次索引查找之后，可以在剩下的36比特中，枚举最多3个有差异的位，从而可以大大降低原有的算法的复杂度。

本发明实施例音视频拷贝检测方法及装置，通过获取音视频图像，对所述音视频图像进行解码及预处理，得到所述音视频图像的音频部分和视频帧；对所述音视频图像的音频部分和视频帧进行特征提取，得到所述音视频图像对应的音频特征和视频帧的图像特征；对所述音视频图像对应的音频特征和视频帧的图像特征进行融合，得到所述音视频图像的音视频融合特征；基于预设的参考视频的特征库，对所述音视频融合特征进行匹配，得到所述音视频图像的帧集匹配结果；基于所述音视频图像的帧集匹配结果以及参考视频，对所述音视频图像进行拷贝判定及定位，从而利用音视频相结合的方法，不仅增强了视频拷贝检测***的健壮性，而且通过将音视频特征进行融合，大大加快了拷贝检测***的执行效率，通过音视频共同分析，提高了拷贝片段定位精度。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音视频拷贝检测方法，其特征在于，包括：

对所述音视频图像对应的音频特征和视频帧的图像特征进行融合，得到所述音视频图像的音视频融合特征，其中包括：对所述音视频图像的音频部分的音频子带能量差特征和视频帧的图像DCT特征进行融合，得到所述音视频图像的音视频融合特征；

基于预设的参考视频的特征库，对所述音视频融合特征进行匹配，得到所述音视频图像的帧集匹配结果，其中包括：从预设的参考视频的特征库中获取匹配表；对于每一音视频融合特征，从所述匹配表中查询与所述音视频融合特征之间的汉明距离不超过预设阈值的特征，作为所述音视频融合特征的相似特征；获取音视频融合特征的相似特征，得到所述音视频图像的帧集匹配结果；

2.根据权利要求1所述的方法，其特征在于，所述对所述音视频图像的音频部分进行特征提取，得到所述音视频图像对应的音频特征的步骤包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述音视频图像的视频帧进行特征提取，得到所述音视频图像对应的视频帧的图像特征的步骤包括：

对所述音视频图像的每一视频帧，将其图像转化为灰度图像并进行压缩处理；

对压缩处理后的灰度图像分成若干子块；

计算每一子块的DCT能量值；

4.根据权利要求1、2或3所述的方法，其特征在于，所述对所述音视频图像对应的音频特征和视频帧的图像特征进行融合，得到所述音视频图像的音视频融合特征的步骤包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述音视频图像的帧集匹配结果以及参考视频，对所述音视频图像进行拷贝判定及定位的步骤包括：

对所述相似特征对应的参考视频的音视频帧进行时间扩展，得到所述参考视频的参考视频片段，对所述相似特征对应的音视频图像中的音视频帧进行时间扩展，得到所述音视频图像中相比所述参考视频构成的相似片段；

计算所述音视频图像中所述相似片段与所述参考视频片段之间的相似度；

6.根据权利要求1所述的方法，其特征在于，所述获取音视频图像的步骤之前，还包括：

在所述参考视频的特征库中创建所述匹配表。

7.一种音视频拷贝检测装置，其特征在于，包括：

融合模块，用于对所述音视频图像对应的音频特征和视频帧的图像特征进行融合，得到所述音视频图像的音视频融合特征，其中包括：对所述音视频图像的音频部分的音频子带能量差特征和视频帧的图像DCT特征进行融合，得到所述音视频图像的音视频融合特征；

拷贝判定模块，用于基于所述音视频图像的帧集匹配结果以及参考视频，对所述音视频图像进行拷贝判定及定位；

所述匹配模块，还用于从预设的参考视频的特征库中获取匹配表；对于每一音视频融合特征，从所述匹配表中查询与所述音视频融合特征之间的汉明距离不超过预设阈值的特征，作为所述音视频融合特征的相似特征；获取音视频融合特征的相似特征，得到所述音视频图像的帧集匹配结果。

8.根据权利要求7所述的装置，其特征在于，

所述特征提取模块，还用于对所述音视频图像的音频部分的音频帧进行滤波，并通过傅里叶变换转化到频率域的能量；将得到的频率域能量按照对数关系划分成若干处于预定频率范围的子带；计算相邻子带之间的能量的绝对值的差，得到音频帧的音频子带能量差特征；按照预定间隔进行音频帧的采样，得到所述音视频图像的音频部分的音频子带能量差特征。

9.根据权利要求7所述的装置，其特征在于，

所述特征提取模块，还用于对所述音视频图像的视频帧，将其图像转化为灰度图像并进行压缩处理；对压缩处理后的灰度图像分成若干子块；计算每一子块的DCT能量值；比较相邻两个子块之间的DCT能量值，得到所述视频帧的图像DCT特征；依据上述处理过程，得到所述音视频图像的视频帧的图像DCT特征。

10.根据权利要求7、8或9所述的装置，其特征在于，

所述融合模块，还用于设定所述音频特征为每秒M个32比特的特征，视频帧的图像特征为每秒n个32比特的特征，其中，n为视频的帧率，n小于或等于60；将一个视频帧对应到若干帧音频帧的方式来进行特征拼接，得到每秒产生M个64比特的音视频融合特征，其中，每一个音视频融合特征都对应一个单独的音频帧的音频特征，相邻的M/n个音视频融合特征对应相同的一个视频帧的图像特征。

11.根据权利要求7所述的装置，其特征在于，

所述拷贝判定模块，还用于对所述相似特征对应的参考视频的音视频帧进行时间扩展，得到所述参考视频的参考视频片段，对所述相似特征对应的音视频图像中的音视频帧进行时间扩展，得到所述音视频图像中相比所述参考视频构成的相似片段；计算所述音视频图像中所述相似片段与所述参考视频片段之间的相似度；若所述相似度大于设定阈值，则判断所述音视频图像构成拷贝，并记录所述音视频图像的相似片段的起始位置和终止位置。

12.根据权利要求7所述的装置，其特征在于，还包括：

创建模块，用于在所述参考视频的特征库中创建所述匹配表。

13.一种存储介质，其特征在于，所述存储介质中存储有计算机指令；所述计算机指令被执行时实现如权利要求1至6中任一项所述的音视频拷贝检测方法。