CN113722543A

CN113722543A - 一种视频相似性比对方法、***及设备

Info

Publication number: CN113722543A
Application number: CN202111072794.9A
Authority: CN
Inventors: 白书占
Original assignee: Turing Chuangzhi Beijing Technology Co ltd
Current assignee: Turing Chuangzhi Beijing Technology Co ltd
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2021-11-30

Abstract

本发明公开了一种视频相似性比对方法、***及设备，包括获取待比对视频和被比对视频的图像文件和音频文件，并对待比对视频和被比对视频的图像文件和音频文件分别进行相似性比较，图像文件比较是根据关键帧相似性比较得到的待对比视频的相似关键帧组，并同步时间流信息得到相似图像片段；音频文件比较为分别对待比对视频的音频文件和被比对视频的音频文件进行分割和特征提取，计算对待比对视频的音频片段和被比对视频的音频片段的余弦相似度，从而确定相似音频片段。本发明的有益效果为：通过对视频的图像和音频同时进行比对，使得视频比对方法更全面、更准确，并根据相似关键帧同步时间流信息，找到相似视频的位置，比对结果更直观。

Description

一种视频相似性比对方法、***及设备

技术领域

本发明涉及计算机视频比对技术领域，具体而言，涉及一种视频相似性比对方法、***及设备。

背景技术

随着视频行业的快速发展，随之也产生了大量的视频版权侵犯，目前主要的侵权形式包括内容搬运(如秒盗、打码、画中画等)、二次创作(如未经授权进行二次创作等)、视频素材引用(如二次编辑、长拆短、短拼长等)，也出现了画面不同配音相同，画面相同配音不同等视频改编方式。侵权形式越来越隐蔽，要判断侵权是否成立，侵权证据的提取就显的尤为重要。

现有技术针对疑似视频比对都主要以图像比对确定是否侵权，由于侵权形式越来越隐蔽，越来越多样化，只对图像进行侵权比对的方法，已经不能够准确分辨是否侵权，更不能找出侵权位置并锁定证据。

发明内容

为解决上述问题，本发明的目的在于提供一种对视频的图像和音频同时进行比对，使得视频比对方法更全面、更准确的视频比对方法、***及设备。

本发明提供了一种视频相似性比对方法，该方法包括：

处理待比对视频集合和被比对视频集合，分别获取待比对视频的图像文件和音频文件，以及被比对视频的图像文件和音频文件；

比对待比对视频和被比对视频的图像文件和音频文件，其中，比对待比对视频和被比对视频的图像文件包括：

根据待比对视频的图像文件抽取得到N个关键帧，根据被比对视频的图像文件抽取得到M个关键帧；

将待对比视频的N个关键帧依次分别与被比对视频的每个关键帧进行相似性比较，根据关键帧相似性比较得到的待对比视频的相似关键帧组，根据相似关键帧组确定待对比视频的相似图像组，并同步时间流信息得到相似图像片段；

比对待比对视频和被比对视频的音频文件包括：

分别对待比对视频的音频文件和被比对视频的音频文件进行分割和特征提取，计算对待比对视频的音频片段和被比对视频的音频片段的余弦相似度，根据计算得到的余弦相似度确定相似音频片段。

作为本发明进一步的改进，所述将待对比视频的N个关键帧依次分别与被比对视频的每个关键帧进行相似性比较，包括：

根据差异哈系算法计算待对比视频和被比对视频的每个关键帧的哈希值；

计算待对比视频的哈希值和被比对视频的哈希值之间的汉明距离，根据计算得到的汉明距离判断待对比视频和被比对视频之间是否存在相似的图像片段。

作为本发明进一步的改进，所述根据相似关键帧组确定待对比视频的相似图像组，并同步时间流信息得到相似图像片段包括：确定相似图像片段的开始点和结束点，其中，确定相似图像片段的开始点包括：

根据待比对视频和被比对视频的当前相似关键帧为结束帧向前进行推算并同步时间流信息，当前相似关键帧的上一相似关键帧为开始帧；

待比对视频和被比对视频同时进行二分法获取关键帧，并计算获取到的关键帧的相似性：

若获取到的关键帧相似，则继续进行二分法获取关键帧，并计算得到的关键帧的相似性；若获取的关键帧不相似，则当前获取到的关键帧为相似图像片段的开始点；

确定相似图像片段的结束点包括：

根据待比对视频和被比对视频的当前相似关键帧为开始帧向后进行推算并同步时间流信息，当前关键帧的下一相似关键帧为结束帧；

若获取到的关键帧相似，则继续进行二分法获取关键帧，并计算得到的关键帧的相似性；若获取的关键帧不相似，则当前获取到的关键帧为相似图像片段的结束点。

作为本发明进一步的改进，比对待比对视频和被比对视频的音频文件还包括：

在对待比对视频的音频文件和被比对视频的音频文件进行分割之前，计算对待比对视频的音频文件和被比对视频的音频文件的余弦相似度，若余弦相似度大于预先设定的第一阈值，则认定待比对视频的音频文件和被比对视频的音频文件为相似音频文件。

作为本发明进一步的改进，获取得到待比对视频和被比对视频的相似图像片段后，截取相似图像片段对应的音频片段进行相似性比较，包括：

计算截取得到的待比对视频和被比对视频的音频片段的余弦相似度，若余弦相似度大于等于预设的第一阈值，则相似图像片段对应的音频片段为相似音频片段；

若余弦相似度小于预设的第一阈值，则将相似图像片段对应的音频片段进行分割，对分割后的音频片段进行相似性比较，包括确定相似音频片段的开始点和结束点，其中，确定相似音频片段的开始点包括：

若待比对视频和被比对视频分割后音频片段的相似度大于设定的第二阈值，则将视频片段的开始时间作为音频片段相似性比较的结束时间，音频片段相似性比较的开始时间为所述音频片段相似性比较的结束时间减去时间间隔T1，依次以时间间隔T1分割待比对视频和被比对视频的音频片段，将分割得到音频片段依次进行相似性比较，若余弦相似度大于等于设定的第一阈值，则对下一个分割的得到的音频片段进行相似性比较，直到余弦相似度小于设定的第一阈值，则当前音频片段的上一相似音频片段的开始时间为相似音频片段的开始点；

确定相似音频片段的结束点包括：

将视频片段的结束时间作为音频片段相似性比较的开始时间，音频片段相似性比较的结束时间为所述音频片段相似性比较的开始时间加上时间间隔T1，依次以时间间隔T1分割待比对视频和被比对视频的音频片段，将分割得到音频片段依次进行相似性比较，若余弦相似度大于等于设定的第一阈值，则对下一个分割的得到的音频片段进行相似性比较，直到余弦相似度小于设定的第一阈值，则当前音频片段的上一相似音频片段的结束时间为相似音频片段的结束点。

作为本发明进一步的改进，分别对待比对视频的音频片段和被比对视频的音频片段分别进行特征提取，包括以下步骤：

步骤S1：处理音频片段获取音频数据和采样率；

步骤S2：计算音频样本的最大频率，采样并量化；

步骤S3：对步骤S2得到的音频信号进行预加重；

步骤S4：对步骤S3得到的音频信号进行分帧、加窗，并得到帧数组；

步骤S5：计算每一帧傅里叶变换后的功率谱；

步骤S6：计算梅尔三角间距滤波器，得到初步特征矩阵；

步骤S7：对滤波后的矩阵特征进行对数运算；

步骤S8：对步骤S7得到的对数运算结果进行离散余弦变换，得到待比对视频的音频片段的特征矩阵和被比对视频的音频片段的特征矩阵。

作为本发明进一步的改进，根据得到待比对视频的音频片段的特征矩阵和被比对视频的音频片段的特征矩阵计算余弦相似度SIM，计算余弦相似度SIM的公式为：

其中，arr1和arr2分别为待比对视频的音频片段的特征矩阵和被比对视频的音频片段的特征矩阵。

本发明还提供了一种视频相似性比对***，该***包括：

获取模块，其用于处理待比对视频集合和被比对视频集合，分别获取待比对视频的图像文件和音频文件，以及被比对视频的图像文件和音频文件；

图像比对模块，其用于比对待比对视频和被比对视频的图像文件，包括：

音频文件比对模块，其用于比对待比对视频和被比对视频的音频文件，包括：

作为本发明进一步的改进，所述图像比对模块将待对比视频的N个关键帧依次分别与被比对视频的每个关键帧进行相似性比较，包括：

作为本发明进一步的改进，所述图像比对模块根据相似关键帧组确定待对比视频的相似图像组，并同步时间流信息得到相似图像片段包括：确定相似图像片段的开始点和结束点，其中，确定相似图像片段的开始点包括：

确定相似图像片段的结束点包括：

作为本发明进一步的改进，所述音频文件比对模块比对待比对视频和被比对视频的音频文件还包括：

作为本发明进一步的改进，所述音频文件比对模块对获取的待比对视频和被比对视频的相似图像片段对应的音频片段进行相似性比较，包括：

确定相似音频片段的结束点包括：

作为本发明进一步的改进，所述音频比对模块分别对待比对视频的音频片段和被比对视频的音频片段分别进行特征提取，包括以下步骤：

步骤S1：处理音频片段获取音频数据和采样率；

步骤S2：计算音频样本的最大频率，采样并量化；

步骤S3：对步骤S2得到的音频信号进行预加重；

步骤S5：计算每一帧傅里叶变换后的功率谱；

步骤S6：计算梅尔三角间距滤波器，得到初步特征矩阵；

步骤S7：对滤波后的矩阵特征进行对数运算；

作为本发明进一步的改进，所述音频比对模块根据得到待比对视频的音频片段的特征矩阵和被比对视频的音频片段的特征矩阵计算余弦相似度SIM，计算余弦相似度SIM的公式为：

本发明提供了一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被处理器执行以实现上述视频比对方法。

本发明提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行以实现上述视频比对方法。

本发明的有益效果为：通过对视频的图像和音频同时进行比对，使得视频比对方法更全面、更准确，并根据相似关键帧同步时间流信息，找到相似视频的位置，比对结果更直观。

附图说明

图1为本发明实施例所述的一种视频相似性比对方法的方法流程图；

图2为本发明实施例所述的一种视频相似性比对方法的差异哈系算法计算哈希值的流程图；

图3为本发明实施例所述的一种视频相似性比对方法的音频比对流程图；

图4为本发明实施例所述的一种视频相似性比对***的***结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对发明开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明的描述中，所用术语仅用于说明目的，并非旨在限制本公开的范围。术语“包括”和/或“包含”用于指定元件、步骤、操作和/或组件的存在，但并不排除存在或添加一个或多个其他元件、步骤、操作和/或组件的情况。术语“第一”、“第二”等可能用于描述各种元件，不代表顺序，且不对这些元件起限定作用。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个及两个以上。这些术语仅用于区分一个元素和另一个元素。结合以下附图，这些和/或其他方面变得显而易见，并且，本领域普通技术人员更容易理解关于本发明实施例的说明。附图仅出于说明的目的用来描绘本公开实施例。本领域技术人员将很容易地从以下说明中认识到，在不背离本公开原理的情况下，可以采用本发明所示结构和方法的替代实施例。

本发明实施例所述的一种视频相似性比对方法，如图1所示，该方法包括：

比对待比对视频和被比对视频的音频文件包括：

例如，若待比对视频集合关键帧组在对应的N组M分钟内的库中视频信息中的任意一组数据如若有大于X的阈值，并且两个视频的音频原件的相似度大于Y，X和Y均为预先设定的阈值，则可判断为两个视频相似度高。

一种可选的实施方式，关键帧抽取时，例如可以根据待比对视频的时间结果类型抽取被比对视频的关键帧，计算关键帧均时差公式为：

td＝total/framenum/fps/60

其中，total为被比对视频的总帧数，framenum为抽取帧的个数，fps为被比对视频的帧率。

若时差在(0,1]之间：

开始帧计算公式为：

starttime＝[fps*(total/framenum/fps/framenum)]*mu*2+100

其中，total为被比对视频的总帧数，framenum为抽取帧的个数，fps为被比对视频的帧率，mu＝1。

结束帧计算公式：

其中，total为被比对视频的总帧数，framenum为抽取帧的个数，fps为被比对视频的帧率，mu＝1，molecule＝1。

同步时间流信息时，可根据关键帧定位时间：

其中，frames为视频帧数，rate为视频帧率。

一种可选的实施方式，将待对比视频的N个关键帧依次分别与被比对视频的每个关键帧进行相似性比较，包括根据差异哈系算法计算待对比视频和被比对视频的每个关键帧的哈希值；计算待对比视频的哈希值和被比对视频的哈希值之间的汉明距离，根据计算得到的汉明距离判断待对比视频和被比对视频之间是否存在相似的图像片段。

如图2所示，差异哈系算法计算待对比视频和被比对视频的每个关键帧的哈希值的方法例如包括以下步骤：

1)缩小为相同比例的图片，可以达到去除细节，得到基本轮廓特诊，并可加快生成哈希值的速度；

2)图像灰度化：

通过改变RGB三通道为单通道以达到灰度化(包括图像要素：宽、高、深度)。

3)差异值计算，相邻的两个元素进行相减(左边元素减右边元素)，得出N个指定个数不同的差异值。

4)处理哈希值，如若为正标记或者0随机数字或字母相同，如若为负则否；

5)运算原理

其中，A为待对比视频某帧的像素值，B为被比对视频的某帧的像素值。

最终得到矩阵特征为(N*N)的矩阵信息，再判断数字的正负，标记不同的0、1值，之后计算汉明距离(即两个字符串相同字符的个数)。例如相同字符个数为8个，若哈希值总长度为16，则二者的相似度系数为8/16＝0.5。此相似度系数可以根据需求进行调整，确定后的系数称为阈值，例如阈值系数为0.9，若相似度系数大于0.9，则判定两个图像相似。应用在视频侵权判定中，被比对视频为正版视频，两者的相似度大于设定的相似度系数阈值，则可认定为待比对视频侵权，若小于相似度系数阈值，则认定为待比对视频不侵权。

一种可选的实施方式，根据相似关键帧组确定待对比视频的相似图像组，并同步时间流信息得到相似图像片段包括：确定相似图像片段的开始点和结束点，其中，确定相似图像片段的开始点包括：

根据待比对视频和被比对视频的当前相似关键帧为结束帧向前进行推算并同步时间流信息，当前相似关键帧的上一相似关键帧为开始帧，若当前帧为开始帧则从视频开始的时间算起。待比对视频和被比对视频同时进行二分法获取关键帧，并计算获取到的关键帧的相似度：若获取到的关键帧相似，则继续进行二分法获取关键帧，并计算得到的关键帧的相似性；若获取的关键帧不相似，则当前获取到的关键帧为相似图像片段的开始点；

确定相似图像片段的结束点包括：

根据待比对视频和被比对视频的当前相似关键帧为开始帧向后进行推算并同步时间流信息，当前关键帧的下一相似关键帧为结束帧，若当前帧为结束帧则从视频结束的时间算起；待比对视频和被比对视频同时进行二分法获取关键帧，并计算获取到的关键帧的相似性：若获取到的关键帧相似，则继续进行二分法获取关键帧，并计算得到的关键帧的相似性；若获取的关键帧不相似，则当前获取到的关键帧为相似图像片段的结束点。

应用于视频侵权判定中，若待比对视频为盗版视频，被比对视频为正版视频，通过上述方法可以找到图像疑似侵权的开始时间和结束时间，图像的疑似侵权位置可以定位在开始点和结束点之间。

一种可选的实施方式，比对待比对视频和被比对视频的音频文件还包括：在对待比对视频的音频文件和被比对视频的音频文件进行分割之前，计算对待比对视频的音频文件和被比对视频的音频文件的余弦相似度，若余弦相似度大于预先设定的第一阈值，则认定待比对视频的音频文件和被比对视频的音频文件为相似音频文件。应用于视频侵权判定中，若存在两段视频文件对应的音频文件的余弦相似度大于设定的阈值，则可认定为配音完全相同，存存在疑似侵权情况。

一种可选的实施方式，获取得到待比对视频和被比对视频的相似图像片段后，截取相似图像片段对应的音频片段进行相似性比较，包括：

计算截取得到的待比对视频和被比对视频的音频片段的余弦相似度，若余弦相似度大于等于预设的第一阈值，则相似图像片段对应的音频片段为相似音频片段；若余弦相似度小于预设的第一阈值，则将相似图像片段对应的音频片段进行分割，对分割后的音频片段进行相似性比较，包括确定相似音频片段的开始点和结束点，其中，确定相似音频片段的开始点包括：

若待比对视频和被比对视频分割后音频片段的相似度大于设定的第二阈值，则将视频片段的开始时间作为音频片段相似性比较的结束时间，音频片段相似性比较的开始时间为所述音频片段相似性比较的结束时间减去时间间隔T1(例如5秒)，依次以时间间隔T1分割待比对视频和被比对视频的音频片段，将分割得到音频片段依次进行相似性比较，若余弦相似度大于等于设定的第一阈值，则对下一个分割的得到的音频片段进行相似性比较，直到余弦相似度小于设定的第一阈值，则当前音频片段的上一相似音频片段的开始时间为相似音频片段的开始点；

确定相似音频片段的结束点包括：将视频片段的结束时间作为音频片段相似性比较的开始时间，音频片段相似性比较的结束时间为所述音频片段相似性比较的开始时间加上时间间隔T1(例如5秒)，依次以时间间隔T1分割待比对视频和被比对视频的音频片段，将分割得到音频片段依次进行相似性比较，若余弦相似度大于等于设定的第一阈值，则对下一个分割的得到的音频片段进行相似性比较，直到余弦相似度小于设定的第一阈值，则当前音频片段的上一相似音频片段的结束时间为相似音频片段的结束点。

应用于视频侵权判定中，若待比对视频为盗版视频，被比对视频为正版视频，通过上述方法可以找到音频疑似侵权的开始时间和结束时间，音频的疑似侵权位置可以定位在开始点和结束点之间。

一种可选的实施方式，分别对待比对视频的音频片段和被比对视频的音频片段分别进行特征提取，并进行两者的相似比较，如图3所示，包括：

处理音频片段获取音频数据和采样率；例如，若上传文件为.mp3需将其转化为.wav无损格式文件，通过scipy获取信号数据到采样率。

计算音频样本的最大频率，通常采样间隔时长至少要比信号周期时间大一倍，hf＝sr/2，其中，sr为采样频率，hf为最大频率。

预加重，例如用差分方程实现预加重，预加重的方程为：

y(n)＝x(n)-ax(n-1)

其中，a＝0.95；x(n)为原始音频信号，以n*n的矩阵表示。

预加重主要为了除去***辐射的影响，增加语音的高分辨率，对于音频对比更加准确。

分帧、加窗，得到帧数组：

分帧、加窗主要目的：语音信号在宏观上是不稳定的，在微观上具有短时稳定性，在分帧后可能会出现吉布斯效应。

本实施例中，获取帧时间长度为：wl×sr(wl为窗长度，值为25ms，sr为抽样频率)、相邻帧之间的步长：ws×sr(ws为窗间隔，值为10ms，sr为抽样频率)，计算帧的总长度：

其中，sl为信号总长度，fl为帧时间长度，fs为相邻帧之间的步长。

然后对所有帧通过矩阵运算的时间点进行抽取，得到总长度×fl的矩阵结果，根据窗函数处成最终的帧矩阵信号。

计算每一帧傅利叶变换后的功率谱：例如可以通过现有的numpy科学工具进行傅利叶变换为sp(若帧数据的矩阵形状为N×L则通过numpy.fft.rfft后的形状为N×nfft，nfft取值为512)。然后进行计算功率谱得到求和后的功率谱，功率谱计算公式为：

其中，NFFT取值为512，sp为傅利叶变换后的值。

计算梅尔三角间距滤波器，得到初步特征矩阵，目的是利用模拟人的听觉更容易区分低频率中的微小频率变化。具体包括：

首先把频率转化为梅尔频率，因为人耳分辨声音的大小必须为线性的并非非线性，所以通过转化为梅尔频率再进行线性分割，公式为：

2595*log(1+hz/700.0)，其中，hz为频率；

再将计算出的梅尔频率转化为hz，其公式为：700(10^m/2505-1)，其中，m为上面计算而出的梅尔系数，

找寻转化而来的频率，找到fft中对应的位置并建立滤波器，通过滤波器计算出滤波矩阵。公式为：

其中，m为滤波器个数，

其中，N＝512，fl为梅尔系数，W为采样率。

再按照对能量谱的每一帧按行求和，公式为：

其中，sp为能量谱，i为矩阵行数，j为矩阵列数。

再利用滤波器和求和后的能量谱进行计算出滤波后的结果，公式为：

log(sp*fb.T)

其中，sp为求和后的能量谱，fb为滤波器。

对滤波后的矩阵特征进行对数运算。

对得到的对数运算结果进行离散余弦变换，进行能量集中。

例如利用scipy科学计算包进行计算，具体离散余弦变换核公式为：

DCT正变换后得到最终的特征矩阵，具体公式为：

其中，f(x,y)为对数运算后的特征矩阵。

根据得到待比对视频的音频片段的特征矩阵和被比对视频的音频片段的特征矩阵计算余弦相似度SIM，计算余弦相似度SIM的公式为：

得出的相似度为SIM，用SIM和所需求的相似度做比较，可以判断出该配音是否疑似侵权。

本发明还提供了一种视频相似性比对***，如图4所示，该***包括：

对于以上处理结束后，会把处理数据入库，在以后需要重新索取比对结果或者有相似视频需要重新比对，可以读取视频库中查看，并判断该视频是否在关键帧的数据库中，如若是的情况下，查找该条数据对应的多组关键帧、对应的差异哈希值、对应的时间流信息、库中视频对应的音频原件。并通过上传视频的时间流，计算与库中视频的偏差帧同步获取关键帧组和上传视频的音频原件。

并将关键帧信息入库：进行偏差帧率计算推算出库中视频所在的对应帧。并获取N组的M分钟内的关键帧、对应差异哈希值、库中视频的音频原件，并存入关键帧库。拿到用户上传数据和库中的某条视频数据的关键帧组和关键帧，音频文件，重复以上比对方法，寻找视频相同片段，可大大缩短比对时间。

在疑似侵权视频比对时，以上方法应用在不知道原版和盗版视频内容的情况下，纯粹进行计算机比对，假如两个需要比对的视频内容已知，只需要进行疑似侵权证据锁定，为了增加工作效率，可以使用以下方法：

1)动态划分线程个数：根据数据个数和最高线程个数动态的划分每个线程负责的处理数据。

2)对侵权内容锁定做以下情况处理：

一个正版视频一个盗版视频：根据视频整个时间流总的帧个数均值抽出N个关键帧，将整个关键帧组生成对应的差异哈希值和时间流信息。

两个正版视频合成一个视频，一个盗版视频：根据两个正版视频帧共抽取N个关键帧，并生成差异哈希值和对应的时间流信息。

两个盗版视频合并，一个正版视频：根据视频整个时间流总的帧个数均值抽出N个关键帧，将整个关键帧组生成对应的差异哈希值和时间流信息。

3)通过盗版帧所在时间取出前后M个时间内的关键帧组：

starttime＝[timecover-60*fpscover*frametime]

endtime＝[timecover+60*fpscover*frametime]

其中，timecover为确定后偏差值的盗版帧数，fpscover为盗版帧率，frametime为时间倍数。

确定开始结束的时间生成盗版关键帧组：

一个正版视频一个盗版视频：根据正版和盗版视频帧率利用上面公式获取M时间段内的关键帧组。

一个正版两个盗版合为一个视频：根据以上内容公式对正版视频取出N*2倍的正版视频的图像组(原因为：正版视频时间等于(或约等于)两个盗版视频时长之和)的关键帧组，然而在后N张视频帧的帧数拿到对应图像，需要减去第一个侵权视频的总帧数，从而得到第二个侵权视频的N个M时间段内的关键帧组。

两个正版视频合为一个视频一个盗版视频：抽取两个正版视频关键帧共N个，根据数学公式动态分布两个视频关键帧的组合。拿到第一个正版视频关键帧取出N个M时间段内的关键帧组，对于第二个正版视频关键帧则是帧数加上第一个正版视频关键帧的总和，从而获取N个M时间段内的关键帧组。

4)比对每个关键帧对应的侵权关键帧组，获取的相似度最高的图像：通过汉明距离判断相似度，汉明距离为根据两个等长的字符串判断字符相同的个数，具体为：

生成哈希值，计算相似度：把所有的每个正版关键帧所对应的盗版关键帧组生成hash值并计算汉明距离存入sqlite数据库。

获取M分钟内的图像组最相似的关键帧：根据sqlite数据库内容进行降序排序拿到最终关键帧和对应的时间节点、正版视频所对应的关键帧和时间节点。

返回最终数据：当前数据处理完最终会获取两个视频的总时长和对应的视频名称。

本发明还涉及一种电子设备，包括服务器、终端等。该电子设备包括：至少一个处理器；与至少一个处理器通信连接的存储器；以及与存储介质通信连接的通信组件，所述通信组件在处理器的控制下接收和发送数据；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行以实现上述实施例中的方法。

在一种可选的实施方式中，存储器作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器通过运行存储在存储器中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储选项列表等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器中，当被一个或者多个处理器执行时，执行上述任意方法实施例中的方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本发明还涉及一种计算机可读存储介质，用于存储计算机可读程序，所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

此外，本领域普通技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本领域技术人员应理解，尽管已经参考示例性实施例描述了本发明，但是在不脱离本发明的范围的情况下，可进行各种改变并可用等同物替换其元件。另外，在不脱离本发明的实质范围的情况下，可进行许多修改以使特定情况或材料适应本发明的教导。因此，本发明不限于所公开的特定实施例，而是本发明将包括落入所附权利要求范围内的所有实施例。

Claims

1.一种视频相似性比对方法，其特征在于，该方法包括：

比对待比对视频和被比对视频的音频文件包括：

2.根据权利要求1所述的方法，其特征在于，所述将待对比视频的N个关键帧依次分别与被比对视频的每个关键帧进行相似性比较，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据相似关键帧组确定待对比视频的相似图像组，并同步时间流信息得到相似图像片段包括：确定相似图像片段的开始点和结束点，其中，确定相似图像片段的开始点包括：

确定相似图像片段的结束点包括：

4.根据权利要求1所述的方法，其特征在于，比对待比对视频和被比对视频的音频文件还包括：

5.根据权利要求1所述的方法，其特征在于，获取得到待比对视频和被比对视频的相似图像片段后，截取相似图像片段对应的音频片段进行相似性比较，包括：

确定相似音频片段的结束点包括：

6.根据权利要求1所述的方法，其特征在于，分别对待比对视频的音频片段和被比对视频的音频片段分别进行特征提取，包括以下步骤：

步骤S1：处理音频片段获取音频数据和采样率；

步骤S2：计算音频样本的最大频率，采样并量化；

步骤S3：对步骤S2得到的音频信号进行预加重；

步骤S5：计算每一帧傅里叶变换后的功率谱；

步骤S6：计算梅尔三角间距滤波器，得到初步特征矩阵；

步骤S7：对滤波后的矩阵特征进行对数运算；

7.根据权利要求6所述的方法，其特征在于，根据得到待比对视频的音频片段的特征矩阵和被比对视频的音频片段的特征矩阵计算余弦相似度SIM，计算余弦相似度SIM的公式为：

8.一种视频相似性比对***，其特征在于，该***包括：

9.一种电子设备，包括存储器和处理器，其特征在于，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被处理器执行以实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行以实现如权利要求1-7中任一项所述的方法。