CN112232379A

CN112232379A - 一种相似视频识别方法、装置、终端及存储介质

Info

Publication number: CN112232379A
Application number: CN202011024838.6A
Authority: CN
Inventors: 李美影
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2021-01-15
Anticipated expiration: 2040-09-25
Also published as: CN112232379B

Abstract

本发明提供一种相似视频识别方法、装置、终端及存储介质，所述方法包括如下步骤：S1.定时抽取待比较视频的中心点像素信息，并记录抽取次数；S2.将各待比较视频每次抽取的中心点像素信息转换为同一图像格式；S3.为每个待比较视频建立以中心点像素信息转换后的图像格式为特征值，以抽取次数为时间长度的时间序列函数；S4.抽取两个待比较视频的时间序列函数，基于时间规整算法计算抽取的两视频的时间序列函数的相似度，并根据预设的相似度函数阈值，判断两视频是否相似。本发明通过对视频中心点像素信息的抽取，避免了现有视频重复识别方法效率低，识别率低的缺陷，提高视频相似查重率，实现相似度高的视频的识别，提高了视频检索速度。

Description

一种相似视频识别方法、装置、终端及存储介质

技术领域

本发明属于视频识别技术领域，具体涉及一种相似视频识别方法、装置、终端及存储介质。

背景技术

随着互联网高速发展，数字化、网络化等信息科技得到快速发展与广泛应用，智能手机、个人电脑逐渐普及，互联网络用户越来越多，且数量还在不断的增长。众多用户使用互联网享受科技带来的便利，其中不乏视频创作者、分享者，如电影、纪录片、综艺、体育、短视频等创作与传播；每天都有庞大的用户群体在网络平台发布视频。

然而很多视频经常是由他人下载后转换视频格式或二次加工后发布，很多视频内容完全一样，仅仅加入了水印、广告、片头片尾或进行快慢缩放、调节分辨率、格式转换等，而这些内容完全一样或相似度极高的视频，往往不具有价值或只具有极低的价值，甚至这些视频的价值可以直接忽略，却占用大量的磁盘资源、网络资源，同时也拉低了视频检索速度，由此导致了巨大的经济价值浪费。不仅如此，对于视频爬虫者、视频数据分析者而言，这些相似视频占用了的爬虫带宽、降低了数据分析的准确率与可信度，因此相似视频的识别变得尤为重要。

以往的视频处理方法只是简单的去除完全重复内容的操作，也忽略了去除相似度较高内容的操作。此种重复剔除方法往往使用简单的方法如判断文件md5值、关键词、文件大小、图片哈希值等是否一样等，无法解决视频片头、片尾、广告、黑边、水印、时间伸缩、尺寸伸缩、分辨率调节、滤镜、格式转换等对查重的干扰，容易漏掉内容高度相似的视频，导致查重率普遍偏低。

此为现有技术的不足，因此，针对现有技术中的上述缺陷，提供一种相似视频识别方法、装置、终端及存储介质，是非常有必要的。

发明内容

针对现有技术的上述相似视频识别越来越重要，而现有相似视频识别方法较为简单，容量漏掉内容高度相似的视频，导致查重率低的缺陷，本发明提供一种相似视频识别方法、装置、终端及存储介质，以解决上述技术问题。

第一方面，本发明提供一种相似视频识别方法，包括如下步骤：

S1.定时抽取待比较视频的中心点像素信息，并记录抽取次数；

S2.将各待比较视频每次抽取的中心点像素信息转换为同一图像格式；

S3.为每个待比较视频建立以中心点像素信息转换后的图像格式为特征值，以抽取次数为时间长度的时间序列函数；

S4.抽取两个待比较视频的时间序列函数，基于时间规整算法计算抽取的两视频的时间序列函数的相似度，并根据预设的相似度函数阈值，判断两视频是否相似。

进一步地，步骤S1具体步骤如下：

S11.获取并根据待比较视频的时间长度确定抽取次数，且待比较视频时间长度越长，对应抽取次数越多；

S12.根据抽取次数计算抽取频率，并记录抽取次数；

S13.以计算的抽取频率定时抽取待比较视频的中心点像素信息。抽取待比较视频的中心点像素信息可以完美避免水印、黑边的影响；视频尺寸可能伸缩变形但最中心点像素信息保持不表；而且视频剧情内容一般发生在影像靠中心点位置，所以中心点携带相对更多的信息；视频时间越长抽取次数越多是因为视频越长，我们越需要谨慎，越需要更多的数据来进行比对来完成相似度比较。

进一步地，步骤S11具体步骤如下：

S111.获取待比较视频的时间长度，

当待比较视频的时间长度为第一阈值范围Q1，进入步骤S112；

当待比较视频的时间长度为第二阈值范围Q2，进入步骤S113；

当待比较视频的时间长度为第一阈值范围Q3，进入步骤S114；

当待比较视频的时间长度为第一阈值范围Q4，进入步骤S115；

S112.对待比较视频的中心点像素信息抽取N1次；

S113.对待比较视频的中心点像素信息抽取N2次；

S114.对待比较视频的中心点像素信息抽取N3次；

S115.对待比较视频的中心点像素信息抽取N4次，其中，Q1<Q2<Q3<Q4，而N1<N2<N3<N4。

进一步地，第一阈值范围Q1设定为1s≤Q1<60s，抽取次数N1取20次；

第二阈值范围Q2设定为1min≤Q2<60min，抽取次数N2取40次；

第三阈值范围Q3设定为1h≤Q3<10h，抽取次数N3取100次；

第四阈值范围Q4设定为10h≤Q4，抽取次数N4取1000次。

进一步地，步骤S2具体步骤如下：

S21.确定目标图像格式为灰度图；

S22.获取待比较视频的图像格式，根据待比较视频图像格式与灰度图的转换规则将待比较视频的中心点像素信息转换为灰度值；

S23.将待比较视频的中心点像素信息的灰度值转换为100进制。将中心点像素信息转化为灰度值，方便进行统一比对。

进一步地，步骤S3具体步骤如下：

S31.获取每个待比较视频的中心点像素信息转换后的灰度值及抽取次数；

S32.以中心点像素信息的灰度值为特征值，以抽取次数为时间长度组成每个待比较视频的时间序列函数。

进一步地，步骤S4具体步骤如下：

S41.抽取两个待比较视频的时间序列函数；

S42.采用时间规整算法建立两个时间序列函数各个点之间的距离矩阵，并寻找对角线路径，使得路径上的元素和最小；

S43.计算对角线路径距离，将对角线路径距离与预设的相似度函数阈值比较；

当对角线路径距离小于等于相似度函数阈值，进入步骤S44；

当对角线路径距离大于相似度函数阈值，判定两视频不相似，进入步骤S46；

S44.判定两视频相似，将两视频放入相似视频库；

S45.从两相似视频中选择一个删除，获取剩余视频，进入步骤S46；

S46.将视频放入常规视频库。

第二方面，本发明提供一种相似视频识别装置，包括：

中心点像素信息抽取模块，用于定时抽取待比较视频的中心点像素信息，并记录抽取次数；

图像格式转换模块，用于将各待比较视频每次抽取的中心点像素信息转换为同一图像格式；

时间序列函数建立模块，用于为每个待比较视频建立以中心点像素信息转换后的图像格式为特征值，以抽取次数为时间长度的时间序列函数；

相似判断模块，用于抽取两个待比较视频的时间序列函数，基于时间规整算法计算抽取的两视频的时间序列函数的相似度，并根据预设的相似度函数阈值，判断两视频是否相似。

第三方面，本发明提供一种终端，包括：

处理器、存储器，其中，

该存储器用于存储计算机程序，

该处理器用于从存储器中调用并运行该计算机程序，使得终端执行上述第一方面所述的方法。

第四方面，本发明提供了一种计算机存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

本发明的有益效果在于，

本发明提供的相似视频识别方法、装置、终端及存储介质，通过对视频中心点像素信息的抽取，避免了现有视频重复识别方法效率低，识别率低的缺陷，可将视频中存在片头、片尾、广告、水印、黑边、时间伸缩、尺寸伸缩、分辨率调节、滤镜、格式转换等干扰导致视频无法识别为相似的进行处理，提高视频相似查重率，实现相似度高的视频的识别，再对高相似度视频删除，降低网络资源损坏与磁盘存活，提高了视频检索速度。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著的进步，其实施的有益效果也是显而易见的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的方法流程示意图一；

图2是本发明的方法流程示意图二；

图3是本发明的***示意图；

图4是本发明实施例中视频A与视频B特征时序图对比图；

图5是本发明实施例中视频A与视频B特征图采用传统方法计算两个序列距离示意图；

图6是本发明实施例中视频A与视频B特征图采用时间规整算法计算对角线路径最小示意图；

图中，1-中心点像素信息抽取模块；1.1-抽取次数确定单元；1.2-抽取频率计算单元；1.3-中心点像素信息抽取单元；2-图像格式转换模块；2.1-目标图像格式确定单元；2.2-灰度格式转换单元；2.3-灰度值转换单元；3-时间序列函数建立模块；3.1-灰度值及抽取次数获取单元；3.2-时间序列函数建立单元；4-相似判断模块；4.1-时间序列函数抽取单元；4.2-对角线路径寻找单元；4.3-路径比较单元；4.4-相似视频判定单元；4.5-相似视频删除单元；4.6-不相似视频判定单元；4.7-常规视频库放入单元。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例1：

如图1所示，本发明提供一种相似视频识别方法，包括如下步骤：

实施例2：

如图2所示，本发明提供一种相似视频识别方法，包括如下步骤：

S1.定时抽取待比较视频的中心点像素信息，并记录抽取次数；具体步骤如下：

S12.根据抽取次数计算抽取频率，并记录抽取次数；

S13.以计算的抽取频率定时抽取待比较视频的中心点像素信息；抽取待比较视频的中心点像素信息可以完美避免水印、黑边的影响；视频尺寸可能伸缩变形但最中心点像素信息保持不表；而且视频剧情内容一般发生在影像靠中心点位置，所以中心点携带相对更多的信息；

S2.将各待比较视频每次抽取的中心点像素信息转换为同一图像格式；具体步骤如下：

S21.确定目标图像格式为灰度图；

S23.将待比较视频的中心点像素信息的灰度值转换为100进制；将中心点像素信息转化为灰度值，方便进行统一比对；例如有的图片为CMYK格式，有的图片为RGB格式，甚至更多格式，统一为灰度图方便比较，为了方便直观感受，将灰度值转换为100制；

S3.为每个待比较视频建立以中心点像素信息转换后的图像格式为特征值，以抽取次数为时间长度的时间序列函数；具体步骤如下：

S32.以中心点像素信息的灰度值为特征值，以抽取次数为时间长度组成每个待比较视频的时间序列函数；以视频A作为待比较视频抽取了a次中心点像素信息，而视频B作为待比较视频抽取了b次中心点像素信息为例，基于各自灰度值为特征值，分别组成长度为a和b的时间序列函数；

S4.抽取两个待比较视频的时间序列函数，基于时间规整算法计算抽取的两视频的时间序列函数的相似度，并根据预设的相似度函数阈值，判断两视频是否相似；具体步骤如下：

S41.抽取两个待比较视频的时间序列函数；

当对角线路径距离小于等于相似度函数阈值，进入步骤S44；

S44.判定两视频相似，将两视频放入相似视频库；

S46.将视频放入常规视频库；只需要比对视频A和视频B共计a+b个中心点像素信息即可完成相似对比工作，相比于对比每一张图片特征来说，工作量与计算量极大地减少，识别效率大幅提升；而且提取影像中间点信息，不受伸缩变形、黑边水印的影像；

如图4所示，基于步骤S1-S3得到视频A和视频B的两个时间序列，直观的看到视频A与视频B特征时序函数非常接近，说明两个视频很有可能内容一样，但是，采用如图5所示的传统方法计算相似度，计算出得距离越小，说明两个序列越相似也就是说两个视频越相近。

以欧几里得距离为例，两个序列得距离之和为

而基于时间规整算法，寻找对角线路径，使得路径上的元素和最小，相当于如图6所示，将视频A的前11张影像的时间向后推移1个时间单位；这样的话距离之和＝0+0+0+0+0+0+0+0+0+0+|1|+0+0+0+0+0+|1|＝2，远小于刚才计算出来的距离24，其中，前一个三角区域可能是由于视频A比视频B多了片头导致，后一个三角区域可能是由于是视频B中间增加广告导致，大部分区域两条曲线平行说明这些视频内容一致，因此，基于时间规整算法避免视频片头片尾、广告、快进、慢放、滤镜对相似识别工作的干扰。

在某些实施例中，步骤S11具体步骤如下：

S111.获取待比较视频的时间长度，

当待比较视频的时间长度为第一阈值范围Q1，进入步骤S112；

当待比较视频的时间长度为第二阈值范围Q2，进入步骤S113；

当待比较视频的时间长度为第一阈值范围Q3，进入步骤S114；

当待比较视频的时间长度为第一阈值范围Q4，进入步骤S115；

S112.对待比较视频的中心点像素信息抽取N1次；

S113.对待比较视频的中心点像素信息抽取N2次；

S114.对待比较视频的中心点像素信息抽取N3次；

S115.对待比较视频的中心点像素信息抽取N4次，其中，Q1<Q2<Q3<Q4，而N1<N2<N3<N4；

第一阈值范围Q1设定为1s≤Q1<60s，抽取次数N1取20次；

第二阈值范围Q2设定为1min≤Q2<60min，抽取次数N2取40次；

第三阈值范围Q3设定为1h≤Q3<10h，抽取次数N3取100次；

第四阈值范围Q4设定为10h≤Q4，抽取次数N4取1000次；

以视频长度为10s为例，需要抽取20次，则计算抽取频率为每0.5s抽取一次；视频时间越长抽取次数越多是因为视频越长，我们越需要谨慎，越需要更多的数据来进行比对来完成相似度比较。

实施例3：

如图3所示，本发明提供一种相似视频识别装置，包括：

中心点像素信息抽取模块1，用于定时抽取待比较视频的中心点像素信息，并记录抽取次数；中心点像素信息抽取模块1包括：

抽取次数确定单元1.1，用于获取并根据待比较视频的时间长度确定抽取次数，且待比较视频时间长度越长，对应抽取次数越多；

抽取频率计算单元1.2，用于根据抽取次数计算抽取频率，并记录抽取次数；

中心点像素信息抽取单元1.3，用于以计算的抽取频率定时抽取待比较视频的中心点像素信息；

图像格式转换模块2，用于将各待比较视频每次抽取的中心点像素信息转换为同一图像格式；图像格式转换模块2包括：

目标图像格式确定单元2.1，用于确定目标图像格式为灰度图；

灰度格式转换单元2.2，用于获取待比较视频的图像格式，根据待比较视频图像格式与灰度图的转换规则将待比较视频的中心点像素信息转换为灰度值；

灰度值转换单元2.3，用于将待比较视频的中心点像素信息的灰度值转换为100进制；

时间序列函数建立模块3，用于为每个待比较视频建立以中心点像素信息转换后的图像格式为特征值，以抽取次数为时间长度的时间序列函数；时间序列函数建立模块3包括：

灰度值及抽取次数获取单元3.1，用于获取每个待比较视频的中心点像素信息转换后的灰度值及抽取次数；

时间序列函数建立单元3.2，用于以中心点像素信息的灰度值为特征值，以抽取次数为时间长度组成每个待比较视频的时间序列函数；

相似判断模块4，用于抽取两个待比较视频的时间序列函数，基于时间规整算法计算抽取的两视频的时间序列函数的相似度，并根据预设的相似度函数阈值，判断两视频是否相似；相似判断模块4包括：

时间序列函数抽取单元4.1，用于抽取两个待比较视频的时间序列函数；

对角线路径寻找单元4.2，用于采用时间规整算法建立两个时间序列函数各个点之间的距离矩阵，并寻找对角线路径，使得路径上的元素和最小；

路径比较单元4.3，用于计算对角线路径距离，将对角线路径距离与预设的相似度函数阈值比较；

相似视频判定单元4.4，用于当对角线路径距离小于等于相似度函数阈值，判定两视频相似，将两视频放入相似视频库；

相似视频删除单元4.5，用于将两相似视频中选择一个删除，获取剩余视频；

不相似视频判定单元4.6，用于当对角线路径距离大于相似度函数阈值，判定两视频不相似；

常规视频库放入单元4.7，用于将两不相似视频，以及两相似视频中剩余一个放入常规视频库。

实施例4：

本发明提供一种终端，包括：

处理器、存储器，其中，

该存储器用于存储计算机程序，

该处理器用于从存储器中调用并运行该计算机程序，使得终端执行上述实施例1或实施例2所述的方法。

实施例5：

本发明还提供一种计算机存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例1或实施例2所述的方法。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种相似视频识别方法，其特征在于，包括如下步骤：

2.如权利要求1所述的相似视频识别方法，其特征在于，步骤S1具体步骤如下：

S12.根据抽取次数计算抽取频率，并记录抽取次数；

S13.以计算的抽取频率定时抽取待比较视频的中心点像素信息。

3.如权利要求2所述的相似视频识别方法，其特征在于，步骤S11具体步骤如下：

S111.获取待比较视频的时间长度，

当待比较视频的时间长度为第一阈值范围Q1，进入步骤S112；

当待比较视频的时间长度为第二阈值范围Q2，进入步骤S113；

当待比较视频的时间长度为第一阈值范围Q3，进入步骤S114；

当待比较视频的时间长度为第一阈值范围Q4，进入步骤S115；

S112.对待比较视频的中心点像素信息抽取N1次；

S113.对待比较视频的中心点像素信息抽取N2次；

S114.对待比较视频的中心点像素信息抽取N3次；

4.如权利要求3所述的相似视频识别方法，其特征在于，第一阈值范围Q1设定为1s≤Q1<60s，抽取次数N1取20次；

第二阈值范围Q2设定为1min≤Q2<60min，抽取次数N2取40次；

第三阈值范围Q3设定为1h≤Q3<10h，抽取次数N3取100次；

第四阈值范围Q4设定为10h≤Q4，抽取次数N4取1000次。

5.如权利要求2所述的相似视频识别方法，其特征在于，步骤S2具体步骤如下：

S21.确定目标图像格式为灰度图；

S23.将待比较视频的中心点像素信息的灰度值转换为100进制。

6.如权利要求5所述的相似视频识别方法，其特征在于，步骤S3具体步骤如下：

7.如权利要求1所述的相似视频识别方法，其特征在于，步骤S4具体步骤如下：

S41.抽取两个待比较视频的时间序列函数；

当对角线路径距离小于等于相似度函数阈值，进入步骤S44；

S44.判定两视频相似，将两视频放入相似视频库；

S46.将视频放入常规视频库。

8.一种相似视频识别装置，其特征在于，包括：

中心点像素信息抽取模块(1)，用于定时抽取待比较视频的中心点像素信息，并记录抽取次数；

图像格式转换模块(2)，用于将各待比较视频每次抽取的中心点像素信息转换为同一图像格式；

时间序列函数建立模块(3)，用于为每个待比较视频建立以中心点像素信息转换后的图像格式为特征值，以抽取次数为时间长度的时间序列函数；

相似判断模块(4)，用于抽取两个待比较视频的时间序列函数，基于时间规整算法计算抽取的两视频的时间序列函数的相似度，并根据预设的相似度函数阈值，判断两视频是否相似。

9.一种终端，其特征在于，包括：

处理器、存储器，其中，

该存储器用于存储计算机程序，

该处理器用于从存储器中调用并运行该计算机程序，使得终端执行上述权利要求1-7任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述权利要求1-7任一项所述的方法。