CN112836600B

CN112836600B - 一种视频相似度的计算方法与***

Info

Publication number: CN112836600B
Application number: CN202110069305.8A
Authority: CN
Inventors: 陈司浩
Original assignee: Xinhua Zhiyun Technology Co ltd
Current assignee: Xinhua Zhiyun Technology Co ltd
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2023-12-22
Anticipated expiration: 2041-01-19
Also published as: CN112836600A

Abstract

本申请涉及一种视频相似度的计算方法与***，通过关键帧和待命中关键帧之间的余弦相似度，从而确定待命中关键帧是否被命中，进而可以确定待命中视频是否被命中。通过计算待检索视频和命中视频的精准度分数，在一定程度上降低了常见帧对相似度计算结果的干扰，使得关键帧的重要性成为相似度计算的重要因素。通过计算待检索视频和命中视频的召回分数，削弱了时长因素对相似度计算结果产生的误差影响。最终综合精准度分数和召回分数计算相似度分数，使得视频相似度计算结果更加精准，在相似片段检索，事实核查等需要运用到视频相似度计算方法的实际场景中，保证了相似度计算结果召回率和精准率。

Description

一种视频相似度的计算方法与***

技术领域

本申请涉及视频处理技术领域，特别是涉及一种视频相似度的计算方法与***。

背景技术

随着视频制作难度降低和自媒体行业的兴起，人们在日常生活中，越来越习惯于通过发布视频和观看视频的方式传播和了解讯息。然而，随之而来的就是海量的用户视频数据的发布。通过这些视频数据，我们可以实现相似视频片段查找、事实核查、版权监测等应用。这些应用都需要基于视频相似程度的判别来实现。传统计算视频相似度的方法，一般通过计算待检索视频与集合中视频重合部分的时长与待检索视频时长的比例，通过设置某一阈值，判断是否相似性。

然而，传统计算视频相似度的方法存在的问题是相似度计算结果，无法削弱时长因素对相似度计算结果产生的误差影响，导致相似度计算结果准确性差。例如，一个重要片段的时长低，在相似度判断时很容易以为时长占总时长的比率低，而被忽略，而一个时长过长的垃圾片段，在相似度计算时却往往成为计算相似度的核心要素。

发明内容

基于此，有必要针对传统视频相似度的计算方法，无法削弱时长因素对相似度计算结果产生的误差影响的问题，提供一种视频相似度的计算方法与***。

本申请提供一种视频相似度的计算方法，所述方法包括：

获取待检索视频中的多个关键帧；

选取一个关键帧，计算所述关键帧与数据库服务器中每一个待命中关键帧的余弦相似度；

依次判断所述关键帧与每一个待命中关键帧的余弦相似度是否大于余弦相似度阈值；

选取余弦相似度大于余弦相似度阈值的待命中关键帧，作为所述关键帧对应的命中关键帧，将命中关键帧归属的视频作为命中视频；

反复执行选取一个关键帧至确定命中关键帧的步骤，得到多个命中关键帧，以及多个命中视频；

选取一个命中视频，获取待检索视频命中所述命中视频的全部命中关键帧，基于每一个命中关键帧和与其对应的待检索视频中的关键帧的余弦相似度，每一个命中关键帧对应的关键帧在命中所述命中关键帧的同时命中的所有命中视频的数量，以及待检索视频命中所述命中视频的命中关键帧的个数，计算待检索视频和所述命中视频的精准度分数；

基于所述命中视频中包含的关键帧总数，待检索视频命中所述命中视频的命中关键帧的个数，计算待检索视频和所述命中视频的召回分数；在计算召回分数的过程中，对所述命中视频中包含的关键帧总数进行修正，在所述命中视频中删除命中关键帧分布稀少的区域的关键帧；

基于精准度分数和召回分数计算待检索视频和所述命中视频的相似度分数；

反复执行选取一个命中视频至计算待检索视频和所述命中视频的相似度分数的步骤，得到待检索视频和每一个命中视频的相似度分数。

本申请提供一种视频相似度的计算***，所述***包括：

视频处理终端，用于执行前述内容提及的视频相似度的计算方法；

数据库服务器，与视频处理终端通信连接。

附图说明

图1为本申请一实施例提供的视频相似度的计算方法的流程示意图；

图2为本申请一实施例提供的视频相似度的计算***的结构示意图；

图3为本申请一实施例提供的待检索视频和命中视频之间的命中关系示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种视频相似度的计算方法。需要说明的是，本申请提供的视频相似度的计算方法应用于任何格式、时长的视频。

此外，本申请提供的视频相似度的计算方法不限制其执行主体。可选地，本申请提供的视频相似度的计算方法的执行主体的可以为一种视频处理终端10。

具体地，本申请提供的视频相似度的计算方法的执行主体的可以为所述视频处理终端10中的一个或多个处理器。

如图1所示，在本申请的一实施例中，所述方法包括如下步骤S100至步骤S900：

S100，获取待检索视频中的多个关键帧。

具体地，一帧就是视频中的一个画面。关键帧也叫作I帧，它是帧间压缩编码的最重要帧。视频的编码是按照“组”来进行的，每一个组叫作GOP(Group of Picture，图像组)。GOP与GOP之间是没有联系的。编码关系只在GOP之间产生。每一个GOP都是由关键帧开始的，关键帧是一幅完整的画面，GOP中间的帧都是不完整的，需要由关键帧、前面帧以及后面帧等一起运算得到。关键帧的间隔调节会影响GOP的长度，进而影响到读取GOP的速度。如果关键帧的间隔设置过大的话(GOP长度过大)，在必须用到关键帧的场合就可能被迫使用B/P帧来代替，这就会降低画面质量。关键帧是帧间压缩的基础，典型的GOP(IBP帧包)结构一般是：IBBPBBPBBPBBPBBPBB。前后参考帧叫做B帧，即参考前面和后面两帧的数据加上本帧的变化而得出本帧的数据。向前参考帧叫做P帧。假设关键帧，即I帧损坏，那么整个GOP结构就坏掉了，即IBBPBBPBBPBBPBBPBB这么多帧一起坏掉。

本步骤中，向视频处理终端10输入一个待检索视频后，视频处理终端10对待检索视频解析，并抽取待检索视频中的多个关键帧。多个关键帧涵盖了所述待检索视频中的所有关键信息。

S200，选取一个关键帧，计算该关键帧与数据库服务器20中每一个待命中关键帧的余弦相似度。

具体地，余弦相似度是用于初步评价两个关键帧的相似度的参数指标。数据库服务器20存储有多个视频，这些视频都是以至少一个关键帧的形式存储在数据库服务器20中，为了与待检索视频中的关键帧形成区别，数据库服务器20中的这些视频称为待命中视频，数据库服务器20中的这些关键帧称为待命中关键帧。

例如，待命中视频A，待命中视频B和待命中视频C均是数据库服务器20中存储的视频。待命中视频A包括10个待命中关键帧，那么待命中视频A就以10个待命中关键帧的存储形式存储于数据库服务器20中。待命中视频B和待命中视频C同理。

步骤S200中，为了计算待检索视频和每一个待命中视频的相似度，就要去计算待检索视频中的每一个关键帧，与数据库服务器20中每一个待命中关键帧的余弦相似度。

S300，依次判断所述关键帧与每一个待命中关键帧的余弦相似度是否大于余弦相似度阈值。

具体地，余弦相似度阈值可以为0.9，当然也可以为其他数字。余弦相似度的数值越大，表明所述关键帧和待命中关键帧越相似。

S400，选取余弦相似度大于余弦相似度阈值的待命中关键帧，作为所述关键帧对应的命中关键帧，将命中关键帧归属的视频作为命中视频。

具体地，一旦一个关键帧，和一个待命中关键帧的余弦相似度大于余弦相似度阈值，那么该待命中关键帧被所述关键帧“命中”了，那么这个待命中关键帧就变为了命中关键帧，可以理解，该命中关键帧归属的视频就可以作为命中视频。

S500，反复执行S200至S400，得到多个命中关键帧，以及多个命中视频。

具体地，S200至S400是并发进行的，换言之，视频处理终端10是并发的使用待检索视频中的每一个关键帧去数据库服务器20中检索与关键帧的余弦相似度大于余弦相似度阈值的所有待命中关键帧，这样的优点是工作效率高，而不是待检索视频中的一个关键帧的命中结果呈现之后，再去推进下一个关键帧的命中流程。

S600，选取一个命中视频，获取待检索视频命中所述命中视频的全部命中关键帧，基于每一个命中关键帧和与其对应的待检索视频中的关键帧的余弦相似度，每一个命中关键帧对应的关键帧在命中所述命中关键帧的同时命中的所有命中视频的数量，以及待检索视频命中所述命中视频的命中关键帧的个数，计算待检索视频和所述命中视频的精准度分数。

首先，精准度可以降低一些常见帧的干扰。例如，很多视频都有相同的开头片段。例如，很多不同的新闻联播视频，虽然报道的新闻内容不同，但是开头的片段是一模一样的，如果按传统算法，这部分的内容会对新闻联播视频之间的相似度判定产生一个很大的影响。而精准度分数可以降低常见帧对相似度的影响，反而是具有独特性特色的帧对相似度的计算的贡献度更高。

S700，基于所述命中视频中包含的关键帧总数，待检索视频命中所述命中视频的命中关键帧的个数，计算待检索视频和所述命中视频的召回分数。在计算召回分数的过程中，对所述命中视频中包含的关键帧总数进行修正，在所述命中视频中删除命中关键帧分布稀少的区域的关键帧。

具体地，召回分数的计算，更加关注了命中关键帧的周围是否出现连续的命中关键帧，提高这些连续出现的命中关键帧对于相似度计算的重要性，而削弱命中关键帧分布稀少的区域的关键帧对于相似度计算的重要性。这样命中关键帧分布稀少的区域虽然可能有很多的关键帧，且时长占比高，但是这部分关键帧对于相似度计算的重要性很低，这样就可以削弱时长因素对相似度计算结果产生的误差影响。

S800，基于精准度分数和召回分数计算待检索视频和所述命中视频的相似度分数。

具体地，结合精准度分数和召回分数来综合计算相似度分数，当然，可以针对精准度分数和召回分数分别设置权重，来影响相似度分数最终的结果。

S900，反复执行S600至步骤S800，得到待检索视频和每一个命中视频的相似度分数。

具体地，可以基于待检索视频和每一个命中视频的相似度分数，生成相似度分数统计表格，输出所述相似度分数统计表格。

本实施例中，通过关键帧和待命中关键帧之间的余弦相似度，从而确定待命中关键帧是否被命中，进而可以确定待命中视频是否被命中。通过计算待检索视频和命中视频的精准度分数，在一定程度上降低了常见帧对相似度计算结果的干扰，使得关键帧的重要性成为相似度计算的重要因素。通过计算待检索视频和命中视频的召回分数，削弱了时长因素对相似度计算结果产生的误差影响。最终综合精准度分数和召回分数计算相似度分数，使得视频相似度计算结果更加精准，在相似片段检索，事实核查等需要运用到视频相似度计算方法的实际场景中，保证了相似度计算结果召回率和精准率。

在本申请的一实施例中，所述S500还包括如下步骤：

S550，依据每一个命中关键帧归属的视频序号，将所有的命中关键帧划入多个关键帧集合，一个关键帧集合中包含的所有命中关键帧具有相同的视频序号。

具体地，本步骤的目的是将所有待命中关键帧进行***性的整合，便于后续计算精准度分数和召回分数。举例说明，一个待检索视频Q在执行完毕S100，并反复执行步骤S200至步骤S400之后，发现待检索视频Q命中了视频A的帧A1，帧A2，帧A4，帧A10，待检索视频Q还命中了视频B的帧B2，帧B3。待检索视频Q还命中了视频C的帧C1，帧C2，帧C4和帧C5。

那么本步骤S550中，视频处理终端10可以生成每一个命中视频的关键帧集合，A_hit:{A1，A2，A4，A10}，B_hit:{B2，B3}，C_hit:{C1，C2，C4，C5}。关键帧集合中的每一个元素不但包括命中关键帧，还包括命中关键帧归属的命中视频序号，以及余弦相似度。A1是命中视频序号，代表Q命中了视频A的第1个关键帧。

本实施例中，通过将所有的命中关键帧划入多个关键帧集合，将所有待命中关键帧进行了***性的整合，便于后续计算精准度分数和召回分数。

在本申请的一实施例中，所述S200包括如下步骤S210至步骤S230：

S210，选取一个关键帧。

S220，获取所述关键帧的D维特征向量，以及获取数据库服务器20中每一个待命中关键帧的D维特征向量。

S230，依据公式1计算所述关键帧与数据库服务器20中每一个待命中关键帧的余弦相似度。

其中，similarity_k为关键帧与数据库服务器20中每一个待命中关键帧的余弦相似度。k为待命中关键帧的序号。θ_k为关键帧的D维特征向量与待命中关键帧的D维特征向量的夹角。X×Y_k为关键帧的D维特征向量与待命中关键帧的D维特征向量的内积。||X||为关键帧的D维特征向量的模。||Y_k||为待命中关键帧的D维特征向量的模。

具体地，余弦相似度算法是基于HNSW算法构建的，该算法是一种基于图的最近邻搜索算法，把D维空间中所有的向量构建成一张相互联通的图，并基于这张图搜索某个顶点的多个最近邻点。

本实施例中，计算所述关键帧与数据库服务器20中每一个待命中关键帧的余弦相似度，可以避免我们去检索数据库服务器20中所有的候选视频关键帧，从而减少了计算量，提高计算效率。

在本申请的一实施例中，所述步骤S600包括如下步骤S610至步骤S650：

S610，选取一个命中视频，获取待检索视频命中所述命中视频的全部命中关键帧。进一步地，计算待检索视频命中所述命中视频的命中关键帧的个数；

S620，选取一个命中关键帧，获取与其对应的待检索视频中的关键帧。

S630，获取所述命中关键帧和与其对应的待检索视频中的关键帧的余弦相似度。

S640，获取所述命中关键帧对应的关键帧在命中所述命中关键帧的同时，命中的所有命中视频的数量。

S650，反复执行所述步骤S620至步骤S640，依据公式2计算待检索视频和命中视频的精准度分数。

其中，P为待检索视频和命中视频的精准度分数。similarity_i为选取的命中关键帧，和与其对应的待检索视频中的关键帧的余弦相似度。hitCount_i为选取的命中关键帧对应的关键帧在命中所述命中关键帧的同时，命中的所有命中视频的数量。i为选取的命中关键帧的序号。n为待检索视频命中所述命中视频的命中关键帧的个数。

具体地，用命中视频A举例，命中视频A的关键帧集合为Ahit:{A1，A2，A4，A10}，表面待检索视频Q命中了命中视频A中的4帧，分别是帧A1，帧A2，帧A4和帧A10，那么n为4。对于A1来讲，如果待检索视频Q中的帧Q1，在命中帧A1的同时，还命中了命中视频B中的帧B2，和命中视频C中的帧C1，那么针对A1的hitCount_i为3。帧Q1和帧A1的余弦相似度经计算后为0.95，则similarity_i为0.95。

同理，如果对于帧A2来讲，hitCount_i为7，similarity_i为0.99，对于帧A4来讲，hitCount_i为1，similarity_i为0.91，对于帧A10来讲，hitCount_i为10，similarity_i为0.95，那么命中视频A的精准度分数P为(0.95/3+0.99/7+0.91/1+0.95/10)/4＝0.366。

精准度分数的计算过程可以降低一些常见帧的干扰。例如，很多视频都有相同的开头片段。例如，很多不同的新闻联播视频，虽然报道的新闻内容不同，但是开头的片段是一模一样的，如果按传统算法，这部分的内容会对新闻联播视频之间的相似度判定产生一个很大的影响。而精准度分数可以降低常见帧对相似度的影响，反而是具有独特性特色的帧对相似度的计算的贡献度更高。

如果待检索视频中的一个关键帧在很多命中视频中都出现过，那么hitCount_i就会比较大，那么公式2中的分子就会偏小，最终得出的P值就会偏小。

反之，如果待检索视频Q的帧Q2命中了视频B中的帧B11，帧Q3命中了视频B中的帧B13，余弦相似度计算结果都是0.9。但是帧Q2和帧Q3都只命中了视频B，没有命中其他视频，hitCount_i那么就会偏小，为1，那么公式2中的分子就会偏大，得到的P值就会偏大，最终P为(0.9+0.9)/2＝0.9。可见，虽然待检索视频Q命中视频B的命中关键帧不多，只有2，即n等于2，但是明显命中视频B的精准度分数大于视频A的精准度分数。

本实施例中，hitCount_i说明了如果某一关键帧出现在许多的视频中，当这一关键帧并不具有独特性同时也并非重要时，可以通过精准度分数的计算公式，降低该关键帧的权重从而降低相似度计算结果的误差。精准度分数同时关注了关键帧的重要性和相似性。可以理解，similarity_i代表了关键帧的相似性，它由余弦相似度计算而确定。hitCount_i则代表了关键帧的重要性。

在本申请的一实施例中，所述S700包括如下步骤S710至步骤S730：

S710，获取命中视频中包含的关键帧总数。

S720，对命中视频的命中关键帧的分布情况进行分析，从所述命中视频中删除命中关键帧分布稀少的区域的关键帧，计算得到修正后的关键帧总数。

S730，依据公式3计算待检索视频和命中视频的召回分数。

其中，R为待检索视频和命中视频的召回分数。Count为命中视频中包含的关键帧总数。modifyCount为修正后的关键帧总数。goalCount为待检索视频命中所述命中视频的命中关键帧的个数。

具体地，公式3更加关注了命中关键帧的分布情况，即提升连续的命中关键帧的部分对相似度结果计算的影响程度，从而达到削弱时长影响的目的。同时公式3也不会完全丢弃时长因素的影响，在同等情况下，总时长越相近的视频肯定越相似。

还是用命中视频A的命中情况举例。命中视频A的关键帧集合为Ahit:{A1，A2，A4，A10}，表明待检索视频Q命中了命中视频A中的4帧，分别是帧A1，帧A2，帧A4和帧A10，那么goalCount为4。其实公式3中的goalCount等同于公式2的n。因为是不同实施例中的不同公式，为了形成区别，故采用不同的参数表示。

命中视频A总共有10个关键帧，则Count为10。若直接用goalCount除以Count计算召回分数，即R等于4除以10等于0.4，那么召回分数R的计算结果容易受到视频时长的影响。这是因为视频时长越长，那么Count的数值越大，召回分数R越小。

这个时候我们需要引入modifyCount对召回分数的计算过程进行修正。在一个视频中，考虑计算量和存储因素，我们无法用到视频的所有帧，只能用关键帧表示，而如果待检索视频Q的时长短，只有5分钟，命中视频A的时长，有1小时，但是待检索视频Q中有很多密集的片段，命中了命中视频A，那么在命中视频A中，应当有很多个命中关键帧连续且密集的区域，那么可以提升这些区域对计算相似度的重要性。因此我们引入了召回分数的修正算法，即加入modifyCount。

例如，我们通过步骤S720，从所述命中视频A中删除命中关键帧分布稀少的区域的关键帧，提取关键帧分布密集的区域的关键帧总数，可以计算得到修正后的关键帧总数为6，即modifyCount为6。则代入公式3后，召回分数为4*6+4*10)/(2*6*10)＝0.53，比原来的计算结果0.4略大。

本实施例中，通过引入计算modifyCount召回分数，在相似度计算的过程中，更关注了命中关键帧富集区域的计算比重，从而达到削弱时长影响的目的。当然，我们可以看到当modifyCount越接近goalCount时，表明待检索视频Q和命中视频A的相似片段越多，而非只有几个关键帧。

在本申请的一实施例中，所述S720包括如下步骤S721至S727：

S721，选取一个命中关键帧，获取所述命中关键帧对应的时间节点。

具体地，本步骤是具体确定modifyCount的过程。首先确定各个命中关键帧对应的时间节点。如图3所示，待检索视频Q命中了命中视频A中的4帧。

S722，将所述命中关键帧对应的时间节点减少预设时间段，生成第一时间节点。将所述命中关键帧对应的时间节点增加预设时间段，生成第二时间节点。

具体地，预设时间段可以为5秒。例如命中关键帧对于的时间节点是命中视频中的第10秒，那么第一时间节点就是第5秒处，第二时间节点就是第15秒处。

S723，将第一时间节点至第二时间节点之间的时间长度设置为一个时间窗口。

具体地，可以理解，一个时间窗口的时间长度为2倍的预设时间段。

S724，反复执行所述步骤S721至步骤S723，直至得到每一个命中关键帧对应的时间窗口。

具体地，根据图3的实施例，命中关键帧为4个，应当有4个时间窗口。

S725，将存在重叠情况的时间窗口进行合并，得到多个合并后的时间窗口。

具体地，如图3所示，由于前两个时间窗口存在重叠情况，因此前两个时间窗口合并为一个时间窗口a，时间窗口a具有2个关键帧，2个关键帧均为命中关键帧。

时间窗口b合并前和合并后没有变化，还是有3个关键帧，其中有一个关键帧为命中关键帧。可以理解，时间窗口b中，命中关键帧的前5秒内出现了一个关键帧，后5秒内出现了一个关键帧，加上命中关键帧本身，一共有3个关键帧。

时间窗口c合并前和合并后没有变化，只有1个关键帧，这个关键帧同时也是命中关键帧。可以理解，时间窗口c中，命中关键帧的前5秒内，后5秒内都是非关键帧。

因此，图3得到了3个合并后的时间窗口。

S726，获取每一个合并后的时间窗口中出现的关键帧的数量，并进行求和，得到所有合并后时间窗口出现的关键帧总数。

具体地，如图3所示。所有合并后时间窗口出现的关键帧总数为2+3+1等于6。

S727，将所有合并后时间窗口出现的关键帧总数作为修正后的关键帧总数。

具体地，modifyCount为6。

本实施例可以实现对命中视频中非命中关键帧的区域进行有效的删减，强化命中关键帧及其周围连续的区域出现的关键帧的重要性。

在本申请的一实施例中，所述S800包括如下步骤：

S810，获取预设修正因子，基于公式4计算待检索视频和所述命中视频的相似度分数。

其中，RScore为待检索视频和所述命中视频的相似度分数。P为待检索视频和所述命中视频的精准度分数。R为待检索视频和所述命中视频的召回分数。β为预设修正因子。

具体地，预设修正因子可以预先设置，预设修改因子的变化会导致精准度分数和召回分数各自的权重占比。

本实施例中，通过基于公式4计算待检索视频和所述命中视频的相似度分数，可以实现结合精准度分数和召回分数各自的优点，既可以使得关键帧的重要性成为相似度计算的重要因素，又可以削弱了时长因素对相似度计算结果产生的误差影响，且精准度分数和召回分数又可以互相制约。

制约体现在比如新闻联播视频开头出现的简短的片段，按照召回分数的计算，召回分数会比较高。因为密集性的出现命中关键帧，但是由于精准度分数的计算，那么精准度分数会比较低，就不会导致相似度计算的结果失衡。

在本申请的一实施例中，所述预设修正因子的数值为0.5、1和2中的一种。

具体地，当预设修正因子的数值为1时，精准度分数和召回分数的权重相等。当预设修正因子的数值为0.5时，精准度分数的权重大于召回分数的权重。也就是说，精准度分数的大小对相似度分数的计算结果影响更大。当预设修正因子的数值为2时，召回分数的权重大于召回分数的权重，召回分数的大小对相似度分数的计算结果影响更大。

本实施例中，通过设定所述预设修正因子的数值为0.5、1和2中的一种，使得精准度分数和召回分数的权重占比可以自由调节。

在本申请的一实施例中，所述S900还包括如下步骤S951至步骤S952：

S951，对多个相似度分数依照从大到小的顺序排序。

S952，从数据库服务器20中选取相似度分数大的前N个命中视频输出。

具体地，可以将视频处理终端10与上位机连接，然后将最终输出的相似度分数大的前N个命中视频上传至上位机。

本申请还提供一种视频相似度的计算***。

如图2所示，在本申请的一实施例中，所述视频相似度的计算***包括视频处理终端10和数据库服务器20。所述视频处理终端10用于执行前述内容提及的视频相似度的计算方法。所述数据库服务器20与视频处理终端10通信连接。

以上所述实施例的各技术特征可以进行任意的组合，各方法步骤也并不做执行顺序的限制，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种视频相似度的计算方法，其特征在于，所述方法包括：

S100，获取待检索视频中的多个关键帧；

S200，选取一个关键帧，计算所述关键帧与数据库服务器中每一个待命中关键帧的余弦相似度；

S300，依次判断所述关键帧与每一个待命中关键帧的余弦相似度是否大于余弦相似度阈值；

S400，选取余弦相似度大于余弦相似度阈值的待命中关键帧，作为所述关键帧对应的命中关键帧，将命中关键帧归属的视频作为命中视频；

S500，反复执行S200至S400，得到多个命中关键帧，以及多个命中视频；

S600，选取一个命中视频，获取待检索视频命中所述命中视频的全部命中关键帧，基于每一个命中关键帧和与其对应的待检索视频中的关键帧的余弦相似度，每一个命中关键帧对应的关键帧在命中所述命中关键帧的同时命中的所有命中视频的数量，以及待检索视频命中所述命中视频的命中关键帧的个数，计算待检索视频和所述命中视频的精准度分数，包括：

S610，选取一个命中视频，获取待检索视频命中所述命中视频的全部命中关键帧，并计算待检索视频命中所述命中视频的命中关键帧的个数；

S620，选取一个命中关键帧，获取与其对应的待检索视频中的关键帧；

S630，获取所述命中关键帧和与其对应的待检索视频中的关键帧的余弦相似度；

S640，获取所述命中关键帧对应的关键帧在命中所述命中关键帧的同时，命中的所有命中视频的数量；

S650，反复执行所述步骤S620至步骤S640，依据公式2计算待检索视频和命中视频的精准度分数：

其中，P为待检索视频和命中视频的精准度分数，similarity_i为选取的命中关键帧和与其对应的待检索视频中的关键帧的余弦相似度，hitCount_i为选取的命中关键帧对应的关键帧在命中所述命中关键帧的同时，命中的所有命中视频的数量，i为选取的命中关键帧的序号，n为待检索视频命中所述命中视频的命中关键帧的个数；

S700，基于所述命中视频中包含的关键帧总数，待检索视频命中所述命中视频的命中关键帧的个数，计算待检索视频和所述命中视频的召回分数；在计算召回分数的过程中，对所述命中视频中包含的关键帧总数进行修正，在所述命中视频中删除命中关键帧分布稀少的区域的关键帧；

S710，获取命中视频中包含的关键帧总数；

S720，对命中视频的命中关键帧的分布情况进行分析，从所述命中视频中删除命中关键帧分布稀少的区域的关键帧，计算得到修正后的关键帧总数；

S721，选取一个命中关键帧，获取所述命中关键帧对应的时间节点；

S722，将所述命中关键帧对应的时间节点减少预设时间段，生成第一时间节点，将所述命中关键帧对应的时间节点增加预设时间段，生成第二时间节点；

S723，将第一时间节点至第二时间节点之间的时间长度设置为一个时间窗口；

S724，反复执行所述步骤S721至步骤S723，直至得到每一个命中关键帧对应的时间窗口；

S725，将存在重叠情况的时间窗口进行合并，得到多个合并后的时间窗口；

S726，获取每一个合并后的时间窗口中出现的关键帧的数量，并进行求和，得到所有合并后时间窗口出现的关键帧总数；

S727，将所有合并后时间窗口出现的关键帧总数作为修正后的关键帧总数；

S730，依据公式3计算待检索视频和命中视频的召回分数；

其中，R为待检索视频和命中视频的召回分数，Count为命中视频中包含的关键帧总数，modifyCount为修正后的关键帧总数，goalCount为待检索视频命中所述命中视频的命中关键帧的个数；

S800，基于精准度分数和召回分数计算待检索视频和所述命中视频的相似度分数；

S900，反复执行S600至S800，得到待检索视频和每一个命中视频的相似度分数。

2.根据权利要求1所述的视频相似度的计算方法，其特征在于，所述S500还包括：

3.根据权利要求2所述的视频相似度的计算方法，其特征在于，所述S200包括：

S210，选取一个关键帧；

S220，获取所述关键帧的D维特征向量，以及获取数据库服务器中每一个待命中关键帧的D维特征向量；

S230，依据公式1计算所述关键帧与数据库服务器中每一个待命中关键帧的余弦相似度；

其中，similarity_k为关键帧与数据库服务器中每一个待命中关键帧的余弦相似度，k为待命中关键帧的序号，θ_k为关键帧的D维特征向量与待命中关键帧的D维特征向量的夹角，X×Y_k为关键帧的D维特征向量与待命中关键帧的D维特征向量的内积，||X||为关键帧的D维特征向量的模，||Y_k||为待命中关键帧的D维特征向量的模。

4.根据权利要求1所述的视频相似度的计算方法，其特征在于，所述S800包括：

S810，获取预设修正因子，基于公式4计算待检索视频和所述命中视频的相似度分数；

其中，RScore为待检索视频和所述命中视频的相似度分数，P为待检索视频和所述命中视频的精准度分数，R为待检索视频和所述命中视频的召回分数，β为预设修正因子。

5.根据权利要求4所述的视频相似度的计算方法，其特征在于，所述预设修正因子的数值为0 .5、1和2中的一种。

6.根据权利要求5所述的视频相似度的计算方法，其特征在于，所述S900还包括：

S951，对多个相似度分数依照从大到小的顺序排序；

S952，从数据库服务器中选取相似度分数大的前N个命中视频输出。

7.一种视频相似度的计算***，其特征在于，包括：

视频处理终端，用于执行权利要求1-6中任意一项所述的视频相似度的计算方法；

数据库服务器，与所述视频处理终端通信连接。