CN113536035B

CN113536035B - 基于代表性和特异性得分的非监督监控视频摘要生成方法及生成器

Info

Publication number: CN113536035B
Application number: CN202110463603.5A
Authority: CN
Inventors: 任柯燕; 张文济; 张云路; 袁帅
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2024-06-25
Anticipated expiration: 2041-04-27
Also published as: CN113536035A

Abstract

本发明涉及一种基于代表性和特异性得分的非监督监控视频摘要生成方法及生成器。具体包括：针对监控视频，每隔一定的时间抽取帧，并使用卷积神经网络提取得到视频帧组的视觉特征组；使用图像直方图找到视频帧组断点以设置聚群数量，对视频帧组进行分类；利用聚类得到的视频帧组聚群，分聚群进行备选帧的筛选；计算每个聚群的所有备选帧的代表性得分；计算每个聚群的特异性得分；根据特异性得分高低舍弃一部分聚群，剩余聚群中按群分别将备选帧由高到低选择一部分备选帧做为选定帧，并按其在原始视频的时序进行排列生成视频摘要。

Description

基于代表性和特异性得分的非监督监控视频摘要生成方法及生成器

技术领域

本发明涉及视频技术领域，特别涉及一种基于代表性和特异性得分的非监督监控视频摘要生成方法。

背景技术

监控视频，通常摄像机固定、背景不变、某些时段内容长时间不变，某些时段内容变化频繁。对其进行摘要是一种在保留相对完整的、有变化内容的前提下，创建短片快速了解视频内容浏览的技术。基于短片生成的视频摘要任务一般分为片段分割、帧权重评估和片段选择几项基本环节组成。由于对视觉兴趣点、紧凑性(即冗余度较小)、以及内容全面多样性的不同要求，不同的观众在不同的时间会产生不同的视频摘要标准及结果。但无论何种摘要生成标准，考虑视频所有帧之间的语义关系以及它们是如何相互关联的，才是生成满意摘要结果的关键。

近年来受深度学习巨大成功的启发，目前的方法通常将视频摘要用 RNN/LSTM/GRU等网络模型来解决帧序列评分问题。该类模型能够长期捕获帧间的依赖关系，但由于其模型需要大量数据进行监督学习，建立时序依赖关系，计算复杂度及模型迁移性不佳。对于成千上万内容复杂，数据分布广泛的数据，也难以较好把握视频全局语义信息。

发明内容

本发明解决的技术问题是：提供一种用于生成监控视频摘要的方法，使得模型无需使用大量数据进行监督学习，并从全局范围学习视频的视觉特征，加之以时序相关的得分影响从而获得最终的视频摘要。

根据本发明的所述，提供一种用于生成监控视频摘要的方法，包括：筛选部分视频帧进行摘要生成，剔除冗余；使用卷积神经网络提取筛选后视频帧的特征；使用聚类方法将视频帧分为不同聚群；根据代表性和特异性得分选择较为优秀的视频帧作为视频摘要。

在发明中，计算视频帧的代表性得分步骤包括：以靠近聚群中心的视频帧为起点，通过找到这些帧在原视频时间轴的位置，以其被卷积神经网络提取后的特征向量为输入，比较其与相邻帧的平均相似度，作为代表性得分。

在发明中，计算聚群的特异性得分步骤包括：将聚心所在帧特征向量与其他聚心所在帧特征计算不相似度平均值，作为聚群特异性得分。

在发明中，最终的视频摘要将选择特异性得分靠前的聚群中代表性得分较高的帧作为最终的视频摘要，这些视频帧将按照视频原本的时序进行排列。

有益效果

在上述方法中，聚类方法配合卷积神经网络的视觉特征提取为视频摘要的生成考虑的足够的空间性，而在选择视频帧时又通过回归视频时间轴的方式考虑了一定的时间性。同时由于使用非监督方式，本发明所应用的监控视频无任何特殊要求。

通过以下参照附图对本公开的发明的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

图1是本发明的用于生成视频摘要的方法的流程图；

图2是本发明的计算视频帧的代表性得分的方法的流程图；

图3是本发明的计算聚群的特异性得分的方法的流程图；

图4是基于代表性和特异性得分的非监督监控视频摘要生成器的***框图；

具体实施方式

现在将参照附图来详细描述本公开发明。应注意到：除非另外具体说明，否则在下述中的数字表达式和数值不限制本公开的范围。

对于相关领域普通技术人员已知的技术和方法可能不作详细讨论，但在适当情况下，所述技术和方法应当被视为说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。

下面结合图1至图3详细描述根据本公开发明的用于生成视频摘要的方法。如图1所示，该方法包括六个步骤。

如图1所示，步骤1中将视频进行了抽取筛选，剔除冗余。

例如一个视频，如果每秒存在30帧，这30帧的内容往往十分相似，如果不进行适当的筛选，则会给视频摘要的计算带来大量的负担。

由于时间上间隔较短的帧之间相似度往往极高，为减少后续生成摘要时间，需根据视频每秒包含帧数进行适当的视频帧筛选操作。

在步骤1中使用卷积神经网络提取筛选后的视频帧组的视觉特征。

卷积神经网络输入的图片尺寸要视神经网络框架，比如 VGG,AlexNet,ResNet...而定。抽取后的视频帧集合为F＝{F_t|t＝1,2......,T}，其通过卷积神经网络提取后的特征向量列为X＝{X_t|t＝1,2......,T}，其中T为视频帧组包含视频帧个数，X由视频每帧视觉特征决定。

如图1所示，在本发明中使用了K-means聚类方法，还可以采用别的聚类方法，步骤2具体如下：

监控视频有时在前景变化不大时帧率设置教低，前景变化大时帧率较高。视频通常通过RGB颜色空间记录图像颜色。RGB色彩符合人类视觉习惯，但三个通道均匀性较低，且颜色通道的色差区分度不够。相对于RGB颜色空间，HSV空间能够非常直观地表达色彩的色相(Hue)、饱和度(Saturation)、亮度(Value)，方便进行颜色之间对的对比。本发明将视频图像转换为HSV色彩空间，提取视频帧组F在三个通道线性叠加的图像直方图为h＝{h_t|t＝1,2......,T}，比较相邻两帧直方图h_t、h_t+1的不相似度his(h_t,h_t+1)，若两张直方图不相似度超过一定阈值β(一般设为0.75)，则记此处为抽取后视频帧组的一个断点，最终聚群数量将设置为断点数量+1，用K表示。his(h_t,h_t+1)的计算方法如下：

其中I指的是图像直方图同一横坐标所对应的纵坐标值，在本发明中表现为视频帧RGB图像所对应的色相空间H的图像。

将获得的特征向量序列X作为聚类方法的输入，选择初始化的K个样本作为初始聚类中心a＝a₁,a₂,...a_k；

针对X中每个样本计算它到K个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中；针对每个类别a_j重新计算它的聚类中心，计算方法如下：

C_i为该聚群中的所有样本，X为样本所对应的特征向量。

重复[0028]，直到达到既定迭代次数。

如图1所示，步骤3中，由于视频摘要长度L(一般为F的10％～15％)有限，对于每一个视频帧组，选择距离聚群中心最近的(1+α)L个视频帧作为备选帧，共得到K个备选帧组，K＝{K _t|t＝1,2......,T}。α取值在(0.5～1)，用于控制备选帧数量的参数，与K的数量成反比。

结合图1与图2，步骤4每个聚群对应的备选帧组内的所有备选帧的代表性得分。根据备选帧组内的所有备选帧在原视频时间轴上的位置，通过计算每个备选帧与相邻一定时间范围内的备选视频帧相似度平均值，来考虑除了视觉特征以外的时间关系，从而得到每个备选帧的代表性得分。代表性得分高的帧被认为是能够代表该视频帧组的更优选择。

如图2所示，以第一聚群为例，第一聚群对应的备选帧组中包含一定备选帧，其中对每个备选帧按时间轴找到其在原视频的位置，本实施例中邻帧的选取范围为前后5帧，共10帧，例如对于第100个备选帧，有分别计算第100个备选帧与其前后5视频帧的余弦相似度，并求平均值该平均值作为第100个备选帧的代表性得分R。其中，余弦相似度计算方法如下所示：

其中X_i，X_i'代表被选中比较的两备选帧所对应的特征向量，i＝100，i’＝95，…，99，101，…，105。X^T为转置，分母部分为向量的第二范式。i的取值编号为原时间轴上抽取视频帧的编号，而非备选帧的编号。

结合图1与图3，步骤5计算特异性得分。聚群间聚心分别与其他聚心计算不相似度，并加和取平均，以第一聚群为例，第一聚群对应的聚心特征为 X_c，X_c是卷积神经网络提取得到的视觉特征，X_c分别与其余所有聚心的视觉特征 X_c’进行不相似度比较，并求得不相似度平均值该平均值作为第一个聚群的特异性得分P。其中不相似度计算方法如下：

不相似度同样使用余弦相似度计算方法，用1减去所得余弦相似度即为该备选帧的特异性得分。

如图1所示，步骤6将所有聚群按照特异性得分P从大到小排序，舍弃分数小的聚群，本实施例中舍弃掉总聚群数量的40％，具体可根据实际情况进行调整，而后在剩余聚群中选择最终视频摘要，对于剩余聚群内的备选帧组，其中将备选帧按S从大到小排序，选择前j个备选帧为最终组成视频摘要的选定帧，总选定帧个数应在L取值的范围内。

最终的视频摘要为将获得的选定帧按照原视频时间顺序整合为摘要视频。

Claims

1.基于代表性和特异性得分的非监督监控视频摘要生成方法，其特征在于包括以下步骤：

步骤一，针对一个需要生成摘要的监控视频，每间隔固定时间抽取视频帧，形成视频帧组，并使用卷积神经网络提取得到视频帧组的视觉特征组；

步骤二，使用图像直方图找到视频帧组的断点，利用这些断点将视频帧组分为n段，将n设置为聚群数量，使用聚类方法对视频帧组进行分类得到n个聚群，在全局范围内完成对视觉特征组的学习；

步骤三，对每一个聚群进行备选帧组的筛选，其中第i个聚群的备选帧组由距离第i个聚群中心最近的m个视频帧组成；

步骤四，计算每个聚群对应的备选帧组内的所有备选帧的代表性得分，其中任意一个备选帧组内的第i个备选帧的代表性得分的计算方法为：针对该备选帧组中的第i个备选帧，根据其在原视频时间轴上的位置，计算与其相邻预设时间范围内的视频帧的相似度平均值，该平均值即为第i个备选帧的代表性得分；

步骤五，计算每个聚群对应的特异性得分，其中第i个聚群特异性得分的计算方法为：针对该聚群中的聚心帧的视觉特征x_i，计算其与除此帧所在聚群外的其余所有聚群中的聚心帧的不相似度平均值，该平均值即为第i个聚群的特异性得分；

步骤六，根据特异性得分，舍弃一部分得分低的聚群；从剩余聚群的备选帧组中选择用于生成视频摘要的选定帧，其中第n个剩余聚群的选定帧选取方法具体为：根据代表性得分大小，对第n个聚群对应的备选帧组中的所有备选帧排序，分数高的前j个备选帧即为该备选帧组的选定帧；对剩余聚群的选定帧，按照选定帧在原视频的时间顺序重新组合，最终形成视频摘要;

所述断点的确定方法为：

将视频帧转换为HSV色彩空间，提取视频帧在H,S,V三个通道的图像直方图，按照时序从前向后比较相邻两帧的图像直方图差异性，若差值超过阈值则认为此处为一个断点。

2.根据权利要求1所述的基于代表性和特异性得分的非监督监控视频摘要生成方法，其特征在于，所述聚类方法包括K-means聚类方法。

3.根据权利要求1所述的基于代表性和特异性得分的非监督监控视频摘要生成方法，其特征在于，所述相似度为余弦相似度，相似度计算所使用的特征为卷积神经网络所提取的视觉特征，时间轴上的相邻视频帧取值范围为前五帧和后五帧。

4.根据权利要求1或3所述的基于代表性和特异性得分的非监督监控视频摘要生成方法，其特征在于，所述不相似度为1减去相似度。

5.基于代表性和特异性得分的非监督监控视频摘要生成器，其特征在于，包括视觉特征提取模块、聚群模块、备选帧组筛选模块、备选帧代表性得分计算模块、聚群特异性得分计算模块、以及视频摘要生成模块；

所述视觉特征提取模块用于对需要生成摘要的监控视频抽取视频帧，形成视频帧组，并使用卷积神经网络提取得到视频帧组的视觉特征组；

所述聚群模块用于对视频帧组进行分类，具体为使用图像直方图找到视频帧组的断点，利用这些断点将视频帧组分为n段，将n设置为聚群数量，使用聚类方法对视频帧组进行分类得到n个聚群，在全局范围内完成对视觉特征组的学习；所述断点的确定方法为：将视频帧转换为HSV色彩空间，提取视频帧在H,S,V三个通道的图像直方图，按照时序从前向后比较相邻两帧的图像直方图差异性，若差值超过阈值则认为此处为一个断点；

所述备选帧组筛选模块用于对每一个聚群进行备选帧组的筛选，其中第i个聚群的备选帧组由距离第i个聚群中心最近的m个视频帧组成；

所述备选帧代表性得分计算模块用于计算每个聚群对应的备选帧组内的所有备选帧的代表性得分，其中任意一个备选帧组内的第i个备选帧的代表性得分的计算方法为：针对该备选帧组中的第i个备选帧，根据其在原视频时间轴上的位置，计算与其相邻预设时间范围内的视频帧的相似度平均值，该平均值即为第i个备选帧的代表性得分；

所述聚群特异性得分计算模块用于计算每个聚群对应的特异性得分，其中第i个聚群特异性得分的计算方法为：针对该聚群中的聚心帧的视觉特征x_i，计算其与除此帧所在聚群外的其余所有聚群中的聚心帧的不相似度平均值，该平均值即为第i个聚群的特异性得分；

所述视频摘要生成模块用于根据特异性得分，舍弃一部分得分低的聚群；从剩余聚群的备选帧组中选择用于生成视频摘要的选定帧，其中第n个剩余聚群的选定帧选取方法具体为：根据代表性得分大小，对第n个聚群对应的备选帧组中的所有备选帧排序，分数高的前j个备选帧即为该备选帧组的选定帧；对剩余聚群的选定帧，按照选定帧在原视频的时间顺序重新组合，最终形成视频摘要。