CN113536035B - 基于代表性和特异性得分的非监督监控视频摘要生成方法及生成器 - Google Patents

基于代表性和特异性得分的非监督监控视频摘要生成方法及生成器 Download PDF

Info

Publication number
CN113536035B
CN113536035B CN202110463603.5A CN202110463603A CN113536035B CN 113536035 B CN113536035 B CN 113536035B CN 202110463603 A CN202110463603 A CN 202110463603A CN 113536035 B CN113536035 B CN 113536035B
Authority
CN
China
Prior art keywords
video
frame
frames
alternative
representative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110463603.5A
Other languages
English (en)
Other versions
CN113536035A (zh
Inventor
任柯燕
张文济
张云路
袁帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110463603.5A priority Critical patent/CN113536035B/zh
Publication of CN113536035A publication Critical patent/CN113536035A/zh
Application granted granted Critical
Publication of CN113536035B publication Critical patent/CN113536035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于代表性和特异性得分的非监督监控视频摘要生成方法及生成器。具体包括:针对监控视频,每隔一定的时间抽取帧,并使用卷积神经网络提取得到视频帧组的视觉特征组;使用图像直方图找到视频帧组断点以设置聚群数量,对视频帧组进行分类;利用聚类得到的视频帧组聚群,分聚群进行备选帧的筛选;计算每个聚群的所有备选帧的代表性得分;计算每个聚群的特异性得分;根据特异性得分高低舍弃一部分聚群,剩余聚群中按群分别将备选帧由高到低选择一部分备选帧做为选定帧,并按其在原始视频的时序进行排列生成视频摘要。

Description

基于代表性和特异性得分的非监督监控视频摘要生成方法及 生成器
技术领域
本发明涉及视频技术领域,特别涉及一种基于代表性和特异性得分的非 监督监控视频摘要生成方法。
背景技术
监控视频,通常摄像机固定、背景不变、某些时段内容长时间不变,某 些时段内容变化频繁。对其进行摘要是一种在保留相对完整的、有变化内容的前 提下,创建短片快速了解视频内容浏览的技术。基于短片生成的视频摘要任务一 般分为片段分割、帧权重评估和片段选择几项基本环节组成。由于对视觉兴趣点、 紧凑性(即冗余度较小)、以及内容全面多样性的不同要求,不同的观众在不同的 时间会产生不同的视频摘要标准及结果。但无论何种摘要生成标准,考虑视频所有帧之间的语义关系以及它们是如何相互关联的,才是生成满意摘要结果的关 键。
近年来受深度学习巨大成功的启发,目前的方法通常将视频摘要用 RNN/LSTM/GRU等网络模型来解决帧序列评分问题。该类模型能够长期捕获帧间 的依赖关系,但由于其模型需要大量数据进行监督学习,建立时序依赖关系,计 算复杂度及模型迁移性不佳。对于成千上万内容复杂,数据分布广泛的数据,也 难以较好把握视频全局语义信息。
发明内容
本发明解决的技术问题是:提供一种用于生成监控视频摘要的方法,使 得模型无需使用大量数据进行监督学习,并从全局范围学习视频的视觉特征,加 之以时序相关的得分影响从而获得最终的视频摘要。
根据本发明的所述,提供一种用于生成监控视频摘要的方法,包括:筛 选部分视频帧进行摘要生成,剔除冗余;使用卷积神经网络提取筛选后视频帧的 特征;使用聚类方法将视频帧分为不同聚群;根据代表性和特异性得分选择较为 优秀的视频帧作为视频摘要。
在发明中,计算视频帧的代表性得分步骤包括:以靠近聚群中心的视频 帧为起点,通过找到这些帧在原视频时间轴的位置,以其被卷积神经网络提取后 的特征向量为输入,比较其与相邻帧的平均相似度,作为代表性得分。
在发明中,计算聚群的特异性得分步骤包括:将聚心所在帧特征向量与 其他聚心所在帧特征计算不相似度平均值,作为聚群特异性得分。
在发明中,最终的视频摘要将选择特异性得分靠前的聚群中代表性得分 较高的帧作为最终的视频摘要,这些视频帧将按照视频原本的时序进行排列。
有益效果
在上述方法中,聚类方法配合卷积神经网络的视觉特征提取为视频摘要 的生成考虑的足够的空间性,而在选择视频帧时又通过回归视频时间轴的方式考 虑了一定的时间性。同时由于使用非监督方式,本发明所应用的监控视频无任何 特殊要求。
通过以下参照附图对本公开的发明的详细描述,本公开的其它特征及其 优点将会变得清楚。
附图说明
图1是本发明的用于生成视频摘要的方法的流程图;
图2是本发明的计算视频帧的代表性得分的方法的流程图;
图3是本发明的计算聚群的特异性得分的方法的流程图;
图4是基于代表性和特异性得分的非监督监控视频摘要生成器的***框 图;
具体实施方式
现在将参照附图来详细描述本公开发明。应注意到:除非另外具体说明, 否则在下述中的数字表达式和数值不限制本公开的范围。
对于相关领域普通技术人员已知的技术和方法可能不作详细讨论,但在 适当情况下,所述技术和方法应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性 的,而不是作为限制。
下面结合图1至图3详细描述根据本公开发明的用于生成视频摘要的方 法。如图1所示,该方法包括六个步骤。
如图1所示,步骤1中将视频进行了抽取筛选,剔除冗余。
例如一个视频,如果每秒存在30帧,这30帧的内容往往十分相似,如 果不进行适当的筛选,则会给视频摘要的计算带来大量的负担。
由于时间上间隔较短的帧之间相似度往往极高,为减少后续生成摘要时 间,需根据视频每秒包含帧数进行适当的视频帧筛选操作。
在步骤1中使用卷积神经网络提取筛选后的视频帧组的视觉特征。
卷积神经网络输入的图片尺寸要视神经网络框架,比如 VGG,AlexNet,ResNet...而定。抽取后的视频帧集合为F={Ft|t=1,2......,T},其通过 卷积神经网络提取后的特征向量列为X={Xt|t=1,2......,T},其中T为视频帧组包 含视频帧个数,X由视频每帧视觉特征决定。
如图1所示,在本发明中使用了K-means聚类方法,还可以采用别的聚 类方法,步骤2具体如下:
监控视频有时在前景变化不大时帧率设置教低,前景变化大时帧率较高。 视频通常通过RGB颜色空间记录图像颜色。RGB色彩符合人类视觉习惯,但三个 通道均匀性较低,且颜色通道的色差区分度不够。相对于RGB颜色空间,HSV空 间能够非常直观地表达色彩的色相(Hue)、饱和度(Saturation)、亮度(Value), 方便进行颜色之间对的对比。本发明将视频图像转换为HSV色彩空间,提取视 频帧组F在三个通道线性叠加的图像直方图为h={ht|t=1,2......,T},比较相邻两 帧直方图ht、ht+1的不相似度his(ht,ht+1),若两张直方图不相似度超过一定阈值β(一 般设为0.75),则记此处为抽取后视频帧组的一个断点,最终聚群数量将设置为 断点数量+1,用K表示。his(ht,ht+1)的计算方法如下:
其中I指的是图像直方图同一横坐标所对 应的纵坐标值,在本发明中表现为视频帧RGB图像所对应的色相空间H的图像。
将获得的特征向量序列X作为聚类方法的输入,选择初始化的K个样本 作为初始聚类中心a=a1,a2,...ak
针对X中每个样本计算它到K个聚类中心的距离并将其分到距离最小的 聚类中心所对应的类中;针对每个类别aj重新计算它的聚类中心,计算方法如下:
Ci为该聚群中的所有样本,X为样本所对应的特征向量。
重复[0028],直到达到既定迭代次数。
如图1所示,步骤3中,由于视频摘要长度L(一般为F的10%~15%)有限, 对于每一个视频帧组,选择距离聚群中心最近的(1+α)L个视频帧作为备选帧,共 得到K个备选帧组,K={K t|t=1,2......,T}。α取值在(0.5~1),用于控制备选帧数量 的参数,与K的数量成反比。
结合图1与图2,步骤4每个聚群对应的备选帧组内的所有备选帧的代 表性得分。根据备选帧组内的所有备选帧在原视频时间轴上的位置,通过计算每 个备选帧与相邻一定时间范围内的备选视频帧相似度平均值,来考虑除了视觉特 征以外的时间关系,从而得到每个备选帧的代表性得分。代表性得分高的帧被认 为是能够代表该视频帧组的更优选择。
如图2所示,以第一聚群为例,第一聚群对应的备选帧组中包含一定备 选帧,其中对每个备选帧按时间轴找到其在原视频的位置,本实施例中邻帧的选 取范围为前后5帧,共10帧,例如对于第100个备选帧,有分别计算第100个 备选帧与其前后5视频帧的余弦相似度,并求平均值该平均值作为第100个 备选帧的代表性得分R。其中,余弦相似度计算方法如下所示:
其中Xi,Xi'代表被选中比较的两备选帧所对应 的特征向量,i=100,i’=95,…,99,101,…,105。XT为转置,分母部分为向量 的第二范式。i的取值编号为原时间轴上抽取视频帧的编号,而非备选帧的编号。
结合图1与图3,步骤5计算特异性得分。聚群间聚心分别与其他聚心 计算不相似度,并加和取平均,以第一聚群为例,第一聚群对应的聚心特征为 Xc,Xc是卷积神经网络提取得到的视觉特征,Xc分别与其余所有聚心的视觉特征 Xc’进行不相似度比较,并求得不相似度平均值该平均值作为第一个聚群的特 异性得分P。其中不相似度计算方法如下:
不相似度同样使用余弦相似度计算方法,用1减去所得余弦相似度即为 该备选帧的特异性得分。
如图1所示,步骤6将所有聚群按照特异性得分P从大到小排序,舍弃 分数小的聚群,本实施例中舍弃掉总聚群数量的40%,具体可根据实际情况进行 调整,而后在剩余聚群中选择最终视频摘要,对于剩余聚群内的备选帧组,其中 将备选帧按S从大到小排序,选择前j个备选帧为最终组成视频摘要的选定帧, 总选定帧个数应在L取值的范围内。
最终的视频摘要为将获得的选定帧按照原视频时间顺序整合为摘要视 频。

Claims (5)

1.基于代表性和特异性得分的非监督监控视频摘要生成方法,其特征在于包括以下步骤:
步骤一,针对一个需要生成摘要的监控视频,每间隔固定时间抽取视频帧,形成视频帧组,并使用卷积神经网络提取得到视频帧组的视觉特征组;
步骤二,使用图像直方图找到视频帧组的断点,利用这些断点将视频帧组分为n段,将n设置为聚群数量,使用聚类方法对视频帧组进行分类得到n个聚群,在全局范围内完成对视觉特征组的学习;
步骤三,对每一个聚群进行备选帧组的筛选,其中第i个聚群的备选帧组由距离第i个聚群中心最近的m个视频帧组成;
步骤四,计算每个聚群对应的备选帧组内的所有备选帧的代表性得分,其中任意一个备选帧组内的第i个备选帧的代表性得分的计算方法为:针对该备选帧组中的第i个备选帧,根据其在原视频时间轴上的位置,计算与其相邻预设时间范围内的视频帧的相似度平均值,该平均值即为第i个备选帧的代表性得分;
步骤五,计算每个聚群对应的特异性得分,其中第i个聚群特异性得分的计算方法为:针对该聚群中的聚心帧的视觉特征xi,计算其与除此帧所在聚群外的其余所有聚群中的聚心帧的不相似度平均值,该平均值即为第i个聚群的特异性得分;
步骤六,根据特异性得分,舍弃一部分得分低的聚群;从剩余聚群的备选帧组中选择用于生成视频摘要的选定帧,其中第n个剩余聚群的选定帧选取方法具体为:根据代表性得分大小,对第n个聚群对应的备选帧组中的所有备选帧排序,分数高的前j个备选帧即为该备选帧组的选定帧;对剩余聚群的选定帧,按照选定帧在原视频的时间顺序重新组合,最终形成视频摘要;
所述断点的确定方法为:
将视频帧转换为HSV色彩空间,提取视频帧在H,S,V三个通道的图像直方图,按照时序从前向后比较相邻两帧的图像直方图差异性,若差值超过阈值则认为此处为一个断点。
2.根据权利要求1所述的基于代表性和特异性得分的非监督监控视频摘要生成方法,其特征在于,所述聚类方法包括K-means聚类方法。
3.根据权利要求1所述的基于代表性和特异性得分的非监督监控视频摘要生成方法,其特征在于,所述相似度为余弦相似度,相似度计算所使用的特征为卷积神经网络所提取的视觉特征,时间轴上的相邻视频帧取值范围为前五帧和后五帧。
4.根据权利要求1或3所述的基于代表性和特异性得分的非监督监控视频摘要生成方法,其特征在于,所述不相似度为1减去相似度。
5.基于代表性和特异性得分的非监督监控视频摘要生成器,其特征在于,包括视觉特征提取模块、聚群模块、备选帧组筛选模块、备选帧代表性得分计算模块、聚群特异性得分计算模块、以及视频摘要生成模块;
所述视觉特征提取模块用于对需要生成摘要的监控视频抽取视频帧,形成视频帧组,并使用卷积神经网络提取得到视频帧组的视觉特征组;
所述聚群模块用于对视频帧组进行分类,具体为使用图像直方图找到视频帧组的断点,利用这些断点将视频帧组分为n段,将n设置为聚群数量,使用聚类方法对视频帧组进行分类得到n个聚群,在全局范围内完成对视觉特征组的学习;所述断点的确定方法为:将视频帧转换为HSV色彩空间,提取视频帧在H,S,V三个通道的图像直方图,按照时序从前向后比较相邻两帧的图像直方图差异性,若差值超过阈值则认为此处为一个断点;
所述备选帧组筛选模块用于对每一个聚群进行备选帧组的筛选,其中第i个聚群的备选帧组由距离第i个聚群中心最近的m个视频帧组成;
所述备选帧代表性得分计算模块用于计算每个聚群对应的备选帧组内的所有备选帧的代表性得分,其中任意一个备选帧组内的第i个备选帧的代表性得分的计算方法为:针对该备选帧组中的第i个备选帧,根据其在原视频 时间轴上的位置,计算与其相邻预设时间范围内的视频帧的相似度平均值,该平均值即为第i个备选帧的代表性得分;
所述聚群特异性得分计算模块用于计算每个聚群对应的特异性得分,其中第i个聚群特异性得分的计算方法为:针对该聚群中的聚心帧的视觉特征xi,计算其与除此帧所在聚群外的其余所有聚群中的聚心帧的不相似度平均值,该平均值即为第i个聚群的特异性得分;
所述视频摘要生成模块用于根据特异性得分,舍弃一部分得分低的聚群;从剩余聚群的备选帧组中选择用于生成视频摘要的选定帧,其中第n个剩余聚群的选定帧选取方法具体为:根据代表性得分大小,对第n个聚群对应的备选帧组中的所有备选帧排序,分数高的前j个备选帧即为该备选帧组的选定帧;对剩余聚群的选定帧,按照选定帧在原视频的时间顺序重新组合,最终形成视频摘要。
CN202110463603.5A 2021-04-27 2021-04-27 基于代表性和特异性得分的非监督监控视频摘要生成方法及生成器 Active CN113536035B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110463603.5A CN113536035B (zh) 2021-04-27 2021-04-27 基于代表性和特异性得分的非监督监控视频摘要生成方法及生成器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110463603.5A CN113536035B (zh) 2021-04-27 2021-04-27 基于代表性和特异性得分的非监督监控视频摘要生成方法及生成器

Publications (2)

Publication Number Publication Date
CN113536035A CN113536035A (zh) 2021-10-22
CN113536035B true CN113536035B (zh) 2024-06-25

Family

ID=78094636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110463603.5A Active CN113536035B (zh) 2021-04-27 2021-04-27 基于代表性和特异性得分的非监督监控视频摘要生成方法及生成器

Country Status (1)

Country Link
CN (1) CN113536035B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9076043B2 (en) * 2012-08-03 2015-07-07 Kodak Alaris Inc. Video summarization using group sparsity analysis
CN104408429B (zh) * 2014-11-28 2017-10-27 北京奇艺世纪科技有限公司 一种视频代表帧提取方法及装置
CN105025392B (zh) * 2015-06-25 2017-12-19 西北工业大学 基于摘要空间特征学习的视频摘要关键帧提取方法
CN110321958B (zh) * 2019-07-08 2022-03-08 北京字节跳动网络技术有限公司 神经网络模型的训练方法、视频相似度确定方法
CN111460961B (zh) * 2020-03-27 2023-07-18 上海大学 一种基于cdvs的相似图聚类的静态视频摘要方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于k-means++聚类的视频摘要生成算法;张亚洲 等;工业控制计算机;20170725(07);全文 *
基于视觉特征提取的压缩域在线视频摘要快速提取;周柏清 等;重庆邮电大学学报( 自然科学版);20160430;全文 *

Also Published As

Publication number Publication date
CN113536035A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
EP4156017A1 (en) Action recognition method and apparatus, and device and storage medium
CN112132197B (zh) 模型训练、图像处理方法、装置、计算机设备和存储介质
US8150854B2 (en) Image search apparatus and image search method
CN109151501A (zh) 一种视频关键帧提取方法、装置、终端设备及存储介质
CN108537134A (zh) 一种视频语义场景分割及标注方法
CN112819065B (zh) 基于多重聚类信息的无监督行人难样本挖掘方法和***
CN110166851B (zh) 一种视频摘要生成方法、装置和存储介质
CN111506773A (zh) 一种基于无监督深度孪生网络的视频去重方法
CN111860278B (zh) 一种基于深度学习的人体行为识别算法
CN111461129B (zh) 一种基于上下文先验的场景分割方法和***
CN112817755A (zh) 基于目标追踪加速的边云协同深度学习目标检测方法
CN112487981A (zh) 基于双路分割的ma-yolo动态手势快速识别方法
CN114067118B (zh) 一种航空摄影测量数据的处理方法
CN113205026A (zh) 一种基于Faster RCNN深度学习网络改进的车型识别方法
CN111160481A (zh) 基于深度学习的adas目标检测方法及***
CN111507467A (zh) 神经网络模型的训练方法、装置、计算机设备及存储介质
CN114373194A (zh) 基于关键帧与注意力机制的人体行为识别方法
CN110222772B (zh) 一种基于块级别主动学习的医疗图像标注推荐方法
Madheswaran et al. A systematic video indexing approach using decision tree
KR20210011707A (ko) Cnn을 기반으로 한 동영상의 씬 단위 장소 분류 방법 및 이를 이용한 장소 분류 장치
CN113536035B (zh) 基于代表性和特异性得分的非监督监控视频摘要生成方法及生成器
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN113222069B (zh) 一种基于多任务生成对抗网络的灰度图像着色方法
CN107341456B (zh) 一种基于单幅户外彩色图像的天气晴阴分类方法
Hassanpour et al. Adaptive Gaussian mixture model for skin color segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant