CN117312603B - 一种基于双注意机制的无监督分段视频摘要方法 - Google Patents
一种基于双注意机制的无监督分段视频摘要方法 Download PDFInfo
- Publication number
- CN117312603B CN117312603B CN202311598370.5A CN202311598370A CN117312603B CN 117312603 B CN117312603 B CN 117312603B CN 202311598370 A CN202311598370 A CN 202311598370A CN 117312603 B CN117312603 B CN 117312603B
- Authority
- CN
- China
- Prior art keywords
- segment
- video
- lens
- feature
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000007246 mechanism Effects 0.000 title claims abstract description 29
- 230000011218 segmentation Effects 0.000 title claims description 18
- 230000000007 visual effect Effects 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 7
- 230000002787 reinforcement Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 64
- 238000004590 computer program Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 16
- 239000012634 fragment Substances 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 12
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 10
- 150000001875 compounds Chemical class 0.000 claims description 10
- 230000009977 dual effect Effects 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000000415 inactivating effect Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000012512 characterization method Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/71—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种基于双注意机制的无监督分段视频摘要方法,包括:对原始视频作预处理后,对视频片段及镜头片段进行分割,得到视频片段组和镜头片段组;将视频片段组和镜头片段组分别输入到视频摘要模型中,经处理后得到带权的视频段特征和带权的镜头段特征;以带权的视频段特征和带权的镜头段特征作为输入,计算每个镜头重要性分数,并挑选得分高即重要程度高的镜头,生成动态摘要;构建回报函数,计算动态摘要的多样性和代表性,以无监督强化学习的方式训练所述视频摘要模型;本申请在对时序关系建模的基础上又强调了视觉内容的重要性,加强了视频摘要特征的表征能力,同时提升了模型对视频内容的理解能力和分析能力。
Description
技术领域
本申请属于计算机视觉邻域,具体涉及一种基于双注意机制的无监督分段视频摘要方法。
背景技术
近年来,随着抖音、爱奇艺和快手等视频分享平台的普及,随时随地上传、下载视频,分享生活已成为一种常态,人们在满足精神文化追求的同时,伴随而来的音视频等多媒体数据却呈现***式增长。因此,如何处理和管理如此庞大繁杂的视频数据成为了一个需要迫切解决的问题。视频摘要是指一项借用计算机从原始长视频中自动提取重要帧或者视频片段的技术,可以在缩短视频总时长的同时最大限度的保留原始视频内容,便于后续高效的存储和浏览,因而逐渐引起计算机视觉领域研究学者的广泛关注。
对视频序列的时序关系进行建模是视频摘要任务中的一大挑战,与此同时,准确地提取能有效表征整个视频的特征也是非常重要的一环。目前的视频摘要方法可大致分为两类,一类是以静态图像特征作为输入,并使用时间特征聚合方式实现对时序交互关系的分析与捕获。例如Ji等人采用GoogLeNet做为视频帧视觉特征的提取网络,使用长短时记忆网络做为编码器建模视频帧序列的远程依赖关系,同时使用注意力机制加强帧与帧之间的长期依赖关系;Li等人同样采用GoogLeNet所提取出的图像特征作为输入,利用自注意力机制模拟成对帧之间的相似性并针对所有帧对进行建模,从而捕获整个视频的全局关系。尽管上述方法已经将时序关系考虑在内,但是这些方法仅是对静态图像集的前后关系进行模拟,并未考虑连续帧序列真正的潜在时序关系,以及2D卷积所提取的静态图像特征缺乏了连续帧之间的相关性。为了解决上述问题,第二类以涵盖细粒度时序信息的动态视频特征作为输入的方法被提出,如Lin等人提出采用3D ResNeXt-101做动态视频特征的提取网络,设计层次化的长短时记忆网络,并联合注意力机制获取视频的长期依赖关系;Liu等人研究ST3D网络和I3D网络哪种更适合做视频摘要的特征提取网络,提出利用3DST-UNet探索上下文信息,将时空特征映射到能编码时空依赖关系的潜在空间中。但上述方法存在过于强调时序关系而忽略视觉内容的问题,导致模型对视频内容理解存在偏差。因此,亟需一种能全面、准确理解视觉内容并完成时序相关性建模的视频摘要方法。
发明内容
为了解决上述技术缺陷之一,本申请实施例中提供了一种基于双注意机制的无监督分段视频摘要方法。
根据本申请实施例的第一个方面,提供了一种基于双注意机制的无监督分段视频摘要方法,包括:
对原始视频作预处理后,分割得到视频片段组和镜头片段组;
将视频片段组和镜头片段组分别输入到视频摘要模型中,经处理后得到带权的视频段特征和带权的镜头段特征;
以带权的视频段特征和带权的镜头段特征作为输入,计算每个镜头重要性分数,并挑选得分高即重要程度高的镜头,生成动态摘要;
构建回报函数,计算动态摘要的多样性和代表性,以无监督强化学习的方式训练所述视频摘要模型。
优选地,所述对原始视频作预处理后,分割得到视频片段组和镜头片段组,包括:
输入原始长视频,依照帧率采样提取视频帧序列;
将视频帧序列输入到特征提取模块中提取,得到同时能反映视觉内容和时序关系的时空特征;
使用内核分割算法检测时空特征上视觉外观变化点并进行分段,获取视频片段组,同时将每一镜头的时空特征均等划分为不重叠的镜头片段集合。
优选地,所述视频摘要模型包括视频段注意力模块和镜头段注意力模块。
优选地,所述将视频片段组和镜头片段组分别输入到视频摘要模型中,经处理后得到带权的视频段特征和带权的镜头段特征,包括:
将所述视频片段组输入视频段注意力模块,计算视频片段内部镜头间相似性矩阵,将片段内的特征聚合为能表征短期时序依赖性高级语义信息的带权视频段特征,并输出带权视频段特征;
将所述镜头片段组输入镜头段注意力模块,通过粗粒度相似性计算过滤掉与目标段不相关或相关度较低的段,聚合该镜头中的剩余镜头段后计算剩余片段相似性矩阵,得到能加强局部区域相关性语义信息的带权镜头段特征。
优选地,所述将视频片段组输入视频段注意力模块,计算视频片段内部镜头间相似性矩阵,将片段内的特征聚合为能表征短期时序依赖性高级语义信息的带权视频段特征,并输出带权视频段特征,具体包括:
将所述视频片段组作为输入,使用三种不同权值的矩阵线性映射为视频片段查询特征、视频片段键特征以及视频片段值特征;
计算视频片段查询特征和视频片段键特征的乘积,得到片段级相似性矩阵,经线性放缩和Softmax函数后得到该片段的片段级相似性归一化矩阵;
利用矩阵相乘将片段级相似性矩阵加权到视频片段值特征上得到带权的视频段特征。
优选地,镜头片段组输入镜头段注意力模块,通过粗粒度相似性计算过滤掉与目标段不相关或相关度较低的段,聚合该镜头中的剩余镜头段后计算剩余片段相似性矩阵,得到能加强局部区域相关性语义信息的带权镜头段特征,具体包括:
将镜头片段组作为输入,使用三种不同权值的矩阵线性映射为镜头片段查询特征、镜头片段键特征以及镜头片段值特征;
将所述镜头片段查询特征和镜头片段键特征按行求平均,得到能表征整个镜头内容的查询均值特征以及键均值特征,将查询均值特征以及键均值特征做矩阵相乘,得到能反映该镜头不同区域之间相关性的相似性矩阵;
将相似形矩阵过滤掉无相关性或者相关性较低的区域,得到强相关的区域索引集,按照区域索引集从镜头片段键特征和镜头片段值特征中取出相应键特征集和值特征集;
计算镜头片段查询特征和键特征集的乘积,经线性放缩和Softmax函数后得到该片段的区域级相似性归一化矩阵,利用矩阵相乘将区域级相似性矩阵加权到值特征集上得到带权的镜头段特征。
优选地,所述回报函数包括代表性奖励、多样性奖励/>和正则项/>,回报函数/>为:
(1)
所述代表性奖励根据式(2)求得:
(2)
式(2)中,表示摘要结果的镜头长度,/>表示第/>个镜头的时空特征向量,/>表示第/>个镜头的时空特征向量;
所述多样性奖励根据式(3)求得:
(3)
式(3)中,表示生成的动态摘要,/>表示第/>个镜头的时空特征向量,/>表示第个镜头的时空特征向量;
所述正则项根据式(4)求得:
(4)
式(4)中,表示第/>个镜头的重要性分数。
优选地,所述特征提取模块采用X3D深度卷积神经网络,提取出的镜头向量为2048维,作为输入的时空特征。
根据本申请实施例的第二个方面,提供了一种计算机设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如上任一项所述的基于双注意机制的无监督分段视频摘要方法。
根据本申请实施例的第三个方面,提供了一种计算机可读存储介质,其上存储有计算机程序;所述计算机程序被处理器执行以实现如上任一项所述的基于双注意机制的无监督分段视频摘要方法。
采用本申请实施例中提供的基于双注意机制的无监督分段视频摘要方法,本申请通过对原始视频作预处理后,对视频片段及镜头片段进行分割,得到视频片段组和镜头片段组,将视频片段组和镜头片段组分别输入到视频摘要模型中,计算每个镜头重要性分数,并挑选得分高即重要程度高的镜头,生成动态摘要;本申请在对时序关系建模的基础上又强调了视觉内容的重要性,加强了视频摘要特征的表征能力,同时提升了模型对视频内容的理解能力和分析能力。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例一提供的基于双注意机制的无监督分段视频摘要方法的流程示意图;
图2为本申请实施例一提供的基于双注意机制的无监督分段视频摘要方法的***框架图;
图3为本申请实施例二提供的基于双注意机制的无监督分段视频摘要方法的流程示意图;
图4为本申请实施例三提供的基于双注意机制的无监督分段视频摘要方法的网络结构框图;
图5为本申请实施例三中对视频片段组处理流程图;
图6为本申请实施例三中对镜头片段组处理流程图;
图7为本申请实施例三中对镜头片段组处理结构图;
图8为本申请提供的方法与其他方法实验对比结果图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在实现本申请的过程中,发明人发现目前的视频摘要方法未考虑到时序关系和视觉内容的统一问题,从而导致模型对视频内容理解存在偏差。
针对上述问题,本申请实施例一中提供了一种基于双注意机制的无监督分段视频摘要方法,图1为本实施例一的流程示意图,图2为本实施例一的***框架图,如图1、图2所示,所述方法包括:
S1、对原始视频作预处理后,分割得到视频片段组和镜头片段组;
S2、将视频片段组和镜头片段组分别输入到视频摘要模型中,经处理后得到带权的视频段特征和带权的镜头段特征;视频摘要模型包括视频段注意力模块和镜头段注意力模块;
S3、以带权的视频段特征和带权的镜头段特征作为输入,计算每个镜头重要性分数,并挑选得分高即重要程度高的镜头,生成动态摘要;
S4、构建回报函数,计算动态摘要的多样性和代表性,以无监督强化学习的方式训练所述视频摘要模型。
本申请通过对原始视频作预处理后,分割得到视频片段组和镜头片段组,将视频片段组和镜头片段组分别输入到视频摘要模型中,计算每个镜头重要性分数,并挑选得分高即重要程度高的镜头,生成动态摘要;本申请在对时序关系建模的基础上又强调了视觉内容的重要性,加强了视频摘要特征的表征能力,同时提升了模型对视频内容的理解能力和分析能力。
图3为本申请实施例二提供的基于双注意机制的无监督分段视频摘要方法的流程示意图,在实施例一的基础上,如图3所示,对原始视频作预处理后,分割得到视频片段组和镜头片段组,包括:
S11、输入原始长视频,依照帧率采样提取视频帧序列,表示视频下采样的总帧数,不同的视频其帧率可能是不同的。
S12、将视频帧序列输入到特征提取模块中提取,得到同时能反映视觉内容和时序关系的时空特征;特征提取模块采用X3D深度卷积神经网络,提取出的镜头向量为2048维,作为输入的时空特征;
S13、使用内核分割算法检测时空特征上视觉外观变化点并进行分段,获取视频片段组,同时将每一镜头的时空特征均等划分为不重叠的镜头片段集合。
具体地,将输入原始长视频按照视频帧率进行下采样,得到视频帧序列,其中/>表示视频下采样的总帧数,不同的视频其帧率可能是不同的;利用X3D深度神经网络做为时空特征提取器,将视频帧序列/>以时间上连续的/>帧作为一个镜头输入到X3D深度神经网络中得到相应的能表征视觉内容和时序关系的时空特征向量/>,其中/>,每个视频的镜头特征表示为/>,其中/>,/>表示X3D深度神经网络输出的镜头特征维度,值为2048;使用内核分割算法将每个视频的镜头特征/>作为输入,算法检测/>中视觉内容变化剧烈的镜头特征并以此镜头作为视频片段的分界点,将视频分为不均等且不重叠的视频片段组/>,其中/>是视频片段的个数,同时,将每镜头特征均分为不重叠的镜头片段组/>,其中是镜头片段的个数。
图4为本申请实施例三提供的基于双注意机制的无监督分段视频摘要方法的网络结构框图,如图4所示,将视频片段组和镜头片段组分别输入到视频摘要模型中,经处理后得到带权的视频段特征和带权的镜头段特征,包括:
S21、将所述视频片段组输入视频段注意力模块,计算视频片段内部镜头间相似性矩阵,将片段内的特征聚合为能表征短期时序依赖性高级语义信息的带权视频段特征,并输出带权视频段特征;
S22、将所述镜头片段组输入镜头段注意力模块,通过粗粒度相似性计算过滤掉与目标段不相关或相关度较低的段,聚合该镜头中的剩余镜头段后计算剩余片段相似性矩阵,得到能加强局部区域相关性语义信息的带权镜头段特征。
如图5所示,对视频片段组处理流程包括:
S211、将所述视频片段组作为输入,使用三种不同权值的矩阵线性映射为视频片段查询特征、视频片段键特征以及视频片段值特征;
S212、计算视频片段查询特征和视频片段键特征的乘积,得到片段级相似性矩阵,经线性放缩和Softmax函数后得到该片段的片段级相似性归一化矩阵;
S213、利用矩阵相乘将片段级相似性矩阵加权到视频片段值特征上得到带权的视频段特征。
具体地,视频段注意力模块由多个能捕获段内时序相关性的自注意力单元构成,每个单元以每个视频片段特征作为输入计算片段内部镜头间相似性矩阵,镜头间相似性矩阵中某一项/>的计算过程可具体表示为:
(5)
式(5)中,和/>是模型要学习的参数,/>是一个常数。
镜头间相似性矩阵经softmax函数输出为归一化的相似性矩阵/>,该矩阵紧跟着随机失活层与经过可学习线性映射层/>的片段特征做矩阵相乘得到带权的视频段特征/>,计算过程如下式所示:
(6)。
如图6所示,对镜头片段组处理包括:
S221、将镜头片段组作为输入,使用三种不同权值的矩阵线性映射为镜头片段查询特征、镜头片段键特征以及镜头片段值特征;
S222、将所述镜头片段查询特征和镜头片段键特征按行求平均,得到能表征整个镜头内容的查询均值特征以及键均值特征,将查询均值特征以及键均值特征做矩阵相乘,得到能反映该镜头不同区域之间相关性的相似性矩阵;
S223、将相似形矩阵过滤掉无相关性或者相关性较低的区域,得到强相关的区域索引集,按照区域索引集从镜头片段键特征和镜头片段值特征中取出相应键特征集和值特征集;
S224、计算镜头片段查询特征和键特征集的乘积,经线性放缩和Softmax函数后得到该片段的区域级相似性归一化矩阵,利用矩阵相乘将区域级相似性矩阵加权到值特征集上得到带权的镜头段特征。
具体地,如图7所示,镜头段注意力模块由多个能实现以较重要性内容为导向的双重注意力单元组成,每个单元以镜头片段组作为输入先进行粗粒度的镜头片段筛选,再进行细粒度的权重分配;首先,镜头片段组经矩阵映射得到镜头片段查询特征/>、镜头片段键特征/>以及镜头片段值特征,其中/>、/>、/>都是可学习的映射矩阵;对镜头片段查询特征/>和镜头片段键特征/>按行取均值得到能粗粒度表征视觉内容的查询均值特征和键均值特征/>,然后对查询均值特征/>和键均值特征做矩阵相乘,初步得到涵盖镜头片段间交互关系的相似性矩阵/>,对相似性矩阵/>按行取前/>个相似性大的镜头片段索引值/>;再按照分别提取出镜头片段键特征/>和镜头片段值特征/>的相关项聚合成仅重要性高的键特征集/>和值特征集/>;将镜头片段查询特征/>和键特征集做矩阵相乘计算镜头内片段间区域级相似性矩阵/>,接着经softmax函数输出为归一化的相似性矩阵/>,该矩阵紧跟着随机失活层与值特征集做矩阵相乘得到带权的镜头段特征/>。
将反映高级时序关系的带权视频段特征和反映高级视觉内容的带权镜头段特征融合映射成每镜头重要性分数,其中/>,并挑选得分高即重要程度高的镜头,生成动态摘要。
本申请引入了视频段注意力模块、镜头段注意力模块双重注意力模块,通过粗粒度的均值相似性过滤掉不相关的区域防止权重的分散,再经过细粒度的区域级相似性完成以内容为导向的权重分配过程,得到能表征重要视觉内容的带权镜头段特征;在对时序关系的建模中,采用了不均等分段,防止视频片段完整性被破坏从而导致捕获错误的时序依赖性;在获得高级视觉语义信息视,采用了双重注意力机制,实现了以重要性内容为导向的权重分配过程。
所述回报函数包括代表性奖励、多样性奖励/>和正则项/>,回报函数/>为:
(1)
所述代表性奖励根据式(2)求得:
(2)
式(2)中,表示摘要结果的镜头长度,/>表示第/>个镜头的时空特征向量,/>表示第/>个镜头的时空特征向量;
所述多样性奖励根据式(3)求得:
(3)
式(3)中,表示生成的动态摘要,/>表示第/>个镜头的时空特征向量,/>表示第个镜头的时空特征向量;
所述正则项根据式(4)求得:
(4)
式(4)中,表示第/>个镜头的重要性分数。
为验证本发明的有效性,本申请在两个视频摘要标准数据集SumMe和TVSum以及两个增强数据集YouTube和OVP上进行实验,并使用三种设置评估本发明,分别是标准(C)、增强(A)、转移(T)。在标准设置中,将指定的数据集随机分为五份,使用80%的数据进行训练,剩下20%用于测试;在增强设置中,使用给定数据集的80%与另外三个数据集用于训练,而剩下的20%用于测试;在转移设置中,三个数据集用于训练,而剩下的一个用于测试;在所有的设置中,采用F分数来评估模型,并运行五次并取五次的平均结果作为最终结果;对比图如图8所示,根据图8可知,与其他先进方法相比,本申请在SumMe的标准和增强设置中取得最好的成绩;在TVSum的标准和增强设置中取得最有竞争性的结果;同时在两个数据集的迁移设置中优于大部分模型。综上所述,所提方法能够有效地对时序关系和视觉内容建模从而提高该模型的性能。
一种计算机设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如上所述的基于双注意机制的无监督分段视频摘要方法。
一种计算机可读存储介质,其上存储有计算机程序;所述计算机程序被处理器执行以实现如上所述的基于双注意机制的无监督分段视频摘要方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,C语言、VHDL语言、Verilog语言、面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (7)
1.一种基于双注意机制的无监督分段视频摘要方法,其特征在于,包括:
对原始视频作预处理后,分割得到视频片段组和镜头片段组;
将视频片段组和镜头片段组分别输入到视频摘要模型中,经处理后得到带权的视频段特征和带权的镜头段特征;所述视频摘要模型包括视频段注意力模块和镜头段注意力模块;
以带权的视频段特征和带权的镜头段特征作为输入,计算每个镜头重要性分数,并挑选得分高即重要程度高的镜头,生成动态摘要;
构建回报函数,计算动态摘要的多样性和代表性,以无监督强化学习的方式训练所述视频摘要模型;
所述将视频片段组和镜头片段组分别输入到视频摘要模型中,经处理后得到带权的视频段特征和带权的镜头段特征,包括:
将所述视频片段组输入视频段注意力模块,计算视频片段内部镜头间相似性矩阵,将片段内的特征聚合为能表征短期时序依赖性高级语义信息的带权视频段特征,并输出带权视频段特征;
将所述镜头片段组输入镜头段注意力模块,通过粗粒度相似性计算过滤掉与目标段不相关或相关度较低的段,聚合该镜头中的剩余镜头段后计算剩余片段相似性矩阵,得到能加强局部区域相关性语义信息的带权镜头段特征;具体包括:将镜头片段组作为输入,使用三种不同权值的矩阵线性映射为镜头片段查询特征、镜头片段键特征以及镜头片段值特征;将所述镜头片段查询特征和镜头片段键特征按行求平均,得到能表征整个镜头内容的查询均值特征以及键均值特征,将查询均值特征以及键均值特征做矩阵相乘,得到能反映该镜头不同区域之间相关性的相似性矩阵;将相似形矩阵过滤掉无相关性或者相关性较低的区域,得到强相关的区域索引集,按照区域索引集从镜头片段键特征和镜头片段值特征中取出相应键特征集和值特征集;计算镜头片段查询特征和键特征集的乘积,经线性放缩和Softmax函数后得到该片段的区域级相似性归一化矩阵,利用矩阵相乘将区域级相似性矩阵加权到值特征集上得到带权的镜头段特征;
所述镜头片段组作为输入,经矩阵映射得到镜头片段查询特征、镜头片段键特征/>以及镜头片段值特征/>,其中/>、/>、/>都是可学习的映射矩阵;对镜头片段查询特征/>和镜头片段键特征/>按行取均值得到能粗粒度表征视觉内容的查询均值特征/>和键均值特征/>,然后对查询均值特征/>和键均值特征/>做矩阵相乘,初步得到涵盖镜头片段间交互关系的相似性矩阵,对相似性矩阵/>按行取前/>个相似性大的镜头片段索引值/>;再按照/>分别提取出镜头片段键特征/>和镜头片段值特征/>的相关项聚合成仅重要性高的键特征集/>和值特征集/>;将镜头片段查询特征/>和键特征集/>做矩阵相乘计算镜头内片段间区域级相似性矩阵/>,接着经softmax函数输出为归一化的相似性矩阵/>,该矩阵紧跟着随机失活层与值特征集/>做矩阵相乘得到带权的镜头段特征/>。
2.根据权利要求1所述的基于双注意机制的无监督分段视频摘要方法,其特征在于,所述对原始视频作预处理后,分割得到视频片段组和镜头片段组,包括:
输入原始长视频,依照帧率采样提取视频帧序列;
将视频帧序列输入到特征提取模块中提取,得到同时能反映视觉内容和时序关系的时空特征;
使用内核分割算法检测时空特征上视觉外观变化点并进行分段,获取视频片段组,同时将每一镜头的时空特征均等划分为不重叠的镜头片段集合。
3.根据权利要求1所述的基于双注意机制的无监督分段视频摘要方法,其特征在于,所述将视频片段组输入视频段注意力模块,计算视频片段内部镜头间相似性矩阵,将片段内的特征聚合为能表征短期时序依赖性高级语义信息的带权视频段特征,并输出带权视频段特征,具体包括:
将所述视频片段组作为输入,使用三种不同权值的矩阵线性映射为视频片段查询特征、视频片段键特征以及视频片段值特征;
计算视频片段查询特征和视频片段键特征的乘积,得到片段级相似性矩阵,经线性放缩和Softmax函数后得到该片段的片段级相似性归一化矩阵;
利用矩阵相乘将片段级相似性矩阵加权到视频片段值特征上得到带权的视频段特征。
4.根据权利要求1所述的基于双注意机制的无监督分段视频摘要方法,其特征在于,所述回报函数包括代表性奖励、多样性奖励/>和正则项/>,回报函数/>为:
(1)
所述代表性奖励根据式(2)求得:
(2)
式(2)中,表示摘要结果的镜头长度,/>表示第/>个镜头的时空特征向量,/>表示第/>个镜头的时空特征向量;
所述多样性奖励根据式(3)求得:
(3)
式(3)中,表示生成的动态摘要, />表示第/>个镜头的时空特征向量,/>表示第/>个镜头的时空特征向量;
所述正则项根据式(4)求得:
(4)
式(4)中,表示第/>个镜头的重要性分数。
5.根据权利要求2所述的基于双注意机制的无监督分段视频摘要方法,其特征在于,所述特征提取模块采用X3D深度卷积神经网络,提取出的镜头向量为2048维,作为输入的时空特征。
6.一种计算机设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1至5任一项所述的基于双注意机制的无监督分段视频摘要方法。
7.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;所述计算机程序被处理器执行以实现如权利要求1至5任一项所述的基于双注意机制的无监督分段视频摘要方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311598370.5A CN117312603B (zh) | 2023-11-28 | 2023-11-28 | 一种基于双注意机制的无监督分段视频摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311598370.5A CN117312603B (zh) | 2023-11-28 | 2023-11-28 | 一种基于双注意机制的无监督分段视频摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117312603A CN117312603A (zh) | 2023-12-29 |
CN117312603B true CN117312603B (zh) | 2024-03-01 |
Family
ID=89281414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311598370.5A Active CN117312603B (zh) | 2023-11-28 | 2023-11-28 | 一种基于双注意机制的无监督分段视频摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117312603B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100284670A1 (en) * | 2008-06-30 | 2010-11-11 | Tencent Technology (Shenzhen) Company Ltd. | Method, system, and apparatus for extracting video abstract |
CN115002559A (zh) * | 2022-05-10 | 2022-09-02 | 上海大学 | 基于门控多头位置注意力机制的视频摘要算法及*** |
CN116662604A (zh) * | 2023-06-26 | 2023-08-29 | 浙江千从科技有限公司 | 一种基于分层Transformer的视频摘要方法 |
-
2023
- 2023-11-28 CN CN202311598370.5A patent/CN117312603B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100284670A1 (en) * | 2008-06-30 | 2010-11-11 | Tencent Technology (Shenzhen) Company Ltd. | Method, system, and apparatus for extracting video abstract |
CN115002559A (zh) * | 2022-05-10 | 2022-09-02 | 上海大学 | 基于门控多头位置注意力机制的视频摘要算法及*** |
CN116662604A (zh) * | 2023-06-26 | 2023-08-29 | 浙江千从科技有限公司 | 一种基于分层Transformer的视频摘要方法 |
Non-Patent Citations (1)
Title |
---|
基于自注意力网络的动态视频摘要方法研究;姚慧敏;《中国优秀硕士学位论文全文数据库 信息科技辑》(第01期);第1-75页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117312603A (zh) | 2023-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN111768432B (zh) | 基于孪生深度神经网络的动目标分割方法及*** | |
US11200424B2 (en) | Space-time memory network for locating target object in video content | |
Liu et al. | Teinet: Towards an efficient architecture for video recognition | |
CN110503076B (zh) | 基于人工智能的视频分类方法、装置、设备和介质 | |
Li et al. | Short-term and long-term context aggregation network for video inpainting | |
CN111046821B (zh) | 一种视频行为识别方法、***及电子设备 | |
CN112232134B (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN111028166B (zh) | 一种基于迭代神经网络的视频去模糊方法 | |
CN115695950B (zh) | 一种基于内容感知的视频摘要生成方法 | |
GB2579262A (en) | Space-time memory network for locating target object in video content | |
CN113222998B (zh) | 基于自监督低秩网络的半监督图像语义分割方法及装置 | |
CN114549913A (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN115131218A (zh) | 图像处理方法、装置、计算机可读介质及电子设备 | |
Zhou et al. | Transformer-based multi-scale feature integration network for video saliency prediction | |
CN113763385A (zh) | 视频目标分割方法、装置、设备及介质 | |
CN117312603B (zh) | 一种基于双注意机制的无监督分段视频摘要方法 | |
WO2023185320A1 (zh) | 冷启动对象推荐方法、装置、计算机设备和存储介质 | |
CN116229073A (zh) | 一种基于改进型ERFNet网络的遥感图像分割方法及装置 | |
CN113627342B (zh) | 视频深度特征提取优化的方法、***、设备及存储介质 | |
CN112926697B (zh) | 一种基于语义分割的磨粒图像分类方法及装置 | |
CN111046232B (zh) | 一种视频分类方法、装置及*** | |
CN114283087A (zh) | 一种图像去噪方法及相关设备 | |
Xia et al. | MFC-Net: Multi-scale fusion coding network for Image Deblurring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |