CN112488063B - 一种基于多阶段聚合Transformer模型的视频语句定位方法 - Google Patents

一种基于多阶段聚合Transformer模型的视频语句定位方法 Download PDF

Info

Publication number
CN112488063B
CN112488063B CN202011508292.1A CN202011508292A CN112488063B CN 112488063 B CN112488063 B CN 112488063B CN 202011508292 A CN202011508292 A CN 202011508292A CN 112488063 B CN112488063 B CN 112488063B
Authority
CN
China
Prior art keywords
video
stage
sentence
sequence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011508292.1A
Other languages
English (en)
Other versions
CN112488063A (zh
Inventor
杨阳
张明星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University
Original Assignee
Guizhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University filed Critical Guizhou University
Priority to CN202011508292.1A priority Critical patent/CN112488063B/zh
Publication of CN112488063A publication Critical patent/CN112488063A/zh
Application granted granted Critical
Publication of CN112488063B publication Critical patent/CN112488063B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多阶段聚合Transformer模型的视频语句定位方法,在视频语句Transformer模型中,每个视频切片或者单词都可以根据自身的语义自适应地聚合和对齐来自两种模态中所有其他视频切片或者单词的信息。通过多层叠加,最后所得到的视频语句联合表示具有丰富的视觉语言线索捕捉能力,能够实现更精细的匹配。在多阶段聚合模块中,将其开始阶段的阶段特征、中间阶段的阶段特征和结束阶段的阶段特征串联起来,构成该候选片段的特征表示。由于所获得的特征表示捕捉了不同阶段的特定信息,因此非常适合准确定位视频片段的起始位置和终止位置。这两个模块整合在一起,形成一个既有效又高效的网络,提高视频语句定位的准确度。

Description

一种基于多阶段聚合Transformer模型的视频语句定位方法
技术领域
本发明属于视频语句定位检索技术领域,更为具体地讲,涉及一种基于多阶段聚合Transformer模型的视频语句定位方法。
背景技术
视频定位是计算机视觉***中一个基本的问题,具有广泛的应用。在过去的十年里,人们对视频动作定位进行了大量的研究和相关的应用***开发。近年来,随着多媒体数据的兴起和人们需求的多样化,视频中语句的定位问题(视频语句定位)逐渐变得重要起来。视频语句定位的目的是在一段很长的视频中定位要查询的语句相对应的某个视频片段。与视频动作定位相比,语句定位具有更大的挑战性和更广阔的应用前景,比如视频检索、视频字幕自动生成、人机智能交互等。
视频语句定位是一项具有挑战性的任务。除了需要理解视频内容外,还需要将视频和语句之间的语义进行匹配。
现有视频语句定位一般可分为两类:一阶段法和两阶段法。一阶段方法以视频和查询语句作为输入,直接预测被查询视频片段起始点和终止点,直接生成与查询语句相关联的视频片段。一阶段法可以进行端到端训练,但它们很容易失去一些正确的视频片段。然而,两阶段法遵循候选片段生成和候选片段排名两个过程。它们通常先从视频中生成一系列的候选片段,然后根据候选片段与查询语句的匹配程度对候选片段进行排序。许多方法都遵循这条路线。两阶段法虽然能够召回很多可能正确的候选视频片段,但是也存在几个关键的问题没有得到很好的解决:
1)、如何有效地对视频和语句之间进行细粒度的语义匹配?
2)、如何在原始长视频中准确定位与语句匹配的视频片段起始点和终止点?
对于第1个问题,现有的大多数方法通常是分别处理视频和语句序列,然后将它们进行匹配。但是,分别单独处理视频和语句序列,比如首先将语句编码成一个向量然后进行匹配,将不可避免地丢失语句中一些详细的语义内容,从而无法实现细致的匹配;
对于第2个问题,现有的方法通常使用全卷积、平均池化或RoI Pooling操作来获得候选片段的特征表示。然而这些操作所获得的特征,它们的时序区分性不够强。例如,某个视频片段中通常包含一些不同的阶段,如开始阶段、中间阶段和结束阶段。这些阶段的信息对于时刻起始点和终止点的精确定位是非常重要的。然而,平均池化操作完全丢弃了阶段信息,无法对不同阶段进行精确匹配来实现精确的定位。尽管全卷积操作或RoI Pooling操作可以在一定程度上刻画不同的阶段,但它们不依赖于显式的特定阶段的特征,因此在更精确的定位方面也存在不足。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于多阶段聚合Transformer模型的视频语句定位方法,以提高视频语句定位的准确度。
为实现上述发明目的,本发明基于多阶段聚合Transformer模型的视频语句定位方法,其特征在于,包括以下步骤:
(1)、视频切片特征、单词特征提取
将视频按照时间均匀地划分为N个时刻点,在每一个时刻点,采集一个视频切片(由连续的多帧,如50帧的图像组成),对每个视频切片进行特征提取,得到切片特征(得到总共N个切片特征),N个切片特征按照时刻顺序放置,形成视频特征序列;
对语句的每个单词进行词转向量(Doc2Vec),得到单词特征,然后按照在语句中的顺序放置,形成语句特征序列;
将视频特征序列中的切片特征、语句特征序列的单词特征映射到相同的维度,得到视频特征序列
Figure BDA0002845561540000021
语句特征序列
Figure BDA0002845561540000022
其中,
Figure BDA0002845561540000023
表示视频第i个切片的切片特征,
Figure BDA0002845561540000024
表示语句第j个单词的单词特征;
(2)、构建视频语句Transformer模型,并对视频特征序列、语句特征序列进行计算
构建一个D层视频语句Transformer模型,其中,第d层,d=1,2,...,D的输出为:
Figure BDA0002845561540000031
Figure BDA0002845561540000032
其中,V、L分别表示视频和语句,Q、K、W为可学习参数,其中,不同下标表示不同参数,Att(·)为注意力计算函数;
视频特征序列
Figure BDA0002845561540000033
语句特征序列
Figure BDA0002845561540000034
作为视频语句Transformer模型的输入进行计算,得到第D层输出视频特征序列
Figure BDA0002845561540000035
语句特征序列
Figure BDA0002845561540000036
(3)、构建多阶段聚合模块,计算三个阶段的阶段特征序列和预测分数序列
计算开始阶段、中间阶段和结束阶段的阶段特征序列rsta、rmid、rend
Figure BDA0002845561540000037
其中,开始阶段特征序列rsta由N个切片的阶段特征
Figure BDA0002845561540000038
组成,中间阶段特征序列rmid由N个切片的阶段特征
Figure BDA0002845561540000039
组成,结束阶段特征序列rend由N个切片的阶段特征
Figure BDA00028455615400000310
组成,
Figure BDA00028455615400000311
分别为计算三个阶段的阶段特征序列的多层感知器(MLP,Multi-layer Perceptron);
计算开始阶段、中间阶段和结束阶段的预测分数序列psta、pmid、pend
Figure BDA0002845561540000041
其中,开始阶段预测分数序列psta由N个切片的预测分数
Figure BDA0002845561540000042
组成,中间阶段预测分数序列pmid由N个切片的预测分数
Figure BDA0002845561540000043
组成,结束阶段预测分数序列pend由N个切片的预测分数
Figure BDA0002845561540000044
组成,
Figure BDA0002845561540000045
Figure BDA0002845561540000046
分别为计算三个阶段的预测分数序列的多层感知器;
(4)、训练多阶段聚合Transformer模型
视频语句Transformer模型与多阶段聚合模块构成多阶段聚合Transformer模型;
构建视频语句训练数据集,其中每条数据包括一个视频、一个语句,以及语句定位的视频片段的视频切片开始位置
Figure BDA0002845561540000047
结束位置
Figure BDA0002845561540000048
从视频语句训练数据集提出一条数据,将语句中随机屏蔽一个单词,并用标记“MASK”取代,然后将视频、语句按照步骤(1)~(3)进行处理,再计算每个视频切片开始阶段、中间阶段、结束阶段的真实分数
Figure BDA0002845561540000049
Figure BDA00028455615400000410
其中,
Figure BDA00028455615400000411
σsta、σmidσend为未归一化的二维高斯分布的标准差,σsta、αmid、αend为正值的标量,用于控制标准差的值;
4.1)、计算预测层上的加权交叉熵损失Lstage
Figure BDA00028455615400000412
4.2)、计算第z个候选片段的视频切片开始位置、结束位置的预测值
Figure BDA00028455615400000413
以及匹配分数预测值
Figure BDA0002845561540000051
Figure BDA0002845561540000052
4.3)、计算边界回归损失Lregress
Figure BDA0002845561540000053
其中,Z为候选片段的总数,
Figure BDA0002845561540000054
分别为第z个候选片段的视频切片开始位置、结束位置;
4.4)、计算匹配分数加权交叉熵损失Lmatch
Figure BDA0002845561540000055
其中,yz为是第z个候选片段与语句定位的视频片段(开始位置
Figure BDA0002845561540000056
到结束位置
Figure BDA0002845561540000057
的视频)的重合度;
4.5)、计算屏蔽单词预测的交叉熵损失Lword
Lword=-logpmask
其中,pmask是根据语句特征序列
Figure BDA0002845561540000058
预测为屏蔽的单词的概率;
4.6)、计算训练多阶段聚合Transformer模型的整个网络的损失Ltotal
Ltotal=Lstage+Lregress+Lmatch+Lword
4.7)、更新整个网络的参数
依次从视频语句训练数据集取出一条数据,依据损失Ltotal对整个网络的参数进行更新,直到视频语句训练数据集的数据为空,这样得到训练好的多阶段聚合Transformer模型;
(5)、视频语句定位
输入视频和不含掩蔽单词的完整查询语句,按照步骤(1)~(3)进行处理,再按照步骤4.2)计算出每个候选片段的匹配分数预测值以及视频切片开始位置、结束位置的预测值(构成新的候选片段),然后根据匹配分数从高到低对新的候选片段进行排序,再使用NMS(非极大值抑制)去除重叠超过70%的新的候选片段,并返回前1或前5个新的候选片段作为最终定位出的视频片段。
本发明的目的是这样实现的。
针对上述现有方法存在的问题,本发明构建了一个多阶段聚合Transformer模型用于视频语句定位网络。多阶段聚合Transformer模型由两部分组成:视频语句Transformer模型和位于视频语句Transformer模型之上的多阶段聚合模块。在视频语句Transformer模型中,保留了一个单一的BERT架构,但将BERT参数解耦到不同的分组中,以分别处理视频和语句信息。视频语句Transformer模型在保持单BERT结构的紧凑性和效率的同时,更有效地对视频和语句两种模态进行建模。在视频语句Transformer模型中,每个视频切片或者单词都可以根据自身的语义自适应地聚合和对齐来自两种模态中所有其他视频切片或者单词的信息。通过多层叠加,最后所得到的视频语句联合表示具有丰富的视觉语言线索捕捉能力,能够实现更精细的匹配。此外。在多阶段聚合模块中,分别为每个视频切片计算三个对应于不同阶段的阶段特征,即开始阶段、中间阶段和结束阶段的阶段特征。然后对某一候选片段,将其开始阶段的阶段特征、中间阶段的阶段特征和结束阶段的阶段特征串联起来,构成该候选片段的特征表示。由于所获得的特征表示捕捉了不同阶段的特定信息,因此非常适合准确定位视频片段的起始位置和终止位置。这两个模块整合在一起,形成一个既有效又高效的网络,提高视频语句定位的准确度。
附图说明
图1是本发明基于多阶段聚合Transformer模型的视频语句定位方法一种具体实施方式流程图;
图2是视频切片示意图;
图3是本发明基于多阶段聚合Transformer模型的视频语句定位方法一种具体实施方式的原理示意图;
图4是视频语句定位一种具体实施方式流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
图1是本发明基于多阶段聚合Transformer模型的视频语句定位方法一种具体实施方式流程图。
在本实施例中,如图1所示,基于多阶段聚合Transformer模型的视频语句定位方法包括以下步骤:
步骤S1:视频切片特征、单词特征提取
在本实施例中,如图2所示,将视频按照时间均匀地划分为N个时刻点,在每一个时刻点,采集一个视频切片(由连续的多帧,如50帧的图像组成),对每个视频切片进行特征提取,得到切片特征(得到总共N个切片特征),N个切片特征按照时刻顺序放置,形成视频特征序列。
对语句的每个单词进行词转向量(Doc2Vec),得到单词特征,然后按照在语句中的顺序放置,形成语句特征序列。
将视频特征序列中的切片特征、语句特征序列的单词特征映射到相同的维度,得到视频特征序列
Figure BDA0002845561540000071
语句特征序列
Figure BDA0002845561540000072
其中,
Figure BDA0002845561540000073
表示视频第i个切片的切片特征,
Figure BDA0002845561540000074
表示语句第j个单词的单词特征。
步骤S2:构建视频语句Transformer模型,并对视频特征序列、语句特征序列进行计算
现有的大多数方法通常是分别处理视频和语句序列,然后将它们进行匹配。但是,单独处理这两种序列,比如首先将语句编码成一个向量然后进行匹配,将不可避免地丢失语句中一些详细的语义内容,从而无法实现细致的匹配。为了解决这一问题,如图3所示,本发明构建了一个全新的视频语句Transformer模型作为主干网,其中,第d层,d=1,2,...,D的输出为:
Figure BDA0002845561540000075
Figure BDA0002845561540000081
其中,V、L分别表示视频和语句,Q、K、W为可学习参数,其中,不同下标表示不同参数,Att(·)为注意力计算函数;
视频特征序列
Figure BDA0002845561540000082
语句特征序列
Figure BDA0002845561540000083
作为视频语句Transformer模型的输入进行计算,按照公式(1)逐层计算,得到第D层输出视频特征序列
Figure BDA0002845561540000084
语句特征序列
Figure BDA0002845561540000085
与之前广泛使用的单BERT模型相比,本发明中的多阶段聚合Transformer模型其架构没有改变,没有引入任何额外的计算,只是使用不同的参数来处理不同的模态内容,这样既保持了模型的紧凑性和效率,又提高了模型的多模态建模能力。同时,本发明中的多阶段聚合Transformer模型,也不同于其他多模态BERT模型,后者使用两个BERT流来实现不同模态的内容。这种基于两个BERT流的模型引入了额外的跨模态层来实现多模态交互,而本发明中的多阶段聚合Transformer模型保持了与原始BERT模型相同的结构,更加紧凑和高效。
多阶段聚合Transformer模型由多层如公式(1)的计算过程组成。经过多层叠加后,得到的视频语句联合表示具有丰富的视觉语言线索的聚合和对齐能力。视频中的每一切片都可以与查询语句中的每个单词进行交互,从而实现更详细、更准确的视频语句匹配。这对于精确定位非常重要。
步骤S3:构建多阶段聚合模块,计算三个阶段的阶段特征序列和预测分数序列
在经过视频语句Transformer模型之后,所得到的视频语句联合表示即视频特征序列
Figure BDA0002845561540000086
语句特征序列
Figure BDA0002845561540000087
具有更丰富的信息和更精细的匹配。然而,为了克服现有方法忽略了视频片段中所包含的不同阶段的问题,本发明在视频语句Transformer模型上提出了一个多阶段聚合模块,以其达到能精确地定位所查询的视频片段的起始位置和结束位置。在多阶段聚合模块中,本发明分别为视频序列中的每一视频切片计算对应于不同时间阶段的三个阶段的阶段特征,即开始阶段、中间阶段和结束阶段的阶段特征
Figure BDA0002845561540000091
为了提高对不同阶段特征的区分能力,本发明在这些阶段特征上添加了一个预测层,分别对开始阶段、中间阶段和结束阶段的分数进行预测。
在本实施例中,如图3所示,多阶段聚合模块用于计算开始阶段、中间阶段和结束阶段的阶段特征序列rsta、rmid、rend
Figure BDA0002845561540000092
其中,开始阶段特征序列rsta由N个切片的阶段特征
Figure BDA0002845561540000093
组成,中间阶段特征序列rmid由N个切片的阶段特征
Figure BDA0002845561540000094
组成,结束阶段特征序列rend由N个切片的阶段特征
Figure BDA0002845561540000095
组成,
Figure BDA0002845561540000096
分别为计算三个阶段的阶段特征序列的多层感知器(MLP,Multi-layer Perceptron)。
计算开始阶段、中间阶段和结束阶段的预测分数序列psta、pmid、pend
Figure BDA0002845561540000097
其中,开始阶段预测分数序列psta由N个切片的预测分数
Figure BDA0002845561540000098
组成,中间阶段预测分数序列pmid由N个切片的预测分数
Figure BDA0002845561540000099
组成,结束阶段预测分数序列pend由N个切片的预测分数
Figure BDA00028455615400000910
组成,
Figure BDA00028455615400000911
Figure BDA00028455615400000912
分别为计算三个阶段的预测分数序列的多层感知器。
步骤S4:训练多阶段聚合Transformer模型
视频语句Transformer模型与多阶段聚合模块构成多阶段聚合Transformer模型;
构建视频语句训练数据集,其中每条数据包括一个视频、一个语句,以及语句定位的视频片段的视频切片开始位置
Figure BDA00028455615400000913
结束位置
Figure BDA00028455615400000914
从视频语句训练数据集提出一条数据,将语句中随机屏蔽一个单词,并用标记“MASK”取代,然后将视频、语句按照步骤(1)~(3)进行处理,再计算每个视频切片开始阶段、中间阶段、结束阶段的真实分数
Figure BDA00028455615400000915
Figure BDA0002845561540000101
其中,
Figure BDA0002845561540000102
σsta、σmid、σend为未归一化的二维高斯分布的标准差,αsta、αmid、αend为正值的标量,用于控制标准差的值,αsta、αmid、αend的值越大,在视频片段的起始/中间/结束位置附近视频切片的起始/中间/结束位置的得分越高。
步骤S4.1:计算预测层上的加权交叉熵损失Lstage
Figure BDA0002845561540000103
步骤S4.2:计算第z个候选片段的视频切片开始位置、结束位置的预测值
Figure BDA0002845561540000104
Figure BDA0002845561540000105
以及匹配分数预测值
Figure BDA0002845561540000106
Figure BDA0002845561540000107
因为三个阶段都是特定于起始、中间和结束阶段的,所以这个串联的特征对于精确的视频片段定位是非常有区分力的。
步骤S4.3:计算边界回归损失Lregress
Figure BDA0002845561540000108
其中,Z为候选片段的总数,
Figure BDA0002845561540000109
分别为第z个候选片段的视频切片开始位置、结束位置。
步骤S4.4:计算匹配分数加权交叉熵损失Lmatch
Figure BDA00028455615400001010
其中,yz为是第z个候选片段与语句定位的视频片段(开始位置
Figure BDA00028455615400001011
到结束位置
Figure BDA00028455615400001012
的视频)的重合度。
不同于以往预测IoU时不计算回归,在本发明的IoU预测是预测回归后的候选片段和真实之间的IoU,这使得本发明可以度量边界回归的质量。
为了生成候选片段,任何候选片段生成方法都可以应用在本发明的框架中。为了简便,本发明首先枚举由连续视频切片组成的所有可能的视频片段。然后,对于较短的视频,可以密集地选取它们作为候选片段。对于较长的视频,可以逐渐增加采样间隔,稀疏地选取它们作为候选片段。这种方法的主要思想是去除冗余的有很大的重叠的候选片段。
步骤S4.5:计算屏蔽单词预测的交叉熵损失Lword
Lword=-logpmask
其中,pmask是根据语句特征序列
Figure BDA0002845561540000111
预测为屏蔽的单词的概率。
在训练过程中,本发明将语句对作为网络的输入。与原来的Transformer模型类似,语句序列中一个单词随机屏蔽。对于屏蔽单词,它被替换为一个特殊的标记“[MASK]”。然后,让模型根据未掩蔽的单词和来自视频序列的信息来预测屏蔽单词。值得说明的是,预测一些重要的词,例如一些对应物体的名词和一些对应动作的动词,需要视频序列的信息。因此,屏蔽单词预测不仅使Transformer模型学会了语言,还能更好地对齐视频和语句模态。匹配单词预测的损失函数是标准的交叉熵损失。本发明没有在任何其他数据集上预先训练视频语句Transformer模型,所有参数都是随机初始化的。
步骤S4.6:计算训练多阶段聚合Transformer模型的整个网络的损失Ltotal
Ltotal=Lstage+Lregress+Lmatch+Lword
步骤S4.7:更新整个网络的参数
本发明没有在任何其他数据集上预先训练视频语句Transformer模型,所有参数都是随机初始化的。
依次从视频语句训练数据集取出一条数据,依据损失Ltotal对整个网络的参数进行更新,直到视频语句训练数据集的数据为空,这样得到训练好的多阶段聚合Transformer模型;
步骤S5:视频语句定位
输入视频和不含掩蔽单词的完整查询语句,如图4所示,按照步骤(1)~(3)进行处理,再按照步骤4.2)计算出每个候选片段的匹配分数预测值以及视频切片开始位置、结束位置的预测值(构成新的候选片段),然后根据匹配分数从高到低对新的候选片段进行排序,再使用NMS(非极大值抑制)去除重叠超过70%的新的候选片段,并返回前1或前5个新的候选片段作为最终定位出的视频片段。
性能测评
本发明在两个大型公共数据集上进行实验,分别是ActivityNet_Captions[14]和TACoS[24]。ActivityNet_Captions包含20K个视频和100K个查询语句。视频的平均长度是2分钟。它包含127个与烹饪活动相关的视频,平均持续时间为4.79分钟。平均每个视频有148个查询语句。TACoS数据集包含18,818个片段语句对。TACoS是一个非常具有挑战性的数据。其查询语句包含多层次的活动,这些活动包含不同层次的细节。
利用Rank n@IoU=m来评估本发明。它表示正确的定位占所有定位的百分比,其中正确的定位定义为在输出的结果中至少有一个与ground truth相匹配的片段。如果某个片段和ground truth之间的IoU大于m则该片段与ground truth相匹配。
使用Adam优化本发明中的网络。批大小设置为16,学习率设置为0.0001。Transformer层数设置为6层。所有层的特征维度设置为512。标准差标量分别为0.25,αs,αm0.21。在ActivityNet_Captions和TACoS中,Transformer注意力头的数量被分别设置为16和32。利用C3D网络提取视频切片特征。对于ActivityNet_Captions数据集,将采样的视频切片长度设置为32,对于TACo S数据集设置为128。
将本发明提出的多阶段聚合Transformer网络与当前各种最先进的方法进行了比较,对比结果如表1-2所示。
Figure BDA0002845561540000121
Figure BDA0002845561540000131
表1
表1是与其他方法在ActivityNet_Captions数据集上的对比结果。
Figure BDA0002845561540000132
Figure BDA0002845561540000141
表2
表2是与其他方法在TACoS数据集上的对比结果。
从实验结果可以看出,与以前的方法相比,本发明取得了显著的提升。尽管本发明在ActivityNet_captions数据集上比CSMGAN[18]的Rank1@IoU=0.5值低1.09点,但它在所有其他指标上都优于CSMGAN。特别是对于Rank1@IoU=0.7和Rank5@IoU=0.7指标,本发明分别比CSMGAN高出2.63和3.55点。注意到IoU=0.7是评判一个片段是否正确的更严格的标准,这表明本发明可以实现更高质量的定位。此外,在TACoS数据集上,本发明比CSMGAN在所有评估指标上都高出了10个百分点以上,这表明了本发明对比CSMGAN方法的优越性。此外,对比其他方法,本发明也取得了压倒性的优势,这些结果充分说明了本发明的有效性。在本发明视频语句Transformer模型中,每个视频切片可以与查询语句中的每个单词进行交互,从而得到更详细、更准确的视频语句对齐。由于本发明的多阶段聚合模块,计算的视频片段表示可以匹配不同阶段的活动。本发明的两个模块紧密结合在一起,形成了一个非常有效且高效的片段定位网络。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于多阶段聚合Transformer模型的视频语句定位方法,其特征在于,包括以下步骤:
(1)、视频切片特征、单词特征提取
将视频按照时间均匀地划分为N个时刻点,在每一个时刻点,采集一个视频切片,由连续的多帧图像组成,对每个视频切片进行特征提取,得到总共N个切片特征,N个切片特征按照时刻顺序放置,形成视频特征序列;
对语句的每个单词进行词转向量,得到单词特征,然后按照在语句中的顺序放置,形成语句特征序列;
将视频特征序列中的切片特征、语句特征序列的单词特征映射到相同的维度,得到视频特征序列
Figure FDA0003577705710000011
语句特征序列
Figure FDA0003577705710000012
其中,
Figure FDA0003577705710000013
表示视频第i个切片的切片特征,
Figure FDA0003577705710000014
表示语句第j个单词的单词特征;
(2)、构建视频语句Transformer模型,并对视频特征序列、语句特征序列进行计算
构建一个D层视频语句Transformer模型,其中,第d层,d=1,2,…,D的输出为:
Figure FDA0003577705710000015
Figure FDA0003577705710000016
其中,V、L分别表示视频和语句,Q、K、W为可学习参数,其中,不同下标表示不同参数,Att(·)为注意力计算函数;
视频特征序列
Figure FDA0003577705710000021
语句特征序列
Figure FDA0003577705710000022
作为视频语句Transformer模型的输入进行计算,得到第D层输出视频特征序列
Figure FDA0003577705710000023
语句特征序列
Figure FDA0003577705710000024
(3)、构建多阶段聚合模块,计算三个阶段的阶段特征序列和预测分数序列
计算开始阶段、中间阶段和结束阶段的阶段特征序列rsta、rmid、rend
Figure FDA0003577705710000025
其中,开始阶段特征序列rsta由N个切片的阶段特征ri sta,i=1,2,...N组成,中间阶段特征序列rmid由N个切片的阶段特征ri mid,i=1,2,...N组成,结束阶段特征序列rend由N个切片的阶段特征ri end,i=1,2,...N组成,MLP1 sta、MLP1 mid、MLP1 end分别为计算三个阶段的阶段特征序列的多层感知器(MLP,Multi-layer Perceptron);
计算开始阶段、中间阶段和结束阶段的预测分数序列psta、pmid、pend
Figure FDA0003577705710000026
其中,开始阶段预测分数序列psta由N个切片的预测分数
Figure FDA0003577705710000027
组成,中间阶段预测分数序列pmid由N个切片的预测分数
Figure FDA0003577705710000028
组成,结束阶段预测分数序列pend由N个切片的预测分数
Figure FDA0003577705710000029
组成,
Figure FDA00035777057100000210
Figure FDA00035777057100000211
分别为计算三个阶段的预测分数序列的多层感知器;
(4)、训练多阶段聚合Transformer模型
视频语句Transformer模型与多阶段聚合模块构成多阶段聚合Transformer模型;
构建视频语句训练数据集,其中每条数据包括一个视频、一个语句,以及语句定位的视频片段的视频切片开始位置
Figure FDA00035777057100000212
结束位置
Figure FDA00035777057100000213
从视频语句训练数据集提出一条数据,将语句中随机屏蔽一个单词,并用标记“MASK”取代,然后将视频、语句按照步骤(1)~(3)进行处理,再计算每个视频切片开始阶段、中间阶段、结束阶段的真实分数
Figure FDA0003577705710000031
Figure FDA0003577705710000032
其中,
Figure FDA0003577705710000033
σsta、σmidσend为未归一化的二维高斯分布的标准差,σsta、αmid、αend为正值的标量,用于控制标准差的值;
4.1)、计算预测层上的加权交叉熵损失Lstage
Figure FDA0003577705710000034
4.2)、计算第z个候选片段的视频切片开始位置、结束位置的预测值
Figure FDA0003577705710000035
以及匹配分数预测值
Figure FDA0003577705710000036
Figure FDA0003577705710000037
Figure FDA0003577705710000038
其中,
Figure FDA0003577705710000039
分别为第z个候选片段的视频切片开始位置、中间位置、结束位置,
Figure FDA00035777057100000310
分别为步骤(3)中得到的阶段特征序列rsta、rmid、rend相应位置的阶段特征;
4.3)、计算边界回归损失Lregress
Figure FDA00035777057100000311
其中,Z为候选片段的总数;
4.4)、计算匹配分数加权交叉熵损失Lmatch
Figure FDA00035777057100000312
其中,yz为是第z个候选片段与语句定位的视频片段即开始位置
Figure FDA00035777057100000313
到结束位置
Figure FDA00035777057100000314
的视频的重合度;
4.5)、计算屏蔽单词预测的交叉熵损失Lword
Lword=-log pmask
其中,pmask是根据语句特征序列
Figure FDA0003577705710000041
预测为屏蔽的单词的概率;
4.6)、计算训练多阶段聚合Transformer模型的整个网络的损失Ltotal
Ltotal=Lstage+Lregress+Lmatch+Lword
4.7)、更新整个网络的参数
依次从视频语句训练数据集取出一条数据,依据损失Ltotal对整个网络的参数进行更新,直到视频语句训练数据集的数据为空,这样得到训练好的多阶段聚合Transformer模型;
(5)、视频语句定位
输入视频和不含掩蔽单词的完整查询语句,按照步骤(1)~(3)进行处理,再按照步骤4.2)计算出每个候选片段的匹配分数预测值以及视频切片开始位置、结束位置的预测值,并构成新的候选片段,然后根据匹配分数从高到低对新的候选片段进行排序,再使用非极大值抑制去除重叠超过70%的新的候选片段,并返回前1或前5个新的候选片段作为最终定位出的视频片段。
CN202011508292.1A 2020-12-18 2020-12-18 一种基于多阶段聚合Transformer模型的视频语句定位方法 Active CN112488063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011508292.1A CN112488063B (zh) 2020-12-18 2020-12-18 一种基于多阶段聚合Transformer模型的视频语句定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011508292.1A CN112488063B (zh) 2020-12-18 2020-12-18 一种基于多阶段聚合Transformer模型的视频语句定位方法

Publications (2)

Publication Number Publication Date
CN112488063A CN112488063A (zh) 2021-03-12
CN112488063B true CN112488063B (zh) 2022-06-14

Family

ID=74914591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011508292.1A Active CN112488063B (zh) 2020-12-18 2020-12-18 一种基于多阶段聚合Transformer模型的视频语句定位方法

Country Status (1)

Country Link
CN (1) CN112488063B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115708359A (zh) * 2021-08-20 2023-02-21 小米科技(武汉)有限公司 视频片段的截取方法、装置及存储介质
CN116740067B (zh) * 2023-08-14 2023-10-20 苏州凌影云诺医疗科技有限公司 一种针对食管病灶的浸润深度判定方法和***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1144588A (zh) * 1994-03-14 1997-03-05 美国赛特公司 一种将图像植入视像流的***
CN110225368A (zh) * 2019-06-27 2019-09-10 腾讯科技(深圳)有限公司 一种视频定位方法、装置及电子设备
CN110377792A (zh) * 2019-06-14 2019-10-25 浙江大学 一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法
CN110781347A (zh) * 2019-10-23 2020-02-11 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备以及可读存储介质
CN111814489A (zh) * 2020-07-23 2020-10-23 苏州思必驰信息科技有限公司 口语语义理解方法及***
CN111931736A (zh) * 2020-09-27 2020-11-13 浙江大学 利用非自回归模型与整合放电技术的唇语识别方法、***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1144588A (zh) * 1994-03-14 1997-03-05 美国赛特公司 一种将图像植入视像流的***
CN110377792A (zh) * 2019-06-14 2019-10-25 浙江大学 一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法
CN110225368A (zh) * 2019-06-27 2019-09-10 腾讯科技(深圳)有限公司 一种视频定位方法、装置及电子设备
CN110781347A (zh) * 2019-10-23 2020-02-11 腾讯科技(深圳)有限公司 一种视频处理方法、装置、设备以及可读存储介质
CN111814489A (zh) * 2020-07-23 2020-10-23 苏州思必驰信息科技有限公司 口语语义理解方法及***
CN111931736A (zh) * 2020-09-27 2020-11-13 浙江大学 利用非自回归模型与整合放电技术的唇语识别方法、***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Video Action Transformer Network;Rohit Girdhar 等;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20200109;244-253页 *
唇读应用中唇部信息的定位跟踪与特征提取技术研究;杨阳;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20090915;I138-563 *

Also Published As

Publication number Publication date
CN112488063A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN109947912B (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN109101620B (zh) 相似度计算方法、聚类方法、装置、存储介质及电子设备
CN111243579B (zh) 一种时域单通道多说话人语音识别方法与***
CN110349568B (zh) 语音检索方法、装置、计算机设备及存储介质
CN105488024B (zh) 网页主题句的抽取方法及装置
CN110457672B (zh) 关键词确定方法、装置、电子设备及存储介质
CN112488063B (zh) 一种基于多阶段聚合Transformer模型的视频语句定位方法
CN112559556A (zh) 表格模式解析和序列掩码的语言模型预训练方法及***
CN109388743B (zh) 语言模型的确定方法和装置
CN106126619A (zh) 一种基于视频内容的视频检索方法及***
CN112733533A (zh) 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
CN110851584B (zh) 一种法律条文精准推荐***和方法
CN111291188A (zh) 一种智能信息抽取方法及***
CN112989120B (zh) 一种视频片段查询***和视频片段查询方法
CN108446316A (zh) 联想词的推荐方法、装置、电子设备及存储介质
CN113672708A (zh) 语言模型训练方法、问答对生成方法、装置及设备
CN109740158A (zh) 一种文本语义解析方法及装置
CN111966811A (zh) 意图识别和槽填充方法、装置、可读存储介质及终端设备
CN114241381A (zh) 一种基于时序事件和语义背景的事件抽取和预测方法
CN114298055B (zh) 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
CN106126495B (zh) 一种基于大规模语料提词方法和装置
CN115017912A (zh) 一种多任务学习的双目标实体情感分析方法
CN106503066A (zh) 基于人工智能的处理搜索结果方法和装置
CN113486659A (zh) 文本匹配方法、装置、计算机设备及存储介质
CN106599304B (zh) 一种针对中小型网站的模块化用户检索意图建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant