CN113806587A - 一种多模态特征融合的视频描述文本生成方法 - Google Patents

一种多模态特征融合的视频描述文本生成方法 Download PDF

Info

Publication number
CN113806587A
CN113806587A CN202110975443.2A CN202110975443A CN113806587A CN 113806587 A CN113806587 A CN 113806587A CN 202110975443 A CN202110975443 A CN 202110975443A CN 113806587 A CN113806587 A CN 113806587A
Authority
CN
China
Prior art keywords
video
word
feature
expression
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110975443.2A
Other languages
English (en)
Inventor
朱虹
刘媛媛
李阳辉
张雨嘉
王栋
史静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202110975443.2A priority Critical patent/CN113806587A/zh
Publication of CN113806587A publication Critical patent/CN113806587A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多模态特征融合的视频描述文本生成方法,步骤包括:1)建立数据集、验证集及语义词典;2)构建多模态特征融合网络,获得聚合特征;3)利用语法感知视频动作的编码器获得描述语句的主语、谓语和宾语;4)利用动作指导解码器,生成视频的描述文本;5)训练视频文本生成网络模型;6)生成视频的文本描述语句,经过步骤1至步骤5完成网络训练之后,获得视频文本生成网络模型的所有参数,这时,将待描述视频作为输入视频,进行步骤2至步骤4之后,获得待描述视频的文本描述。本发明方法,具有更高的准确性。

Description

一种多模态特征融合的视频描述文本生成方法
技术领域
本发明属于视频文本描述生成技术领域,涉及一种多模态特征融合的视频描述文本生成方法。
背景技术
视频文本描述的任务是自动生成一个完整自然的句子来描述视频内容,准确地对视频中包含的内容进行理解在实际中具有重要意义和广泛应用。比如面对海量的视频数据,可以利用视频文本描述进行快速高效的视频检索,也可以利用生成的视频文本描述对视频进行智能审核。
在视频描述文本生成过程中,如果不能更好的学习到视频多模态特征中包含的语义信息,会导致视频内容和生成的描述之间的语义不一致的问题。目前2D和3D卷积神经网络已成功地改善了从视觉、音频和运动信息中学习表示的技术,但是解决如何将提取到的视频多模态特征进行聚合的问题,仍然是一个可以提升文本描述准确率的研究思路。
发明内容
本发明的目的是提供一种多模态特征融合的视频描述文本生成的方法,解决了现有技术在视频描述文本生成中,存在视频内容和生成的描述之间的语义不一致的问题。
本发明采用的技术方案是,一种多模态特征融合的视频描述文本生成方法,按照以下步骤实施:
步骤1、建立数据集、验证集及语义词典;
步骤2、构建多模态特征融合网络,获得聚合特征;
步骤3、利用语法感知视频动作的编码器获得描述语句的主语、谓语和宾语;
步骤4、利用动作指导解码器,生成视频的描述文本;
步骤5、训练视频文本生成网络模型;
步骤6、生成视频的文本描述语句,
经过步骤1至步骤5完成网络训练之后,获得视频文本生成网络模型的所有参数;再将待描述视频作为输入视频,进行步骤2至步骤4之后,获得待描述视频的文本描述。
本发明的有益效果是,在视频描述文本生成网络模型中,将2D卷积神经网络获得的RGB特征和3D卷积神经网络获得的时序特征,通过多模态特征融合模型,获得更符合文本描述需求的聚合特征,聚合特征与语法感知预测动作模块生成的谓语编码信息结合,将其送入到解码网络模型中,对输入视频进行文本描述。采用本发明方法生成的视频描述文本与目前检索到的主流论文的算法指标相比,具有更高的准确性。
附图说明
图1是本发明方法的多模态特征融合模型的流程图;
图2是本发明方法中的自注意力机制流程图;
图3是本发明方法中的基于语法感知预测动作模块的编码器流程图;
图4是本发明方法的语法感知预测动作模块中的编码层流程图;
图5是本发明方法所采用的解码器模型的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明的多模态特征融合的视频描述文本生成方法,按照以下步骤具体实施:
步骤1、建立数据集、验证集及语义词典,具体过程是,
1.1)构建数据集和验证集,
因为视频的文本描述网络的数据集的泛化能力的要求,除了特殊情况下需要采用自制的标注的数据集,一般情况下均建议采用公开的数据集;
本步骤优选目前使用率相对较高的视频描述文本生成数据集MSR-VTT和MSVD;其中,MSVD数据集包含1967个YouTube公开短视频,每个视频主要显示一个活动,持续时长为10s~25s,视频包含不同的人、动物、动作及场景等,由不同的人对视频内容进行标注,平均每条视频对应40条文本描述语句;MSR-VTT数据集共10000个视频,平均每个视频对应20条文本描述语句;
从前述MSR-VTT和MSVD数据集中随机选择一部分(本步骤优选为全部数据的80%)作为训练集的数据样本,剩下20%的样本作为验证集样本;
1.2)建立语义词典,
从训练集和验证集的样本标注中,将所有单词按出现次数由高到低排序,选择前m个单词,组成语义概念集合,m是经验值,m优选总单词数的前80%到85%;
先给每个单词分配一个0至m的整数序号,之后(给每个单词)加上四个附加标记,即开始标识<bos>、结束标识<eos>、空白标识<pad>和替换标识<unk>,共m+4个整数序号,构成语义词典vocab={1,2,...,m+4};对带标注的句子做最少的预处理,即删除标点符号,分别在每个句子的开头和结尾添加<bos>和<eos>,语义词典中未包含的单词被替换为<unk>,句子的长度固定为L,L为经验值,按照视频文本描述语句长度的统计结果,优选L∈[20,40];如果句子太长删除超出的单词,句子太短则使用<pad>补充至固定长度;
假设训练集的样本总数为N,i是其中的第i个视频样本,i=1,2,...,N,L是第i个视频的文本描述长度;利用建立的语义词典对数据集样本进行语义词典标注,表达式是:
Yi=[yi,1,yi,2,...,yi,L],i=1,2,...,N (1)
其中,yi,t为整数,表示第i个视频的第t个单词在文本语义词典中的排序序号,t=1,2,...,L;
步骤2、构建多模态特征融合网络,获得聚合特征,
2.1)提取视频的多模态特征,
采用三个网络结构联合提取视频的多模态特征,首先,对一个输入视频(在模型训练时,输入视频为步骤1给出的训练样本视频,训练结束之后,输入视频为需要进行文本描述的视频)进行等间隔采样,获得预处理后的T帧长度的视频,(T为经验值,结合所需要描述的视频内容决定,优选T∈[16,64]);之后,提取预处理后视频的二维RGB特征和目标区域特征,分别采用二维卷积网络InceptionResnetV2(IRV2)(是现有技术)的最后一层平均池化层输出M1(M1=1536)维特征向量描述视频的二维RGB特征Vr,采用FasterRCNN网络(是现有技术)的RoI Pooling层输出的M2(M2=1024)维特征向量作为视频中多个目标区域特征Vb;然后,将每个视频连续16帧作为一个片段,每个片段重复8帧,采用三维卷积网络C3D(是现有技术)的全连接FC6层的输出M3(M3=2048)维特征向量描述视频的三维时序特性Vm,共同构建每个视频对应的视觉多模态特征,表达式是:
V={Vr,Vm,Vb} (2)
2.2)利用多模态特征融合模型获取聚合特征,
2.2.1)利用自注意力机制模块计算场景表示特征Vrm',
如图1所示,利用多模态特征融合模型的构架,将步骤2.1)得到的二维RGB特征Vr和三维时序特征Vm拼接为全局特征Vrm,经过三个不同的线性变换得到维度相同的查询向量Qrm、键向量Krm和值向量Vrm,表达式是:
{Qrm,Krm,Vrm}={Vrm·WQ rm,Vrm·WK rm,Vrm·WV rm} (3)
其中,WQ rm、WK rm、WV rm是训练过程学习到的参数;
2.2.2)如图2所示,利用Self-Attention模块,首先计算查询向量Qrm与键向量Krm之间的点乘,为防止结果过大,除以一个尺度标度
Figure BDA0003227086990000051
其中
Figure BDA0003227086990000052
为矩阵Qrm的维度,再乘以矩阵Vrm,再利用softmax操作将其结果归一化为概率分布,得到加权的场景表示特征Vrm'表达式是:
Figure BDA0003227086990000053
其中,
Figure BDA0003227086990000054
为矩阵Qrm的维度;
2.2.3)构建MA模块计算运动特征Vm',
将步骤1中得到的三维时序特征Vm与语义词典中利用词性标注(part-of-speechtagging:pos)(词性标记是现有技术)标注的动词经过Ebedding得到的编码Epos,通过MA模块进行结合,该模块通过两个线性变换层和ReLU层,生成能够关注到物体间交互关系的运动特征Vm',表达式是:
Figure BDA0003227086990000055
其中,Wm
Figure BDA0003227086990000056
bm是训练过程学习到的线性变换的权重,ReLU是激活函数;
2.2.4)构建动态注意力模块求解聚合特征V',
前述步骤2.2.1)和步骤2.2.2)得到的场景表示特征Vrm'与运动特征Vm'和二维RGB特征Vr,经过一个动态注意力模块进行多模态特征融合得到最终的聚合特征V';首先将Vrm'和Vm'进行点乘,除以一个尺度标度
Figure BDA0003227086990000061
其中
Figure BDA0003227086990000062
为矩阵Vrm′的维度,再乘以矩阵Vr,然后经过softmax操作将其结果归一化为概率分布,得到聚合特征V′,表达式是:
Figure BDA0003227086990000063
步骤3、利用语法感知视频动作的编码器获得描述语句的主语、谓语和宾语,
进行语法感知视频动作所用的编码器采用的基本结构为SAAT网络模型(SAAT网络模型为现有技术),属于一种语法感知预测动作模块,分为组件提取器-编码器(Cxe)和组件提取器-解码器(Cxd);
如图3所示,组件提取器-编码器(Cxe)和组件提取器-解码器(Cxd)的结构相同,均是由一个Embedding层和三个结构相同基于自注意力机制的Encoding层堆叠组成;
如图4所示,每个Encoding层的结构是,由一个自注意力机制(Self-Attention)、层归一化(layerNorm)和非线性前馈网络(FFN)组成,具体过程是:
3.1)由组件提取器-编码器(Cxe)得到场景语义特征Vbs
将步骤2.1)得到的视频的目标区域特征
Figure BDA0003227086990000064
和目标位置编码Rl作为Cxe的输入序列,编码为场景语义特征
Figure BDA0003227086990000065
其中K是目标区域的数量;
3.1.1)将视频的目标区域特征Vb和目标位置编码Rl通过级联的方式拼接,得到级联特征Rc,表达式是:
Figure BDA0003227086990000071
其中,
Figure BDA0003227086990000072
k=1,2,...,K,是目标中心坐标及目标的宽度和高度信息,wf,hf分别是视频帧的宽、高;
3.1.2)将步骤3.1.1)得到的级联特征Rc经过Embedding层,利用三个不同的线性变换得到相同维度的映射矩阵Qc,Kc,Vc,表达式是:
{Qc,Kc,Vc}={Rc·WQ,Rc·WK,Rc·WV} (8)
其中,WQ、WK、WV均是训练过程学习到的参数;
3.1.3)经过一个基于自注意力机制的Encoding层(见图2)计算Qc与Kc之间的点乘,为防止结果过大,除以一个尺度标度
Figure BDA0003227086990000073
其中dQ为矩阵Qc的维度,再乘以矩阵Vc,再利用softmax操作将其结果归一化为概率分布,得到加权的场景语义特征Vbs,表达式是:
Figure BDA0003227086990000074
3.2)利用组件提取器-解码器(Cxd)得到视频动作,即文本描述语句的谓语,
利用视频的多模态特征和场景语义特征Vbs作为组件提取器-解码器(Cxd)的输入,解码得到视频中的动作即谓语,具体过程是:
3.2.1)设置全局RGB特征Vr作为预测主语的Query,场景语义特征Vbs作为Key-Value,利用自注意力机制(公式(10))得到主语的特征编码Es,再经过一个softmax层(公式(11))得到主语的单词概率矩阵pθ(word|Vbs,Vrs),然后利用argmax函数(公式(12))得到概率最大的单词矩阵即为对应的主语s,表达式是:
Es=fatt(Vrs,Vbs,Vbs) (10)
pθ(word|Vbs,Vrs)=softmax(Ws T·Es) (11)
Figure BDA0003227086990000081
其中,
Figure BDA0003227086990000082
Wv、Ws是训练过程学习到的参数;
3.2.2)将步骤3.2.1)得到的主语的编码特征Es作为预测视频的动作(即谓语)的Query,视频的时序特征Vm作为Key-Value,利用公式(13)计算谓语的特征编码Ea,利用公式(14)计算谓语的单词概率矩阵pθ(word|s,Vm),再利用公式(15)得到对应的谓语a,表达式是:
Ea=fatt(Es,Vma,Vma)) (13)
pθ(word|s,Vma)=softmax(Wa T·Ea) (14)
Figure BDA0003227086990000083
其中,
Figure BDA0003227086990000084
Wm、Wa是训练过程学习到的参数;
3.2.3)将谓语的编码特征Ea作为预测宾语的Query,视频的场景语义特征Vbs作为Key-Value,利用公式(16)计算宾语的特征编码Eo,利用公式(17)计算宾语的单词概率矩阵pθ(word|a,Vbs),利用公式(18)得到对应的宾语o,表达式如下:
Eo=fatt(Ea,Vbs,Vbs)) (16)
pθ(word|a,Vbs)=softmax(Wo T·Eo) (17)
Figure BDA0003227086990000085
其中,Wo是训练过程学习到的参数;
步骤4、利用动作指导解码器,生成视频的描述文本,
如图5所示,利用解码器模型,具体过程如下:
4.1)通过Attention模块,计算谓语特征编码Ea的注意力权重βt
将步骤3.2.2)中公式(13)计算出的谓语的特征编码Ea,和t-1时刻LSTMs输出ht-1拼接,h0为表示起始符<bos>的0向量,得到嵌入向量Ewordt,则Attention在t时刻输出的注意力分布βt的表达式是:
Figure BDA0003227086990000091
其中,
Figure BDA0003227086990000092
Wβ、Wh、bβ是训练过程学习到的参数;
4.2)通过LSTMs(是公开技术)生成单词预测结果ht,表达式是:
Figure BDA0003227086990000093
其中,WLv是训练过程学习到的参数;
4.3)计算预测单词概率,
预测结果经过softmax函数得到t时刻单词预测概率pθ(wordt),概率最大的单词为当前时刻预测单词,表达式是:
pθ(wordt)=softmax(Ww·ht) (24)
wordt=argmax(pθ(wordt)) (25)
其中,Ww是训练过程学习到的参数;
4.4)令t=t+1,循环执行步骤4.1)至步骤(4.3),直到预测的wordt为结束标识<eos>为止;
步骤5、训练视频文本生成网络模型,
将步骤1给出的所有训练样本输入视频文本生成网络模型,重复步骤2至步骤4,使用标准的交叉熵损失来进行训练,视频文本生成网络模型的总损失函数是SAAT模块的最小化损失Ls与视频描述文本生成器的损失Lc之和,表达式是:
L(θ)=Lc+λ·Ls (26)
Figure BDA0003227086990000101
Figure BDA0003227086990000102
其中,wordt (i)是第i个训练样本的第t个单词,
Figure BDA0003227086990000103
L为步骤1给出的标签单词属性,(s,a,o)(i)是第i个训练样本的输出的主语、谓语和宾语,(s*,a*,o*)(i)是第i个训练样本标签的主语、谓语和宾语,Vb,Vr,Vm分别为步骤2.1)提取视频的目标区域特征,二维RGB特征,三维时序特征;
步骤6、生成视频的文本描述语句,
经过步骤1至步骤5完成网络训练之后,便可获得视频文本生成网络模型的所有参数;再将待描述视频作为输入视频,进行步骤2至步骤4之后,便可获得视频的文本描述。
至此,构建的视频文本生成网络模型可以根据视频多模态特征和视频动作引导生成的视频文本描述。

Claims (6)

1.一种多模态特征融合的视频描述文本生成方法,其特征在于,按照以下步骤实施:
步骤1、建立数据集、验证集及语义词典;
步骤2、构建多模态特征融合网络,获得聚合特征;
步骤3、利用语法感知视频动作的编码器获得描述语句的主语、谓语和宾语;
步骤4、利用动作指导解码器,生成视频的描述文本;
步骤5、训练视频文本生成网络模型;
步骤6、生成视频的文本描述语句,
经过步骤1至步骤5完成网络训练之后,获得视频文本生成网络模型的所有参数;再将待描述视频作为输入视频,进行步骤2至步骤4之后,获得待描述视频的文本描述。
2.根据权利要求1所述的多模态特征融合的视频描述文本生成方法,其特征在于,所述的步骤1的具体过程是:
1.1)构建数据集和验证集,
除了特殊情况下需要采用自制的标注的数据集,一般情况下均建议采用公开的数据集;
选用视频描述文本生成数据集MSR-VTT和MSVD,选取全部数据的80%作为训练集的数据样本,剩下20%的样本作为验证集样本;
1.2)建立语义词典,
从训练集和验证集的样本标注中,将所有单词按出现次数由高到低排序,选择前m个单词,组成语义概念集合;
先给每个单词分配一个0至m的整数序号,之后给每个单词加上四个附加标记,即开始标识<bos>、结束标识<eos>、空白标识<pad>和替换标识<unk>,共m+4个整数序号,构成语义词典vocab={1,2,...,m+4};对带标注的句子做最少的预处理,即删除标点符号,分别在每个句子的开头和结尾添加<bos>和<eos>,语义词典中未包含的单词被替换为<unk>,句子的长度固定为L,如果句子太长删除超出的单词,句子太短则使用<pad>补充至固定长度;
假设训练集的样本总数为N,i是其中的第i个视频样本,i=1,2,...,N,L是第i个视频的文本描述长度;利用建立的语义词典对数据集样本进行语义词典标注,表达式是:
Yi=[yi,1,yi,2,...,yi,L],i=1,2,...,N (1)
其中,yi,t为整数,表示第i个视频的第t个单词在文本语义词典中的排序序号,t=1,2,...,L。
3.根据权利要求1所述的多模态特征融合的视频描述文本生成方法,其特征在于,所述的步骤2的具体过程是:
2.1)提取视频的多模态特征,
采用三个网络结构联合提取视频的多模态特征,首先,对一个输入视频进行等间隔采样,获得预处理后的T帧长度的视频;之后,提取预处理后视频的二维RGB特征和目标区域特征,分别采用二维卷积网络InceptionResnetV2的最后一层平均池化层输出M1维特征向量描述视频的二维RGB特征Vr,采用Faster RCNN网络的RoI Pooling层输出的M2维特征向量作为视频中多个目标区域特征Vb;然后,将每个视频连续16帧作为一个片段,每个片段重复8帧,采用三维卷积网络C3D的全连接FC6层的输出M3维特征向量描述视频的三维时序特性Vm,共同构建每个视频对应的视觉多模态特征,表达式是:
V={Vr,Vm,Vb} (2)
2.2)利用多模态特征融合模型获取聚合特征,
2.2.1)利用自注意力机制模块计算场景表示特征Vrm'
利用多模态特征融合模型,将步骤2.1)得到的二维RGB特征Vr和三维时序特征Vm拼接为全局特征Vrm,经过三个不同的线性变换得到维度相同的查询向量Qrm、键向量Krm和值向量Vrm,表达式是:
{Qrm,Krm,Vrm}={Vrm·WQ rm,Vrm·WK rm,Vrm·WV rm} (3)
其中,WQ rm、WK rm、WV rm是训练过程学习到的参数;
2.2.2)利用Self-Attention模块,首先计算查询向量Qrm与键向量Krm之间的点乘,为防止结果过大,除以一个尺度标度
Figure FDA0003227086980000031
其中
Figure FDA0003227086980000032
为矩阵Qrm的维度,再乘以矩阵Vrm,再利用softmax操作将其结果归一化为概率分布,得到加权的场景表示特征Vrm'表达式是:
Figure FDA0003227086980000033
其中,
Figure FDA0003227086980000034
为矩阵Qrm的维度;
2.2.3)构建MA模块计算运动特征Vm'
将步骤1中得到的三维时序特征Vm与语义词典中利用词性标注,标注的动词经过Ebedding得到的编码Epos,通过MA模块进行结合,该模块通过两个线性变换层和ReLU层,生成能够关注到物体间交互关系的运动特征Vm',表达式是:
Figure FDA0003227086980000035
其中,Wm、Wa m、bm是训练过程学习到的线性变换的权重,ReLU是激活函数;
2.2.4)构建动态注意力模块求解聚合特征V',
前述步骤2.2.1)和步骤2.2.2)得到的场景表示特征Vrm'与运动特征Vm'和二维RGB特征Vr,经过一个动态注意力模块进行多模态特征融合得到最终的聚合特征V';首先将Vrm'和Vm'进行点乘,除以一个尺度标度
Figure FDA0003227086980000041
其中
Figure FDA0003227086980000042
为矩阵Vrm′的维度,再乘以矩阵Vr,然后经过softmax操作将其结果归一化为概率分布,得到聚合特征V′,表达式是:
Figure FDA0003227086980000043
4.根据权利要求1所述的多模态特征融合的视频描述文本生成方法,其特征在于,所述的步骤3的具体过程是:
进行语法感知视频动作所用的编码器采用的基本结构为SAAT网络模型,分为组件提取器-编码器和组件提取器-解码器;
组件提取器-编码器和组件提取器-解码器的结构相同,均是由一个Embedding层和三个结构相同基于自注意力机制的Encoding层堆叠组成;
每个Encoding层的结构由一个自注意力机制、层归一化和非线性前馈网络组成,具体过程是:
3.1)由组件提取器-编码器得到场景语义特征Vbs
将步骤2.1)得到的视频的目标区域特征
Figure FDA0003227086980000044
和目标位置编码Rl作为组件提取器-编码器的输入序列,编码为场景语义特征
Figure FDA0003227086980000045
其中K是目标区域的数量;
3.1.1)将视频的目标区域特征Vb和目标位置编码Rl通过级联的方式拼接,得到级联特征Rc,表达式是:
Figure FDA0003227086980000051
其中,
Figure FDA0003227086980000052
是目标中心坐标及目标的宽度和高度信息,wf,hf分别是视频帧的宽、高;
3.1.2)将步骤3.1.1)得到的级联特征Rc经过Embedding层,利用三个不同的线性变换得到相同维度的映射矩阵Qc,Kc,Vc,表达式是:
{Qc,Kc,Vc}={Rc·WQ,Rc·WK,Rc·WV} (8)
其中,WQ、WK、WV均是训练过程学习到的参数;
3.1.3)经过一个基于自注意力机制的Encoding层计算Qc与Kc之间的点乘,为防止结果过大,除以一个尺度标度
Figure FDA0003227086980000053
其中dQ为矩阵Qc的维度,再乘以矩阵Vc,再利用softmax操作将其结果归一化为概率分布,得到加权的场景语义特征Vbs,表达式是:
Figure FDA0003227086980000054
3.2)利用组件提取器-解码器得到视频动作,即文本描述语句的谓语,
利用视频的多模态特征和场景语义特征Vbs作为组件提取器-解码器的输入,解码得到视频中的动作即谓语,具体过程是:
3.2.1)设置全局RGB特征Vr作为预测主语的Query,场景语义特征Vbs作为Key-Value,利用自注意力机制得到主语的特征编码Es,再经过一个softmax层得到主语的单词概率矩阵pθ(word|Vbs,Vrs),然后利用argmax函数得到概率最大的单词矩阵即为对应的主语s,表达式是:
Es=fatt(Vrs,Vbs,Vbs) (10)
pθ(word|Vbs,Vrs)=softmax(Ws T·Es) (11)
Figure FDA0003227086980000061
其中,
Figure FDA0003227086980000062
是训练过程学习到的参数;
3.2.2)将步骤3.2.1)得到的主语的编码特征Es作为预测视频的动作的Query,视频的时序特征Vm作为Key-Value,利用公式(13)计算谓语的特征编码Ea,利用公式(14)计算谓语的单词概率矩阵pθ(word|s,Vm),再利用公式(15)得到对应的谓语a,表达式是:
Ea=fatt(Es,Vma,Vma)) (13)
pθ(word|s,Vma)=softmax(Wa T·Ea) (14)
Figure FDA0003227086980000063
其中,
Figure FDA0003227086980000064
是训练过程学习到的参数;
3.2.3)将谓语的编码特征Ea作为预测宾语的Query,视频的场景语义特征Vbs作为Key-Value,利用公式(16)计算宾语的特征编码Eo,利用公式(17)计算宾语的单词概率矩阵pθ(word|a,Vbs),利用公式(18)得到对应的宾语o,表达式如下:
Eo=fatt(Ea,Vbs,Vbs)) (16)
pθ(word|a,Vbs)=softmax(Wo T·Eo) (17)
Figure FDA0003227086980000065
其中,Wo是训练过程学习到的参数。
5.根据权利要求1所述的多模态特征融合的视频描述文本生成方法,其特征在于,所述的步骤4的具体过程是:
4.1)通过Attention模块,计算谓语特征编码Ea的注意力权重βt
将步骤3.2.2)中公式(13)计算出的谓语的特征编码Ea,和t-1时刻LSTMs输出ht-1拼接,h0为表示起始符<bos>的0向量,得到嵌入向量
Figure FDA0003227086980000066
则Attention在t时刻输出的注意力分布βt的表达式是:
Figure FDA0003227086980000071
其中,
Figure FDA0003227086980000072
bβ是训练过程学习到的参数;
4.2)通过LSTMs生成单词预测结果ht,表达式是:
Figure FDA0003227086980000073
其中,WLv是训练过程学习到的参数;
4.3)计算预测单词概率,
预测结果经过softmax函数得到t时刻单词预测概率pθ(wordt),概率最大的单词为当前时刻预测单词,表达式是:
pθ(wordt)=softmax(Ww·ht) (24)
wordt=arg max(pθ(wordt)) (25)
其中,Ww是训练过程学习到的参数;
4.4)令t=t+1,循环执行步骤4.1)至步骤(4.3),直到预测的wordt为结束标识<eos>为止。
6.根据权利要求1所述的多模态特征融合的视频描述文本生成方法,其特征在于,所述的步骤5的具体过程是:
将步骤1给出的所有训练样本输入视频文本生成网络模型,重复步骤2至步骤4,使用标准的交叉熵损失来进行训练,视频文本生成网络模型的总损失函数是SAAT模块的最小化损失Ls与视频描述文本生成器的损失Lc之和,表达式是:
L(θ)=Lc+λ·Ls (26)
Figure FDA0003227086980000074
Figure FDA0003227086980000081
其中,wordt (i)是第i个训练样本的第t个单词,
Figure FDA0003227086980000082
L为步骤1给出的标签单词属性,(s,a,o)(i)是第i个训练样本的输出的主语、谓语和宾语,(s*,a*,o*)(i)是第i个训练样本标签的主语、谓语和宾语,Vb,Vr,Vm分别为步骤2.1)提取视频的目标区域特征,二维RGB特征,三维时序特征。
CN202110975443.2A 2021-08-24 2021-08-24 一种多模态特征融合的视频描述文本生成方法 Withdrawn CN113806587A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110975443.2A CN113806587A (zh) 2021-08-24 2021-08-24 一种多模态特征融合的视频描述文本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110975443.2A CN113806587A (zh) 2021-08-24 2021-08-24 一种多模态特征融合的视频描述文本生成方法

Publications (1)

Publication Number Publication Date
CN113806587A true CN113806587A (zh) 2021-12-17

Family

ID=78941767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110975443.2A Withdrawn CN113806587A (zh) 2021-08-24 2021-08-24 一种多模态特征融合的视频描述文本生成方法

Country Status (1)

Country Link
CN (1) CN113806587A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114387430A (zh) * 2022-01-11 2022-04-22 平安科技(深圳)有限公司 基于人工智能的图像描述生成方法、装置、设备及介质
CN114398961A (zh) * 2021-12-28 2022-04-26 西南交通大学 一种基于多模态深度特征融合的视觉问答方法及其模型
CN115175006A (zh) * 2022-06-09 2022-10-11 中国科学院大学 基于层级模块化的视频描述方法及***
CN115496134A (zh) * 2022-09-14 2022-12-20 北京联合大学 基于多模态特征融合的交通场景视频描述生成方法和装置
CN116128043A (zh) * 2023-04-17 2023-05-16 中国科学技术大学 视频场景边界检测模型的训练方法和场景边界检测方法
CN116193275A (zh) * 2022-12-15 2023-05-30 荣耀终端有限公司 视频处理方法及相关设备
CN116821417A (zh) * 2023-08-28 2023-09-29 中国科学院自动化研究所 视频标签序列生成方法和装置
CN116932803A (zh) * 2023-09-13 2023-10-24 浪潮(北京)电子信息产业有限公司 基于多模态预训练模型的数据集生成方法、训练方法
CN117079081A (zh) * 2023-10-16 2023-11-17 山东海博科技信息***股份有限公司 一种多模态视频文本处理模型训练方法及***
CN117876941A (zh) * 2024-03-08 2024-04-12 杭州阿里云飞天信息技术有限公司 目标多模态模型***及构建方法、视频处理模型训练方法、视频处理方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114398961A (zh) * 2021-12-28 2022-04-26 西南交通大学 一种基于多模态深度特征融合的视觉问答方法及其模型
CN114398961B (zh) * 2021-12-28 2023-05-05 西南交通大学 一种基于多模态深度特征融合的视觉问答方法及其模型
CN114387430A (zh) * 2022-01-11 2022-04-22 平安科技(深圳)有限公司 基于人工智能的图像描述生成方法、装置、设备及介质
CN114387430B (zh) * 2022-01-11 2024-05-28 平安科技(深圳)有限公司 基于人工智能的图像描述生成方法、装置、设备及介质
CN115175006A (zh) * 2022-06-09 2022-10-11 中国科学院大学 基于层级模块化的视频描述方法及***
CN115496134B (zh) * 2022-09-14 2023-10-03 北京联合大学 基于多模态特征融合的交通场景视频描述生成方法和装置
CN115496134A (zh) * 2022-09-14 2022-12-20 北京联合大学 基于多模态特征融合的交通场景视频描述生成方法和装置
CN116193275A (zh) * 2022-12-15 2023-05-30 荣耀终端有限公司 视频处理方法及相关设备
CN116193275B (zh) * 2022-12-15 2023-10-20 荣耀终端有限公司 视频处理方法及相关设备
CN116128043A (zh) * 2023-04-17 2023-05-16 中国科学技术大学 视频场景边界检测模型的训练方法和场景边界检测方法
CN116821417A (zh) * 2023-08-28 2023-09-29 中国科学院自动化研究所 视频标签序列生成方法和装置
CN116821417B (zh) * 2023-08-28 2023-12-12 中国科学院自动化研究所 视频标签序列生成方法和装置
CN116932803A (zh) * 2023-09-13 2023-10-24 浪潮(北京)电子信息产业有限公司 基于多模态预训练模型的数据集生成方法、训练方法
CN116932803B (zh) * 2023-09-13 2024-01-26 浪潮(北京)电子信息产业有限公司 基于多模态预训练模型的数据集生成方法、训练方法
CN117079081A (zh) * 2023-10-16 2023-11-17 山东海博科技信息***股份有限公司 一种多模态视频文本处理模型训练方法及***
CN117079081B (zh) * 2023-10-16 2024-01-26 山东海博科技信息***股份有限公司 一种多模态视频文本处理模型训练方法及***
CN117876941A (zh) * 2024-03-08 2024-04-12 杭州阿里云飞天信息技术有限公司 目标多模态模型***及构建方法、视频处理模型训练方法、视频处理方法

Similar Documents

Publication Publication Date Title
CN113806587A (zh) 一种多模态特征融合的视频描述文本生成方法
CN110209801B (zh) 一种基于自注意力网络的文本摘要自动生成方法
CN110134771B (zh) 一种基于多注意力机制融合网络问答***的实现方法
CN109874029B (zh) 视频描述生成方法、装置、设备及存储介质
CN110275936B (zh) 一种基于自编码神经网络的相似法律案例检索方法
CN111694924A (zh) 一种事件抽取方法和***
CN112084314A (zh) 一种引入知识的生成式会话***
CN113627266B (zh) 基于Transformer时空建模的视频行人重识别方法
CN112633364A (zh) 一种基于Transformer-ESIM注意力机制的多模态情绪识别方法
CN113987187B (zh) 基于多标签嵌入的舆情文本分类方法、***、终端及介质
CN115617955B (zh) 分级预测模型训练方法、标点符号恢复方法及装置
CN116050401B (zh) 基于Transformer问题关键词预测的多样性问题自动生成方法
CN116450796A (zh) 一种智能问答模型构建方法及设备
CN116564338B (zh) 语音动画生成方法、装置、电子设备和介质
CN111767697B (zh) 文本处理方法、装置、计算机设备以及存储介质
CN117609421A (zh) 基于大语言模型的电力专业知识智能问答***构建方法
CN115361595A (zh) 一种视频弹幕生成方法
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN113254575B (zh) 一种基于多步证据推理的机器阅读理解方法与***
CN117473561A (zh) 基于人工智能的隐私信息识别***、方法、设备及介质
CN113065027A (zh) 视频推荐的方法、装置、电子设备和存储介质
CN114329005A (zh) 信息处理方法、装置、计算机设备及存储介质
CN114065769A (zh) 情感原因对抽取模型的训练方法、装置、设备及介质
CN114550272B (zh) 基于视频时域动态注意力模型的微表情识别方法及装置
US20240153247A1 (en) Automatic data generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20211217