CN115496134A - 基于多模态特征融合的交通场景视频描述生成方法和装置 - Google Patents

基于多模态特征融合的交通场景视频描述生成方法和装置 Download PDF

Info

Publication number
CN115496134A
CN115496134A CN202211113115.2A CN202211113115A CN115496134A CN 115496134 A CN115496134 A CN 115496134A CN 202211113115 A CN202211113115 A CN 202211113115A CN 115496134 A CN115496134 A CN 115496134A
Authority
CN
China
Prior art keywords
information
video
fusion
feature
traffic scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211113115.2A
Other languages
English (en)
Other versions
CN115496134B (zh
Inventor
刘宏哲
李铭兴
张�浩
徐成
潘卫国
代松银
徐冰心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Union University
Original Assignee
Beijing Union University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Union University filed Critical Beijing Union University
Priority to CN202211113115.2A priority Critical patent/CN115496134B/zh
Publication of CN115496134A publication Critical patent/CN115496134A/zh
Application granted granted Critical
Publication of CN115496134B publication Critical patent/CN115496134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开一种基于多模态特征融合的交通场景视频描述生成方法和装置,包括:获取视频特征信息和音频特征信息;将所述视频特征信息和音频特征信息分别进行线性映射形成Transformer的特征向量;将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合;将多模态信息融合结果输入到解码器,得到每一个单词的概率分布;根据所述每一个单词的概率分布,得到交通场景视频的文本语句描述。采用本发明的技术方案,解决在使用多模态信息进行视频描述处理的时候往往存在多模态信息之间融合度低和模型计算量大的问题。

Description

基于多模态特征融合的交通场景视频描述生成方法和装置
技术领域
本发明属于机器视觉领域和自然语言处理领域,本发明涉及一种基于多模态特征融合的交通场景视频描述生成方法和装置。
背景技术
在主流的视频描述算法中普遍使用RNN(循环神经网络)和Transformer架构进行算法实现。基于RNN的算法需要将视频信息逐一按照顺序进行输入在逐一输出,并不能将视频的特征序列一起输入。而使用Transformer的模型可以将视频的特征序列同时输入到模型中,Transformer具有编码器和解码器两个部分,其中编码器部分通过多头注意力可以将整个特征序列当作输入进行处理。然后再对其输出做一个残差求和,得到的结果输入到一个前馈神经网络当中,在进行残差求和输入到下一层编码器。经过多层的编码器编码得到一个内在表征,在解码器中给再将其与经过掩码多头注意力处理的词嵌入向量作为输入进行和编码器相同的操作最终生成文本描述。目前文本生成算法中性能最好的算法绝大多数都是基于Transformer的模型。在交通场景下单一模态能够使用到的信息是有限的,因此在处理复杂场景问题的时候往往会考虑采用多模态信息进行处理。然而现有模型在使用多模态信息进行视频描述处理的时候往往存在多模态信息之间融合度低和模型计算量大的问题。
发明内容
本发明要解决的技术问问题是,提供一种基于多模态特征融合的交通场景视频描述生成方法和装置,解决在使用多模态信息进行视频描述处理的时候往往存在多模态信息之间融合度低和模型计算量大的问题。
为实现上述目的,本发明采用如下的技术方案:
一种基于多模态特征融合的交通场景视频描述生成方法,包括以下步骤:
步骤S1、获取视频特征信息和音频特征信息;
步骤S2、将所述视频特征信息和音频特征信息分别进行线性映射形成Transformer的特征向量;
步骤S3、将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合;
步骤S4、将多模态信息融合结果输入到解码器,得到每一个单词的概率分布;
步骤S5、根据所述每一个单词的概率分布,得到交通场景视频的文本语句描述。
作为优选,步骤S1中,通过I3D模型和VGGish模型分别提取所述视频特征信息和音频特征信息。
作为优选,步骤S3包括:
步骤S31、将所述Transformer的特征向量输入到多头自注意力编码器,得到第四层编码器输出的视频特征信息和音频特征信息;
步骤S32、将所述第四层编码器输出的视频特征信息和音频特征信息以及注意力瓶颈信息输入到所述交叉注意力编码器进行多模态信息融合。
作为优选,步骤S5、根据所述每一个单词的概率分布,通过贪婪算法选出下一个单词,得到交通场景视频的文本语句描述。
本发明还公开一种基于多模态特征融合的交通场景视频描述生成装置,包括:
获取模块,用于获取视频特征信息和音频特征信息;
预处理模块,用于将所述视频特征信息和音频特征信息分别进行线性映射形成Transformer的特征向量;
融合模块,用于将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合;
解码模块,用于将多模态信息融合结果输入到解码器,得到每一个单词的概率分布;
生成模块,用于根据所述每一个单词的概率分布,得到交通场景视频的文本语句描述。
作为优选,所述获取模块通过I3D模型和VGGish模型分别提取所述视频特征信息和音频特征信息。
作为优选,所述融合模块包括:
第一编码单元,用于将所述Transformer的特征向量输入到多头自注意力编码器,得到第四层编码器输出的视频特征信息和音频特征信息;
第二编码单元,用于将所述第四层编码器输出的视频特征信息和音频特征信息以及注意力瓶颈信息输入到所述交叉注意力编码器进行多模态信息融合。
作为优选,所述生成装置根据所述每一个单词的概率分布,通过贪婪算法选出下一个单词,得到交通场景视频的文本语句描述。
本发明首先通过训练好的I3D模型和VGGish模型分别提取视频动作特征和音频特征,然后将其进行线性映射形成可以输入到Transformer的特征向量。再通过自注意力编码器同时训练两个模态的信息,然后在第四层编码器的输出部分在视频信息和音频信息中间***注意力瓶颈信息,从而得到新的特征向量,然后输入到交叉注意力编码器进行多模态信息的融合;最终得到包含了多模态信息的向量映射,再将其输入到解码器当中,同时解码器还以视频描述的语句编码向量作为输入,通过解码器最终生成每一个单词的概率分布,从而通过贪婪算法输出单词,最终生成描述语句。为了应对复杂的交通场景本发明基于Transformer模型通过加入注意力瓶颈模块实现多模态信息的融合,有效提升了多模态信息之间的融合性能从而得到更加准确的描述结果。
附图说明
图1是本发明基于多模态特征融合的交通场景视频描述生成方法的流程图;
图2是本发明基于多模态特征融合的交通场景视频描述生成装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:
如图1所示,本发明提供一种基于多模态特征融合的交通场景视频描述生成方法,包括以下步骤:
步骤S1、获取视频特征信息和音频特征信息;
步骤S2、将所述视频特征信息和音频特征信息分别进行线性映射形成Transformer的特征向量;
步骤S3、将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合;
步骤S4、将多模态信息融合结果输入到解码器,得到每一个单词的概率分布;
步骤S5、根据所述每一个单词的概率分布,得到交通场景视频的文本语句描述。
作为本发明实施例的一种实施方式,步骤S1中,使用I3D模型提取视频特征,得到视频特征信息
Figure BDA0003844367940000051
使用VGGish网络提取音频特征,得到音频特征信息
Figure BDA0003844367940000052
作为本发明实施例的一种实施方式,步骤S2中,首先将I3D模型提取的视频特征和VGGish提取的音频特征映射到一维的向量空间并拼接到一起组成编码器的输入F=(V||A),其中,||代表拼接操作;将描述语句进行词嵌入处理,得到Transformer的特征向量e≤t=(e1,e2,...,et)。
作为本发明实施例的一种实施方式,步骤S中,通过Transformer的编码器模块进行多模态特征的融合,编码器部分以特征
Figure BDA0003844367940000061
Figure BDA0003844367940000062
为输入,将F映射到一系列的内在表征Z=(z1,z2,...,zT)。本发明采用了两种编码器进行编码处理,分别是多头自注意力编码器和交叉注意力编码器,并且在交叉注意力编码器的输入中***注意力瓶颈信息形符(tokens),具体包括:
步骤S3:先通过多头自注意力编码器对单一模态信息进行训练。使用13D模型和Vggish模型对视频提取特征,再将其映射到线性空间得到线性特征序列V=(v1,v2,...,vT)和A=(a1,a2,...,aT),将其拼接在一起得到特征
Figure BDA0003844367940000063
将其先输入到多头自注意力编码器中分别训练每一种单一模态,第一层编码器以特征F为输入输出其内在表征zl,之后每层都已前一层输出作为输入通过层归一化计算得
Figure BDA0003844367940000064
接着输入到多头自注意力机制
Figure BDA0003844367940000065
Figure BDA0003844367940000066
再进行一次层归一化
Figure BDA0003844367940000067
最后通过一个全连接层得到编码器的输出
Figure BDA0003844367940000068
多头自注意力编码器的第l层编码器简写为zl+1=Encoder(zl),当l=0时z1=Encoder(F)。在第四层得到输出Z=[Zrgb||Zspec],其中Zrgb、Zspec分别为视觉信息和音频信息第四层编码器的输出,通过||进行拼接。
步骤S32、将第四层编码器的输出输入到交叉注意力编码器进行多模态信息的融合。在第四层编码器输出上加入B个注意力瓶颈信息形符(tokens),记为:
Figure BDA0003844367940000071
则交叉注意力编码器的输入变为Z=[Zrgb||Zfsn||Zspec]。将其作为引入交叉注意力的编码器的输入;
其中,zl
Figure BDA0003844367940000072
的拼接,先生成临时瓶颈融合形符
Figure BDA0003844367940000073
i可取rgb,spec。l=5时
Figure BDA0003844367940000074
之后对于每层Transformer而言计算过程变为:
Figure BDA0003844367940000075
Figure BDA0003844367940000076
作为本发明实施的一种实施方式,步骤S4中,解码器以编码器的输出Z以及一段描述w≤t=(w1,w2,...,wt)的词嵌入表示e≤t=(e1,e2,...,et)作为输入,最终得到输出g≤t=(g1,g2,...,gt)。
作为本发明实施的一种实施方式,步骤S5中,将解码器的输出g≤t=(g1,g2,...,gt)最为输入通过SoftMax层得到每一个单词的概率分布;然后通过贪婪算法选出下一个单词,最终生成交通场景视频的文本语句描述。
本发明首先通过训练好的I3D模型和VGGish模型分别提取视频动作特征和音频特征,然后将其进行线性映射形成可以输入到Transformer的特征向量。再通过自注意力编码器同时训练两个模态的信息,然后在第四层编码器的输出部分在视频信息和音频信息中间***注意力瓶颈信息,从而得到新的特征向量,然后输入到交叉注意力编码器进行多模态信息的融合;最终得到包含了多模态信息的向量映射,再将其输入到解码器当中,同时解码器还以视频描述的语句编码向量作为输入,通过解码器最终生成每一个单词的概率分布,从而通过贪婪算法输出单词,最终生成交通场景视频的文本语句描述。
实施例2:
本发明实施例提供一种基于多模态特征融合的交通场景视频描述生成方法,包括:
步骤S1、使用FFmpeg对视频进行抽帧处理fps设置为5,最大帧数设置为60。然后采用I3D模型对视频帧提取动作特征以及使用VGGish模型对视频数据集进行音频特征提取。本发明使用的I3D模型使用在kinetics数据集预训练得到的权重,VGGish使用在AudioSet数据集预训练得到的权重
步骤S2、对数据集中的视频描述语句进行词典对应统计即w≤t=(w1,w2,...,wt);并对词典中的单词进行热编码(one-hot)。由于文本数据的表示通常时比较稀疏的单词之间缺少关联性,因此可以通过嵌入不同大小的维度DT从而降低文本输入的维度,即通过将嵌入权重乘以
Figure BDA0003844367940000081
得到更低维度的单词向量。之后为了使得Transformer模型能够感知单词向量中词语的序列顺序,通过正弦函数和余弦函数组合的方式为文本输入进行位置编码最终得到e≤t=(e1,e2,...,et)作为第一层解码器的输入。
步骤S3、将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合;具体为:
自注意力编码器可简化为zl+1=Encoder(zl),当即:
Figure BDA0003844367940000091
Figure BDA0003844367940000092
将提取的视频动作特征Vrgb和音频特征Vspec分别进行线性映射为512维度和128维度的向量进行拼接得到V=[Vrgb||Vspec]作为自注意力编码器的输入,先进行层归一化
Figure BDA0003844367940000093
得到的归一化再输入到多头自注意力机制当中得到结果,
之后经过残差链接得到
Figure BDA0003844367940000094
在经过一次归一化之后经过全连接层得到输出zl+1,此时
Figure BDA0003844367940000095
在第四层自注意力编码器输出之间接入2个注意力瓶颈信息形符(tokens),
Figure BDA0003844367940000096
则交叉注意力编码器的输入变为Z=[Zrgb||Zfsn||Zspec]。
首先生成临时瓶颈融合形符
Figure BDA0003844367940000097
i可取rgb,spec。
l=5时,
Figure BDA0003844367940000098
之后对于每层Transformer而言计算过程变为:
Figure BDA0003844367940000099
Figure BDA00038443679400000910
步骤S4、将多模态信息融合结果输入到解码器,得到每一个单词的概率分布;具体为:解码器以一组嵌入字
Figure BDA00038443679400000911
和编码的输出Zj作为输入,首先t时刻的嵌入字先进行层归一化处理,接着通过多头自注意力机制得到
Figure BDA0003844367940000101
通过残差连接得到
Figure BDA0003844367940000102
再进行一个层归一化得到
Figure BDA0003844367940000103
与编码器得到的输出Zj一起输入到多头自注意力机制中计算过程如下:
Figure BDA0003844367940000104
最后经过一个全连接层计算:
Figure BDA0003844367940000105
FCN(x)=ReLU(xW1+b1)W2+b2
得到第l层解码器的输出
Figure BDA0003844367940000106
其中
Figure BDA0003844367940000107
且偏执量b1、b2为可训练参数。
步骤S5、根据所述每一个单词的概率分布,得到交通场景视频的文本语句描述;具体为:在t时刻,生成器将解码器的输出
Figure BDA0003844367940000108
作为输入,并在单词词典
Figure BDA0003844367940000109
上生成概率分布。生成器通过将解码器的输出通过SoftMax函数得到每一个单词的概率分布p(t)=[0.013,0.571,0.025,0.023,0.019,…,0.001],并通过选择概率最高的单词作为下一个单词,此时序列为2的单词概率最高因此使将输出p(t)(2)所对应的单词。
实施例3:
如图2所示,本发明还公开一种基于多模态特征融合的交通场景视频描述生成装置,包括:
获取模块,用于获取视频特征信息和音频特征信息;
预处理模块,用于将所述视频特征信息和音频特征信息分别进行线性映射形成Transformer的特征向量;
融合模块,用于将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合;
解码模块,用于将多模态信息融合结果输入到解码器,得到每一个单词的概率分布;
生成模块,用于根据所述每一个单词的概率分布,得到交通场景视频的文本语句描述。
作为本发明实施例的一种实施方式,所述获取模块通过I3D模型和VGGish模型分别提取所述视频特征信息和音频特征信息。
作为本发明实施例的一种实施方式,所述融合模块包括:
第一编码单元,用于将所述Transformer的特征向量输入到多头自注意力编码器,得到第四层编码器输出的视频特征信息和音频特征信息;
第二编码单元,用于将所述第四层编码器输出的视频特征信息和音频特征信息以及注意力瓶颈信息输入到所述交叉注意力编码器进行多模态信息融合。
作为本发明实施例的一种实施方式,所述生成装置根据所述每一个单词的概率分布,通过贪婪算法选出下一个单词,得到交通场景视频的文本语句描述。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (8)

1.一种基于多模态特征融合的交通场景视频描述生成方法,其特征在于,包括以下步骤:
步骤S1、获取视频特征信息和音频特征信息;
步骤S2、将所述视频特征信息和音频特征信息分别进行线性映射形成Transformer的特征向量;
步骤S3、将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合;
步骤S4、将多模态信息融合结果输入到解码器,得到每一个单词的概率分布;
步骤S5、根据所述每一个单词的概率分布,得到交通场景视频的文本语句描述。
2.如权利要求1所述的基于多模态特征融合的交通场景视频描述生成方法,其特征在于,步骤S1中,通过I3D模型和VGGish模型分别提取所述视频特征信息和音频特征信息。
3.如权利要求2所述的基于多模态特征融合的交通场景视频描述生成方法,其特征在于,步骤S3包括:
步骤S31、将所述Transformer的特征向量输入到多头自注意力编码器,得到第四层编码器输出的视频特征信息和音频特征信息;
步骤S32、将所述第四层编码器输出的视频特征信息和音频特征信息以及注意力瓶颈信息输入到所述交叉注意力编码器进行多模态信息融合。
4.如权利要求3所述的基于多模态特征融合的交通场景视频描述生成方法,其特征在于,步骤S5、根据所述每一个单词的概率分布,通过贪婪算法选出下一个单词,得到交通场景视频的文本语句描述。
5.一种基于多模态特征融合的交通场景视频描述生成装置,其特征在于,包括:
获取模块,用于获取视频特征信息和音频特征信息;
预处理模块,用于将所述视频特征信息和音频特征信息分别进行线性映射形成Transformer的特征向量;
融合模块,用于将所述Transformer的特征向量输入到多头自注意力编码器和交叉注意力编码器进行多模态信息融合;
解码模块,用于将多模态信息融合结果输入到解码器,得到每一个单词的概率分布;
生成模块,用于根据所述每一个单词的概率分布,得到交通场景视频的文本语句描述。
6.如权利要求5所述的基于多模态特征融合的交通场景视频描述生成装置,其特征在于,所述获取模块通过I3D模型和VGGish模型分别提取所述视频特征信息和音频特征信息。
7.如权利要求6所述的基于多模态特征融合的交通场景视频描述生成装置,其特征在于,所述融合模块包括:
第一编码单元,用于将所述Transformer的特征向量输入到多头自注意力编码器,得到第四层编码器输出的视频特征信息和音频特征信息;
第二编码单元,用于将所述第四层编码器输出的视频特征信息和音频特征信息以及注意力瓶颈信息输入到所述交叉注意力编码器进行多模态信息融合。
8.如权利要求7所述的基于多模态特征融合的交通场景视频描述生成装置,其特征在于,所述生成装置根据所述每一个单词的概率分布,通过贪婪算法选出下一个单词,得到交通场景视频的文本语句描述。
CN202211113115.2A 2022-09-14 2022-09-14 基于多模态特征融合的交通场景视频描述生成方法和装置 Active CN115496134B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211113115.2A CN115496134B (zh) 2022-09-14 2022-09-14 基于多模态特征融合的交通场景视频描述生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211113115.2A CN115496134B (zh) 2022-09-14 2022-09-14 基于多模态特征融合的交通场景视频描述生成方法和装置

Publications (2)

Publication Number Publication Date
CN115496134A true CN115496134A (zh) 2022-12-20
CN115496134B CN115496134B (zh) 2023-10-03

Family

ID=84467914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211113115.2A Active CN115496134B (zh) 2022-09-14 2022-09-14 基于多模态特征融合的交通场景视频描述生成方法和装置

Country Status (1)

Country Link
CN (1) CN115496134B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089654A (zh) * 2023-04-07 2023-05-09 杭州东上智能科技有限公司 一种基于音频监督的可转移视听文本生成方法和***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069361A (zh) * 2020-08-27 2020-12-11 新华智云科技有限公司 一种基于多模态融合的视频描述文本生成方法
CN113806587A (zh) * 2021-08-24 2021-12-17 西安理工大学 一种多模态特征融合的视频描述文本生成方法
CN114359768A (zh) * 2021-09-30 2022-04-15 中远海运科技股份有限公司 一种基于多模态异质特征融合的视频密集事件描述方法
CN114461851A (zh) * 2021-12-16 2022-05-10 苏州零样本智能科技有限公司 一种可交互Transformer的多模态视频密集事件描述算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069361A (zh) * 2020-08-27 2020-12-11 新华智云科技有限公司 一种基于多模态融合的视频描述文本生成方法
CN113806587A (zh) * 2021-08-24 2021-12-17 西安理工大学 一种多模态特征融合的视频描述文本生成方法
CN114359768A (zh) * 2021-09-30 2022-04-15 中远海运科技股份有限公司 一种基于多模态异质特征融合的视频密集事件描述方法
CN114461851A (zh) * 2021-12-16 2022-05-10 苏州零样本智能科技有限公司 一种可交互Transformer的多模态视频密集事件描述算法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089654A (zh) * 2023-04-07 2023-05-09 杭州东上智能科技有限公司 一种基于音频监督的可转移视听文本生成方法和***

Also Published As

Publication number Publication date
CN115496134B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN111160343B (zh) 一种基于Self-Attention的离线数学公式符号识别方法
CN113313022B (zh) 文字识别模型的训练方法和识别图像中文字的方法
CN112084841B (zh) 跨模态的图像多风格字幕生成方法及***
CN110795556A (zh) 一种基于细粒度***式解码的摘要生成方法
CN111325660B (zh) 一种基于文本数据的遥感图像风格转换方法
CN115471851B (zh) 融合双重注意力机制的缅甸语图像文本识别方法及装置
CN113901894A (zh) 一种视频生成方法、装置、服务器及存储介质
CN113961736B (zh) 文本生成图像的方法、装置、计算机设备和存储介质
CN111402365B (zh) 一种基于双向架构对抗生成网络的由文字生成图片的方法
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN113362416B (zh) 基于目标检测的文本生成图像的方法
CN107463928A (zh) 基于ocr和双向lstm的文字序列纠错算法、***及其设备
CN113140023B (zh) 一种基于空间注意力的文本到图像生成方法及***
CN110473267A (zh) 基于注意力特征提取网络的社交网络图像描述生成方法
CN112070114A (zh) 基于高斯约束注意力机制网络的场景文字识别方法及***
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN113095405A (zh) 基于预训练及双层注意力的图像描述生成***的构建方法
CN114708474A (zh) 一种融合局部和全局特征的图像语义理解算法
CN113936243A (zh) 一种离散表征的视频行为识别***及方法
CN112765317A (zh) 一种引入类信息的文本生成图像方法及装置
CN116206314A (zh) 模型训练方法、公式识别方法、装置、介质及设备
CN115496134A (zh) 基于多模态特征融合的交通场景视频描述生成方法和装置
CN114332479A (zh) 一种目标检测模型的训练方法及相关装置
CN114022582A (zh) 一种文本生成图像方法
CN117251795A (zh) 基于自适应融合的多模态虚假新闻检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant