CN109684912A - 一种基于信息损失函数的视频描述方法和*** - Google Patents

一种基于信息损失函数的视频描述方法和*** Download PDF

Info

Publication number
CN109684912A
CN109684912A CN201811329684.4A CN201811329684A CN109684912A CN 109684912 A CN109684912 A CN 109684912A CN 201811329684 A CN201811329684 A CN 201811329684A CN 109684912 A CN109684912 A CN 109684912A
Authority
CN
China
Prior art keywords
video
information
frame
word
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811329684.4A
Other languages
English (en)
Inventor
高科
董嘉蓉
陈潇凯
郭俊波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201811329684.4A priority Critical patent/CN109684912A/zh
Publication of CN109684912A publication Critical patent/CN109684912A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于信息损失函数的视频描述方法和***,包括:获取训练视频,得到集合训练视频每一帧的语义信息;将训练视频的语义信息输入结合LSTM的层次化注意力机制模型中,得到训练视频的文字描述;根据文字描述中每个单词对表达视频内容的重要性,对单词进行损失加权,得到信息损失函数,将信息损失函数作为目标函数反传梯度优化层次化注意力机制模型,得到视频描述模型;获取待描述视频,将待描述视频分别输入至目标检测网络,卷积神经网络和动作识别网络,以得到集合待描述视频每一帧的目标特征、总体特征、运动特征,作为待描述视频的语义信息,将其输入至视频描述模型,得到待描述视频的文字描述。

Description

一种基于信息损失函数的视频描述方法和***
技术领域
本发明涉及计算机视觉与自然语言处理技术领域,具体涉及一种基于信息损失函数的视频描述方法和***,可应用于视频描述、人机交互以及视频检索任务中。
背景技术
视频描述模型架构。目前的视频描述模型主要分为自底向上和自上而下两种结构。自底向上模型先基于视觉信息识别有限的语义单词,再通过语言模板把这些语义单词连接成一句话。研究发现,自底向上生成的语句缺乏灵活性。受到机器翻译任务的启发,研究者们提出基于长短期记忆(以下简称LSTM)的自上而下模型。自上而下模型在生成语句的同时完成语义单词识别,所以该方法能够生成更加多样化的句子。LSTM结合注意力机制的视频描述模型在目前的视频描述任务取得了很好的效果。目前主流方法主要采用的时间注意力机制,而忽视了视频帧内的空间结构。实验证明,在视频中采用时空注意力机制能够提升视频描述的质量。
视频描述的目标方程。目前的视频描述方法一般采用交叉熵损失作为模型的目标方法。尽管对于语言序列的生成很有效,交叉熵损失不能保证模型生成的句子与视频内容语义相关。并且基于交叉熵损失函数的视频描述得到的句子不具有区分性,提供的信息量有限。目前,Pan等人采用相关性损失函数结合交叉熵损失加强生成句子与视频内容的相关性。Ranzato等人用强化学习用句子级奖励对模型进行优化。但是这两种方法没有考虑生成句子的区分性,并且受到交叉熵损失函数的影响。
由于语言结构的特殊性,视频描述数据集中存在单词分布不均的情况。受到单词分布不平衡的影响,现有的损失函数主要被少数的常见词所主导,从而导致现有的视频描述方法常常出现对视频显著且不常见的目标识别错误和细节缺失的问题。视频具有帧内和帧间的层次化结构,利用层次化的视觉特征表达对于生成好的视频描述非常重要。只有极少数的工作采用层次化视觉特征表达。Tu等人采用了时空注意力机制关注帧内和帧间的显著性特征,但是他们关注帧内目标时没有考虑视频上下文信息。
发明内容
发明人在进行视觉描述研究时,发现现有的视频描述方法生成的描述存在细节缺失和识别错误的问题。这种问题是由现有的损失函数受到数据集中单词分布不均现象的影响和现有的方法采用的视觉特征不够丰富导致。单词分布不均的问题可以简单归结为样本不均问题,模型花费了大量精力学习少量的简单样例,从而导致模型对区分性单词的识别错误。但是直接采用解决样本不均的方法(比如增大稀有词的损失权重),会导致模型过分关注稀有词。而稀有词不一定与视频内容相关,从而导致模型学习出现问题。本发明研究发现,根据单词对视频主体内容的重要性值,对单词进行损失加权才能让模型学习生成针对视频显著内容的具有细节和区分性的描述。同时,本发明还发现丰富的视觉特征表达是产生具有细节和区分性描述的基础。本发明提取了视频每帧目标的特征,以及每一帧的特征。本发明发现直接用空间注意力机制关注视频中显著的目标效果不明显并且十分耗时。原因是直接关注帧内的目标没有考虑该目标与视频整体内容的联系,这种情况下只能关注在这帧内显著性目标,而不能保证是整个视频的显著性目标。本发明通过对视频的时序建模以及采用注意力机制同时考虑了视频帧间的联系以及目标本身的内容,来选择整个视频的显著性目标。
具体地说,本发明公开了一种基于信息损失函数的视频描述方法,其中包括:
步骤1、获取训练视频,并将该训练视频分别输入至目标检测网络,卷积神经网络和动作识别网络,以得到并集合该训练视频每一帧的目标特征、总体特征、运动特征,作为该训练视频的语义信息;
步骤2、将该训练视频的语义信息输入结合LSTM的层次化注意力机制模型中,得到该训练视频的文字描述;
步骤3、根据该文字描述中每个单词对表达视频内容的重要性,对单词进行损失加权,得到信息损失函数,将信息损失函数作为目标函数反传梯度优化该层次化注意力机制模型,得到视频描述模型;
步骤4、获取待描述视频,并将该待描述视频分别输入至该目标检测网络,该卷积神经网络和该动作识别网络,以得到并集合该待描述视频每一帧的目标特征、总体特征、运动特征,作为该待描述视频的语义信息,将该待描述视频的语义信息输入至该视频描述模型,得到该待描述视频的文字描述。
该基于信息损失函数的视频描述方法,其中该步骤3包括:
通过衡量每个单词针对该训练视频的信息相关度和信息量,构建该信息损失函数的具体过程包括:
获取信息相关度R(yt|V)为:
R(yt|V)=Nyt′V/NV
其中NV是训练视频V对应的真值视频描述数量,Nyt′V是真值视频描述中包含单词yt的数量;
获取单词yt的信息量I(yt)为:I(yt)=log(1/p(yt));
单词的重要性值由该信息相关度和该信息量组成:f(yt,V)=R(yt|V)γI(yt),其中γ是调和参数,最终该信息损失函数为:
其中λ是该信息损失函数的权衡参数。
该基于信息损失函数的视频描述方法,其中该层次化注意力机制模型包括:帧内目标级注意力机制和帧间帧级注意力机制,且两者分别与两层长短期记忆模型LSTM结合;
LSTM拥有记忆单元和隐状态,能够根据序列历史信息和当前信息更新记忆单元,并产生这一时刻的输出称为隐状态;
第一层LSTM记为LSTMR,用来对视频的每一帧目标进行时序建模;
第二层LSTM记为LSTMF,建模语言序列信息,并依次生成单词;
给定i-1时刻的隐状态和第i帧的目标特征,LSTMR将从开始到第i帧的视频信息编码进第i时刻的隐状态:为目标区域;φi(vri)是通过目标级注意力机制得到的第i帧的视觉特征表达:
其中we、We、Ue、ze是学习得到的参数,vrij为第i帧第j个目标的特征;最终目标特征经过LSTMR编码得到n表示每个视频共有n帧图像;
LSTMF的输入为上一时刻的隐状态,帧级注意力机制输出,以及上一时刻输出的单词:F代表帧级,WE为词嵌入向量,为注意力机制的函数表达,t表示序列的第t时刻,VF为该总体特征,VC为该运动特征;
帧级注意力机制的计算方式为:
指的是注意力机制求得的加权权重,用于特征的加权求和;
最后的单词通过一个单层隐藏层计算得到:Uy为全连接层;
LSTMF在时间步进行迭代直到输出一句完整的视频描述。
该基于信息损失函数的视频描述方法,其中该步骤1包括:通过共享的二维卷积神经网络获取该训练视频每一帧的目标特征。
该基于信息损失函数的视频描述方法,其中λ的值为0.5。
本发明还公开了一种基于信息损失函数的视频描述***,其中包括:
第一模块,用于获取训练视频,并将该训练视频分别输入至目标检测网络,卷积神经网络和动作识别网络,以得到并集合该训练视频每一帧的目标特征、总体特征、运动特征,作为该训练视频的语义信息;
第二模块,用于将该训练视频的语义信息输入结合LSTM的层次化注意力机制模型中,得到该训练视频的文字描述;
第三模块,用于根据该文字描述中每个单词对表达视频内容的重要性,对单词进行损失加权,得到信息损失函数,将信息损失函数作为目标函数反传梯度优化该层次化注意力机制模型,得到视频描述模型;
第四模块,用于获取待描述视频,并将该待描述视频分别输入至该目标检测网络,该卷积神经网络和该动作识别网络,以得到并集合该待描述视频每一帧的目标特征、总体特征、运动特征,作为该待描述视频的语义信息,将该待描述视频的语义信息输入至该视频描述模型,得到该待描述视频的文字描述。
该基于信息损失函数的视频描述***,其中该第一模块包括:
通过衡量每个单词针对该训练视频的信息相关度和信息量,构建该信息损失函数的具体过程包括:
获取信息相关度R(yt|V)为:
R(yt|V)=Nyt′V/NV
其中NV是训练视频V对应的真值视频描述数量,Nyt′V是真值视频描述中包含单词yt的数量;
获取单词yt的信息量I(yt)为:I(yt)=log(1/p(yt));
单词的重要性值由该信息相关度和该信息量组成:f(yt,V)=R(yt|V)γI(yt),其中γ是调和参数,最终该信息损失函数为:
其中λ是该信息损失函数的权衡参数。
该基于信息损失函数的视频描述***,其中该层次化注意力机制模型包括:帧内目标级注意力机制和帧间帧级注意力机制,且两者分别与两层长短期记忆模型LSTM结合;
LSTM拥有记忆单元和隐状态,能够根据序列历史信息和当前信息更新记忆单元,并产生这一时刻的输出称为隐状态;
第一层LSTM记为LSTMR,用来对视频的每一帧目标进行时序建模;
第二层LSTM记为LSTMF,建模语言序列信息,并依次生成单词;
给定i-1时刻的隐状态和第i帧的目标特征,LSTMR将从开始到第i帧的视频信息编码进第i时刻的隐状态:为目标区域;φi(vri)是通过目标级注意力机制得到的第i帧的视觉特征表达:
其中we、We、Ue、ze是学习得到的参数,vrij为第i帧第j个目标的特征;最终目标特征经过LSTMR编码得到n表示每个视频共有n帧图像;
LSTMF的输入为上一时刻的隐状态,帧级注意力机制输出,以及上一时刻输出的单词:F代表帧级,WE为词嵌入向量,为注意力机制的函数表达,t表示序列的第t时刻,VF为该总体特征,VC为该运动特征;
帧级注意力机制的计算方式为:
指的是注意力机制求得的加权权重,用于特征的加权求和;
最后的单词通过一个单层隐藏层计算得到:Uy为全连接层;
LSTMF在时间步进行迭代直到输出一句完整的视频描述。
该基于信息损失函数的视频描述***,其中该第一模块包括:通过共享的二维卷积神经网络获取该训练视频每一帧的目标特征。
该基于信息损失函数的视频描述***,其中λ的值为0.5。
本发明具有的技术效果包括:
1、利用在Visual Genome数据集上预训练的目标检测网络Faster R-CNN提取视频每一帧目标的特征,能够得到更加丰富的语义特征,利于视频描述模型生成具有细节的描述。
2、引入结合LSTM的层次化注意力机制模型,LSTM对视频的视觉信息进行时序建模,层次化注意力机制自适应地提取显著性的目标和运动信息,能够有效地提取连续出现,运动显著的重要目标信息;
3、提出了计算单词针对视频内容重要性值的方法,重要性值考虑单词与视频显著性内容的相关性以及单词本身的信息量,能够很好的体现单词对表达视频内容的重要性。常用单词以及不相关单词重要性值低,与视频内容相关性高且具有区分性的单词重要性值高。
4、提出了一种信息损失函数用于优化模型,该信息损失函数重点学习重要性值高的单词。使用该信息损失函数优化的模型能够用具有细节和区分性的描述表达视频的主体内容。
附图说明
图1A、图1B、图1C、图1D均为注意力机制可视化以及生成的视频描述示意图;
图2为MSVD数据集上的性能评价表格图;
图3为MSR-VTT数据集上的性能评价表格图;
图4为一种基于信息损失函数的视频描述方法流程图;
图5为本发明视频描述整体流程图。
具体实施方式
本发明的目的是克服上述现有视频描述方法生成的语言描述存在语义单词识别错误和细节缺失问题,提出了一种基于信息损失函数的视频描述方法。该方法包括:1)一种叫做信息损失函数的学习策略被用来克服由于数据分布偏差造成的描述模糊问题。2)一种优化的模型框架包括层次化的视觉表达和层次化注意力机制用来充分发挥信息损失函数的潜能。
具体地说如图5所示,本发明公开了一种基于信息损失函数的视频描述方法,其中包括:
步骤1、获取训练视频,并将该训练视频分别输入至目标检测网络,卷积神经网络和动作识别网络,以得到并集合该训练视频每一帧的目标特征、总体特征、运动特征,作为该训练视频的语义信息;
步骤2、将该训练视频的语义信息输入结合LSTM的层次化注意力机制模型中,得到该训练视频的文字描述;
步骤3、根据该文字描述中每个单词对表达视频内容的重要性,对单词进行损失加权,得到信息损失函数,将信息损失函数作为目标函数反传梯度优化该层次化注意力机制模型,得到视频描述模型;
步骤4、获取待描述视频,并将该待描述视频分别输入至该目标检测网络,该卷积神经网络和该动作识别网络,以得到并集合该待描述视频每一帧的目标特征、总体特征、运动特征,作为该待描述视频的语义信息,将该待描述视频的语义信息输入至该视频描述模型,得到该待描述视频的文字描述。
该基于信息损失函数的视频描述方法,其中该步骤3包括:
通过衡量每个单词针对该训练视频的信息相关度和信息量,构建该信息损失函数的具体过程包括:
获取信息相关度R(yt|V)为:
R(yt|V)=Nyt′V/NV
其中NV是训练视频V对应的真值视频描述数量,Nyt′V是真值视频描述中包含单词yt的数量;
获取单词yt的信息量I(yt)为:I(yt)=log(1/p(yt));
单词的重要性值由该信息相关度和该信息量组成:f(yt,V)=R(yt|V)γI(yt),其中γ是调和参数,最终该信息损失函数为:
其中λ是该信息损失函数的权衡参数。
该基于信息损失函数的视频描述方法,其中该层次化注意力机制模型包括:帧内目标级注意力机制和帧间帧级注意力机制,且两者分别与两层长短期记忆模型LSTM结合;
LSTM拥有记忆单元和隐状态,能够根据序列历史信息和当前信息更新记忆单元,并产生这一时刻的输出称为隐状态;
第一层LSTM记为LSTMR,用来对视频的每一帧目标进行时序建模;
第二层LSTM记为LSTMF,建模语言序列信息,并依次生成单词;
给定i-1时刻的隐状态和第i帧的目标特征,LSTMR将从开始到第i帧的视频信息编码进第i时刻的隐状态:为目标区域;φi(vri)是通过目标级注意力机制得到的第i帧的视觉特征表达:
其中we、We、Ue、ze是学习得到的参数,vrij为第i帧第j个目标的特征;最终目标特征经过LSTMR编码得到n表示每个视频共有n帧图像;
LSTMF的输入为上一时刻的隐状态,帧级注意力机制输出,以及上一时刻输出的单词:F代表帧级,WE为词嵌入向量,为注意力机制的函数表达,t表示序列的第t时刻,VF为该总体特征,VC为该运动特征;
帧级注意力机制的计算方式为:
βti指的是注意力机制求得的加权权重,用于特征的加权求和;
最后的单词通过一个单层隐藏层计算得到:Uy为全连接层;
LSTMF在时间步进行迭代直到输出一句完整的视频描述。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
本发明通过目标检测网络Faster R-CNN,卷积神经网络Resnet,动作识别网络C3D分别识别出视频中的动作和对象,提取视频中的语义信息;然后采用基于层次化注意力机制的模型分别对视频的多种语义信息进行建模,自适应地提取视频中显著信息,并去除噪声信息,并将提取的视频显著信息输入到LSTM转换为文字描述;将信息损失函数作为模型的目标函数引导模型产生具有信息量的描述。
一种基于信息损失函数的视频描述方法,参见图4,该方法主要分为以下步骤:
101:对视频进行抽帧处理,用在公开数据集上预训练的目标检测网络FasterR-CNN,卷积神经网络Resnet,动作识别网络C3D分别识别出视频中的动作和对象,提取视频中的语义信息;其中,该算法通过共享的2维卷积神经网络获取帧级特征,然后将其按照时间顺序堆起来组成稠密图,最后通过一层时序卷积网络并行地获取多尺度特征完成分类任务。视频中的动作指的是视频中运动对象执行的动作,通过动作识别网络可以捕捉物体的运动信息,不需要显式指定目标。语义信息指的是视频包含的高层抽象信息,比如视频中的物体,运动等信息,通过以上网络提取的特征可以作为视频语义信息的表达,方便机器学习和理解。
102:将提取的语义信息输入结合LSTM的层次化注意力机制模型中,得到视频描述;
103:计算视频描述中每个单词对表达视频内容的重要性,并依据重要性得到信息损失函数,将信息损失函数作为模型的目标函数优化模型参数,直到收敛。
本发明在训练模型时,通过步骤101-步骤103产生视频的语言描述,并得到结果的损失,根据损失进行反传梯度优化模型。得到训练好的模型后,本发明实例通过步骤101-步骤102产生具有信息量的视频描述,从而可用于视频描述,人机交互以及视频检索任务中。
步骤101所述等间隔采样视频的帧,每个视频抽40帧。采用现有预训练好的目标检测网络Faster R-CNN提取视频每一帧中每个目标的特征得到VR={vr1,…,vrn},vri={vri1,…,vrik}其中k=16表示每帧图片检测的目标数量,n=40表示视频采样的帧数;vrij表示第i帧第j个目标的特征,特征为Faster R-CNN pool5层的特征,维度为2048;VR表示得到的整个视频的目标特征集合。采用分类网络ResNet101提取每一帧的总体特征为VF={vf1,…,vfn},该特征为ResNet101 pool5层的特征,维度为2048。采用动作识别网络C3D提取视频多个片段的运动特征VC={vc1,…,vcn},视频连续16帧作为一个片段,特征为C3Dfc6层的特征,维度为4096维。所以最终提取视频的目标和动作特征集合为V={VR,VF,VC},目标特征和总体特征指的是视频中的对象信息,运动特征指的是运动信息。。
步骤102所述将提取的语义信息V={VR,VF,VC},输入结合LSTM的层次化注意力机制模型中,得到视频描述。本发明为了提取显著性的目标特征和运动特征,构建了层次化注意力机制模型。如图4左侧网络图所示,层次化注意力机制分为帧内目标级注意力机制和帧间帧级注意力机制,这两层注意力机制分别与两层LSTM结合。LSTM拥有记忆单元和隐状态,能够根据序列历史信息和当前信息更新记忆单元,并产生这一时刻的输出称为隐状态。第一层LSTM记为LSTMR,用来对视频的每一帧目标进行时序建模。第二层LSTM记为LSTMF,建模语言序列信息,并依次生成单词。给定i-1时刻的隐状态和第i帧的目标特征,LSTMR将从开始到第i帧的视频信息编码进第i时刻的隐状态: 是通过目标级注意力机制得到的第i帧的视觉特征表达:
其中we、We、Ue、ze是需要学习的参数,h指的是LSTM的隐状态。最终目标特征经过LSTMR编码得到LSTMF的输入为上一时刻的隐状态,帧级注意力机制输出,以及上一时刻输出的单词:帧级注意力机制的计算方式为:最后的单词通过一个单层隐藏层计算得到:LSTMF在时间步进行迭代直到输出一句完整的视频描述。
步骤103所述计算视频描述中每个单词对表达视频内容的重要性,并依据重要性得到信息损失函数,将信息损失函数作为模型的目标函数,优化模型参数,直到收敛。信息损失函数的形式化图示如图4右侧图例所示。信息损失函数通过提升重要词的权重来调整标准交叉熵损失的大小。本发明引进了重要性值衡量每个单词针对给定视频的信息相关度和信息量。本发明通过观察得到人们通常会对视频的主体内容达成共识,越具有代表性的词会越频繁地出现不同人对该视频的描述中,而越不相关的单词出现概率则越少,所以本发明定义信息相关度R(yt|V)为:R(yt|V)=Nyt′V/NV。NV是给定视频V对应的真值视频描述数量,真值(groundtruth)是数据集的标注信息,真值视频描述数量指的是每个视频标注的描述的数量,即一个视频有多少个句子标注,Nyt′V是真值视频描述中包含单词yt的数量。同时本发明还考虑每个单词的信息量。根据信息论,单词出现的概率越小,单词的信息量越多。本发明定义单词的信息量为:I(yt)=log(1/p(yt)),p的含义是概率。单词的重要性值由信息相关度和信息量组成:f(yt,V)=R(yt|V)γI(yt)。其中γ是调和参数,用于调整信息相关度和信息量的合作。最终信息损失函数为:λ是损失函数的权衡参数。λ的取值范围为0~1,通过调参的方式确定,在我们的实验中取值为0.5时模型表现最出色。T表示句子序列的长度,即有多少个单词。t表示句子中的第t个单词。S表示句子,即sentence。信息损失函数用于模型训练过程。
以下为与上述方法实施例对应的***实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还公开了一种基于信息损失函数的视频描述***,其中包括:
第一模块,用于获取训练视频,并将该训练视频分别输入至目标检测网络,卷积神经网络和动作识别网络,以得到并集合该训练视频每一帧的目标特征、总体特征、运动特征,作为该训练视频的语义信息;
第二模块,用于将该训练视频的语义信息输入结合LSTM的层次化注意力机制模型中,得到该训练视频的文字描述;
第三模块,用于根据该文字描述中每个单词对表达视频内容的重要性,对单词进行损失加权,得到信息损失函数,将信息损失函数作为目标函数反传梯度优化该层次化注意力机制模型,得到视频描述模型;
第四模块,用于获取待描述视频,并将该训练视频分别输入至该目标检测网络,该卷积神经网络和该动作识别网络,以得到并集合该待描述视频每一帧的目标特征、总体特征、运动特征,作为该待描述视频的语义信息,将该待描述视频的语义信息输入至该视频描述模型,得到该待描述视频的文字描述。
该基于信息损失函数的视频描述***,其中该第一模块包括:
通过衡量每个单词针对该训练视频的信息相关度和信息量,构建该信息损失函数的具体过程包括:
获取信息相关度R(yt|V)为:
R(yt|V)=Nyt′V/NV
其中NV是训练视频V对应的真值视频描述数量,Nyt′V是真值视频描述中包含单词yt的数量;
获取单词yt的信息量I(yt)为:I(yt)=log(1/p(yt));
单词的重要性值由该信息相关度和该信息量组成:f(yt,V)=R(yt|V)γI(yt),其中γ是调和参数,最终该信息损失函数为:
其中λ是该信息损失函数的权衡参数。
该基于信息损失函数的视频描述***,其中该层次化注意力机制模型包括:帧内目标级注意力机制和帧间帧级注意力机制,且两者分别与两层长短期记忆模型LSTM结合;
LSTM拥有记忆单元和隐状态,能够根据序列历史信息和当前信息更新记忆单元,并产生这一时刻的输出称为隐状态;
第一层LSTM记为LSTMR,用来对视频的每一帧目标进行时序建模;
第二层LSTM记为LSTMF,建模语言序列信息,并依次生成单词;
给定i-1时刻的隐状态和第i帧的目标特征,LSTMR将从开始到第i帧的视频信息编码进第i时刻的隐状态:为目标区域;φi(vri)是通过目标级注意力机制得到的第i帧的视觉特征表达:
其中we、We、Ue、ze是学习得到的参数,vrij为第i帧第j个目标的特征;最终目标特征经过LSTMR编码得到n表示每个视频共有n帧图像;
LSTMF的输入为上一时刻的隐状态,帧级注意力机制输出,以及上一时刻输出的单词:F代表帧级,WE为词嵌入向量,为注意力机制的函数表达,t表示序列的第t时刻,VF为该总体特征,VC为该运动特征;
帧级注意力机制的计算方式为:
βti指的是注意力机制求得的加权权重,用于特征的加权求和;
最后的单词通过一个单层隐藏层计算得到:Uy为全连接层;
LSTMF在时间步进行迭代直到输出一句完整的视频描述。
本发明总的技术效果:
本发明提出了一种信息损失函数能够克服由单词分布不均导致的描述模糊问题。同时为了充分发现该信息损失函数的潜能,本发明提出了基于视觉上下文和语言上下文的层次化注意力机制。本发明分别在两个公开数据集MSVD和MSRVTT上做测试,同时与TA、MAM-RNN、STAT、LSTM-TSA、hLSTMat、SA-LSTM、v2t_navigator、dense caption具有代表性的视频描述方法作比较。衡量的标准是BLEU-4、METEOR、CIDEr。本发明生成的语句在MSVD数据集上所有指标均达到最好。本发明在使用更少种类特征的情况下在MSRVTT取得了具有竞争力的效果。图2是本发明在MSVD数据集上的性能展示,图3是本发明在MSR-VTT数据集上的性能展示。
本发明提出的层次化注意力机制能够关注视频级的显著目标,生成更加准确和具有细节的句子。注意力机制可视化以及生成的句子如附图中图1A、图1B、图1C、图1D所示。

Claims (10)

1.一种基于信息损失函数的视频描述方法,其特征在于,包括:
步骤1、获取训练视频,并将该训练视频分别输入至目标检测网络,卷积神经网络和动作识别网络,以得到并集合该训练视频每一帧的目标特征、总体特征、运动特征,作为该训练视频的语义信息;
步骤2、将该训练视频的语义信息输入结合LSTM的层次化注意力机制模型中,得到该训练视频的文字描述;
步骤3、根据该文字描述中每个单词对表达视频内容的重要性,对单词进行损失加权,得到信息损失函数,将信息损失函数作为目标函数反传梯度优化该层次化注意力机制模型,得到视频描述模型;
步骤4、获取待描述视频,并将该待描述视频分别输入至该目标检测网络,该卷积神经网络和该动作识别网络,以得到并集合该待描述视频每一帧的目标特征、总体特征、运动特征,作为该待描述视频的语义信息,将该待描述视频的语义信息输入至该视频描述模型,得到该待描述视频的文字描述。
2.如权利要求1所述的基于信息损失函数的视频描述方法,其特征在于,该步骤3包括:
通过衡量每个单词针对该训练视频的信息相关度和信息量,构建该信息损失函数的具体过程包括:
获取信息相关度R(yt|V)为:
R(yt|V)=Nyt′V/NV
其中NV是训练视频V对应的真值视频描述数量,Nyt′V是真值视频描述中包含单词yt的数量;
获取单词yt的信息量I(yt)为:I(yt)=log(1/p(yt));
单词的重要性值由该信息相关度和该信息量组成:f(yt,V)=R(yt|V)γI(yt),其中γ是调和参数,最终该信息损失函数为:
其中λ是该信息损失函数的权衡参数。
3.如权利要求1或2所述的基于信息损失函数的视频描述方法,其特征在于,该层次化注意力机制模型包括:帧内目标级注意力机制和帧间帧级注意力机制,且两者分别与两层长短期记忆模型LSTM结合;
LSTM拥有记忆单元和隐状态,能够根据序列历史信息和当前信息更新记忆单元,并产生这一时刻的输出称为隐状态;
第一层LSTM记为LSTMR,用来对视频的每一帧目标进行时序建模;
第二层LSTM记为LSTMF,建模语言序列信息,并依次生成单词;
给定i-1时刻的隐状态和第i帧的目标特征,LSTMR将从开始到第i帧的视频信息编码进第i时刻的隐状态:R为目标区域;φi(vri)是通过目标级注意力机制得到的第i帧的视觉特征表达:
其中we、We、Ue、ze是学习得到的参数,vrij为第i帧第j个目标的特征;最终目标特征经过LSTMR编码得到n表示每个视频共有n帧图像;
LSTMF的输入为上一时刻的隐状态,帧级注意力机制输出,以及上一时刻输出的单词:F代表帧级,WE为词嵌入向量,为注意力机制的函数表达,t表示序列的第t时刻,VF为该总体特征,VC为该运动特征;
帧级注意力机制的计算方式为:
指的是注意力机制求得的加权权重,用于特征的加权求和;
最后的单词通过一个单层隐藏层计算得到:Uy为全连接层;
LSTMF在时间步进行迭代直到输出一句完整的视频描述。
4.如权利要求3所述的基于信息损失函数的视频描述方法,其特征在于,该步骤1包括:通过共享的二维卷积神经网络获取该训练视频每一帧的目标特征。
5.如权利要求2所述的基于信息损失函数的视频描述方法,其特征在于,λ的值为0.5。
6.一种基于信息损失函数的视频描述***,其特征在于,包括:
第一模块,用于获取训练视频,并将该训练视频分别输入至目标检测网络,卷积神经网络和动作识别网络,以得到并集合该训练视频每一帧的目标特征、总体特征、运动特征,作为该训练视频的语义信息;
第二模块,用于将该训练视频的语义信息输入结合LSTM的层次化注意力机制模型中,得到该训练视频的文字描述;
第三模块,用于根据该文字描述中每个单词对表达视频内容的重要性,对单词进行损失加权,得到信息损失函数,将信息损失函数作为目标函数反传梯度优化该层次化注意力机制模型,得到视频描述模型;
第四模块,用于获取待描述视频,并将该待描述视频分别输入至该目标检测网络,该卷积神经网络和该动作识别网络,以得到并集合该待描述视频每一帧的目标特征、总体特征、运动特征,作为该待描述视频的语义信息,将该待描述视频的语义信息输入至该视频描述模型,得到该待描述视频的文字描述。
7.如权利要求6所述的基于信息损失函数的视频描述***,其特征在于,该第一模块包括:
通过衡量每个单词针对该训练视频的信息相关度和信息量,构建该信息损失函数的具体过程包括:
获取信息相关度R(yt|V)为:
R(yt|V)=Nyt′V/NV
其中NV是训练视频V对应的真值视频描述数量,Nyt′V是真值视频描述中包含单词yt的数量;
获取单词yt的信息量I(yt)为:I(yt)=log(1/p(yt));
单词的重要性值由该信息相关度和该信息量组成:f(yt,V)=R(yt|V)γI(yt),其中γ是调和参数,最终该信息损失函数为:
其中λ是该信息损失函数的权衡参数。
8.如权利要求6或7所述的基于信息损失函数的视频描述***,其特征在于,该层次化注意力机制模型包括:帧内目标级注意力机制和帧间帧级注意力机制,且两者分别与两层长短期记忆模型LSTM结合;
LSTM拥有记忆单元和隐状态,能够根据序列历史信息和当前信息更新记忆单元,并产生这一时刻的输出称为隐状态;
第一层LSTM记为LSTMR,用来对视频的每一帧目标进行时序建模;
第二层LSTM记为LSTMF,建模语言序列信息,并依次生成单词;
给定i-1时刻的隐状态和第i帧的目标特征,LSTMR将从开始到第i帧的视频信息编码进第i时刻的隐状态:R为目标区域;φi(vri)是通过目标级注意力机制得到的第i帧的视觉特征表达:
其中we、We、Ue、ze是学习得到的参数,vrij为第i帧第j个目标的特征;最终目标特征经过LSTMR编码得到n表示每个视频共有n帧图像;
LSTMF的输入为上一时刻的隐状态,帧级注意力机制输出,以及上一时刻输出的单词:F代表帧级,WE为词嵌入向量,为注意力机制的函数表达,t表示序列的第t时刻,VF为该总体特征,VC为该运动特征;
帧级注意力机制的计算方式为:
指的是注意力机制求得的加权权重,用于特征的加权求和;
最后的单词通过一个单层隐藏层计算得到:Uy为全连接层;
LSTMF在时间步进行迭代直到输出一句完整的视频描述。
9.如权利要求8所述的基于信息损失函数的视频描述***,其特征在于,该第一模块包括:通过共享的二维卷积神经网络获取该训练视频每一帧的目标特征。
10.如权利要求7所述的基于信息损失函数的视频描述***,其特征在于,λ的值为0.5。
CN201811329684.4A 2018-11-09 2018-11-09 一种基于信息损失函数的视频描述方法和*** Pending CN109684912A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811329684.4A CN109684912A (zh) 2018-11-09 2018-11-09 一种基于信息损失函数的视频描述方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811329684.4A CN109684912A (zh) 2018-11-09 2018-11-09 一种基于信息损失函数的视频描述方法和***

Publications (1)

Publication Number Publication Date
CN109684912A true CN109684912A (zh) 2019-04-26

Family

ID=66185322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811329684.4A Pending CN109684912A (zh) 2018-11-09 2018-11-09 一种基于信息损失函数的视频描述方法和***

Country Status (1)

Country Link
CN (1) CN109684912A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287826A (zh) * 2019-06-11 2019-09-27 北京工业大学 一种基于注意力机制的视频目标检测方法
CN110287374A (zh) * 2019-06-14 2019-09-27 天津大学 一种基于分布一致性的自注意力视频摘要方法
CN110390289A (zh) * 2019-07-17 2019-10-29 苏州大学 基于指称理解的视频安防检测方法
CN110503079A (zh) * 2019-08-30 2019-11-26 山东浪潮人工智能研究院有限公司 一种基于深度神经网络的监控视频描述方法
CN110674783A (zh) * 2019-10-08 2020-01-10 山东浪潮人工智能研究院有限公司 一种基于多级预测架构的视频描述方法及***
CN110717054A (zh) * 2019-09-16 2020-01-21 清华大学 基于对偶学习的跨模态文字生成视频的方法及***
CN111126563A (zh) * 2019-11-25 2020-05-08 中国科学院计算技术研究所 基于孪生网络的时空数据的目标识别方法及***
CN111242033A (zh) * 2020-01-13 2020-06-05 南京大学 一种基于视频和文字对判别分析的视频特征学习方法
CN111340005A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法和***
CN111460883A (zh) * 2020-01-22 2020-07-28 电子科技大学 基于深度强化学习的视频行为自动描述方法
CN111783955A (zh) * 2020-06-30 2020-10-16 北京市商汤科技开发有限公司 神经网络的训练、对话生成方法及装置、存储介质
CN111818397A (zh) * 2020-06-29 2020-10-23 同济大学 一种基于长短时记忆网络变体的视频描述生成方法
CN111866598A (zh) * 2019-04-29 2020-10-30 腾讯美国有限责任公司 训练字幕模型的方法和装置、计算机设备及存储介质
CN112115973A (zh) * 2020-08-18 2020-12-22 吉林建筑大学 一种基于卷积神经网络图像识别方法
CN113204670A (zh) * 2021-05-24 2021-08-03 合肥工业大学 一种基于注意力模型的视频摘要描述生成方法及装置
CN113423004A (zh) * 2021-08-23 2021-09-21 杭州一知智能科技有限公司 基于解耦译码的视频字幕生成方法和***
CN113779310A (zh) * 2021-09-10 2021-12-10 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN114817637A (zh) * 2022-05-06 2022-07-29 桂林电子科技大学 一种基于句子语义的视频描述方法、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170127016A1 (en) * 2015-10-29 2017-05-04 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107766506A (zh) * 2017-10-20 2018-03-06 哈尔滨工业大学 一种基于层次化注意力机制的多轮对话模型构建方法
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170127016A1 (en) * 2015-10-29 2017-05-04 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
CN107038221A (zh) * 2017-03-22 2017-08-11 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN107766506A (zh) * 2017-10-20 2018-03-06 哈尔滨工业大学 一种基于层次化注意力机制的多轮对话模型构建方法
CN107979764A (zh) * 2017-12-06 2018-05-01 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冀中; 江俊杰: "《基于解码器注意力机制的视频摘要》", 《天津大学学报(自然科学与工程技术版)》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111866598B (zh) * 2019-04-29 2024-05-31 腾讯美国有限责任公司 训练字幕模型的方法和装置、计算机设备及存储介质
CN111866598A (zh) * 2019-04-29 2020-10-30 腾讯美国有限责任公司 训练字幕模型的方法和装置、计算机设备及存储介质
CN110287826A (zh) * 2019-06-11 2019-09-27 北京工业大学 一种基于注意力机制的视频目标检测方法
CN110287826B (zh) * 2019-06-11 2021-09-17 北京工业大学 一种基于注意力机制的视频目标检测方法
CN110287374B (zh) * 2019-06-14 2023-01-03 天津大学 一种基于分布一致性的自注意力视频摘要方法
CN110287374A (zh) * 2019-06-14 2019-09-27 天津大学 一种基于分布一致性的自注意力视频摘要方法
CN110390289A (zh) * 2019-07-17 2019-10-29 苏州大学 基于指称理解的视频安防检测方法
CN110503079A (zh) * 2019-08-30 2019-11-26 山东浪潮人工智能研究院有限公司 一种基于深度神经网络的监控视频描述方法
CN110717054A (zh) * 2019-09-16 2020-01-21 清华大学 基于对偶学习的跨模态文字生成视频的方法及***
CN110717054B (zh) * 2019-09-16 2022-07-15 清华大学 基于对偶学习的跨模态文字生成视频的方法及***
CN110674783B (zh) * 2019-10-08 2022-06-28 山东浪潮科学研究院有限公司 一种基于多级预测架构的视频描述方法及***
CN110674783A (zh) * 2019-10-08 2020-01-10 山东浪潮人工智能研究院有限公司 一种基于多级预测架构的视频描述方法及***
CN111126563A (zh) * 2019-11-25 2020-05-08 中国科学院计算技术研究所 基于孪生网络的时空数据的目标识别方法及***
CN111126563B (zh) * 2019-11-25 2023-09-29 中国科学院计算技术研究所 基于孪生网络的时空数据的目标识别方法及***
CN111242033A (zh) * 2020-01-13 2020-06-05 南京大学 一种基于视频和文字对判别分析的视频特征学习方法
CN111242033B (zh) * 2020-01-13 2024-01-09 南京大学 一种基于视频和文字对判别分析的视频特征学习方法
CN111460883B (zh) * 2020-01-22 2022-05-03 电子科技大学 基于深度强化学习的视频行为自动描述方法
CN111460883A (zh) * 2020-01-22 2020-07-28 电子科技大学 基于深度强化学习的视频行为自动描述方法
CN111340005A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法和***
CN111818397A (zh) * 2020-06-29 2020-10-23 同济大学 一种基于长短时记忆网络变体的视频描述生成方法
CN111818397B (zh) * 2020-06-29 2021-10-08 同济大学 一种基于长短时记忆网络变体的视频描述生成方法
CN111783955A (zh) * 2020-06-30 2020-10-16 北京市商汤科技开发有限公司 神经网络的训练、对话生成方法及装置、存储介质
CN112115973B (zh) * 2020-08-18 2022-07-19 吉林建筑大学 一种基于卷积神经网络图像识别方法
CN112115973A (zh) * 2020-08-18 2020-12-22 吉林建筑大学 一种基于卷积神经网络图像识别方法
CN113204670B (zh) * 2021-05-24 2022-12-09 合肥工业大学 一种基于注意力模型的视频摘要描述生成方法及装置
CN113204670A (zh) * 2021-05-24 2021-08-03 合肥工业大学 一种基于注意力模型的视频摘要描述生成方法及装置
CN113423004A (zh) * 2021-08-23 2021-09-21 杭州一知智能科技有限公司 基于解耦译码的视频字幕生成方法和***
CN113423004B (zh) * 2021-08-23 2021-11-30 杭州一知智能科技有限公司 基于解耦译码的视频字幕生成方法和***
CN113779310B (zh) * 2021-09-10 2023-06-02 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN113779310A (zh) * 2021-09-10 2021-12-10 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN114817637A (zh) * 2022-05-06 2022-07-29 桂林电子科技大学 一种基于句子语义的视频描述方法、装置及存储介质
CN114817637B (zh) * 2022-05-06 2024-03-22 桂林电子科技大学 一种基于句子语义的视频描述方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN109684912A (zh) 一种基于信息损失函数的视频描述方法和***
CN111539469B (zh) 一种基于视觉自注意力机制的弱监督细粒度图像识别方法
Li et al. Groupformer: Group activity recognition with clustered spatial-temporal transformer
CN109344288A (zh) 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109597891A (zh) 基于双向长短时记忆神经网络的文本情感分析方法
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN106960206A (zh) 字符识别方法和字符识别***
CN109753567A (zh) 一种结合标题与正文注意力机制的文本分类方法
CN108875807A (zh) 一种基于多注意力多尺度的图像描述方法
CN109522411A (zh) 一种基于神经网络的写作辅助方法
CN108830334A (zh) 一种基于对抗式迁移学习的细粒度目标判别方法
CN108681539A (zh) 一种基于卷积神经网络的蒙汉神经翻译方法
CN107818302A (zh) 基于卷积神经网络的非刚性多尺度物体检测方法
CN110516539A (zh) 基于对抗网络的遥感影像建筑物提取方法、***、存储介质及设备
CN106845499A (zh) 一种基于自然语言语义的图像目标检测方法
CN107423756A (zh) 基于深度卷积神经网络结合长短期记忆模型的核磁共振图像序列分类方法
CN110533737A (zh) 基于结构引导汉字字体生成的方法
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成***及方法
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及***
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN110490136A (zh) 一种基于知识蒸馏的人体行为预测方法
CN109711401A (zh) 一种基于Faster Rcnn的自然场景图像中的文本检测方法
CN113204675B (zh) 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN110288029A (zh) 基于Tri-LSTMs模型的图像描述方法
CN110263822A (zh) 一种基于多任务学习方式的图像情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190426

WD01 Invention patent application deemed withdrawn after publication