CN109684912A

CN109684912A - 一种基于信息损失函数的视频描述方法和***

Info

Publication number: CN109684912A
Application number: CN201811329684.4A
Authority: CN
Inventors: 高科; 董嘉蓉; 陈潇凯; 郭俊波
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2019-04-26

Abstract

本发明涉及一种基于信息损失函数的视频描述方法和***，包括：获取训练视频，得到集合训练视频每一帧的语义信息；将训练视频的语义信息输入结合LSTM的层次化注意力机制模型中，得到训练视频的文字描述；根据文字描述中每个单词对表达视频内容的重要性，对单词进行损失加权，得到信息损失函数，将信息损失函数作为目标函数反传梯度优化层次化注意力机制模型，得到视频描述模型；获取待描述视频，将待描述视频分别输入至目标检测网络，卷积神经网络和动作识别网络，以得到集合待描述视频每一帧的目标特征、总体特征、运动特征，作为待描述视频的语义信息，将其输入至视频描述模型，得到待描述视频的文字描述。

Description

一种基于信息损失函数的视频描述方法和***

技术领域

本发明涉及计算机视觉与自然语言处理技术领域，具体涉及一种基于信息损失函数的视频描述方法和***，可应用于视频描述、人机交互以及视频检索任务中。

背景技术

视频描述模型架构。目前的视频描述模型主要分为自底向上和自上而下两种结构。自底向上模型先基于视觉信息识别有限的语义单词，再通过语言模板把这些语义单词连接成一句话。研究发现，自底向上生成的语句缺乏灵活性。受到机器翻译任务的启发，研究者们提出基于长短期记忆(以下简称LSTM)的自上而下模型。自上而下模型在生成语句的同时完成语义单词识别，所以该方法能够生成更加多样化的句子。LSTM结合注意力机制的视频描述模型在目前的视频描述任务取得了很好的效果。目前主流方法主要采用的时间注意力机制，而忽视了视频帧内的空间结构。实验证明,在视频中采用时空注意力机制能够提升视频描述的质量。

视频描述的目标方程。目前的视频描述方法一般采用交叉熵损失作为模型的目标方法。尽管对于语言序列的生成很有效，交叉熵损失不能保证模型生成的句子与视频内容语义相关。并且基于交叉熵损失函数的视频描述得到的句子不具有区分性，提供的信息量有限。目前，Pan等人采用相关性损失函数结合交叉熵损失加强生成句子与视频内容的相关性。Ranzato等人用强化学习用句子级奖励对模型进行优化。但是这两种方法没有考虑生成句子的区分性，并且受到交叉熵损失函数的影响。

由于语言结构的特殊性，视频描述数据集中存在单词分布不均的情况。受到单词分布不平衡的影响，现有的损失函数主要被少数的常见词所主导，从而导致现有的视频描述方法常常出现对视频显著且不常见的目标识别错误和细节缺失的问题。视频具有帧内和帧间的层次化结构，利用层次化的视觉特征表达对于生成好的视频描述非常重要。只有极少数的工作采用层次化视觉特征表达。Tu等人采用了时空注意力机制关注帧内和帧间的显著性特征，但是他们关注帧内目标时没有考虑视频上下文信息。

发明内容

发明人在进行视觉描述研究时，发现现有的视频描述方法生成的描述存在细节缺失和识别错误的问题。这种问题是由现有的损失函数受到数据集中单词分布不均现象的影响和现有的方法采用的视觉特征不够丰富导致。单词分布不均的问题可以简单归结为样本不均问题，模型花费了大量精力学习少量的简单样例，从而导致模型对区分性单词的识别错误。但是直接采用解决样本不均的方法(比如增大稀有词的损失权重)，会导致模型过分关注稀有词。而稀有词不一定与视频内容相关，从而导致模型学习出现问题。本发明研究发现，根据单词对视频主体内容的重要性值，对单词进行损失加权才能让模型学习生成针对视频显著内容的具有细节和区分性的描述。同时，本发明还发现丰富的视觉特征表达是产生具有细节和区分性描述的基础。本发明提取了视频每帧目标的特征，以及每一帧的特征。本发明发现直接用空间注意力机制关注视频中显著的目标效果不明显并且十分耗时。原因是直接关注帧内的目标没有考虑该目标与视频整体内容的联系，这种情况下只能关注在这帧内显著性目标，而不能保证是整个视频的显著性目标。本发明通过对视频的时序建模以及采用注意力机制同时考虑了视频帧间的联系以及目标本身的内容，来选择整个视频的显著性目标。

具体地说，本发明公开了一种基于信息损失函数的视频描述方法，其中包括：

步骤1、获取训练视频，并将该训练视频分别输入至目标检测网络，卷积神经网络和动作识别网络，以得到并集合该训练视频每一帧的目标特征、总体特征、运动特征，作为该训练视频的语义信息；

步骤2、将该训练视频的语义信息输入结合LSTM的层次化注意力机制模型中，得到该训练视频的文字描述；

步骤3、根据该文字描述中每个单词对表达视频内容的重要性，对单词进行损失加权，得到信息损失函数，将信息损失函数作为目标函数反传梯度优化该层次化注意力机制模型，得到视频描述模型；

步骤4、获取待描述视频，并将该待描述视频分别输入至该目标检测网络，该卷积神经网络和该动作识别网络，以得到并集合该待描述视频每一帧的目标特征、总体特征、运动特征，作为该待描述视频的语义信息，将该待描述视频的语义信息输入至该视频描述模型，得到该待描述视频的文字描述。

该基于信息损失函数的视频描述方法，其中该步骤3包括：

通过衡量每个单词针对该训练视频的信息相关度和信息量，构建该信息损失函数的具体过程包括：

获取信息相关度R(y_t|V)为：

R(y_t|V)＝N_yt′V/N_V

其中N_V是训练视频V对应的真值视频描述数量，N_yt′V是真值视频描述中包含单词y_t的数量；

获取单词y_t的信息量I(y_t)为：I(y_t)＝log(1/p(y_t))；

单词的重要性值由该信息相关度和该信息量组成：f(y_t,V)＝R(y_t|V)^γI(y_t)，其中γ是调和参数，最终该信息损失函数为：

其中λ是该信息损失函数的权衡参数。

该基于信息损失函数的视频描述方法，其中该层次化注意力机制模型包括：帧内目标级注意力机制和帧间帧级注意力机制，且两者分别与两层长短期记忆模型LSTM结合；

LSTM拥有记忆单元和隐状态，能够根据序列历史信息和当前信息更新记忆单元，并产生这一时刻的输出称为隐状态；

第一层LSTM记为LSTM_R，用来对视频的每一帧目标进行时序建模；

第二层LSTM记为LSTM_F，建模语言序列信息，并依次生成单词；

给定i-1时刻的隐状态和第i帧的目标特征，LSTM_R将从开始到第i帧的视频信息编码进第i时刻的隐状态：为目标区域；φ_i(vr_i)是通过目标级注意力机制得到的第i帧的视觉特征表达：

其中w_e、W_e、U_e、z_e是学习得到的参数，vr_ij为第i帧第j个目标的特征；最终目标特征经过LSTM_R编码得到n表示每个视频共有n帧图像；

LSTM_F的输入为上一时刻的隐状态，帧级注意力机制输出，以及上一时刻输出的单词：F代表帧级，W_E为词嵌入向量，为注意力机制的函数表达，t表示序列的第t时刻，VF为该总体特征，VC为该运动特征；

帧级注意力机制的计算方式为：

指的是注意力机制求得的加权权重，用于特征的加权求和；

最后的单词通过一个单层隐藏层计算得到：U_y为全连接层；

LSTM_F在时间步进行迭代直到输出一句完整的视频描述。

该基于信息损失函数的视频描述方法，其中该步骤1包括：通过共享的二维卷积神经网络获取该训练视频每一帧的目标特征。

该基于信息损失函数的视频描述方法，其中λ的值为0.5。

本发明还公开了一种基于信息损失函数的视频描述***，其中包括：

第一模块，用于获取训练视频，并将该训练视频分别输入至目标检测网络，卷积神经网络和动作识别网络，以得到并集合该训练视频每一帧的目标特征、总体特征、运动特征，作为该训练视频的语义信息；

第二模块，用于将该训练视频的语义信息输入结合LSTM的层次化注意力机制模型中，得到该训练视频的文字描述；

第三模块，用于根据该文字描述中每个单词对表达视频内容的重要性，对单词进行损失加权，得到信息损失函数，将信息损失函数作为目标函数反传梯度优化该层次化注意力机制模型，得到视频描述模型；

第四模块，用于获取待描述视频，并将该待描述视频分别输入至该目标检测网络，该卷积神经网络和该动作识别网络，以得到并集合该待描述视频每一帧的目标特征、总体特征、运动特征，作为该待描述视频的语义信息，将该待描述视频的语义信息输入至该视频描述模型，得到该待描述视频的文字描述。

该基于信息损失函数的视频描述***，其中该第一模块包括：

获取信息相关度R(y_t|V)为：

R(y_t|V)＝N_yt′V/N_V

获取单词y_t的信息量I(y_t)为：I(y_t)＝log(1/p(y_t))；

其中λ是该信息损失函数的权衡参数。

该基于信息损失函数的视频描述***，其中该层次化注意力机制模型包括：帧内目标级注意力机制和帧间帧级注意力机制，且两者分别与两层长短期记忆模型LSTM结合；

第二层LSTM记为LSTM_F，建模语言序列信息，并依次生成单词；

帧级注意力机制的计算方式为：

指的是注意力机制求得的加权权重，用于特征的加权求和；

最后的单词通过一个单层隐藏层计算得到：U_y为全连接层；

LSTM_F在时间步进行迭代直到输出一句完整的视频描述。

该基于信息损失函数的视频描述***，其中该第一模块包括：通过共享的二维卷积神经网络获取该训练视频每一帧的目标特征。

该基于信息损失函数的视频描述***，其中λ的值为0.5。

本发明具有的技术效果包括：

1、利用在Visual Genome数据集上预训练的目标检测网络Faster R-CNN提取视频每一帧目标的特征，能够得到更加丰富的语义特征，利于视频描述模型生成具有细节的描述。

2、引入结合LSTM的层次化注意力机制模型，LSTM对视频的视觉信息进行时序建模，层次化注意力机制自适应地提取显著性的目标和运动信息，能够有效地提取连续出现，运动显著的重要目标信息；

3、提出了计算单词针对视频内容重要性值的方法，重要性值考虑单词与视频显著性内容的相关性以及单词本身的信息量，能够很好的体现单词对表达视频内容的重要性。常用单词以及不相关单词重要性值低，与视频内容相关性高且具有区分性的单词重要性值高。

4、提出了一种信息损失函数用于优化模型，该信息损失函数重点学习重要性值高的单词。使用该信息损失函数优化的模型能够用具有细节和区分性的描述表达视频的主体内容。

附图说明

图1A、图1B、图1C、图1D均为注意力机制可视化以及生成的视频描述示意图；

图2为MSVD数据集上的性能评价表格图；

图3为MSR-VTT数据集上的性能评价表格图；

图4为一种基于信息损失函数的视频描述方法流程图；

图5为本发明视频描述整体流程图。

具体实施方式

本发明的目的是克服上述现有视频描述方法生成的语言描述存在语义单词识别错误和细节缺失问题，提出了一种基于信息损失函数的视频描述方法。该方法包括：1)一种叫做信息损失函数的学习策略被用来克服由于数据分布偏差造成的描述模糊问题。2)一种优化的模型框架包括层次化的视觉表达和层次化注意力机制用来充分发挥信息损失函数的潜能。

具体地说如图5所示，本发明公开了一种基于信息损失函数的视频描述方法，其中包括：

该基于信息损失函数的视频描述方法，其中该步骤3包括：

获取信息相关度R(y_t|V)为：

R(y_t|V)＝N_yt′V/N_V

获取单词y_t的信息量I(y_t)为：I(y_t)＝log(1/p(y_t))；

其中λ是该信息损失函数的权衡参数。

第二层LSTM记为LSTM_F，建模语言序列信息，并依次生成单词；

帧级注意力机制的计算方式为：

β_ti指的是注意力机制求得的加权权重，用于特征的加权求和；

最后的单词通过一个单层隐藏层计算得到：U_y为全连接层；

LSTM_F在时间步进行迭代直到输出一句完整的视频描述。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明通过目标检测网络Faster R-CNN，卷积神经网络Resnet，动作识别网络C3D分别识别出视频中的动作和对象，提取视频中的语义信息；然后采用基于层次化注意力机制的模型分别对视频的多种语义信息进行建模，自适应地提取视频中显著信息，并去除噪声信息，并将提取的视频显著信息输入到LSTM转换为文字描述；将信息损失函数作为模型的目标函数引导模型产生具有信息量的描述。

一种基于信息损失函数的视频描述方法，参见图4，该方法主要分为以下步骤：

101：对视频进行抽帧处理，用在公开数据集上预训练的目标检测网络FasterR-CNN，卷积神经网络Resnet，动作识别网络C3D分别识别出视频中的动作和对象，提取视频中的语义信息；其中，该算法通过共享的2维卷积神经网络获取帧级特征，然后将其按照时间顺序堆起来组成稠密图，最后通过一层时序卷积网络并行地获取多尺度特征完成分类任务。视频中的动作指的是视频中运动对象执行的动作，通过动作识别网络可以捕捉物体的运动信息，不需要显式指定目标。语义信息指的是视频包含的高层抽象信息，比如视频中的物体，运动等信息，通过以上网络提取的特征可以作为视频语义信息的表达，方便机器学习和理解。

102：将提取的语义信息输入结合LSTM的层次化注意力机制模型中，得到视频描述；

103：计算视频描述中每个单词对表达视频内容的重要性，并依据重要性得到信息损失函数，将信息损失函数作为模型的目标函数优化模型参数，直到收敛。

本发明在训练模型时，通过步骤101-步骤103产生视频的语言描述，并得到结果的损失，根据损失进行反传梯度优化模型。得到训练好的模型后，本发明实例通过步骤101-步骤102产生具有信息量的视频描述，从而可用于视频描述，人机交互以及视频检索任务中。

步骤101所述等间隔采样视频的帧，每个视频抽40帧。采用现有预训练好的目标检测网络Faster R-CNN提取视频每一帧中每个目标的特征得到VR＝{vr₁，…，vr_n}，vr_i＝{vr_i1，…，vr_ik}其中k＝16表示每帧图片检测的目标数量，n＝40表示视频采样的帧数；vr_ij表示第i帧第j个目标的特征，特征为Faster R-CNN pool5层的特征，维度为2048；VR表示得到的整个视频的目标特征集合。采用分类网络ResNet101提取每一帧的总体特征为VF＝{vf₁，…，vf_n}，该特征为ResNet101 pool5层的特征，维度为2048。采用动作识别网络C3D提取视频多个片段的运动特征VC＝{vc₁，…，vc_n}，视频连续16帧作为一个片段，特征为C3Dfc6层的特征，维度为4096维。所以最终提取视频的目标和动作特征集合为V＝{VR，VF，VC}，目标特征和总体特征指的是视频中的对象信息，运动特征指的是运动信息。。

步骤102所述将提取的语义信息V＝{VR，VF，VC}，输入结合LSTM的层次化注意力机制模型中，得到视频描述。本发明为了提取显著性的目标特征和运动特征，构建了层次化注意力机制模型。如图4左侧网络图所示，层次化注意力机制分为帧内目标级注意力机制和帧间帧级注意力机制，这两层注意力机制分别与两层LSTM结合。LSTM拥有记忆单元和隐状态，能够根据序列历史信息和当前信息更新记忆单元，并产生这一时刻的输出称为隐状态。第一层LSTM记为LSTM_R，用来对视频的每一帧目标进行时序建模。第二层LSTM记为LSTM_F，建模语言序列信息，并依次生成单词。给定i-1时刻的隐状态和第i帧的目标特征，LSTM_R将从开始到第i帧的视频信息编码进第i时刻的隐状态：是通过目标级注意力机制得到的第i帧的视觉特征表达：

其中w_e、W_e、U_e、z_e是需要学习的参数，h指的是LSTM的隐状态。最终目标特征经过LSTM_R编码得到LSTM_F的输入为上一时刻的隐状态，帧级注意力机制输出，以及上一时刻输出的单词：帧级注意力机制的计算方式为：最后的单词通过一个单层隐藏层计算得到：LSTM_F在时间步进行迭代直到输出一句完整的视频描述。

步骤103所述计算视频描述中每个单词对表达视频内容的重要性，并依据重要性得到信息损失函数，将信息损失函数作为模型的目标函数，优化模型参数，直到收敛。信息损失函数的形式化图示如图4右侧图例所示。信息损失函数通过提升重要词的权重来调整标准交叉熵损失的大小。本发明引进了重要性值衡量每个单词针对给定视频的信息相关度和信息量。本发明通过观察得到人们通常会对视频的主体内容达成共识，越具有代表性的词会越频繁地出现不同人对该视频的描述中，而越不相关的单词出现概率则越少，所以本发明定义信息相关度R(y_t|V)为：R(y_t|V)＝N_yt′V/N_V。N_V是给定视频V对应的真值视频描述数量，真值(groundtruth)是数据集的标注信息，真值视频描述数量指的是每个视频标注的描述的数量，即一个视频有多少个句子标注，N_yt′V是真值视频描述中包含单词y_t的数量。同时本发明还考虑每个单词的信息量。根据信息论，单词出现的概率越小，单词的信息量越多。本发明定义单词的信息量为：I(y_t)＝log(1/p(y_t))，p的含义是概率。单词的重要性值由信息相关度和信息量组成：f(y_t,V)＝R(y_t|V)^γI(y_t)。其中γ是调和参数，用于调整信息相关度和信息量的合作。最终信息损失函数为：λ是损失函数的权衡参数。λ的取值范围为0～1，通过调参的方式确定，在我们的实验中取值为0.5时模型表现最出色。T表示句子序列的长度，即有多少个单词。t表示句子中的第t个单词。S表示句子，即sentence。信息损失函数用于模型训练过程。

以下为与上述方法实施例对应的***实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

第四模块，用于获取待描述视频，并将该训练视频分别输入至该目标检测网络，该卷积神经网络和该动作识别网络，以得到并集合该待描述视频每一帧的目标特征、总体特征、运动特征，作为该待描述视频的语义信息，将该待描述视频的语义信息输入至该视频描述模型，得到该待描述视频的文字描述。

该基于信息损失函数的视频描述***，其中该第一模块包括：

获取信息相关度R(y_t|V)为：

R(y_t|V)＝N_yt′V/N_V

获取单词y_t的信息量I(y_t)为：I(y_t)＝log(1/p(y_t))；

其中λ是该信息损失函数的权衡参数。

第二层LSTM记为LSTM_F，建模语言序列信息，并依次生成单词；

帧级注意力机制的计算方式为：

最后的单词通过一个单层隐藏层计算得到：U_y为全连接层；

LSTM_F在时间步进行迭代直到输出一句完整的视频描述。

本发明总的技术效果：

本发明提出了一种信息损失函数能够克服由单词分布不均导致的描述模糊问题。同时为了充分发现该信息损失函数的潜能，本发明提出了基于视觉上下文和语言上下文的层次化注意力机制。本发明分别在两个公开数据集MSVD和MSRVTT上做测试，同时与TA、MAM-RNN、STAT、LSTM-TSA、hLSTMat、SA-LSTM、v2t_navigator、dense caption具有代表性的视频描述方法作比较。衡量的标准是BLEU-4、METEOR、CIDEr。本发明生成的语句在MSVD数据集上所有指标均达到最好。本发明在使用更少种类特征的情况下在MSRVTT取得了具有竞争力的效果。图2是本发明在MSVD数据集上的性能展示，图3是本发明在MSR-VTT数据集上的性能展示。

本发明提出的层次化注意力机制能够关注视频级的显著目标，生成更加准确和具有细节的句子。注意力机制可视化以及生成的句子如附图中图1A、图1B、图1C、图1D所示。

Claims

1.一种基于信息损失函数的视频描述方法，其特征在于，包括：

2.如权利要求1所述的基于信息损失函数的视频描述方法，其特征在于，该步骤3包括：

获取信息相关度R(y_t|V)为：

R(y_t|V)＝N_yt′V/N_V

获取单词y_t的信息量I(y_t)为：I(y_t)＝log(1/p(y_t))；

其中λ是该信息损失函数的权衡参数。

3.如权利要求1或2所述的基于信息损失函数的视频描述方法，其特征在于，该层次化注意力机制模型包括：帧内目标级注意力机制和帧间帧级注意力机制，且两者分别与两层长短期记忆模型LSTM结合；

第二层LSTM记为LSTM_F，建模语言序列信息，并依次生成单词；

给定i-1时刻的隐状态和第i帧的目标特征，LSTM_R将从开始到第i帧的视频信息编码进第i时刻的隐状态：R为目标区域；φ_i(vr_i)是通过目标级注意力机制得到的第i帧的视觉特征表达：

帧级注意力机制的计算方式为：

指的是注意力机制求得的加权权重，用于特征的加权求和；

最后的单词通过一个单层隐藏层计算得到：U_y为全连接层；

LSTM_F在时间步进行迭代直到输出一句完整的视频描述。

4.如权利要求3所述的基于信息损失函数的视频描述方法，其特征在于，该步骤1包括：通过共享的二维卷积神经网络获取该训练视频每一帧的目标特征。

5.如权利要求2所述的基于信息损失函数的视频描述方法，其特征在于，λ的值为0.5。

6.一种基于信息损失函数的视频描述***，其特征在于，包括：

7.如权利要求6所述的基于信息损失函数的视频描述***，其特征在于，该第一模块包括：

获取信息相关度R(y_t|V)为：

R(y_t|V)＝N_yt′V/N_V

获取单词y_t的信息量I(y_t)为：I(y_t)＝log(1/p(y_t))；

其中λ是该信息损失函数的权衡参数。

8.如权利要求6或7所述的基于信息损失函数的视频描述***，其特征在于，该层次化注意力机制模型包括：帧内目标级注意力机制和帧间帧级注意力机制，且两者分别与两层长短期记忆模型LSTM结合；

第二层LSTM记为LSTM_F，建模语言序列信息，并依次生成单词；

其中w_e、W_e、U_e、z_e是学习得到的参数，vri_j为第i帧第j个目标的特征；最终目标特征经过LSTM_R编码得到n表示每个视频共有n帧图像；

帧级注意力机制的计算方式为：

指的是注意力机制求得的加权权重，用于特征的加权求和；

最后的单词通过一个单层隐藏层计算得到：U_y为全连接层；

LSTM_F在时间步进行迭代直到输出一句完整的视频描述。

9.如权利要求8所述的基于信息损失函数的视频描述***，其特征在于，该第一模块包括：通过共享的二维卷积神经网络获取该训练视频每一帧的目标特征。

10.如权利要求7所述的基于信息损失函数的视频描述***，其特征在于，λ的值为0.5。