CN110263218B

CN110263218B - 视频描述文本生成方法、装置、设备和介质

Info

Publication number: CN110263218B
Application number: CN201910542820.6A
Authority: CN
Inventors: 卞东海; 蒋帅; 陈思姣; 曾启飞; 罗雨; 彭卫华
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2022-02-25
Anticipated expiration: 2039-06-21
Also published as: CN110263218A

Abstract

本发明实施例公开了一种视频描述文本生成方法、装置、设备和介质，涉及数字图像处理与自然语言处理领域。该方法包括：根据预设描述词语与待描述视频的相关度，从所述预设描述词语中确定候选描述词语；根据所述待描述视频的视觉特征，从所述候选描述词语中选择目标描述文本中的各位置词语，以生成所述待描述视频的目标描述文本。本发明实施例提供一种视频描述文本生成方法、装置、设备和介质，以提高视频描述文本的准确率。

Description

视频描述文本生成方法、装置、设备和介质

技术领域

本发明实施例涉及数字图像处理与自然语言处理领域，尤其涉及一种视频描述文本生成方法、装置、设备和介质。

背景技术

目前，视频资源已经变成人们获取信息最流行和喜爱的方式，尤其是在一些视频APP出现后，每天刷视频已经成为很多人必不可少的休闲娱乐方式。为了更好的服务于用户，需要将视频中最核心的信息用文本形式表达,以便进行推荐展示。因此必须有一种方法能够对于给定的视频输出该视频的核心内容信息。

将视频内容用文本描述的专业术语是“video2caption”，它是计算机视觉领域当前最热的研究方向之一。目前video2caption的方法大致分为2大类：一类是基于模板形式，算法首先根据视频预测有哪些主谓宾信息，然后根据这些主谓宾和模板信息构造视频描述文本；另外一类是基于生成的形式，该形式一般是采用深度学习的方法，输入视频，深度学习神经网络直接输出视频的描述文本，而不需要构建模板信息。

现有方法的主要问题在于：描述生成效果差，巨大的词汇搜索空间使得词汇的选择变得十分困难，导致最终生成的质量不尽人意。

发明内容

本发明实施例提供一种视频描述文本生成方法、装置、设备和介质，以提高视频描述文本的准确率。

第一方面，本发明实施例提供了一种视频描述文本生成方法，该方法包括：

根据预设描述词语与待描述视频的相关度，从所述预设描述词语中确定候选描述词语，其中所述候选描述词语的数量小于所述预设描述词语的数量；

根据所述待描述视频的视觉特征，从所述候选描述词语中选择目标描述文本中的各位置词语，以生成所述待描述视频的目标描述文本。

第二方面，本发明实施例还提供了一种视频描述文本生成装置，该装置包括：

候选词语确定模块，用于根据预设描述词语与待描述视频的相关度，从所述预设描述词语中确定候选描述词语，其中所述候选描述词语的数量小于所述预设描述词语的数量；

描述文本生成模块，用于根据所述待描述视频的视觉特征，从所述候选描述词语中选择目标描述文本中的各位置词语，以生成所述待描述视频的目标描述文本。

第三方面，本发明实施例还提供了一种电子设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一项所述的视频描述文本生成方法。

第四方面，本实施例还提供了一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本发明实施例中任一项所述的视频描述文本生成方法。

本发明实施例通过从所述预设描述词语中确定候选描述词语，其中所述候选描述词语的数量小于所述预设描述词语的数量；根据所述待描述视频的视觉特征，从所述候选描述词语中，而非全量的预设描述词语中，选择目标描述文本中的各位置词语，从而缩小词语搜索空间。

通过根据预设描述词语与待描述视频的相关度，从所述预设描述词语中确定候选描述词语，使得搜索空间中包括待描述视频的相关词语。

相比在全量预设描述词语构成的巨大词语搜索空间中进行词语的搜索，本实施例通过在包括待描述视频的相关词语的缩小词语搜索空间进行词语的搜索，可以实现对目标描述文本中词语的快速准确搜索。

附图说明

图1是本发明实施例一提供的一种视频描述文本生成方法的流程图；

图2是本发明实施例二提供的一种视频描述文本生成方法的流程图；

图3是本发明实施例三提供的一种视频描述文本生成方法的流程图；

图4是本发明实施例四提供的一种视频描述文本生成方法的流程图；

图5是本发明实施例五提供的一种视频描述文本生成装置的结构示意图；

图6是本发明实施例六提供的一种设备的结构示意图。

具体实施方式

发明人在实现本发明的过程中发现：

目前业界还没有针对背景技术所提问题的解决方案，当前研究的方向主要集中在如何提取更多的视频信息，更好的评价规则等问题。对于减少网络生成搜索空间方面还仅限于优化网络结构、减少参数量等方面。

并且发明人还发现：

基于encoder-decoder(编码-解码)的深度学习框架的传统解码方法，在生成目标视频文本时，每步都是使用词汇表中的全部词语(该词语的数量多达20000多个)作为预测空间；然后选择概率最大的词汇作为输出。但是，针对某个视频而言，其涉及到的词汇一般不会超过100个，因此如果可以有效的减少预测时使用的词汇表大小(也即词语数量)就可以生成质量更高的目标描述文本。

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种视频描述文本生成方法的流程图。本实施例可适用于将视频内容用文本进行准确描述的情况。典型地，本实施可适用于文章自动生成(Algorithm Generated Content，AGC)应用中。该方法可以由一种视频描述文本生成装置来执行，该装置可以由软件和/或硬件的方式实现。参见图1，本实施例提供的视频描述文本生成方法包括：

S110、根据预设描述词语与待描述视频的相关度，从所述预设描述词语中确定候选描述词语。

其中，预设描述词语是预设的文本描述词语。相比候选描述词语，预设描述词语的数量较大，覆盖较全。

具体地，预设描述词语可以从网络中抓取。

典型地，预设描述词语可以在对视频内容文本描述模型的训练阶段，从视频描述文本的海量样本数据中获取。

候选描述词语是与待描述视频相关的词语。

候选描述词语的数量远小于预设描述词语的数量。

通常预设描述词语的数量较大，多达20000多个，而候选描述词语的数量较小，一般在100个左右。

具体地，根据预设描述词语与待描述视频的相关度，从所述预设描述词语中确定候选描述词语，包括：

识别待描述视频的内容信息；

匹配所述预设描述词语与所述内容信息；

将匹配成功的预设描述词语作为候选描述词语。

S120、根据所述待描述视频的视觉特征，从所述候选描述词语中选择目标描述文本中的各位置词语，以生成所述待描述视频的目标描述文本。

其中，所述待描述视频的视觉特征是指，待描述视频的视觉呈现效果特征。

具体地，所述根据所述待描述视频的视觉特征，从所述候选描述词语中选择目标描述文本中的各位置词语之前，所述方法还包括：

提取所述待描述视频的二维纹理特征和三维动态纹理特征；

拼接所述二维纹理特征和所述三维动态纹理特征，生成所述待描述视频的视觉特征。

其中，待描述视频的二维纹理特征和三维动态纹理特征可以根据任意特征提取算法提取。

典型地，基于卷积神经网络(CNN)，提取所述待描述视频的二维纹理特征向量。

基于C3D-network(用于视频特征提取的3维卷积网络)，提取所述待描述视频的三维动态纹理特征向量。

具体地，根据所述待描述视频的视觉特征，从所述候选描述词语中选择目标描述文本中的各位置词语，以生成所述待描述视频的目标描述文本，包括：

将所述待描述视频的视觉特征输入预先训练的文本生成模型中，输出所述待描述视频的目标描述文本。

为使生成的目标描述文本中包括待描述视频的语义信息，以进一步提高对待描述视频的描述准确率，所述根据所述待描述视频的视觉特征，从所述候选描述词语中选择目标描述文本中的各位置词语之前，所述方法还包括：

提取所述待描述视频的目标实体信息和行为动作信息；

相应的，所述根据所述待描述视频的视觉特征，从所述候选描述词语中选择目标描述文本中的各位置词语，包括：

从所述候选描述词语、所述目标实体信息和所述行为动作信息中，选择目标描述文本中的各位置词语。

本发明实施例的技术方案，通过从所述预设描述词语中确定候选描述词语；根据所述待描述视频的视觉特征，从所述候选描述词语中，而非全量的预设描述词语中，选择目标描述文本中的各位置词语，从而缩小词语搜索空间。

实施例二

图2是本发明实施例二提供的一种视频描述文本生成方法的流程图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图2，本实施例提供的视频描述文本生成方法包括：

S210、根据所述待描述视频的视觉特征和所述预设描述词语的词向量，确定所述预设描述词语的选择概率，其中所述预设描述词语的词向量预先训练得到。

具体地，依据如下公式确定所述预设描述词语的选择概率：

p(d_si)＝Sigmoid(w_i.V)

其中，V是所述待描述视频的视觉特征向量，w_i是第i个预设描述词语的词向量，d_si是第i个预设描述词语，p(d_si)是第i个预设描述词语的选择概率。

具体地，所述词向量的预先训练过程包括：

根据训练视频的视觉特征和所述预设描述词语的初始词向量，从所述预设描述词语中确定训练描述词语；

根据所述训练视频的视觉特征，从所述训练描述词语中选择训练描述文本中的各位置词语，以生成描述所述训练视频的训练描述文本；

根据所述训练描述文本与所述训练视频的训练目标之间的误差，对所述预设描述词语的初始词向量进行调整；

基于调整后的预设描述词语的词向量，返回继续执行上述训练步骤，直至满足训练截止条件。

其中，基于调整后的预设描述词语的词向量，返回继续执行上述训练步骤，直至满足训练截止条件，包括：

基于调整后的预设描述词语的词向量，返回继续执行“从所述预设描述词语中确定训练描述词语；

根据所述训练描述文本与所述训练视频的训练目标之间的误差，对所述预设描述词语的初始词向量进行调整”的步骤，直至满足训练截止条件。

S220、根据所述选择概率从所述预设描述词语中确定所述候选描述词语。

具体地，根据所述选择概率从所述预设描述词语中确定所述候选描述词语，包括：

将选择概率大于设定概率阈值的预设描述词语作为候选描述词语。

可选地，根据所述选择概率从所述预设描述词语中确定所述候选描述词语，包括：

对预设描述词语的选择概率进行排序，取排序中的前设定位数的预设描述词语作为候选描述词语。

典型地，候选描述词语的确定公式如下：

d_sample＝S(p(d_s))

其中，d_sample是候选描述词语集合，S是词汇采样函数，用于从预设描述词语中采集候选描述词语，p(d_s)是预设描述词语的选择概率，d_s是预设描述词语集合。

S230、根据所述待描述视频的视觉特征，从所述候选描述词语中选择目标描述文本中的各位置词语，以生成所述待描述视频的目标描述文本。

本发明实施例的技术方案，通过根据所述待描述视频的视觉特征和所述预设描述词语的词向量，确定所述预设描述词语的选择概率根据所述选择概率从所述预设描述词语中确定所述候选描述词语，从而实现所述候选描述词语的确定。

因为所述预设描述词语的词向量在预先训练中，根据所述训练描述文本与所述训练视频的训练目标之间的误差(也即所述预设描述词语与所述待描述视频的相关度)进行调整。所以，基于训练完成的预设描述词语的词向量和所述待描述视频的视觉特征，可以确定出与所述待描述视频相关的预设描述词语。

实施例三

图3是本发明实施例三提供的一种视频描述文本生成方法的流程图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图3，本实施例提供的视频描述文本生成方法包括：

310、根据预设描述词语与待描述视频的相关度，从所述预设描述词语中确定候选描述词语。

320、根据所述待描述视频的视觉特征和文本中词语间的连接关系，预测所述候选描述词语作为所述各位置词语的概率。

具体地，文本中词语间的连接关系可以包括：文本中在当前位置的上一位置出现过的词语，在当前位置的出现概率较小；动词后面连接名词的概率较大等。

具体地，所述根据所述待描述视频的视觉特征和文本中词语间的连接关系，预测所述候选描述词语作为所述各位置词语的概率，包括：

基于注意力机制，根据所述待描述视频的视觉特征和所述目标描述语中任一当前位置词语的上一位置词语的状态表示，确定所述待描述视频中各视频图像对所述当前位置词语的贡献权重；

根据所述当前位置词语的贡献权重、所述上一位置词语和所述上一位置词语的状态表示，确定所述候选描述词语作为所述当前位置词语的概率。

其中，上一位置词语的状态表示是对上一位置词语所属状态的表示。

具体地，若上一位置词语为目标描述文本中第t-1个位置词语，则第t-1个位置词语的状态表示，可以根据待描述视频中各视频图像对第t-1个位置词语的贡献权重、已确定的第t-2个位置词语和已确定的第t-2个位置词语的状态表示确定。

所述待描述视频中各视频图像对所述当前位置词语的贡献权重可以理解为：所述待描述视频中各视频图像与所述当前位置词语的关联度。

典型地，依照如下公式确定所述待描述视频中各视频图像对目标描述文本中第t个位置词语的贡献权重：

at_t＝f_attention(V,h_t-1)

其中，V是待描述视频的视觉特征向量，h_t-1是第t-1个位置词语的状态表示，f_attention注意力机制函数，at_t是待描述视频中各视频图像对目标描述文本中第t个位置词语的贡献权重。

具体地，所述根据所述当前位置词语的贡献权重、所述上一位置词语和所述上一位置词语的状态表示，确定所述候选描述词语作为所述当前位置词语的概率，包括：

根据所述当前位置词语的贡献权重、所述上一位置词语和所述上一位置词语的状态表示，确定所述当前位置词语的状态表示；

根据所述当前位置词语的状态表示和所述上一位置词语，确定所述候选描述词语作为所述当前位置词语的概率。

以当前位置词语为第t个位置词语为例，当前位置词语的状态表示的确定公式如下：

h_t＝f_lstm(at_t,w_t-1,h_t-1)

h_t是第当前位置词语的状态表示，f_lstm是LSTM隐层藏计算函数，at_t如上所述，w_t-1是当前位置词语的上一位置词语的词向量，h_t-1是当前位置词语的上一位置词语的状态表示。

以当前位置词语为第t个位置词语为例，所述候选描述词语作为所述当前位置词语的概率确定公式如下：

p(w_t)是所述候选描述词语作为所述当前位置词语的概率，h_t和w_t-1如上所述，

为预测函数。

330、根据所述候选描述词语作为所述各位置词语的概率，从所述候选描述词语中选择所述目标描述文本中的各位置词语。

本发明实施例的技术方案，通过根据所述待描述视频的视觉特征和文本中词语间的连接关系，预测所述候选描述词语作为所述各位置词语的概率；根据所述候选描述词语作为所述各位置词语的概率，从所述候选描述词语中选择所述目标描述文本中的各位置词语，从而实现目标描述文本的生成。

实施例四

图4是本发明实施例四提供的一种视频描述文本生成方法的流程图。本实施例是在上述实施例的基础上，以基于encoder-decoder的深度学习框架实现为例，提出的一种可选方案。

本实施例的基本思想是：选择出尽量小的词汇集合用来作为最终模型输出预测的目标词汇表。

如何构建目标词汇表是提高目标描述文本生成质量的关键部分。目标词汇表应该包括视频中大部分物体的描述，例如物体名称、行为、场景等。为此，本实施例使用了一种高级语义信息来生成目标词汇表。

高级语义信息是对视频信息的抽象语义信。本实施例使用了来自三种不同方面的高级语义信息组合成目标词汇表，三种语义信息分别如下：

基于目标检测的视频语义信息。该过程是基于目标检测工具识别视频中出现的所有目标实体，例如：汽车、大树、花等等，共计9000多个目标种类。基于C3D-network的目标动作识别信息。该方法可以检测出视频中某个目标的行为动作，例如：奔跑、跳跃、哭泣等600多动作行为类别。

从训练集中提取描述文本信息，从提取的描述文本信息中获取描述文本中的词语(这里要注意，描述文本中的词语只有在训练时才能够获取，预测时是没有的)。将获取的描述文本的词语作为上述预设描述词语。依据视频从预设描述词语中去预测可能出现在目标描述文本中的词语作为候选描述词语。

本实施例的目标就是依据上述3类高级语义信息作为动态的词汇表去生成目标描述文本。

训练阶段：

参见图4，本实施例提供的视频描述文本生成方法包括：

编码端：对于给定的训练样本对<训练视频,目标训练文本>，编码端对训练样本进行编码：

具体地，依照如下公式，提取待描述视频的二维纹理特征向量、三维动态纹理特征向量、行为动作信息和目标实体信息：

d_c3d＝φ_c3d(video) (3)

d_o＝φ_object(video) (4)

其中，video是训练视频，

为特征提取函数，φ为语义输出函数，v_c3d表示三维动态纹理特征向量，d_c3d表示提取出来的行为动作信息，d_o为目标检测函数预测出的目标实体名称集合。

解码端：根据提取的训练视频的二维纹理特征向量、三维动态纹理特征向量、行为动作信息和目标实体信息，确定训练视频的描述文本。具体计算如下：

拼接训练视频的二维纹理特征向量和三维动态纹理特征向量，生成训练视频的视觉特征向量，具体公式如下：

V＝[v_c3d,v_cnn] (5)

其中，V训练视频的视觉特征向量，v_c3d是三维动态纹理特征向量，v_cnn是二维纹理特征向量。

预测候选描述词语集合，具体公式如下：

p(d_s)＝Sigmoid(w.V) (11)

d_sample＝S(p(d_s)) (10)

其中，w是预设描述词语的词向量，d_s表示预设描述词语集合，Sigmoid表示sigmoid函数，其输出是d_s中每个词的选择概率的，S为词汇采样函数。

根据d_sample构建目标词汇表：

d＝[d_o,d_c3d,d_sample] (9)

其中，d是目标词汇表，d_sample是候选描述词语集合，d_o是从训练视频中检测的目标实体集合，d_c3d是从训练视频中检测的行为动作集合。

根据所述待描述视频的视觉特征和文本中词语间的连接关系，预测目标词汇表中各词语作为训练描述文本中各位置词语的概率,具体公式如下：

at_t＝f_attention(V,h_t-1) (6)

h_t＝f_lstm(at_t,w_t-1,h_t-1) (7)

根据目标词汇表中各词语作为训练描述文本中各位置词语的概率，从目标词汇表中选择训练描述文本中的各位置词语，以生成描述训练视频的训练描述文本。

根据确定的训练描述文本和训练视频的目标描述文本，确定模型损失；根据确定的模型损失。具体地，模型损失的计算函数可以表示如下：

其中，loss是模型损失，W是预设描述词语集合，p(W|V)是基于训练视频，预设描述词语的选择概率，其中选择概率越大，损失越小。

这里使用d_sample作为优化目标的一部分，而非d的原因是因为其中的d_o和d_c3d都作为一种先验知识融入的，不需要进行优化。

使用随机梯度下降算法(SGD)计算loss反向传播梯度值，更新模型参数。

示例性地，训练的完整流程如下表所示：

预测阶段：

编码端与训练阶段相同，解码端需要根据预设描述词语的选择概率，从预设描述词语中选择设定数量的词语，作为d_sample。

同时，使用beam Search算法根据目标词汇表中各词语作为训练描述文本中各位置词语的概率，选择近似全局最优的训练描述文本输出。

本发明实施例的技术方案，通过使用视频中的高级语义信息，结合解码阶段词汇选择空间的构建，使得描述文本的生成结果更快、生成质量更高。

需要说明的是，经过本实施例的技术教导，本领域技术人员有动机将上述实施例中描述的任一种实施方式进行方案的组合，以提高视频描述文本的准确率。

实施例五

图5是本发明实施例五提供的一种视频描述文本生成装置的结构示意图。参见图5，本是示例提供的视频描述文本生成装置，包括：候选词语确定模块10和描述文本生成模块20。

其中，候选词语确定模块10，用于根据预设描述词语与待描述视频的相关度，从所述预设描述词语中确定候选描述词语，其中所述候选描述词语的数量小于所述预设描述词语的数量；

描述文本生成模块20，用于根据所述待描述视频的视觉特征，从所述候选描述词语中选择目标描述文本中的各位置词语，以生成所述待描述视频的目标描述文本。

本发明实施例通过从所述预设描述词语中确定候选描述词语；根据所述待描述视频的视觉特征，从所述候选描述词语中，而非全量的预设描述词语中，选择目标描述文本中的各位置词语，从而缩小词语搜索空间。

进一步地，所述候选词语确定模块，包括：选择概率确定单元和描述词语确定单元。

其中，选择概率确定单元，用于根据所述待描述视频的视觉特征和所述预设描述词语的词向量，确定所述预设描述词语的选择概率，其中所述预设描述词语的词向量预先训练得到；

描述词语确定单元，用于根据所述选择概率从所述预设描述词语中确定所述候选描述词语。

进一步地，所述装置包括：训练词语确定模块、训练文本确定模块、词向量调整模块和词向量确定模块。

其中，训练词语确定模块，用于根据训练视频的视觉特征和所述预设描述词语的初始词向量，从所述预设描述词语中确定训练描述词语；

训练文本确定模块，用于根据所述训练视频的视觉特征，从所述训练描述词语中选择训练描述文本中的各位置词语，以生成描述所述训练视频的训练描述文本；

词向量调整模块，用于根据所述训练描述文本与所述训练视频的训练目标之间的误差，对所述预设描述词语的初始词向量进行调整；

词向量确定模块，用于基于调整后的预设描述词语的词向量，返回继续执行上述训练步骤，直至满足训练截止条件。

进一步地，所述描述文本生成模块，包括：预测概率单元和词语确定单元。

其中，预测概率单元，用于根据所述待描述视频的视觉特征和文本中词语间的连接关系，预测所述候选描述词语作为所述各位置词语的概率；

词语确定单元，用于根据所述候选描述词语作为所述各位置词语的概率，从所述候选描述词语中选择所述目标描述文本中的各位置词语。

进一步地，所述预测概率单元，包括：权重确定子单元和概率确定子单元。

其中，权重确定子单元，用于基于注意力机制，根据所述待描述视频的视觉特征和所述目标描述语中任一当前位置词语的上一位置词语的状态表示，确定所述待描述视频中各视频图像对所述当前位置词语的贡献权重；

概率确定子单元，用于根据所述当前位置词语的贡献权重、所述上一位置词语和所述上一位置词语的状态表示，确定所述候选描述词语作为所述当前位置词语的概率。

进一步地，所述概率确定子单元具体用于：

进一步地，所述装置还包括：特征提取模块和特征拼接模块。

其中，特征提取模块，用于所述根据所述待描述视频的视觉特征，从所述候选描述词语中选择目标描述文本中的各位置词语之前，提取所述待描述视频的二维纹理特征和三维动态纹理特征；

特征拼接模块，用于拼接所述二维纹理特征和所述三维动态纹理特征，生成所述待描述视频的视觉特征。

进一步地，所述装置还包括：实体动作提取模块。

其中，所述实体动作提取模块，用于所述根据所述待描述视频的视觉特征，从所述候选描述词语中选择目标描述文本中的各位置词语之前，提取所述待描述视频的目标实体信息和行为动作信息；

相应的，所述描述文本生成模块，包括：词语选择单元。

其中，所述词语选择单元，用于从所述候选描述词语、所述目标实体信息和所述行为动作信息中，选择目标描述文本中的各位置词语。

本发明实施例所提供的视频描述文本生成装置可执行本发明任意实施例所提供的视频描述文本生成方法，具备执行方法相应的功能模块和有益效果。

实施例六

图6为本发明实施例六提供的一种设备的结构示意图。图6示出了适于用来实现本发明实施方式的示例性设备12的框图。图6显示的设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，***存储器28，连接不同***组件(包括***存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图6未显示，通常称为“硬盘驱动器”)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该设备12交互的设备通信，和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与设备12的其它模块通信。应当明白，尽管图中未示出，可以结合设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元16通过运行存储在***存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的视频描述文本生成方法。

实施例七

本发明实施例七还提供了一种计算机可读存储介质。其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本发明实施例中任一项所述的视频描述文本生成方法，该方法包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频描述文本生成方法，其特征在于，包括：

提取所述待描述视频的目标实体信息和行为动作信息；

根据所述待描述视频的视觉特征，从所述候选描述词语、所述目标实体信息和所述行为动作信息中，选择目标描述文本中的各位置词语，以生成所述待描述视频的目标描述文本；

所述根据预设描述词语与待描述视频的相关度，从所述预设描述词语中确定候选描述词语，包括：

根据所述待描述视频的视觉特征和所述预设描述词语的词向量，确定所述预设描述词语的选择概率，其中所述预设描述词语的词向量预先训练得到，且词向量在预先训练中，根据训练描述文本与训练视频的训练目标之间的误差进行调整，训练描述文本为预设描述词语中的训练描述词语针对训练视频生成；

根据所述选择概率从所述预设描述词语中确定所述候选描述词语。

2.根据权利要求1所述的方法，其特征在于，所述词向量的预先训练过程包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述待描述视频的视觉特征，从所述候选描述词语、所述目标实体信息和所述行为动作信息中，选择目标描述文本中的各位置词语，包括：

根据所述待描述视频的视觉特征和文本中词语间的连接关系，预测所述候选描述词语、所述目标实体信息和所述行为动作信息作为所述各位置词语的概率；

根据所述候选描述词语、所述目标实体信息和所述行为动作信息作为所述各位置词语的概率，从所述候选描述词语、所述目标实体信息和所述行为动作信息中，选择所述目标描述文本中的各位置词语。

4.根据权利要求3所述的方法，其特征在于，所述根据所述待描述视频的视觉特征和文本中词语间的连接关系，预测所述候选描述词语、所述目标实体信息和所述行为动作信息作为所述各位置词语的概率，包括：

基于注意力机制，根据所述待描述视频的视觉特征和所述目标描述文本中任一当前位置词语的上一位置词语的状态表示，确定所述待描述视频中各视频图像对所述当前位置词语的贡献权重；

根据所述当前位置词语的贡献权重、所述上一位置词语和所述上一位置词语的状态表示，确定所述候选描述词语、所述目标实体信息和所述行为动作信息作为所述当前位置词语的概率。

5.根据权利要求4所述的方法，其特征在于，所述根据所述当前位置词语的贡献权重、所述上一位置词语和所述上一位置词语的状态表示，确定所述候选描述词语、所述目标实体信息和所述行为动作信息作为所述当前位置词语的概率，包括：

根据所述当前位置词语的状态表示和所述上一位置词语，确定所述候选描述词语、所述目标实体信息和所述行为动作信息作为所述当前位置词语的概率。

6.根据权利要求1所述的方法，其特征在于，所述根据所述待描述视频的视觉特征，从所述候选描述词语、所述目标实体信息和所述行为动作信息中，选择目标描述文本中的各位置词语之前，所述方法还包括：

提取所述待描述视频的二维纹理特征和三维动态纹理特征；

7.一种视频描述文本生成装置，其特征在于，包括：

实体动作提取模块，用于提取所述待描述视频的目标实体信息和行为动作信息；

描述文本生成模块，用于根据所述待描述视频的视觉特征，从所述候选描述词语、所述目标实体信息和所述行为动作信息中，选择目标描述文本中的各位置词语，以生成所述待描述视频的目标描述文本；

所述候选词语确定模块，包括：

选择概率确定单元，用于根据所述待描述视频的视觉特征和所述预设描述词语的词向量，确定所述预设描述词语的选择概率，其中所述预设描述词语的词向量预先训练得到，且词向量在预先训练中，根据训练描述文本与训练视频的训练目标之间的误差进行调整，训练描述文本为预设描述词语中的训练描述词语针对训练视频生成；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

训练词语确定模块，用于根据训练视频的视觉特征和所述预设描述词语的初始词向量，从所述预设描述词语中确定训练描述词语；

9.根据权利要求7所述的装置，其特征在于，所述描述文本生成模块，包括：

预测概率单元，用于根据所述待描述视频的视觉特征和文本中词语间的连接关系，预测所述候选描述词语、所述目标实体信息和所述行为动作信息作为所述各位置词语的概率；

词语确定单元，用于根据所述候选描述词语、所述目标实体信息和所述行为动作信息作为所述各位置词语的概率，从所述候选描述词语、所述目标实体信息和所述行为动作信息中，选择所述目标描述文本中的各位置词语。

10.根据权利要求9所述的装置，其特征在于，所述预测概率单元，包括：

权重确定子单元，用于基于注意力机制，根据所述待描述视频的视觉特征和所述目标描述文本中任一当前位置词语的上一位置词语的状态表示，确定所述待描述视频中各视频图像对所述当前位置词语的贡献权重；

概率确定子单元，用于根据所述当前位置词语的贡献权重、所述上一位置词语和所述上一位置词语的状态表示，确定所述候选描述词语、所述目标实体信息和所述行为动作信息作为所述当前位置词语的概率。

11.一种电子设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一项所述的视频描述文本生成方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的视频描述文本生成方法。