CN105279495B

CN105279495B - 一种基于深度学习和文本总结的视频描述方法

Info

Publication number: CN105279495B
Application number: CN201510697454.3A
Authority: CN
Inventors: 李广; 马书博; 韩亚洪
Original assignee: Tianjin University
Current assignee: GUANGZHOU WELLTHINKER AUTOMATION TECHNOLOGY CO.,LTD.
Priority date: 2015-10-23
Filing date: 2015-10-23
Publication date: 2019-06-04
Anticipated expiration: 2035-10-23
Also published as: CN105279495A

Abstract

本发明公开了一种基于深度学习和文本总结的视频描述方法，包括：通过现有的图像数据集按照图像分类任务训练卷积神经网络模型；对视频提取视频帧序列，并利用卷积神经网络模型提取卷积神经网络特征，构成<视频帧序列，文本描述序列>对作为递归神经网络模型的输入，训练得到递归神经网络模型；通过训练得到的递归神经网络模型对待描述视频的视频帧序列进行描述，得到描述序列；通过基于图的词汇中心度作为文本总结的显著性的方法，对描述序列进行排序，输出视频的最终描述结果。通过自然语言描述一段视频中正在发生的事件以及与事件相关的物体属性，从而达到对视频内容进行描述和总结的目的。

Description

一种基于深度学习和文本总结的视频描述方法

技术领域

本发明涉及视频描述领域，尤其涉及一种基于深度学习和文本总结的视频描述方法。

背景技术

使用自然语言对一个视频进行描述，无论是对该视频的理解还是在Web检索该视频都是极其重要的。同时，视频的语言描述也是多媒体和计算机视觉领域中重点研究的课题。所谓视频描述，是指对给定的视频，通过观察它所包含的内容，即获得视频特征，并根据这些内容，生成相应的句子。当人们看到一个视频时，特别是一些动作类别的视频，在观看完视频后会对该视频有一定程度的了解，并可以通过语言去讲述视频中所发生的事情。例如：使用“一个人正在骑摩托”这样的句子对视频进行描述。然而，面对大量的视频，采用人工的方式对视频进行逐一的描述需要大量的时间，人力和财力。使用计算机技术对视频特征进行分析，并与自然语言处理的方法进行结合，生成对视频的描述是非常有必要的。一方面，通过视频描述的方法，人们可以从语义的角度更加精确的去理解视频。另一方面，在视频检索领域，当用户输入一段文字性的描述来检索出相应的视频这件事情是非常困难的并且具有一定的挑战。

在过去的几年中已经涌现出了各种各样的视频描述方法，比如：通过对视频特征进行分析，可以识别视频中存在的物体，以及物体之间所具有的动作关系。然后采用固定的语言模板：主语+动词+宾语，从所识别物体中确定主语、宾语以及将物体之间的动作关系作为谓语，采用这样的方式生成句子对视频的描述。

但是这样的方法存在一定的局限性，例如:使用语言模板生成句子容易导致生成的句子句式相对固定，句式过于单一，缺乏人类自然语言表达的色彩。同时，识别视频中的物体和动作等均需要使用不同的特征，造成步骤相对繁琐，并需要大量的时间对视频特征进行训练。不仅如此，识别的准确率直接影响生成句子的好坏，这种分步式的方法需要在每个步骤保证较高的正确性，实现有一定的困难。

发明内容

本发明提供了一种基于深度学习和文本总结的视频描述方法，本发明通过自然语言描述一段视频中正在发生的事件以及与事件相关的物体属性，从而达到对视频内容进行描述和总结的目的，详见下文描述：

一种基于深度学习和文本总结的视频描述方法，其特征在于，所述视频描述方法包括以下步骤：

从互联网下载视频，并对每个视频进行描述，形成<视频，描述>对，构成文本描述训练集；

通过现有的图像数据集按照图像分类任务训练卷积神经网络模型；

对视频提取视频帧序列，并利用卷积神经网络模型提取卷积神经网络特征，构成<视频帧序列，文本描述序列>对作为递归神经网络模型的输入，训练得到递归神经网络模型；

通过训练得到的递归神经网络模型对待描述视频的视频帧序列进行描述，得到描述序列；

通过基于图的词汇中心度作为文本总结的显著性的方法，对描述序列进行排序，输出视频的最终描述结果。

所述从互联网下载视频，并对每个视频进行描述，形成<视频，描述>对，构成文本描述训练集具体为：

通过现有的视频集合、以及每个视频对应的句子描述组成<视频，描述>对，构成文本描述训练集。

所述对视频提取视频帧序列，并利用卷积神经网络模型提取卷积神经网络特征，构成<视频帧序列，文本描述序列>对作为递归神经网络模型的输入，训练得到递归神经网络模型的步骤具体为：

使用训练卷积神经网络模型后的参数，提取图像的卷积神经网络特征，以及图像对应的句子描述进行建模，获取目标函数；

构造递归神经网络；对于非线性函数通过长短时间记忆网络进行建模；

使用梯度下降的方式优化目标函数，并得到训练后的长短时间记忆网络参数。

所述通过训练得到的递归神经网络模型对待描述视频的视频帧序列进行描述，得到描述序列的步骤具体为：

利用训练好的模型参数并使用卷积神经网络模型提取每个图像的卷积神经网络特征，得到图像特征；

将图像特征作为输入并利用训练得到的模型参数得到句子描述，从而得到视频对应的句子描述。

本发明提供的技术方案的有益效果是：每一个视频由一个帧序列构成，使用卷积神经网络提取视频每一帧的底层特征，采用本方法能够有效避免传统的使用深度学习提取视频特征引入过多的噪点，降低后期生成句子的准确性。使用训练好的循环神经网络将每一帧图片转化成句子，从而生成一个句子的集合。并使用自动文本总结的方法通过计算句子之间的中心度并从句子的集合只中筛选出质量高，具有代表性的句子作为视频的描述，采用本方法能够产生更好的视频描述效果和准确性以及句子的多样性。同时，采用基于深度和文本总结的方法可以有效地推广到视频检索的应用当中，但本方法仅限于对视频内容的英文描述。

附图说明

图1为一种基于深度学习和文本总结的视频描述方法的流程图；

图2本发明所使用的卷积神经网络模型(CNN)示意图；

其中，Cov表示卷积核；ReLU表示公式为max(0,x)；Pool表示Pooling操作；LRN为局部相应归一化操作；Softmax为目标函数。

图3本发明所使用的递归神经网络示意图；

其中，t表示t状态下的输入；h_t-1表示上一状态的隐态；i为input gate；f为forgetgate；o为output gate；c为cell；m_t为经过一个LSTM单元后的输出。

图4(a)为LexRank剪枝后连接图；

其中，S＝{S₁,…,S₁₀}为经过递归神经网络(RNN)生成的10个句子，采用图模式将这10个句子表示为10个节点；节点与节点之间的相似度通过直线来表示并构成全连接图，连线的粗细表示相似度的大小。

图4(b)为LexRank初始全连接图；

通过设置阈值，将节点与节点之间相似度较小的连线去除，剩余的节点与节点之间的连线即句子之间的相似度较高。

图5为部分视频帧经过描述后所产生的句子的示意图。

其中，每帧图像下面为采用本发明中所用的CNN-RNN模型后所生成的句子，其箭头指向部分为经过LexRank方法后对视频文本描述的总结作为该视频的文本描述。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

基于背景技术中存在的问题，以及在图像中使用深度学习的方法对图像进行描述效果取得显著的提升后，人们从中受到启发，并在视频中运用深度学习的方法，其生成的视频描述的多样性和正确性有了一定的提高。

为此，本发明实施例提出了一种基于深度学习和文本总结的视频描述方法，首先，本方法通过卷积神经网络框架对视频的每一帧的视觉特征进行提取。然后，将每一个视频特征作为输入到循环神经网络框架中，采用这种框架可以对每一个视觉特征，即视频的每一帧生成一句描述。这样，就得到了一个句子的集合，为了得到最具有表现性并且高质量的句子作为该视频的描述，本方法采用文本总结的方法，通过计算句子之间的相似度对所有句子进行排序，从而避免了一些错误句子和低质量的句子作为视频的最终描述。采用自动文本总结的方法不仅可以得到一个具有代表性的句子，并且具有一定的正确性和可靠性，从而提高了视频描述的准确性。同时，本方法也克服了视频检索所面临的一些技术上的困难。

实施例1

一种基于深度学习和文本总结的视频描述方法，参见图1，该方法包括以下步骤：

101：从互联网下载视频，并对每个视频进行描述(英文描述)，形成<视频，描述>对，构成文本描述训练集，其中每个视频对应多句描述，从而构成一个文本描述序列；

102：利用现有的图像数据集，按照图像分类任务训练卷积神经网络(CNN)模型；

例如：ImageNet。

103：对视频提取视频帧序列，并利用卷积神经网络(CNN)模型提取CNN特征，构成<视频帧序列，文本描述序列>对作为递归神经网络(RNN)模型的输入，训练得到递归神经网络(RNN)模型；

104：利用训练得到的RNN模型对待描述视频的视频帧序列进行描述，得到描述序列；

105：利用基于图的词汇中心度作为文本总结的显著性(LexRank)的方法对描述序列的合理性进行排序，选择最合理描述作为对该视频的最终描述。

综上所述，本发明实施例通过步骤101-步骤105实现了通过自然语言描述一段视频中正在发生的事件以及与事件相关的物体属性，从而达到对视频内容进行描述和总结的目的。

实施例2

201：从互联网下载图像，并对每个视频进行描述，形成<视频，描述>对，构成文本描述训练集；

该步骤具体包括：

(1)从互联网中下载微软研究院视频描述数据集(Microsoft Research Video Description Corpus)，这个数据集包括从YouTube中收集的1970个视频段，数据集可表示为其中N_d是集合VID中的视频总数。

(2)每个视频都会有多个相应的描述，每一个视频的句子描述为Sentences＝{Sentence₁,…,Sentence_N}，其中，N表示每一个视频所对应的句子(Sentence₁,…,Sentence_N)的描述个数。

(3)通过现有的视频集合VID以及每个视频对应的句子描述Sentences组成<视频，描述>对，构成文本描述训练集。

202：利用现有的图像数据集，按照图像分类任务训练卷积神经网络(CNN)模型，训练CNN模型参数；

该步骤具体包括：

(1)构造图2中所示的AlexNet[1]CNN模型：该模型包括了8个网络层，其中前5层是卷积层，后3层是全连接层。

(2)使用Imagenet作为训练集，将图像数据集中的每一张图片采样到256*256大小的图片，作为输入，N_m为图片的个数，根据图2设置的网络层，第1层可表示为：

F₁(IMAGE)＝norm{pool[max(0,W₁*IMAGE+B₁)]} (1)

其中，IMAGE表示输入图像；W₁表示卷积核参数；B₁表示偏置；F₁(IMAGE)表示为经过第一层网络后的输出结果；Norm表示归一化操作。在这一网络层中，通过线性纠正函数(max(0,x)，x为W₁*IMAGE+B₁)对卷积后的图像进行处理，再经过映射pool操作，并对其进行局部相应归一化(LRN)，其归一化的方式为：

其中，M为pooling之后特征映射的个数；i为M个特征映射中的第i个；n为局部归一化的大小，即每n个特征映射进行归一化；aⁱ _x,y表示在第i个特征映射中坐标(x,y)下所对应的值；k为偏置；α，β为归一化的参数；bⁱ _x,y为经过局部相应归一化(LRN)后的输出结果。

在AlexNet中，k＝2，n＝5，α＝10^-4，β＝0.75。

继续采用该模型，将F₁(IMAGE)作为第二个网络层的输入，根据第二层网络层，可表示为：

F₂(IMAGE)＝max(0,W₂*F₁(IMAGE)+B₂) (3)

其中，W₂表示卷积核参数；B₂表示偏置；F₂(IMAGE)表示为经过第二层网络后的输出结果。第一层与第二层的设置相同，只是卷积层与pooling层的映射核kernel的大小发生变化。

按照AlexNet的网络设置，剩余的卷积层可依次表示为：

F₃(IMAGE)＝max(0,W₃*F₂(IMAGE)+B₃) (4)

F₄(IMAGE)＝max(0,W₄*F₃(IMAGE)+B₄) (5)

F₅(IMAGE)＝pool[max(0,W₅*F₄(IMAGE)+B₅)] (6)

其中，W₃，W₄，W₅以及B₃，B₄，B₅为各层的卷积参数和偏置。

后3层为全连接层，根据图2的网络层设置可依次表示为：

F₆(IMAGE)＝fc[F₅(IMAGE),θ₁] (7)

F₇(IMAGE)＝fc[F₆(IMAGE),θ₂] (8)

F₈(IMAGE)＝fc[F₇(IMAGE),θ₃] (9)

其中，fc表示全连接层，θ₁，θ₂，θ₃表示三个全连接层的参数，并将最后一层的特征F₈(IMAGE)输入到1000个类别的多元分类器进行分类。

(3)根据当前网络，设置多元分类器，其公式可表示为：

其中，l(Θ)为目标函数，m为Imagenet中图像的类别，x^(t)为每一类别经过Alexnet网络之后提取的CNN特征，y^(t)为每个图像对应的标签，Θ＝{W_p,B_p,θ_q}，p＝1,...,5，q＝1,2,3，分别为各个网络层中的参数。采用梯度下降的方法对目标函数参数进行优化，从而得到Alexnet网络设置的参数Θ。

203：对视频提取视频帧序列，并利用卷积神经网络(CNN)模型提取CNN特征，构成<视频帧序列，文本描述序列>对作为递归神经网络(RNN)模型的输入，训练得到递归神经网络(RNN)模型；

该步骤具体为：

(1)根据步骤201，使用训练CNN模型后的参数，提取图像的CNN特征I，以及图像对应的句子描述S进行建模，其目标函数为：

θ^*＝argmax∑logp(S|I；θ) (11)

其中，(S,I)代表训练数据中的图像-文本对；θ为模型待优化参数；θ*为优化后的参数；

训练的目的是使得所有样本在给定输入图像I的观察下生成的句子的对数概率之和最大，采用条件概率的链式法则计算概率p(S|I；θ)，表达式为：

其中，S₀,S₁,...,S_t-1,S_t表示句子中的单词。对公式中的未知量p(S_t|I,S₀,S₁,...,S_t-1)使用递归神经网络进行建模。

(2)构造递归神经网络(RNN)：

在t-1个单词作为条件下，并将这些词表示为固定长度的隐态h_t，直到出现新的输入x_t，并通过非线性函数f对隐态进行更新，表达式为：

h_t+1＝f(h_t,x_t) (13)

其中，h_t+1表示下一隐态。

(3)对于非线性函数f，通过构造如图3所示的长短时间记忆网络(LSTM)进行建模；

其中，i_t为输入门input gate，f_t为遗忘门forget gate，o_t为输出门output gate，c为细胞cell，各个状态的更新和输出可表示为：

i_t＝σ(W_ixx_t+W_imm_t-1) (14)

f_t＝σ(W_fxx_t+W_fmm_t-1) (15)

o_t＝σ(W_oxx_t+W_omm_t-1) (16)

p_t+1＝Softmax(m_t) (19)

其中，表示为gate值之间的乘积，矩阵W＝{W_ix；W_im；W_fx；W_fm；W_ox；W_om；W_cx；W_ix；W_cm}为需要训练的参数，σ(·)为S型函数(例如：σ(W_ixx_t+W_imm_t-1)、σ(W_fxx_t+W_fmm_t-1)为S型函数)，h(·)为双曲线正切函数(例如：h(W_cxx_t+W_cmm_t-1)为双曲线正切函数)。p_t+1为经过Softmax分类后下一个词的概率分布；m_t为当前状态特征。

(4)使用梯度下降的方式优化目标函数(11)，并得到训练后的长短时间记忆网络LSTM参数W。

204：利用训练得到的RNN模型对待描述视频的视频帧序列进行描述，得到描述序列，进行预测的步骤如下：

(1)提取测试集N_t为测试集视频的个数，t为测试集视频，并对每一个视频提取10帧图像，可表示为：

(2)利用训练好的模型参数Θ＝{W_i,B_i,θ_j}，i＝1,...,5，j＝1,2,3，并使用CNN模型提取Image^t中每个图像的CNN特征，得到图像特征I^t＝{I^t ₁,…,I^t ₁₀}。

(3)将图像特征I^t作为输入并利用训练得到的模型参数W求得公式(12)，得到句子描述S＝{S₁,…,S_n}。从而得到该视频对应的句子描述。

205：利用LexRank的方法对描述序列的合理性进行排序，选择最合理描述作为对该视频的最终描述。

(1)通过使用RNN模型对视频特征序列I^t＝{I^t ₁,…,I^t ₁₀}进行测试，生成相应的句子集合S＝{S₁,…S_i,…,S_n}。

(2)生成句子特征，顺序扫描所有句子集合中S中每一个句子S_i中的所有单词，其中i＝1,…,N_d，每个不同单词保留一个，形成单词列表表示的词汇表VOL＝{w_i,…,w_Nw}，其中N_w是词汇表VOL中的单词总数。对词汇表VOL中的每个单词w_i，顺序扫描句子集合S中的每句子S_j，统计每个单词w_i在每个句子S_j中出现的次数n_ij，其中j＝1,…,N_s,N_s是句子总数，并统计集合S中包含单词w_i的伴随文本个数num(w_i)；根据公式(20)计算每个单词w_i在每个句子S_j中的词频tf(w_i,s_j)，其中i＝1,…,N_d,N_d是词汇表中单词总数，j＝1,…,N_s,N_s是集合中所有句子S总数；

其中，n_kj为第k个词在第j个句子中出现的个数。

对词汇表VOL中的每个单词w_i，根据公式(21)计算其逆文档词频idf(w_i)；

idf(w_i)＝log(N_d/num(w_i)) (21)

其中，N_d为每个句子单词的个数。

根据向量空间模型，将集合S中每个句子S_j表示成N_w维向量，第i维对应词汇表中的单词w_i，其值为tfidf(w_i)，计算公式如下：

tfidf(w_i)＝tf(w_i,s_j)×idf(w_i) (22)

(3)采用两个向量S_i，S_j之间的余弦值作为句子相似度，计算公式如下：

其中，为每个单词w在句子S_i中的词频；为每个单词w在句子S_j中的词频；idf_w为每个单词的逆文档词频；s_m为句子S_i中任意一个单词；为单词s_m在S_i中的词频；为单词s_m的逆文档词频；s_n为句子S_j中任意一个单词；为单词s_n在S_j中的词频；为单词s_n的逆文档词频。

并形成全连接无向图，如图4(a)，每个节点u_i为句子S_i，节点之间边作为为句子相似度。

(4)设置阈值Degree，将所有相似度similarity小于Degree的边删除，如图4(b)。

(5)计算每个句子节点u_i的LexRank分数LR，每个句子节点的初始分数为：d/N,其中N为句子节点个数，d为阻尼因子，d通常选在[0.1,0.2]之间，根据公式(4)计算分数LR：

其中，deg(v)为节点v的阈值；LR(u)为节点u的分数；LR(v)为节点v的分数。

(6)计算每个句子节点的LR分数，并排序，选择分数最高的句子作为视频的最终描述。

综上所述，本发明实施例通过步骤201-步骤205实现了通过自然语言描述一段视频中正在发生的事件以及与事件相关的物体属性，从而达到对视频内容进行描述和总结的目的。

实施例3

这里选取两个视频作为待描述视频，如图5所示，使用本发明中基于深度学习和文本总结的方法对其进行预测输出相应的视频描述：

(1)使用ImageNet作为训练集，将数据集中的每一张图片采样到256*256大小的图片，作为输入，N_m为图片的个数。

(2)搭建第一层卷积层，设置卷积核cov1大小为11，步长stride为4，选择ReLU为max(0,x)，对卷积后的feature map进行pooling操作，核的大小为3，步长stride为2，并使用局部相应归一化对卷积后的数据进行归一化。在AlexNet中，k＝2,n＝5,α＝10^-4,β＝0.75。

(3)搭建第二层卷积层，设置卷积核cov2大小为5，步长stride为1，选择ReLU为max(0,x)，对卷积后的feature map进行pooling操作，核的大小为3，步长stride为2，并使用局部相应归一化对卷积后的数据进行归一化。

(4)搭建第三层卷积层，设置卷积核cov3大小为3，步长stride为1，选择ReLU为max(0,x)。

(5)搭建第四层卷积层，设置卷积核cov4大小为3，步长stride为1，选择ReLU为max(0,x)。

(6)搭建第五层卷积层，设置卷积核cov5大小为3，步长stride为1，选择ReLU为max(0,x)，并对卷积后的feature map进行pooling操作，核的大小为3，步长stride为2。

(7)搭建第六层全连接层，设置该层为fc6，选择ReLU为max(0,x)，对处理后的数据进行dropout。

(8)搭建第七层全连接层，设置该层为fc7，选择ReLU为max(0,x)，对处理后的数据进行dropout。

(9)搭建第八层全连接层，设置该层为fc8，并加入Softmax分类器作为目标函数。

(10)通过设置上述八层网络层，建立卷积神经网络(CNN)模型。

(11)训练CNN模型参数。

(12)数据处理：将数据集中的每个视频均匀提取10帧，并采样到256*256大小。并将图像输入到训练好的CNN模型中得到图像特征，每帧图像随机对应该视频的5句文本表述作为图像-文本对

(13)构造递归神经网络(RNN)模型。

图5为经过本发明后所产生的视频文本描述结果。图中的图片部分为从视频中提取的视频帧，每帧图像对应的句子为视频特征经过语言模型后所得到的结果。图片下半部分表示经过总结后，只采用视频特征和通过图像迁移所生成的句子以及该视频原本的描述。

综上所述，本发明实施例将每一个视频的帧序列通过卷积神经网络和循环神经网络转化成一系列的句子，并通过文本总结的方法，从众多的句子中筛选出质量高并具有代表性的句子。用户可以使用这种方法得到视频的描述，其描述的准确性较高，并且可以推广到视频的检索中去。

参考文献

[1]Krizhevsky A,Sutskever I,Hinton G.基于深度卷积神经网络的图像分类方法[J].神经信息处理***进展,2012.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习和文本总结的视频描述方法，其特征在于，所述视频描述方法包括以下步骤：

1)从互联网下载视频，并对每个视频进行描述，形成<视频，描述>对，构成文本描述训练集；

2)通过现有的图像数据集按照图像分类任务训练卷积神经网络模型；

3)对视频提取视频帧序列，并利用卷积神经网络模型提取卷积神经网络特征，构成<视频帧序列，文本描述序列>对作为递归神经网络模型的输入，训练得到递归神经网络模型；

即，使用训练卷积神经网络模型后的参数，提取图像的卷积神经网络特征，以及图像对应的句子描述进行建模，获取目标函数；

使用梯度下降的方式优化目标函数，并得到训练后的长短时间记忆网络参数；

4)通过训练得到的递归神经网络模型对待描述视频的视频帧序列进行描述，得到描述序列；

即，利用训练好的模型参数并使用卷积神经网络模型提取每个图像的卷积神经网络特征，得到图像特征；

将图像特征作为输入并利用训练得到的模型参数得到句子描述，从而得到视频对应的句子描述；

5)通过基于图的词汇中心度作为文本总结的显著性的方法，对描述序列进行排序，输出视频的最终描述结果；

其中，对描述序列进行排序，输出视频的最终描述结果具体为：

通过使用RNN模型对视频特征序列I^t＝{I^t ₁,…,I^t ₁₀}进行测试，生成相应的句子集合；

生成句子特征，顺序扫描所有句子集合中S中每一个句子S_i中的所有单词，每个不同单词保留一个，形成单词列表表示的词汇表；采用两个向量S_i，S_j之间的余弦值作为句子相似度；设置阈值Degree，将所有相似度similarity小于Degree的边删除；

计算每个句子节点u_i的LexRank分数LR，每个句子节点的初始分数为：d/N,其中N为句子节点个数，d为阻尼因子，d通常选在[0.1,0.2]之间，根据如下公式计算分数LR：

2.根据权利要求1所述的一种基于深度学习和文本总结的视频描述方法，其特征在于，所述从互联网下载视频，并对每个视频进行描述，形成<视频，描述>对，构成文本描述训练集具体为：