CN105279495B - 一种基于深度学习和文本总结的视频描述方法 - Google Patents

一种基于深度学习和文本总结的视频描述方法 Download PDF

Info

Publication number
CN105279495B
CN105279495B CN201510697454.3A CN201510697454A CN105279495B CN 105279495 B CN105279495 B CN 105279495B CN 201510697454 A CN201510697454 A CN 201510697454A CN 105279495 B CN105279495 B CN 105279495B
Authority
CN
China
Prior art keywords
video
sentence
neural networks
description
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510697454.3A
Other languages
English (en)
Other versions
CN105279495A (zh
Inventor
李广
马书博
韩亚洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU WELLTHINKER AUTOMATION TECHNOLOGY CO.,LTD.
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201510697454.3A priority Critical patent/CN105279495B/zh
Publication of CN105279495A publication Critical patent/CN105279495A/zh
Application granted granted Critical
Publication of CN105279495B publication Critical patent/CN105279495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习和文本总结的视频描述方法,包括:通过现有的图像数据集按照图像分类任务训练卷积神经网络模型;对视频提取视频帧序列,并利用卷积神经网络模型提取卷积神经网络特征,构成<视频帧序列,文本描述序列>对作为递归神经网络模型的输入,训练得到递归神经网络模型;通过训练得到的递归神经网络模型对待描述视频的视频帧序列进行描述,得到描述序列;通过基于图的词汇中心度作为文本总结的显著性的方法,对描述序列进行排序,输出视频的最终描述结果。通过自然语言描述一段视频中正在发生的事件以及与事件相关的物体属性,从而达到对视频内容进行描述和总结的目的。

Description

一种基于深度学习和文本总结的视频描述方法
技术领域
本发明涉及视频描述领域,尤其涉及一种基于深度学习和文本总结的视频描述方法。
背景技术
使用自然语言对一个视频进行描述,无论是对该视频的理解还是在Web检索该视频都是极其重要的。同时,视频的语言描述也是多媒体和计算机视觉领域中重点研究的课题。所谓视频描述,是指对给定的视频,通过观察它所包含的内容,即获得视频特征,并根据这些内容,生成相应的句子。当人们看到一个视频时,特别是一些动作类别的视频,在观看完视频后会对该视频有一定程度的了解,并可以通过语言去讲述视频中所发生的事情。例如:使用“一个人正在骑摩托”这样的句子对视频进行描述。然而,面对大量的视频,采用人工的方式对视频进行逐一的描述需要大量的时间,人力和财力。使用计算机技术对视频特征进行分析,并与自然语言处理的方法进行结合,生成对视频的描述是非常有必要的。一方面,通过视频描述的方法,人们可以从语义的角度更加精确的去理解视频。另一方面,在视频检索领域,当用户输入一段文字性的描述来检索出相应的视频这件事情是非常困难的并且具有一定的挑战。
在过去的几年中已经涌现出了各种各样的视频描述方法,比如:通过对视频特征进行分析,可以识别视频中存在的物体,以及物体之间所具有的动作关系。然后采用固定的语言模板:主语+动词+宾语,从所识别物体中确定主语、宾语以及将物体之间的动作关系作为谓语,采用这样的方式生成句子对视频的描述。
但是这样的方法存在一定的局限性,例如:使用语言模板生成句子容易导致生成的句子句式相对固定,句式过于单一,缺乏人类自然语言表达的色彩。同时,识别视频中的物体和动作等均需要使用不同的特征,造成步骤相对繁琐,并需要大量的时间对视频特征进行训练。不仅如此,识别的准确率直接影响生成句子的好坏,这种分步式的方法需要在每个步骤保证较高的正确性,实现有一定的困难。
发明内容
本发明提供了一种基于深度学习和文本总结的视频描述方法,本发明通过自然语言描述一段视频中正在发生的事件以及与事件相关的物体属性,从而达到对视频内容进行描述和总结的目的,详见下文描述:
一种基于深度学习和文本总结的视频描述方法,其特征在于,所述视频描述方法包括以下步骤:
从互联网下载视频,并对每个视频进行描述,形成<视频,描述>对,构成文本描述训练集;
通过现有的图像数据集按照图像分类任务训练卷积神经网络模型;
对视频提取视频帧序列,并利用卷积神经网络模型提取卷积神经网络特征,构成<视频帧序列,文本描述序列>对作为递归神经网络模型的输入,训练得到递归神经网络模型;
通过训练得到的递归神经网络模型对待描述视频的视频帧序列进行描述,得到描述序列;
通过基于图的词汇中心度作为文本总结的显著性的方法,对描述序列进行排序,输出视频的最终描述结果。
所述从互联网下载视频,并对每个视频进行描述,形成<视频,描述>对,构成文本描述训练集具体为:
通过现有的视频集合、以及每个视频对应的句子描述组成<视频,描述>对,构成文本描述训练集。
所述对视频提取视频帧序列,并利用卷积神经网络模型提取卷积神经网络特征,构成<视频帧序列,文本描述序列>对作为递归神经网络模型的输入,训练得到递归神经网络模型的步骤具体为:
使用训练卷积神经网络模型后的参数,提取图像的卷积神经网络特征,以及图像对应的句子描述进行建模,获取目标函数;
构造递归神经网络;对于非线性函数通过长短时间记忆网络进行建模;
使用梯度下降的方式优化目标函数,并得到训练后的长短时间记忆网络参数。
所述通过训练得到的递归神经网络模型对待描述视频的视频帧序列进行描述,得到描述序列的步骤具体为:
利用训练好的模型参数并使用卷积神经网络模型提取每个图像的卷积神经网络特征,得到图像特征;
将图像特征作为输入并利用训练得到的模型参数得到句子描述,从而得到视频对应的句子描述。
本发明提供的技术方案的有益效果是:每一个视频由一个帧序列构成,使用卷积神经网络提取视频每一帧的底层特征,采用本方法能够有效避免传统的使用深度学习提取视频特征引入过多的噪点,降低后期生成句子的准确性。使用训练好的循环神经网络将每一帧图片转化成句子,从而生成一个句子的集合。并使用自动文本总结的方法通过计算句子之间的中心度并从句子的集合只中筛选出质量高,具有代表性的句子作为视频的描述,采用本方法能够产生更好的视频描述效果和准确性以及句子的多样性。同时,采用基于深度和文本总结的方法可以有效地推广到视频检索的应用当中,但本方法仅限于对视频内容的英文描述。
附图说明
图1为一种基于深度学习和文本总结的视频描述方法的流程图;
图2本发明所使用的卷积神经网络模型(CNN)示意图;
其中,Cov表示卷积核;ReLU表示公式为max(0,x);Pool表示Pooling操作;LRN为局部相应归一化操作;Softmax为目标函数。
图3本发明所使用的递归神经网络示意图;
其中,t表示t状态下的输入;ht-1表示上一状态的隐态;i为input gate;f为forgetgate;o为output gate;c为cell;mt为经过一个LSTM单元后的输出。
图4(a)为LexRank剪枝后连接图;
其中,S={S1,…,S10}为经过递归神经网络(RNN)生成的10个句子,采用图模式将这10个句子表示为10个节点;节点与节点之间的相似度通过直线来表示并构成全连接图,连线的粗细表示相似度的大小。
图4(b)为LexRank初始全连接图;
通过设置阈值,将节点与节点之间相似度较小的连线去除,剩余的节点与节点之间的连线即句子之间的相似度较高。
图5为部分视频帧经过描述后所产生的句子的示意图。
其中,每帧图像下面为采用本发明中所用的CNN-RNN模型后所生成的句子,其箭头指向部分为经过LexRank方法后对视频文本描述的总结作为该视频的文本描述。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
基于背景技术中存在的问题,以及在图像中使用深度学习的方法对图像进行描述效果取得显著的提升后,人们从中受到启发,并在视频中运用深度学习的方法,其生成的视频描述的多样性和正确性有了一定的提高。
为此,本发明实施例提出了一种基于深度学习和文本总结的视频描述方法,首先,本方法通过卷积神经网络框架对视频的每一帧的视觉特征进行提取。然后,将每一个视频特征作为输入到循环神经网络框架中,采用这种框架可以对每一个视觉特征,即视频的每一帧生成一句描述。这样,就得到了一个句子的集合,为了得到最具有表现性并且高质量的句子作为该视频的描述,本方法采用文本总结的方法,通过计算句子之间的相似度对所有句子进行排序,从而避免了一些错误句子和低质量的句子作为视频的最终描述。采用自动文本总结的方法不仅可以得到一个具有代表性的句子,并且具有一定的正确性和可靠性,从而提高了视频描述的准确性。同时,本方法也克服了视频检索所面临的一些技术上的困难。
实施例1
一种基于深度学习和文本总结的视频描述方法,参见图1,该方法包括以下步骤:
101:从互联网下载视频,并对每个视频进行描述(英文描述),形成<视频,描述>对,构成文本描述训练集,其中每个视频对应多句描述,从而构成一个文本描述序列;
102:利用现有的图像数据集,按照图像分类任务训练卷积神经网络(CNN)模型;
例如:ImageNet。
103:对视频提取视频帧序列,并利用卷积神经网络(CNN)模型提取CNN特征,构成<视频帧序列,文本描述序列>对作为递归神经网络(RNN)模型的输入,训练得到递归神经网络(RNN)模型;
104:利用训练得到的RNN模型对待描述视频的视频帧序列进行描述,得到描述序列;
105:利用基于图的词汇中心度作为文本总结的显著性(LexRank)的方法对描述序列的合理性进行排序,选择最合理描述作为对该视频的最终描述。
综上所述,本发明实施例通过步骤101-步骤105实现了通过自然语言描述一段视频中正在发生的事件以及与事件相关的物体属性,从而达到对视频内容进行描述和总结的目的。
实施例2
201:从互联网下载图像,并对每个视频进行描述,形成<视频,描述>对,构成文本描述训练集;
该步骤具体包括:
(1)从互联网中下载微软研究院视频描述数据集(Microsoft Research Video Description Corpus),这个数据集包括从YouTube中收集的1970个视频段,数据集可表示 为其中Nd是集合VID中的视频总数。
(2)每个视频都会有多个相应的描述,每一个视频的句子描述为Sentences={Sentence1,…,SentenceN},其中,N表示每一个视频所对应的句子(Sentence1,…,SentenceN)的描述个数。
(3)通过现有的视频集合VID以及每个视频对应的句子描述Sentences组成<视频,描述>对,构成文本描述训练集。
202:利用现有的图像数据集,按照图像分类任务训练卷积神经网络(CNN)模型,训练CNN模型参数;
该步骤具体包括:
(1)构造图2中所示的AlexNet[1]CNN模型:该模型包括了8个网络层,其中前5层是卷积层,后3层是全连接层。
(2)使用Imagenet作为训练集,将图像数据集中的每一张图片采样到256*256大小 的图片,作为输入,Nm为图片的个数,根 据图2设置的网络层,第1层可表示为:
F1(IMAGE)=norm{pool[max(0,W1*IMAGE+B1)]} (1)
其中,IMAGE表示输入图像;W1表示卷积核参数;B1表示偏置;F1(IMAGE)表示为经过第一层网络后的输出结果;Norm表示归一化操作。在这一网络层中,通过线性纠正函数(max(0,x),x为W1*IMAGE+B1)对卷积后的图像进行处理,再经过映射pool操作,并对其进行局部相应归一化(LRN),其归一化的方式为:
其中,M为pooling之后特征映射的个数;i为M个特征映射中的第i个;n为局部归一化的大小,即每n个特征映射进行归一化;ai x,y表示在第i个特征映射中坐标(x,y)下所对应的值;k为偏置;α,β为归一化的参数;bi x,y为经过局部相应归一化(LRN)后的输出结果。
在AlexNet中,k=2,n=5,α=10-4,β=0.75。
继续采用该模型,将F1(IMAGE)作为第二个网络层的输入,根据第二层网络层,可表示为:
F2(IMAGE)=max(0,W2*F1(IMAGE)+B2) (3)
其中,W2表示卷积核参数;B2表示偏置;F2(IMAGE)表示为经过第二层网络后的输出结果。第一层与第二层的设置相同,只是卷积层与pooling层的映射核kernel的大小发生变化。
按照AlexNet的网络设置,剩余的卷积层可依次表示为:
F3(IMAGE)=max(0,W3*F2(IMAGE)+B3) (4)
F4(IMAGE)=max(0,W4*F3(IMAGE)+B4) (5)
F5(IMAGE)=pool[max(0,W5*F4(IMAGE)+B5)] (6)
其中,W3,W4,W5以及B3,B4,B5为各层的卷积参数和偏置。
后3层为全连接层,根据图2的网络层设置可依次表示为:
F6(IMAGE)=fc[F5(IMAGE),θ1] (7)
F7(IMAGE)=fc[F6(IMAGE),θ2] (8)
F8(IMAGE)=fc[F7(IMAGE),θ3] (9)
其中,fc表示全连接层,θ1,θ2,θ3表示三个全连接层的参数,并将最后一层的特征F8(IMAGE)输入到1000个类别的多元分类器进行分类。
(3)根据当前网络,设置多元分类器,其公式可表示为:
其中,l(Θ)为目标函数,m为Imagenet中图像的类别,x(t)为每一类别经过Alexnet网络之后提取的CNN特征,y(t)为每个图像对应的标签,Θ={Wp,Bpq},p=1,...,5,q=1,2,3,分别为各个网络层中的参数。采用梯度下降的方法对目标函数参数进行优化,从而得到Alexnet网络设置的参数Θ。
203:对视频提取视频帧序列,并利用卷积神经网络(CNN)模型提取CNN特征,构成<视频帧序列,文本描述序列>对作为递归神经网络(RNN)模型的输入,训练得到递归神经网络(RNN)模型;
该步骤具体为:
(1)根据步骤201,使用训练CNN模型后的参数,提取图像的CNN特征I,以及图像对应的句子描述S进行建模,其目标函数为:
θ*=argmax∑logp(S|I;θ) (11)
其中,(S,I)代表训练数据中的图像-文本对;θ为模型待优化参数;θ*为优化后的参数;
训练的目的是使得所有样本在给定输入图像I的观察下生成的句子的对数概率之和最大,采用条件概率的链式法则计算概率p(S|I;θ),表达式为:
其中,S0,S1,...,St-1,St表示句子中的单词。对公式中的未知量p(St|I,S0,S1,...,St-1)使用递归神经网络进行建模。
(2)构造递归神经网络(RNN):
在t-1个单词作为条件下,并将这些词表示为固定长度的隐态ht,直到出现新的输入xt,并通过非线性函数f对隐态进行更新,表达式为:
ht+1=f(ht,xt) (13)
其中,ht+1表示下一隐态。
(3)对于非线性函数f,通过构造如图3所示的长短时间记忆网络(LSTM)进行建模;
其中,it为输入门input gate,ft为遗忘门forget gate,ot为输出门output gate,c为细胞cell,各个状态的更新和输出可表示为:
it=σ(Wixxt+Wimmt-1) (14)
ft=σ(Wfxxt+Wfmmt-1) (15)
ot=σ(Woxxt+Wommt-1) (16)
pt+1=Softmax(mt) (19)
其中,表示为gate值之间的乘积,矩阵W={Wix;Wim;Wfx;Wfm;Wox;Wom;Wcx;Wix;Wcm}为需要训练的参数,σ(·)为S型函数(例如:σ(Wixxt+Wimmt-1)、σ(Wfxxt+Wfmmt-1)为S型函数),h(·)为双曲线正切函数(例如:h(Wcxxt+Wcmmt-1)为双曲线正切函数)。pt+1为经过Softmax分类后下一个词的概率分布;mt为当前状态特征。
(4)使用梯度下降的方式优化目标函数(11),并得到训练后的长短时间记忆网络LSTM参数W。
204:利用训练得到的RNN模型对待描述视频的视频帧序列进行描述,得到描述序列,进行预测的步骤如下:
(1)提取测试集Nt为测试 集视频的个数,t为测试集视频,并对每一个视频提取10帧图像,可表示为:
(2)利用训练好的模型参数Θ={Wi,Bij},i=1,...,5,j=1,2,3,并使用CNN模型提取Imaget中每个图像的CNN特征,得到图像特征It={It 1,…,It 10}。
(3)将图像特征It作为输入并利用训练得到的模型参数W求得公式(12),得到句子描述S={S1,…,Sn}。从而得到该视频对应的句子描述。
205:利用LexRank的方法对描述序列的合理性进行排序,选择最合理描述作为对该视频的最终描述。
(1)通过使用RNN模型对视频特征序列It={It 1,…,It 10}进行测试,生成相应的句子集合S={S1,…Si,…,Sn}。
(2)生成句子特征,顺序扫描所有句子集合中S中每一个句子Si中的所有单词,其中i=1,…,Nd,每个不同单词保留一个,形成单词列表表示的词汇表VOL={wi,…,wNw},其中Nw是词汇表VOL中的单词总数。对词汇表VOL中的每个单词wi,顺序扫描句子集合S中的每句子Sj,统计每个单词wi在每个句子Sj中出现的次数nij,其中j=1,…,Ns,Ns是句子总数,并统计集合S中包含单词wi的伴随文本个数num(wi);根据公式(20)计算每个单词wi在每个句子Sj中的词频tf(wi,sj),其中i=1,…,Nd,Nd是词汇表中单词总数,j=1,…,Ns,Ns是集合中所有句子S总数;
其中,nkj为第k个词在第j个句子中出现的个数。
对词汇表VOL中的每个单词wi,根据公式(21)计算其逆文档词频idf(wi);
idf(wi)=log(Nd/num(wi)) (21)
其中,Nd为每个句子单词的个数。
根据向量空间模型,将集合S中每个句子Sj表示成Nw维向量,第i维对应词汇表中的单词wi,其值为tfidf(wi),计算公式如下:
tfidf(wi)=tf(wi,sj)×idf(wi) (22)
(3)采用两个向量Si,Sj之间的余弦值作为句子相似度,计算公式如下:
其中,为每个单词w在句子Si中的词频;为每个单词w在句子Sj中的词频;idfw为每个单词的逆文档词频;sm为句子Si中任意一个单词;为单词sm在Si中的词频;为单词sm的逆文档词频;sn为句子Sj中任意一个单词;为单词sn在Sj中的词频;为单词sn的逆文档词频。
并形成全连接无向图,如图4(a),每个节点ui为句子Si,节点之间边作为为句子相似度。
(4)设置阈值Degree,将所有相似度similarity小于Degree的边删除,如图4(b)。
(5)计算每个句子节点ui的LexRank分数LR,每个句子节点的初始分数为:d/N,其中N为句子节点个数,d为阻尼因子,d通常选在[0.1,0.2]之间,根据公式(4)计算分数LR:
其中,deg(v)为节点v的阈值;LR(u)为节点u的分数;LR(v)为节点v的分数。
(6)计算每个句子节点的LR分数,并排序,选择分数最高的句子作为视频的最终描述。
综上所述,本发明实施例通过步骤201-步骤205实现了通过自然语言描述一段视频中正在发生的事件以及与事件相关的物体属性,从而达到对视频内容进行描述和总结的目的。
实施例3
这里选取两个视频作为待描述视频,如图5所示,使用本发明中基于深度学习和文本总结的方法对其进行预测输出相应的视频描述:
(1)使用ImageNet作为训练集,将数据集中的每一张图片采样到256*256大小的图 片,作为输入,Nm为图片的个数。
(2)搭建第一层卷积层,设置卷积核cov1大小为11,步长stride为4,选择ReLU为max(0,x),对卷积后的feature map进行pooling操作,核的大小为3,步长stride为2,并使用局部相应归一化对卷积后的数据进行归一化。在AlexNet中,k=2,n=5,α=10-4,β=0.75。
(3)搭建第二层卷积层,设置卷积核cov2大小为5,步长stride为1,选择ReLU为max(0,x),对卷积后的feature map进行pooling操作,核的大小为3,步长stride为2,并使用局部相应归一化对卷积后的数据进行归一化。
(4)搭建第三层卷积层,设置卷积核cov3大小为3,步长stride为1,选择ReLU为max(0,x)。
(5)搭建第四层卷积层,设置卷积核cov4大小为3,步长stride为1,选择ReLU为max(0,x)。
(6)搭建第五层卷积层,设置卷积核cov5大小为3,步长stride为1,选择ReLU为max(0,x),并对卷积后的feature map进行pooling操作,核的大小为3,步长stride为2。
(7)搭建第六层全连接层,设置该层为fc6,选择ReLU为max(0,x),对处理后的数据进行dropout。
(8)搭建第七层全连接层,设置该层为fc7,选择ReLU为max(0,x),对处理后的数据进行dropout。
(9)搭建第八层全连接层,设置该层为fc8,并加入Softmax分类器作为目标函数。
(10)通过设置上述八层网络层,建立卷积神经网络(CNN)模型。
(11)训练CNN模型参数。
(12)数据处理:将数据集中的每个视频均匀提取10帧,并采样到256*256大小。并将图像输入到训练好的CNN模型中得到图像特征,每帧图像随机对应该视频的5句文本表述作为图像-文本对
(13)构造递归神经网络(RNN)模型。
图5为经过本发明后所产生的视频文本描述结果。图中的图片部分为从视频中提取的视频帧,每帧图像对应的句子为视频特征经过语言模型后所得到的结果。图片下半部分表示经过总结后,只采用视频特征和通过图像迁移所生成的句子以及该视频原本的描述。
综上所述,本发明实施例将每一个视频的帧序列通过卷积神经网络和循环神经网络转化成一系列的句子,并通过文本总结的方法,从众多的句子中筛选出质量高并具有代表性的句子。用户可以使用这种方法得到视频的描述,其描述的准确性较高,并且可以推广到视频的检索中去。
参考文献
[1]Krizhevsky A,Sutskever I,Hinton G.基于深度卷积神经网络的图像分类方法[J].神经信息处理***进展,2012.
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于深度学习和文本总结的视频描述方法,其特征在于,所述视频描述方法包括以下步骤:
1)从互联网下载视频,并对每个视频进行描述,形成<视频,描述>对,构成文本描述训练集;
2)通过现有的图像数据集按照图像分类任务训练卷积神经网络模型;
3)对视频提取视频帧序列,并利用卷积神经网络模型提取卷积神经网络特征,构成<视频帧序列,文本描述序列>对作为递归神经网络模型的输入,训练得到递归神经网络模型;
即,使用训练卷积神经网络模型后的参数,提取图像的卷积神经网络特征,以及图像对应的句子描述进行建模,获取目标函数;
构造递归神经网络;对于非线性函数通过长短时间记忆网络进行建模;
使用梯度下降的方式优化目标函数,并得到训练后的长短时间记忆网络参数;
4)通过训练得到的递归神经网络模型对待描述视频的视频帧序列进行描述,得到描述序列;
即,利用训练好的模型参数并使用卷积神经网络模型提取每个图像的卷积神经网络特征,得到图像特征;
将图像特征作为输入并利用训练得到的模型参数得到句子描述,从而得到视频对应的句子描述;
5)通过基于图的词汇中心度作为文本总结的显著性的方法,对描述序列进行排序,输出视频的最终描述结果;
其中,对描述序列进行排序,输出视频的最终描述结果具体为:
通过使用RNN模型对视频特征序列It={It 1,…,It 10}进行测试,生成相应的句子集合;
生成句子特征,顺序扫描所有句子集合中S中每一个句子Si中的所有单词,每个不同单词保留一个,形成单词列表表示的词汇表;采用两个向量Si,Sj之间的余弦值作为句子相似度;设置阈值Degree,将所有相似度similarity小于Degree的边删除;
计算每个句子节点ui的LexRank分数LR,每个句子节点的初始分数为:d/N,其中N为句子节点个数,d为阻尼因子,d通常选在[0.1,0.2]之间,根据如下公式计算分数LR:
其中,deg(v)为节点v的阈值;LR(u)为节点u的分数;LR(v)为节点v的分数。
2.根据权利要求1所述的一种基于深度学习和文本总结的视频描述方法,其特征在于,所述从互联网下载视频,并对每个视频进行描述,形成<视频,描述>对,构成文本描述训练集具体为:
通过现有的视频集合、以及每个视频对应的句子描述组成<视频,描述>对,构成文本描述训练集。
CN201510697454.3A 2015-10-23 2015-10-23 一种基于深度学习和文本总结的视频描述方法 Active CN105279495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510697454.3A CN105279495B (zh) 2015-10-23 2015-10-23 一种基于深度学习和文本总结的视频描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510697454.3A CN105279495B (zh) 2015-10-23 2015-10-23 一种基于深度学习和文本总结的视频描述方法

Publications (2)

Publication Number Publication Date
CN105279495A CN105279495A (zh) 2016-01-27
CN105279495B true CN105279495B (zh) 2019-06-04

Family

ID=55148479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510697454.3A Active CN105279495B (zh) 2015-10-23 2015-10-23 一种基于深度学习和文本总结的视频描述方法

Country Status (1)

Country Link
CN (1) CN105279495B (zh)

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017168252A1 (en) * 2016-03-31 2017-10-05 Maluuba Inc. Method and system for processing an input query
US9984772B2 (en) * 2016-04-07 2018-05-29 Siemens Healthcare Gmbh Image analytics question answering
CN105894043A (zh) * 2016-04-27 2016-08-24 上海高智科技发展有限公司 一种视频描述语句生成方法及***
CN107391505B (zh) * 2016-05-16 2020-10-23 腾讯科技(深圳)有限公司 一种图像处理方法及***
CN106126492B (zh) * 2016-06-07 2019-02-05 北京高地信息技术有限公司 基于双向lstm神经网络的语句识别方法及装置
CN106227793B (zh) * 2016-07-20 2019-10-22 优酷网络技术(北京)有限公司 一种视频与视频关键词相关度的确定方法及装置
CN107707931B (zh) * 2016-08-08 2021-09-10 阿里巴巴集团控股有限公司 根据视频数据生成解释数据、数据合成方法及装置、电子设备
CN106372107B (zh) * 2016-08-19 2020-01-17 中兴通讯股份有限公司 自然语言文句库的生成方法及装置
CN107784372B (zh) * 2016-08-24 2022-02-22 阿里巴巴集团控股有限公司 目标对象属性的预测方法、装置和***
CN106503055B (zh) * 2016-09-27 2019-06-04 天津大学 一种从结构化文本到图像描述的生成方法
CN106485251B (zh) * 2016-10-08 2019-12-24 天津工业大学 基于深度学习的鸡蛋胚胎分类
GB2555431A (en) * 2016-10-27 2018-05-02 Nokia Technologies Oy A method for analysing media content
CN106650789B (zh) * 2016-11-16 2023-04-07 同济大学 一种基于深度lstm网络的图像描述生成方法
CN106782602B (zh) * 2016-12-01 2020-03-17 南京邮电大学 基于深度神经网络的语音情感识别方法
CN106599198B (zh) * 2016-12-14 2021-04-06 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种多级联结循环神经网络的图像描述方法
CN106650756B (zh) * 2016-12-28 2019-12-10 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于知识迁移的多模态循环神经网络的图像文本描述方法
CN106845411B (zh) * 2017-01-19 2020-06-30 清华大学 一种基于深度学习和概率图模型的视频描述生成方法
CN106934352A (zh) * 2017-02-28 2017-07-07 华南理工大学 一种基于双路分形网络和lstm的视频描述方法
CN106886768A (zh) * 2017-03-02 2017-06-23 杭州当虹科技有限公司 一种基于深度学习的视频指纹算法
US11042782B2 (en) * 2017-03-20 2021-06-22 Intel Corporation Topic-guided model for image captioning system
CN107038221B (zh) * 2017-03-22 2020-11-17 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法
CN108665055B (zh) * 2017-03-28 2020-10-23 深圳荆虹科技有限公司 一种图说生成方法及装置
DE102017205713A1 (de) * 2017-04-04 2018-10-04 Siemens Aktiengesellschaft Verfahren und Steuereinrichtung zum Steuern eines technischen Systems
CN108734614A (zh) * 2017-04-13 2018-11-02 腾讯科技(深圳)有限公司 交通拥堵预测方法及装置、存储介质
US10872273B2 (en) * 2017-05-02 2020-12-22 Kodak Alaris Inc. System and method for batch-normalized recurrent highway networks
CN107203598A (zh) * 2017-05-08 2017-09-26 广州智慧城市发展研究院 一种实现图像转换标签的方法及***
US10445871B2 (en) 2017-05-22 2019-10-15 General Electric Company Image analysis neural network systems
CN108228686B (zh) * 2017-06-15 2021-03-23 北京市商汤科技开发有限公司 用于实现图文匹配的方法、装置和电子设备
CN107291882B (zh) * 2017-06-19 2020-07-14 江苏赛睿信息科技股份有限公司 一种数据自动统计分析方法
CN107515900B (zh) * 2017-07-24 2020-10-30 宗晖(上海)机器人有限公司 智能机器人及其事件备忘***和方法
CN107368887B (zh) * 2017-07-25 2020-08-07 江西理工大学 一种深度记忆卷积神经网络的装置及其构建方法
WO2019024083A1 (en) * 2017-08-04 2019-02-07 Nokia Technologies Oy ARTIFICIAL NEURONAL NETWORK
CN107578062A (zh) * 2017-08-19 2018-01-12 四川大学 一种基于属性概率向量引导注意模式的图片描述方法
CN107609501A (zh) * 2017-09-05 2018-01-19 东软集团股份有限公司 人体相近动作识别方法及装置、存储介质、电子设备
CN109522531B (zh) * 2017-09-18 2023-04-07 腾讯科技(北京)有限公司 文案生成方法和装置、存储介质及电子装置
CN110019952B (zh) * 2017-09-30 2023-04-18 华为技术有限公司 视频描述方法、***及装置
CN107844751B (zh) * 2017-10-19 2021-08-27 陕西师范大学 引导滤波长短记忆神经网络高光谱遥感图像的分类方法
CN107818306B (zh) * 2017-10-31 2020-08-07 天津大学 一种基于注意力模型的视频问答方法
CN108200483B (zh) * 2017-12-26 2020-02-28 中国科学院自动化研究所 动态多模态视频描述生成方法
CN108491208A (zh) * 2018-01-31 2018-09-04 中山大学 一种基于神经网络模型的代码注释分类方法
CN108307229B (zh) * 2018-02-02 2023-12-22 新华智云科技有限公司 一种影音数据的处理方法及设备
CN110119750A (zh) * 2018-02-05 2019-08-13 浙江宇视科技有限公司 数据处理方法、装置及电子设备
CN108765383B (zh) * 2018-03-22 2022-03-18 山西大学 基于深度迁移学习的视频描述方法
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108683924B (zh) * 2018-05-30 2021-12-28 北京奇艺世纪科技有限公司 一种视频处理的方法和装置
CN108881950B (zh) * 2018-05-30 2021-05-25 北京奇艺世纪科技有限公司 一种视频处理的方法和装置
CN109522451B (zh) * 2018-12-13 2024-02-27 连尚(新昌)网络科技有限公司 重复视频检测方法和装置
CN111325068B (zh) * 2018-12-14 2023-11-07 北京京东尚科信息技术有限公司 基于卷积神经网络的视频描述方法及装置
CN109711022B (zh) * 2018-12-17 2022-11-18 哈尔滨工程大学 一种基于深度学习的潜艇抗沉***
CN109960747B (zh) 2019-04-02 2022-12-16 腾讯科技(深圳)有限公司 视频描述信息的生成方法、视频处理方法、相应的装置
CN110096707B (zh) * 2019-04-29 2020-09-29 北京三快在线科技有限公司 生成自然语言的方法、装置、设备及可读存储介质
CN110210499B (zh) * 2019-06-03 2023-10-13 中国矿业大学 一种图像语义描述的自适应生成***
CN110188779A (zh) * 2019-06-03 2019-08-30 中国矿业大学 一种图像语义描述的生成方法
CN110659392B (zh) * 2019-09-29 2022-05-06 北京市商汤科技开发有限公司 检索方法及装置、存储介质
US11328512B2 (en) 2019-09-30 2022-05-10 Wipro Limited Method and system for generating a text summary for a multimedia content
CN110765921B (zh) * 2019-10-18 2022-04-19 北京工业大学 一种基于弱监督学习和视频时空特征的视频物体定位方法
CN110781345B (zh) * 2019-10-31 2022-12-27 北京达佳互联信息技术有限公司 视频描述生成模型的获取方法、视频描述生成方法及装置
CN111461974B (zh) * 2020-02-17 2023-04-25 天津大学 基于由粗到细的lstm模型的图像扫描路径控制方法
CN111400545A (zh) * 2020-03-01 2020-07-10 西北工业大学 一种基于深度学习的视频标注方法
CN111404676B (zh) * 2020-03-02 2023-08-29 北京丁牛科技有限公司 安全隐秘的密钥与密文的生成、存储与传递方法和装置
CN111488807B (zh) * 2020-03-29 2023-10-10 复旦大学 基于图卷积网络的视频描述生成***
CN111681676B (zh) * 2020-06-09 2023-08-08 杭州星合尚世影视传媒有限公司 视频物体识别构建音频方法、***、装置及可读存储介质
CN111931690A (zh) * 2020-08-28 2020-11-13 Oppo广东移动通信有限公司 模型训练方法、装置、设备及存储介质
CN113191262B (zh) * 2021-04-29 2022-08-19 桂林电子科技大学 一种视频描述数据处理方法、装置及存储介质
CN113641854B (zh) * 2021-07-28 2023-09-26 上海影谱科技有限公司 一种将文字转化为视频的方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8442927B2 (en) * 2009-07-30 2013-05-14 Nec Laboratories America, Inc. Dynamically configurable, multi-ported co-processor for convolutional neural networks
CN104113789A (zh) * 2014-07-10 2014-10-22 杭州电子科技大学 一种基于深度学习的视频摘要在线生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8442927B2 (en) * 2009-07-30 2013-05-14 Nec Laboratories America, Inc. Dynamically configurable, multi-ported co-processor for convolutional neural networks
CN104113789A (zh) * 2014-07-10 2014-10-22 杭州电子科技大学 一种基于深度学习的视频摘要在线生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LexRank: Graph-based Lexical Centrality as Salience in Text Summarization;Gunes Erkan;《Journal of Artificial Intelligence Research》;20041204;第22卷(第1期);第457-467页
Translating Videos to Natural Language Using Deep Recurrent Neural Networks;Subhashini Venugopalan等;《Computer Science》;20141219;第3-6页

Also Published As

Publication number Publication date
CN105279495A (zh) 2016-01-27

Similar Documents

Publication Publication Date Title
CN105279495B (zh) 一种基于深度学习和文本总结的视频描述方法
CN106503055B (zh) 一种从结构化文本到图像描述的生成方法
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
US10430689B2 (en) Training a classifier algorithm used for automatically generating tags to be applied to images
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN109670039B (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN111143576A (zh) 一种面向事件的动态知识图谱构建方法和装置
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN108536870A (zh) 一种融合情感特征和语义特征的文本情感分类方法
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN111209738A (zh) 一种联合文本分类的多任务命名实体识别方法
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及***
CN110825850B (zh) 一种自然语言主题分类方法及装置
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
CN112256939A (zh) 一种针对化工领域的文本实体关系抽取方法
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN106227836B (zh) 基于图像与文字的无监督联合视觉概念学习***及方法
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN114756681A (zh) 一种基于多注意力融合的评教文本细粒度建议挖掘方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
Van Atteveldt et al. Studying political decision making with automatic text analysis
Wu et al. Sentimental visual captioning using multimodal transformer
CN112417155B (zh) 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质
CN111563374B (zh) 一种基于司法裁判文书的人员社交关系抽取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220322

Address after: 511400 4th floor, No. 685, Shiqiao South Road, Panyu District, Guangzhou, Guangdong

Patentee after: GUANGZHOU WELLTHINKER AUTOMATION TECHNOLOGY CO.,LTD.

Address before: 300072 Tianjin City, Nankai District Wei Jin Road No. 92

Patentee before: Tianjin University