CN110287799B

CN110287799B - 基于深度学习的视频ucl语义标引方法与装置

Info

Publication number: CN110287799B
Application number: CN201910451449.2A
Authority: CN
Inventors: 杨鹏; ***; 李幼平; 余少波; 徐镜媛
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2021-03-19
Anticipated expiration: 2039-05-28
Also published as: CN110287799A

Abstract

本发明公开了一种基于深度学习的UCL语义标引方法与装置。首先利用神经网络提取视频低层语义特征；然后，基于特征灵活采样以及注意力机制，对视频自然语言描述生成模型S2VT进行改进，生成S2VT‑FFSA模型，此模型以视频低层语义特征作为输入，输出视频自然语言描述特征，并结合语音自然语言描述特征生成视频关键词等高层语义特征，一定程度上解决了语义特征提取不充分的问题；最后，利用UCL能够标引丰富语义特征的特点，提出视频内容的UCL标引方法，使视频标引更加规范化。本发明既能精确地抽取视频丰富的语义特征，又能客观、规范地标引这些特征。

Description

基于深度学习的视频UCL语义标引方法与装置

技术领域

本发明涉及基于深度学习的视频UCL语义标引方法与装置，利用深度学习技术对视频低层特征以及高层特征进行自动提取，基于UCL国家标准GB/T35304-2017对视频语义特征进行标引，属于互联网技术领域。

背景技术

随着计算机技术与信息技术的快速发展，视频的制作方法与上传途径变得日益便捷，致使海量的视频资源存在与互联网中，各大视频门户为解决视频信息过载问题，会向用户提供视频搜索和推荐等功能。为了能够有效地管理视频资源并高效地实现上述功能，对视频特征进行精准的提取和规范化的标引尤为重要。但是，当前的视频特征的提取与标引方面仍存在以下问题：首先，统的视频特征提取方法在视频高层语义提取方面表现不佳，如果通过人为方式抽取视频语义特征，时间效率不高，并且其结果往往会因为个人的看法不同导致语义特征存在差异，很难做到在统一标准框架下生成视频高层语义特征；其次，基于深度学习的视频语义提取方法，在描述精度上仍有待提升，例如，S2VT(Sequence toSequence-Video to Text)视频自然语言描述模型(Venugopalan S,et al.Sequence toSequence--Video to Text[C].IEEE International Conference on Computer Vision(ICCV).IEEE,2015)对于周围视频片段的关注较小，并且其模型的输入方式过于单一；最后，多媒体内容描述接口MPEG-7能够对视频特征进行标引，但是只能够规范化地标引颜色、纹理、形状等视觉特征以及部分语义特征，其它语义特征需要用户自己定义新的描述模式。如果没有统一的视频内容编码规范，***需要针对不同的编码格式设计获取视频指定特征的方法，视频特征在各个推荐***之中的通用性无法得到保障，并且为视频资源的统一管理制造了困难。

UCL是一种标引互联网资源语义信息的元数据，由国家标准《统一内容标签格式规范》(GB/T 35304-2017)所定义。它包含UCL代码部分和UCL属性部分，代码部分为面向读者的内容导引，属性部分为被标引内容的语义信息和管理信息。UCL具有以下三个特点：第一，UCL具有规范性，被标引的各类、各级信息严格遵从UCL格式规范，存放在标引的指定位置中。第二，UCL具有结构灵活的特点，虽然代码部分为固定的32字节，但属性部分除了目前所定义的一些域之外，也可以根据具体的领域和应用场景自由地扩展。第三，UCL能够标引丰富语义信息，包括被标引资源的关键词、作者等。本发明利用深度学习技术对视频分别提取视频低层语义特征和高层语义特征，并利用UCL标引视频语义特征。

发明内容

发明目的：针对现有技术中存在的问题与不足，本发明提出一种基于深度学习的视频UCL语义标引方法与装置，能够自动地提取视频低层语义特征与高层语义特征，提高了视频特征提取的速度与精确度，并对其进行规范化地标引，提高了视频标引的客观性与通用性。

技术方案：一种基于深度学习的视频UCL语义标引方法，该方法首先利用神经网络提取低层语义特征；然后改进传统的视频自然语言描述模型，并以低层语义特征为输入，输入高层语义特征；最后，将自动生成的语义特征规范化地标引在UCL中。该方法包括如下步骤：

(1)利用深度神经网络提取视频的图像帧CNN特征，并通过计算CNN特征的余弦相似度判断视频帧之间的相似性，基于视频帧的相似性对视频进行分段；

(2)在视频自然语言描述生成模型S2VT的编码器和解码器之间以及编码器各层神经网络中加入注意力机制，并利用视频图像的CNN特征余弦相似度进一步对步骤(1)得到的视频段进行分块，提取视频块的运动特征、音频特征与主题特征；将视频块中所有视频图像的CNN特征平均值、运动特征、音频特征与主题特征横向拼接后作为视频自然语言描述生成模型的输入，输出视频段自然语言描述特征；将所有视频段自然语言描述特征拼接得到视频自然语言描述特征；

(3)利用DNN-HMM模型将视频中的语音转换为文本描述，生成语音自然语言描述特征，然后提取语音自然语言描述特征以及步骤(2)中提取到的视频自然语言描述特征中的关键词及关键词权重，结合两个自然语言描述特征所对应的关键词，生成最终的视频关键词特征；

(4)利用UCL标引从视频内部获取的特征以及从视频外部获取的特征；所述从视频内部获取的特征包括各视频段自然语言描述特征、语音自然语言描述特征和视频关键词特征，所述从视频外部获取的特征包括视频作者和视频创作时间。

作为优选，所述步骤(1)中还提取各视频段的运动特征、音频特征与主题特征；所述步骤(4)中从视频内部获取的特征还包括各视频段的视频图像帧特征、运动特征、音频特征与主题特征。

作为优选，所述CNN特征利用卷积神经网络模型提取，以卷积神经网络最后一层全连接层输出特征作为视频每帧图像的CNN特征。

作为优选，所述运动特征利用C3D模型提取，将网络最后一层全连接层输出的C3D特征作为视频块的运动特征。

作为优选，所述音频特征是通过Fisher Vector将不同长度音频的MFCC特征转换为固定长度的特征向量；如果视频中没有音频信息，则用默认特征向量作为音频特征。

作为优选，所述主题特征是利用Word2Vec工具生成的视频块主题的特征向量；如果视频块没有相应的主题，则取一个默认的特征向量。

作为优选，所述步骤(1)中基于视频帧的相似性对视频进行分段的具体方法为：

当某一视频图像帧p_i与上一视频图像帧p_i-1的CNN特征的余弦相似度为0时，不对其进行分段；按照如下公式分别计算该视频图像帧归属本段视频的权重P_pre或者下一段视频的权重P_next：

其中dis为自定义的搜索距离，seg_tag是两帧图像的分段标志，当相似度大于等于设定的阈值时，取值为1，否则为0；

当P_pre＞P_next时，视频图像帧p_i隶属于本视频段，不需要重新分段；当P_pre＜P_next时，视频图像帧p_i作为下一视频段落的起始帧；当P_pre＝P_next时，令dis＝dis+1重新计算此视频图像帧的归属。

作为优选，所述步骤(3)中利用textRank算法分别提取语音自然语言描述特征和视频自然语言描述特征中的关键词及关键词对应的重要程度；将相似的关键词通过

加权得到关键词权重，其中

与

为相似关键词的权重，β为关键词比重系数；最后通过对关键词权重进行排序，选择权重为top-N的关键词及对应的权重作为视频关键词特征。

本发明所述的一种基于深度学习的视频UCL语义标引装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现所述的基于深度学习的视频UCL语义标引方法。

有益效果：与现有技术相比，本发明具体如下优点：

1.本发明利用神经网络模型、S2VT-FFSA模型与DNN-HMM等模型自动生成视频的低层语义特征与高层语义特征，解决了人为提取视频语义特征费时费力、受主观影响较大的问题。

2.本发明在生成视频自然语言描述特征时，改进了视频自然语言描述生成模型，在其中加入了特征灵活采样与注意力机制，能提高视频自然语言描述特征的生成精度。同时结合语音自然语言描述特征生成视频关键词特征，使生成视频关键词特征更加全面。

3.本发明利用UCL标引视频语义特征，相较于其他的标引格式规范，UCL规定了更为丰富的语义特征标引方法，与此同时视频UCL语义标引具有规范化、结构灵活的特点。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例涉及的视频帧CNN特征图。

图3为本发明实施例涉及灵活分段方法流程图。

图4为本发明实施例涉及的视频描述生成模型S2VT-FFSA结构图。

图5为本发明实施例涉及的Attention机制示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明实施例公开的基于深度学习的视频UCL语义标引方法，具体实施步骤如下：

步骤1，低层语义特征提取及视频分段。利用神经网络提取视频的低层语义特征，然后根据低层语义特征，设计一基于后向搜索的视频分段算法，对视频进行灵活的分段，具体实施过程分为5个子步骤：

子步骤1-1，图像是视频基本的组成部分，能够表达丰富的语义信息。本发明利用由ImageNet图像集预先训练好的VGG-19卷积神经网络模型提取视频中图像CNN特征，如图2所示，随着神经网络层数的增加，其输出的特征越来越抽象。FC7为VGG-19中最后一层全连接层，其输出的特征最为抽象，故本实施例以VGG-19中的FC7层的输出特征作为视频每帧图像的CNN特征，本发明也可使用其他模型提取视频CNN特征。

子步骤1-2，视频中的图像是静态的，但连续的多帧图像能够表达视频的动态信息，在视频自然语言描述生成模型中，如果能够加入视频动态特征，可以使模型生成更准确的视频动态描述。本实施例首先将连续的视频图像拼接在一起，形成视频段；然后，将视频段输入到由Sport1M数据集预先训练的C3D模型中；最后，与步骤1-1类似，由于FC7为C3D网络模型的最后一层全连接层，本实施例将FC7层输出的C3D特征作为视频段的运动特征，本发明也可使用其他模型提取视频运动特征。

子步骤1-3，视频中的音频信息是对视觉信息的补充，例如切菜、伴奏以及语音等。在视频自然语言描述生成模型中，充分考虑音频特征，会产生更具体、形象的描述。本实施例利用librosa工具包提取不同时长音频的MFCC特征，其窗口设为25ms，然后通过FisherVector(FV)将不同长度音频的MFCC特征转换为固定长度的特征向量，本发明也可使用其他方法提取视频音频特征。如果视频中没有音频信息，则用默认特征向量作为音频特征。

子步骤1-4，不同主题的视频，会对应不同种类视频描述词汇。例如体育主题视频经常会在描述中出现体育术语及动词，音乐主题视频经常会在描述中出现音乐术语及形容词等等。本实施例利用Word2Vec工具生成视频主题的特征向量。如果视频没有相应的主题，则取一个默认的特征向量，本发明也可使用其他模型提取视频关键词特征。

子步骤1-5，如图3所示，为实现视频的合理分段，使每个视频段落对应一句自然语言描述，本步骤基于视频图像帧CNN特征的余弦相似度，对视频分段，解决一视频段因被***另外一短时场景，被错误分成三个视频段落的问题，同时该方法被应用于灵活采样视频特征的方法中，以改进S2VT视频描述生成模型。

具体地，利用子步骤1-1提取视频图像帧的CNN特征，假设视频中第i帧图像的特征如公式(1)所示，其特征维度为n。

通过公式(2)计算视频中相邻两帧图像特征的余弦相似度。

如公式(3)，通过比较两帧图像CNN特征的余弦相似度cos_sim(p_i,p_j)与指定阈值τ的大小，决定两帧图像的分段标志seg_tag(p_i,p_j)。

某些视频段中会出现某些视频图像帧和其它视频图像帧差距较大。如果仅比对相邻的两个视频图片帧的距离，势必会将一个视频段落错误分成几段。故本发明提出一种策略，当某一视频图像帧p_i与上一视频图像帧p_i-1的cos_sim(p_i,p_i-1)＝0时，不对其进行分段。如公式(4)(5)所示，分别计算该视频图像帧归属本段视频或者下一段视频的视频归属权重。

其中dis为自定义的搜索距离。

确定视频图像帧的视频段归属权重后，由公式(6)确定该视频图像帧属于哪个视频段落。

最后由

的值决定此视频图像帧是否为新视频段的第一帧。即当

时，此视频图像帧隶属于本视频段，不需要重新分段；

时，此视频图像帧作为下一视频段落的起始帧；当

时，dis＝dis+1，重新计算此视频图像帧的归属。

自动分段过程中的超参数为阈值τ与后向搜索距离dis，它们的设置与视频中所包含的总视频帧数、平均每秒所含有的视频帧数相关，数量越多，τ值越小，dis值越大。

步骤2，视频段自然语言描述特征提取，首先在视频描述模型S2VT中的各个模块加入注意力机制，并利用如步骤1的子步骤1-5中的灵活分段算法，对视频低层语义特征进行灵活的采样，作为新模型S2VT-FFSA(Sequence to Sequence--Video to Text modelbased on Flexible Feature Sampling and Attention mechanism)的输入，输出视频自然语言描述特征，如图4所示为S2VT-FFSA的模型结构，具体实施过程分为2个子步骤：

子步骤2-1，S2VT模型需要对视频进行均匀取样，分成若干视频块，每个视频块中的视频帧数相同，然后将每个视频块的特征按顺序依次作为encoder中LSTM单元的输入。本实施例首先通过特征灵活采样，改进S2VT模型的输入，类似于本实施例中前述子步骤1-5提出的视频分段算法，S2VT-FFSA模型利用视频图像的CNN特征的相似性，对视频进行灵活地分块操作，分块时的参数τ与dis均比分段阶段小，虽然每个视频块中的视频帧数不同，但各个视频块内部的视频帧相似度较高，不同视频块之间具有很好的区分度；然后将每个块的特征进行融合，送入encoder中的对应LSTM单元中。

子步骤2-2，S2VT-FFSA模型所融合的特征为低层语义特征，分别为CNN特征、运动特征、音频特征与主题特征。假设视频段中第i个视频块为block_i，S2VT-FFSA模型将视频块中所有视频图像的CNN特征取平均，得到视频块CNN特征CNN_mean_i，视频块的运动特征sport_i、音频特征auc_i与主题特征topic由步骤1提出的方法获取。其中由于视频的主题是固定的，每个视频块中的主题特征不随着视频块的改变而改变。如公式(7)所示，将视频块中不同类型的特征横向拼接得到t_i，以t_i作为encoder中第i个LSTM单元的输入。然后对t_i进行embedding操作，得到f_i。

t_i＝(CNN_mean_i,sport_i,auc_i,topic) (7)

子步骤2-3，S2VT模型中，所有decoder单元的输入仅与最后一个encoder单元的输出有关，在encoder内部的单元中，每个单元的输出仅由上个单元决定，这样的结构致使后面单元不能充分考虑到与之相对较远单元信息，导致输出自然语言的精度变低。例如，在计算第一个decoder单元的输出时，由于第一个单词更应与第一个视频块相关，故应该更关注第一个encoder单元，但由于第一个decoder单元与之相对较远，无法“注意”到第一个视频块。为改进S2VT模型存在的弊端，目前有很多研究将注意力模块加入至encoder与decoder之间，本发明在encoder与decoder之间加入注意力机制的同时，在encoder部分的各层神经网络中加入注意力机制。

以encoder内部的Attention为例，如图5所示，当计算encoder中第j个单元受encoder部分中哪些单元的影响时，根据相似度函数，计算第j-1个单元的状态e_j-1与encoder中每个单元的状态e_x相似度，相似度函数计算如公式(8)所示。

然后如公式(9)所示，对所有的神经单元做softmax变换，归一化相似度。

最后通过公式(10)计算第i个decoder单元的注意力。

Encoder-Decoder之间的Attention计算方法于上述过程类似，通过对比不同LSTM单元的状态，计算相似度与注意力值。

步骤3，视频关键词特征提取，首先利用DNN-HMM(深度神经网络-隐马尔科夫模型，Deep Neural Network-Hidden Markow Model)对视频中的语音进行处理，生成语音自然语言描述特征；然后拼接步骤2生成的各个视频段的自然语言描述特征，生成整个视频的自然语言描述特征；最后结合语音和视频自然语言描述特征，生成视频关键词特征，该过程的实施过程主要分为2个子步骤：

子步骤3-1，对于较长视频，本实施例利用提出的分段方法将视频分成若干视频段，每个视频段可由S2VT-FFSA模型生成一句自然语言描述。将所有视频段所对应的自然语言描述拼接在一起，最终得到视频自然语言描述特征Describ_video。

子步骤3-2，目前绝大多视频中含有音频信息，音频信息可分为两类，一类是自然界存在的声音，对于该类型音频，本实施例直接通过子步骤1-3所述的方法生成低层语义特征；另一类是人类发出的可以传递信息的语音，对于此类音频，利用开源的DNN-HMM模型对语音进行自动识别，最后生成语音自然语言描述特征Describ_audio。

子步骤3-3，本实施例利用textRank算法分别提取视频自然语言描述和音频自然语言描述的关键词及关键词对应的重要程度。视频自然语言描述所对应的关键词及其权重如公式(11)(13)所示，语音自然语言描述所对应的关键词及其权重如公式(12)(14)所示，其中d和e分别为对应的关键词数量。

KeyWordsByDescrib₁＝{a₁,a₂,a₃,...a_d} (11)

KeyWordsByDescrib₂＝{b₁,b₂,b₃,...b_e} (12)

本实施例通过Word2Vec开源工具函数计算两个关键词所对应的词的相似度，然后将相似的词的权重通过公式(15)加权，

其中

与

为相似关键词的重要程度，score为关键词权重，β为关键词比重系数。最后通过对关键词权重进行排序，选择权重为top-N的关键词及对应的权重作为视频关键词特征。

步骤4，视频语义特征UCL标引。本步骤对视频语义特征进行UCL标引，其中低层语义特征的提取方式如子步骤1-1到子步骤1-4所述；高层语义特征分为从视频自身提取的特征以及从视频外部获取的特征，从视频自身获取的特征主要利用本实施例所述的步骤2和步骤3中的方法获取，从视频外部获取的特征主要为不受主观影响的特征，其中视频UCL标引格式见表1。

表1视频UCL标引内容描述表

综上，本发明首先利用神经网络提取视频低层语义特征；然后，基于特征灵活采样以及注意力机制，对视频自然语言描述生成模型S2VT进行改进，生成S2VT-FFSA模型，此模型以视频低层语义特征作为输入，输出视频自然语言描述特征，并结合语音自然语言描述特征生成视频关键词等高层语义特征，一定程度上解决了语义特征提取不充分的问题；最后，利用UCL能够标引丰富语义特征的特点，提出视频内容的UCL标引方法，使视频标引更加规范化。本发明既能精确地抽取视频丰富的语义特征，又能客观、规范地标引这些特征。

基于相同的发明构思，本发明实施例公开的一种基于深度学习的视频UCL语义标引装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述基于深度学习的视频UCL语义标引方法。

Claims

1.一种基于深度学习的视频UCL语义标引方法，其特征在于，包括如下步骤：

(1)利用深度神经网络提取视频的图像帧CNN特征，并通过计算CNN特征的余弦相似度判断视频帧之间的相似性，基于视频帧的相似性对视频进行分段；基于视频帧的相似性对视频进行分段的具体方法为：

当P_pre＞P_next时，视频图像帧p_i隶属于本视频段，不需要重新分段；当P_pre＜P_next时，视频图像帧p_i作为下一视频段落的起始帧；当P_pre＝P_next时，令dis＝dis+1重新计算此视频图像帧的归属；

(2)在视频自然语言描述生成模型S2VT的编码器和解码器之间以及编码器各层神经网络中加入注意力机制，并利用视频图像帧的CNN特征余弦相似度进一步对步骤(1)得到的视频段进行分块，提取视频块的运动特征、音频特征与主题特征；将视频块中所有视频图像帧的CNN特征平均值、运动特征、音频特征与主题特征横向拼接后作为视频自然语言描述生成模型的输入，输出视频段自然语言描述特征；将所有视频段自然语言描述特征拼接得到视频自然语言描述特征；

2.根据权利要求1所述的一种基于深度学习的视频UCL语义标引方法，其特征在于，所述步骤(1)中还提取各视频段的运动特征、音频特征与主题特征；所述步骤(4)中从视频内部获取的特征还包括各视频段的视频图像帧特征、运动特征、音频特征与主题特征。

3.根据权利要求1所述的一种基于深度学习的视频UCL语义标引方法，其特征在于，所述CNN特征利用卷积神经网络模型提取，以卷积神经网络最后一层全连接层输出特征作为视频每帧图像的CNN特征。

4.根据权利要求1所述的一种基于深度学习的视频UCL语义标引方法，其特征在于，所述运动特征利用C3D模型提取，将网络最后一层全连接层输出的C3D特征作为视频块的运动特征。

5.根据权利要求1所述的一种基于深度学习的视频UCL语义标引方法，其特征在于，所述音频特征是通过Fisher Vector将不同长度音频的MFCC特征转换为固定长度的特征向量；如果视频中没有音频信息，则用默认特征向量作为音频特征。

6.根据权利要求1所述的一种基于深度学习的视频UCL语义标引方法，其特征在于，所述主题特征是利用Word2Vec工具生成的视频块主题的特征向量；如果视频块没有相应的主题，则取一个默认的特征向量。

7.根据权利要求1所述的一种基于深度学习的视频UCL语义标引方法，其特征在于，所述步骤(3)中利用textRank算法分别提取语音自然语言描述特征和视频自然语言描述特征中的关键词及关键词对应的重要程度；将相似的关键词通过

加权得到关键词权重，其中

与

8.一种基于深度学习的视频UCL语义标引装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的基于深度学习的视频UCL语义标引方法。