CN110516086B

CN110516086B - 一种基于深度神经网络影视标签自动获取方法

Info

Publication number: CN110516086B
Application number: CN201910627545.8A
Authority: CN
Inventors: 宣琦; 王冠华; 俞山青; 孙佳慧; 韩忙; 孙翊杰
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2022-05-03
Anticipated expiration: 2039-07-12
Also published as: CN110516086A

Abstract

一种基于深度神经网络影视标签自动获取方法，包括以下步骤：步骤1：收集电影的台词，构建台词数据集；步骤2：收集电影原声，构建声音数据集；步骤3：在相关影视平台收集其所生成的标签，构建电影标签数据集；步骤4：构建基于电影台词的自动打标签模型；步骤5：采用共享节点的CNN‑LSTM算法构建基于电影原声的自动打标签模型；步骤6：融合步骤4与步骤5所提及的两种模型。本发明提出一种基于深度神经网络影视标签自动获取方法，采用了以卷积神经网络和循环神经网络为代表的深度学习算法，主要针对电影，利用电影在时间上的相关性从电影的台词文本、音频信号等原始信息中提取出高层抽象属性。

Description

一种基于深度神经网络影视标签自动获取方法

技术领域

本发明涉及数据挖掘、网络科学、深度神经网络，特别是涉及一种基于深度神经网络影视标签自动获取方法。

背景技术

随着信息化社会和数字化社会的深入发展，影视行业越来越倾向于通过流媒体服务和在线影视商店进行数字分销。《2018全球影视报告》显示全球影视市场规模在2017年增长了5.9％，其中数字影视市场收入的增长高达17.7％。2017年数字影视市场收入的增长第一次超过了整体影视市场年收入的一半，这一现象显然值得关注。报告指出在影视下载市场和实体影碟市场双双萎缩的背景下流媒体服务的收入猛增60.4％，这说明数字影视市场收入大幅增长的最主要推动力正是流媒体服务。目前全世界在线影视付费服务的订阅用户总量己经超过了1亿，这个重要的里程碑代表着流媒体服务己经成为数字影视市场的重大组成部分。同时中国的影视产业被认为具有很大的发展潜力，根据报告2017年中国影视市场的规模扩大了20.3％，其中流媒体服务的收入增长了30.6％，涨幅大于整体影视市场。中国最主要的流媒体服务商腾讯影视娱乐拥有多个影视平台和超过1500万的付费用户，可以说中国的数字影视市场即将成长为全世界重要的数字影视市场之一。

高速移动网络和智能设备的普及让消费者的影视消费习惯从实体和下载转向了流媒体。新的背景下全世界的数字影视市场都存在着激烈的竞争，影视流媒体服务商都在持续开发和扩展各自的产品和服务以为消费者提供更加多样化和更加个性化的体验。面对拥有海量数字影视资源的巨大的在线影视库，如何进行更高效的组织，如何提供更高质的订阅，如何推荐更精准的内容，成为各大流媒体服务商关注的重要技术热点。

在影视市场的转型背景下，作为结构化的影视信息组织方式，影视标签这一概念的重要性凸现，通过各种先进技术提升影视标注任务的效果己经成为影视信息检索领域的热门方向。影视标签是指能对高层次的影视语义进行准确描述的短语，由于影视的特殊性，台词和声音很难使用常规方式进行管理和检索，代表影视特性的标签对影视的分类、组织和检索都有很大的帮助。自然语言标签可以帮助用户通过关键词、列表和标签云查找特定属性的影视。在此基础上，流媒体服务商也可以利用影视的标签信息进行个性化推荐，这种基于影视自身内容和特性的方式可以帮助克服在目前市场上广泛使用的协同过滤推荐算法面临的冷启动问题。

目前有三种主流方法来完成影视标注任务，分别是专家标注、社会化标注与算法自动标注。专家标注是指影视行业内专业人士基于专业的影视知识和自身的素养对影视进行标注，专家给出的影视标签较为准确，但是该标注方式的成本高、内容也不够丰富。而社会化标注是指通过类似众筹任务的方式，鼓励用户根据个人对影视的理解和感受进行无限制或半限制的标注，采集大量用户的标注数据进行处理和统计生成标签。这种方法的好处是成本较低、内容丰富，但是由于不同用户对影视的理解和感受较为主观，标注结果参差不齐，甚至同一影视会出现语义完全相反的标签，导致结果噪声很大。自动标注是指在现有的小规模影视标签数据集上，从音频信号、台词文本、相关评论、海报等各类影视的自身和相关信息中提取特征训练分类模型，对大规模的影视数据自动生成标签结果。利用算法基于内容自动标注影视标签既能解决成本和时间问题，也能解决标注方法的普适性问题。目前自动标注方法的准确率和适用范围仍然有较大的提高空间，因此利用影视内容来进行影视自动标注的研究受到了越来越多的关注。

综上，传统的标注标签算法中存在的很多亟待解决的问题，包括特征设计过程中的噪声以及分类器浅层结构的限制，尚无有效的解决办法。

发明内容

为了克服已有技术的不足，本发明提出一种基于深度神经网络影视标签自动获取方法，采用了以卷积神经网络和循环神经网络为代表的深度学习算法，主要针对电影，利用电影在时间上的相关性从电影的台词文本、音频信号等原始信息中提取出高层抽象属性。

本发明解决其技术问题所采用的技术方案是：

一种基于深度神经网络影视标签自动获取方法，包括以下步骤：

步骤1：收集电影的台词，构建台词数据集；

步骤2：收集电影原声，构建声音数据集；

步骤3：在影视平台收集其所生成的标签，构建电影标签数据集；

步骤4：构建基于电影台词的标签自动获取模型；

步骤5：采用共享节点CNN-LSTM算法构建基于电影原声的标签自动获取模型；

步骤6：融合步骤4与步骤5所提及的两种模型。

进一步，所述步骤1中，收集电影的台词，所述行为数据不包括电影结尾彩蛋部分。

再进一步，所述步骤2中，根据步骤1中的收集的电影台词，相对收集其所对应的电影原声，所述行为数据也不包括结尾彩蛋部分。

再进一步，所述步骤3中，所述影视平台包括爱奇艺、腾讯视频、优酷、猫眼电影和豆瓣影视，构建电影标签数据集包括以下过程：

3.1)合并5个平台所采集的所有标签，确保没有重复标签；

3.2)对所有标签进行格式标准化，包括文字编码统一以及标签分隔符统一；

3.3)将步骤1，2中的电影与收集到的标签对应起来。

所述步骤4中，构建基于电影台词的自动打标签模型包括以下过程：

4.1)用WordPiece工具来进行分词，并***特殊的分离符([CLS]，用来分隔样本)和分隔符([SEP]，用来分隔样本内的不同句子)，每个句子都对应的是一个矩阵X＝(x₁，x₂，...，x_t)，其中x_i都代表着第i个词的词向量(行向量)，维度为d维，故x∈R^n×d。利用下列公式进行编码：

其中A，B为另外引入的另一个序列(矩阵)，引入A，B的目的是为了让x_t与每一个单词进行比较，从而得到y_t。

4.2)将上一步的结果输入模型进行预训练，模型计算公式如下：

及

其中t₁，t₂...，t_N为连续的tokens，t₁，t₂...，t_k也为连续的tokens。更进一步，设log_pt_k为r_k，建立双向模型，此模型便于对大规模文本进行训练，模型计算公式如下：

其中t₁，t₂...，t_N为连续的tokens，t₁，t₂...，t_k也为连续的tokens，θ_x是输入，输入的内容是最初始的词向量，是归一化层参数，

为前向LSTM模型，

为后向LSTM模型，在此基础上，百分之十五通过wordpiece所产生词向量会被随机遮掩；

4.3)经过基于Masked Language Model的改进模型预训练之后对向量进行embedding(嵌入)操作。嵌入操作的种类分别是Token embedding(表示当前词的embedding)、Segment Embedding(表示当前词所在句子的index embedding)及PositionEmbedding(表示当前词所在位置的index embedding)。其中为了能够同时表示单句子和句子对，多句子需要进行拼接作为单个句子用segment embedding和[SEG] 来进行区分；三个embedding进行求和得到输入的向量；

4.4)将上一步中所生成的向量作为输入放进层数为12，维度为 768的Transformer模型中；

4.5)利用fine-tuning(微调)对模型进行修改，取token的输出，作为输入softmax(归一化)层的输入，从而得到电影标签预测结果的输出。

所述步骤5中，采用共享节点的CNN-LSTM算法构建基于电影原声的自动打标签模型包括以下过程：

5.1)通过快速傅里叶变换(FFT)得到与步骤4所对应的声音数据集的功率谱，然后利用三角窗函数将频谱映射到梅尔标度，计算公式如下：

其中f为赫兹频率。设E(b)，0≤b＜B表示第b个子带上的梅尔标度功率谱系数，其中B表示预处理时的滤波器总数。MFCCN值就是对E(b)取对数后离散余弦变换的频谱，其中对E(b)取对数设为H(b)，其计算公式如下：

其中L代表MFCCN的维度，得到MFCCN特征向量如下所示：

x_MFCCN＝[MFCCN(0)，MFCCN(1)，...MFCCN(L-1)]^T (7)

5.2)对等长音频片段在重叠的短窗内进行短时傅里叶变换，每个傅里叶变换都生成一帧，这些连续的帧组合成矩阵构成频谱，最后在将线性的频率轴上变换成梅尔尺度，对在频率轴上分布不均的幅值进行对数缩放，再将其作为音频信号的特征表示；

5.3)将上一步生成的特征输入含有32个长度为8的一维滤波器的卷积层，窗口大小为8；

5.4)将上一步的输出放入池化窗口长度为4最大池化层；

5.5)将上一步的输出放入含有32个长度为8的一维滤波器的卷积层，窗口大小为8；

5.6)将上一步的输出放入池化窗口长度为4最大池化层；

5.7)构建多个上述模型，采用共享节点，分别输出深度特征序列；

5.8)由于电影的长度不同，输入的片段个数也就不同，把上述传统三个CNN模型输出的变长的深度特征序列通过LSTM结构的循环神经网络抓取时间相关特性，最后输出预测标签值。

所述步骤6中，融合步骤4与步骤5所提及的两种模型包括以下过程：

6.1)音频表示和文本表示在通过各自的基础网络，选择使用卷积神经网络结构，经过批规范化操作后进行拼接，最后进行尺度变换得到输出；

6.2)将拼接后模型的输出再次输入至输出节点分别为1024及512 的两个全连接层中，最后输出标签预测值。

本发明的有益效果主要表现在：采用了以卷积神经网络和循环神经网络为代表的深度学习算法，主要针对电影，利用电影在时间上的相关性从电影的台词文本、音频信号等原始信息中提取出高层抽象属性。

附图说明

图1为本发明实施例提供的构建基于影视台词的标签自动获取模型的流程图；

图2为本发明实施例提供的采用共享节点CNN-LSTM算法构建影视原声的标签自动获取模型的方法流程图；

图3为本发明实施例提供的融合基于影视台词的标签自动获取模型与影视原声的标签自动获取模型所提及的两种模型的方法流程图；

图4为本发明实施例提供的一种基于深度神经网络影视标签自动获取方法的结构框图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图4，一种基于深度神经网络影视标签自动获取方法，具体分为以下五个步骤：

步骤1：收集电影的台词，构建台词数据集；

步骤2：收集电影原声，构建声音数据集；

步骤4：构建基于电影台词的标签自动获取模型；

步骤6：融合步骤4与步骤5所提及的两种模型。

3.1)合并5个平台所采集的所有标签，确保没有重复标签；

3.3)将步骤1，2中的电影与收集到的标签对应起来。

4.1)用WordPiece工具来进行分词，并***特殊的分离符([CLS]，用来分隔样本)和分隔符([SEP]，用来分隔样本内的不同句子)。每个句子都对应的是一个矩阵X＝(x₁，x₂，...，x_t)，其中x_i都代表着第i个词的词向量(行向量)，维度为d维，故x∈R^n×d，利用下列公式进行编码：

其中A，B为另外引入的另一个序列(矩阵)，引入A，B的目的是为了让x_t与每一个单词进行比较，从而得到y_t；

及

其中t₁，t₂...，t_N为连续的tokens，t₁，t₂...，t_k也为连续的tokens，θ_x是输入，输入的内容是最初始的词向量。θ_s是归一化层参数，

为前向LSTM模型，

为后向LSTM模型。在此基础上，百分之十五通过wordpiece所产生词向量会被随机遮掩；

其中f为赫兹频率。设E(b)，0≤b＜B表示第b个子带上的梅尔标度功率谱系数，其中B表示预处理时的滤波器总数，MFCCN值就是对E(b)取对数后离散余弦变换的频谱，其中对E(b)取对数设为H(b)，其计算公式如下：

其中L代表MFCCN的维度，得到MFCCN特征向量如下所示：

x_MFCCN＝[MFCCN(0)，MFCCN(1)，...MFCCN(L-1)]^T (7)

5.4)将上一步的输出放入池化窗口长度为4最大池化层；

5.6)将上一步的输出放入池化窗口长度为4最大池化层；

本发明实施例所提供的一种基于深度神经网络影视标签自动获取方法，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备 (可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器 (RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于深度神经网络影视标签自动获取方法，其特征在于，所述方法包括以下步骤：

步骤1：收集电影的台词，构建台词数据集；

步骤2：收集电影原声，构建声音数据集；

步骤4：构建基于电影台词的自动打标签模型；

步骤5：采用共享节点CNN-LSTM算法构建基于电影原声的自动打标签模型；

步骤6：融合步骤4与步骤5所提及的两种模型；

4.1)用WordPiece工具来进行分词，并***特殊的分离符[CLS]，用来分隔样本，和分隔符[SEP]，用来分隔样本内的不同句子，每个句子都对应的是一个矩阵X＝(x₁,x₂,…,x_t)，其中x_i都代表着第i个词的词向量，维度为d维，故x∈R^n×d，利用下列公式进行编码：

其中A,B为另外引入的另一个序列，引入A，B的目的是为了让x_t与每一个单词进行比较，从而得到y_t；

及

其中t₁,t₂…,t_N为连续的tokens，t₁,t₂…,t_k也为连续的tokens，更进一步，设log_pt_k为r_k，建立双向模型，此模型便于对大规模文本进行训练，模型计算公式如下：

其中t₁,t₂…,t_N为连续的tokens，t₁,t₂…,t_k也为连续的tokens，θ_x是输入，输入的内容是最初始的词向量，θ_s是归一化层参数，

为前向LSTM模型，

4.3)经过模型预训练之后对向量进行嵌入操作，嵌入操作的种类中，Token embedding表示当前词的embedding，Segment Embedding表示当前词所在句子的index embedding，Position Embedding表示当前词所在位置的index embedding，其中为了能够同时表示单句子和句子对，多句子需要进行拼接作为单个句子用segment embedding和[SEG]来进行区分；三个embedding进行求和得到输入的向量；

4.4)将上一步中所生成的向量作为输入放进层数为12，维度为768的Transformer模型中；

4.5)利用fine-tuning微调对模型进行修改，取token的输出，作为输入softmax归一化层的输入，从而得到电影标签预测结果的输出；

所述步骤5中，采用共享节点CNN-LSTM算法构建基于电影原声的自动打标签模型包括以下过程：

5.1)通过快速傅里叶变换FFT得到与步骤4所对应的声音数据集的功率谱，然后利用三角窗函数将频谱映射到梅尔标度m，计算公式如下：

其中f为赫兹频率，设E(b)，0≤b<B表示第b个子带上的梅尔标度功率谱系数，其中B表示预处理时的滤波器总数，MFCCN值就是对E(b)取对数后离散余弦变换的频谱，其中对E(b)取对数设为H(b),其计算公式如下：

其中L代表MFCCN的维度，得到MFCCN特征向量x_MFCCN如下所示：

x_MFCCN＝[MFCCN(0),MFCCN(1),...MFCCN(L-1)]^T (7)

5.4)将上一步的输出放入池化窗口长度为4最大池化层；

5.6)将上一步的输出放入池化窗口长度为4最大池化层；

5.7)构建三个CNN模型，采用共享节点，分别输出深度特征序列；

5.8)由于电影的长度不同，输入的片段个数也就不同，把三个CNN模型输出的变长的深度特征序列通过LSTM结构的循环神经网络抓取时间相关特性，最后输出预测标签值。

2.如权利要求1所述的一种基于深度神经网络影视标签自动获取方法，其特征在于：所述步骤3中，所述影视平台包括爱奇艺、腾讯视频、优酷、猫眼电影和豆瓣影视；构建电影标签数据集包括以下过程：

3.1)合并5个平台所采集的所有标签，确保没有重复标签；

3.3)将步骤1，步骤2中的电影与收集到的标签对应起来。

3.如权利要求1所述的一种基于深度神经网络影视标签自动获取方法，其特征在于：所述步骤6中，融合步骤4与步骤5所提及的两种模型包括以下过程：

6.2)将拼接后模型的输出再次输入至输出节点分别为1024及512的两个全连接层中，最后输出标签预测值。