CN110516086B - 一种基于深度神经网络影视标签自动获取方法 - Google Patents

一种基于深度神经网络影视标签自动获取方法 Download PDF

Info

Publication number
CN110516086B
CN110516086B CN201910627545.8A CN201910627545A CN110516086B CN 110516086 B CN110516086 B CN 110516086B CN 201910627545 A CN201910627545 A CN 201910627545A CN 110516086 B CN110516086 B CN 110516086B
Authority
CN
China
Prior art keywords
film
constructing
model
neural network
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910627545.8A
Other languages
English (en)
Other versions
CN110516086A (zh
Inventor
宣琦
王冠华
俞山青
孙佳慧
韩忙
孙翊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910627545.8A priority Critical patent/CN110516086B/zh
Publication of CN110516086A publication Critical patent/CN110516086A/zh
Application granted granted Critical
Publication of CN110516086B publication Critical patent/CN110516086B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度神经网络影视标签自动获取方法,包括以下步骤:步骤1:收集电影的台词,构建台词数据集;步骤2:收集电影原声,构建声音数据集;步骤3:在相关影视平台收集其所生成的标签,构建电影标签数据集;步骤4:构建基于电影台词的自动打标签模型;步骤5:采用共享节点的CNN‑LSTM算法构建基于电影原声的自动打标签模型;步骤6:融合步骤4与步骤5所提及的两种模型。本发明提出一种基于深度神经网络影视标签自动获取方法,采用了以卷积神经网络和循环神经网络为代表的深度学习算法,主要针对电影,利用电影在时间上的相关性从电影的台词文本、音频信号等原始信息中提取出高层抽象属性。

Description

一种基于深度神经网络影视标签自动获取方法
技术领域
本发明涉及数据挖掘、网络科学、深度神经网络,特别是涉及一种基于深度神经网络影视标签自动获取方法。
背景技术
随着信息化社会和数字化社会的深入发展,影视行业越来越倾向于通过流媒体服务和在线影视商店进行数字分销。《2018全球影视报告》显示全球影视市场规模在2017年增长了5.9%,其中数字影视市场收入的增长高达17.7%。2017年数字影视市场收入的增长第一次超过了整体影视市场年收入的一半,这一现象显然值得关注。报告指出在影视下载市场和实体影碟市场双双萎缩的背景下流媒体服务的收入猛增60.4%,这说明数字影视市场收入大幅增长的最主要推动力正是流媒体服务。目前全世界在线影视付费服务的订阅用户总量己经超过了1亿,这个重要的里程碑代表着流媒体服务己经成为数字影视市场的重大组成部分。同时中国的影视产业被认为具有很大的发展潜力,根据报告2017年中国影视市场的规模扩大了20.3%,其中流媒体服务的收入增长了30.6%,涨幅大于整体影视市场。中国最主要的流媒体服务商腾讯影视娱乐拥有多个影视平台和超过1500万的付费用户,可以说中国的数字影视市场即将成长为全世界重要的数字影视市场之一。
高速移动网络和智能设备的普及让消费者的影视消费习惯从实体和下载转向了流媒体。新的背景下全世界的数字影视市场都存在着激烈的竞争,影视流媒体服务商都在持续开发和扩展各自的产品和服务以为消费者提供更加多样化和更加个性化的体验。面对拥有海量数字影视资源的巨大的在线影视库,如何进行更高效的组织,如何提供更高质的订阅,如何推荐更精准的内容,成为各大流媒体服务商关注的重要技术热点。
在影视市场的转型背景下,作为结构化的影视信息组织方式,影视标签这一概念的重要性凸现,通过各种先进技术提升影视标注任务的效果己经成为影视信息检索领域的热门方向。影视标签是指能对高层次的影视语义进行准确描述的短语,由于影视的特殊性,台词和声音很难使用常规方式进行管理和检索,代表影视特性的标签对影视的分类、组织和检索都有很大的帮助。自然语言标签可以帮助用户通过关键词、列表和标签云查找特定属性的影视。在此基础上,流媒体服务商也可以利用影视的标签信息进行个性化推荐,这种基于影视自身内容和特性的方式可以帮助克服在目前市场上广泛使用的协同过滤推荐算法面临的冷启动问题。
目前有三种主流方法来完成影视标注任务,分别是专家标注、社会化标注与算法自动标注。专家标注是指影视行业内专业人士基于专业的影视知识和自身的素养对影视进行标注,专家给出的影视标签较为准确,但是该标注方式的成本高、内容也不够丰富。而社会化标注是指通过类似众筹任务的方式,鼓励用户根据个人对影视的理解和感受进行无限制或半限制的标注,采集大量用户的标注数据进行处理和统计生成标签。这种方法的好处是成本较低、内容丰富,但是由于不同用户对影视的理解和感受较为主观,标注结果参差不齐,甚至同一影视会出现语义完全相反的标签,导致结果噪声很大。自动标注是指在现有的小规模影视标签数据集上,从音频信号、台词文本、相关评论、海报等各类影视的自身和相关信息中提取特征训练分类模型,对大规模的影视数据自动生成标签结果。利用算法基于内容自动标注影视标签既能解决成本和时间问题,也能解决标注方法的普适性问题。目前自动标注方法的准确率和适用范围仍然有较大的提高空间,因此利用影视内容来进行影视自动标注的研究受到了越来越多的关注。
综上,传统的标注标签算法中存在的很多亟待解决的问题,包括特征设计过程中的噪声以及分类器浅层结构的限制,尚无有效的解决办法。
发明内容
为了克服已有技术的不足,本发明提出一种基于深度神经网络影视标签自动获取方法,采用了以卷积神经网络和循环神经网络为代表的深度学习算法,主要针对电影,利用电影在时间上的相关性从电影的台词文本、音频信号等原始信息中提取出高层抽象属性。
本发明解决其技术问题所采用的技术方案是:
一种基于深度神经网络影视标签自动获取方法,包括以下步骤:
步骤1:收集电影的台词,构建台词数据集;
步骤2:收集电影原声,构建声音数据集;
步骤3:在影视平台收集其所生成的标签,构建电影标签数据集;
步骤4:构建基于电影台词的标签自动获取模型;
步骤5:采用共享节点CNN-LSTM算法构建基于电影原声的标签自动获取模型;
步骤6:融合步骤4与步骤5所提及的两种模型。
进一步,所述步骤1中,收集电影的台词,所述行为数据不包括电影结尾彩蛋部分。
再进一步,所述步骤2中,根据步骤1中的收集的电影台词,相对收集其所对应的电影原声,所述行为数据也不包括结尾彩蛋部分。
再进一步,所述步骤3中,所述影视平台包括爱奇艺、腾讯视频、优酷、猫眼电影和豆瓣影视,构建电影标签数据集包括以下过程:
3.1)合并5个平台所采集的所有标签,确保没有重复标签;
3.2)对所有标签进行格式标准化,包括文字编码统一以及标签分隔符统一;
3.3)将步骤1,2中的电影与收集到的标签对应起来。
所述步骤4中,构建基于电影台词的自动打标签模型包括以下过程:
4.1)用WordPiece工具来进行分词,并***特殊的分离符([CLS],用来分隔样本)和分隔符([SEP],用来分隔样本内的不同句子),每个句子都对应的是一个矩阵X=(x1,x2,...,xt),其中xi都代表着第i个词的词向量(行向量),维度为d维,故x∈Rn×d。利用下列公式进行编码:
Figure BDA0002127609350000041
其中A,B为另外引入的另一个序列(矩阵),引入A,B的目的是为了让xt与每一个单词进行比较,从而得到yt
4.2)将上一步的结果输入模型进行预训练,模型计算公式如下:
Figure BDA0002127609350000042
Figure BDA0002127609350000043
其中t1,t2...,tN为连续的tokens,t1,t2...,tk也为连续的tokens。更进一步,设logptk为rk,建立双向模型,此模型便于对大规模文本进行训练,模型计算公式如下:
Figure BDA0002127609350000044
其中t1,t2...,tN为连续的tokens,t1,t2...,tk也为连续的tokens,θx是输入,输入的内容是最初始的词向量,是归一化层参数,
Figure BDA0002127609350000045
为前向LSTM模型,
Figure BDA0002127609350000051
为后向LSTM模型,在此基础上,百分之十五通过wordpiece所产生词向量会被随机遮掩;
4.3)经过基于Masked Language Model的改进模型预训练之后对向量进行embedding(嵌入)操作。嵌入操作的种类分别是Token embedding(表示当前词的embedding)、Segment Embedding(表示当前词所在句子的index embedding)及PositionEmbedding(表示当前词所在位置的index embedding)。其中为了能够同时表示单句子和句子对,多句子需要进行拼接作为单个句子用segment embedding和[SEG] 来进行区分;三个embedding进行求和得到输入的向量;
4.4)将上一步中所生成的向量作为输入放进层数为12,维度为 768的Transformer模型中;
4.5)利用fine-tuning(微调)对模型进行修改,取token的输出,作为输入softmax(归一化)层的输入,从而得到电影标签预测结果的输出。
所述步骤5中,采用共享节点的CNN-LSTM算法构建基于电影原声的自动打标签模型包括以下过程:
5.1)通过快速傅里 叶变换(FFT)得到与步骤4所对应的声音数据集的功率谱,然后利用三角窗函数将频谱映射到梅尔标度,计算公式如下:
Figure BDA0002127609350000052
其中f为赫兹频率。设E(b),0≤b<B表示第b个子带上的梅尔标度功率谱系数,其中B表示预处理时的滤波器总数。MFCCN值就是对E(b)取对数后离散余弦变换的频谱,其中对E(b)取对数设为H(b),其计算公式如下:
Figure BDA0002127609350000053
其中L代表MFCCN的维度,得到MFCCN特征向量如下所示:
xMFCCN=[MFCCN(0),MFCCN(1),...MFCCN(L-1)]T (7)
5.2)对等长音频片段在重叠的短窗内进行短时傅里叶变换,每个傅里叶变换都生成一帧,这些连续的帧组合成矩阵构成频谱,最后在将线性的频率轴上变换成梅尔尺度,对在频率轴上分布不均的幅值进行对数缩放,再将其作为音频信号的特征表示;
5.3)将上一步生成的特征输入含有32个长度为8的一维滤波器的卷积层,窗口大小为8;
5.4)将上一步的输出放入池化窗口长度为4最大池化层;
5.5)将上一步的输出放入含有32个长度为8的一维滤波器的卷积层,窗口大小为8;
5.6)将上一步的输出放入池化窗口长度为4最大池化层;
5.7)构建多个上述模型,采用共享节点,分别输出深度特征序列;
5.8)由于电影的长度不同,输入的片段个数也就不同,把上述传统三个CNN模型输出的变长的深度特征序列通过LSTM结构的循环神经网络抓取时间相关特性,最后输出预测标签值。
所述步骤6中,融合步骤4与步骤5所提及的两种模型包括以下过程:
6.1)音频表示和文本表示在通过各自的基础网络,选择使用卷积神经网络结构,经过批规范化操作后进行拼接,最后进行尺度变换得到输出;
6.2)将拼接后模型的输出再次输入至输出节点分别为1024及512 的两个全连接层中,最后输出标签预测值。
本发明的有益效果主要表现在:采用了以卷积神经网络和循环神经网络为代表的深度学习算法,主要针对电影,利用电影在时间上的相关性从电影的台词文本、音频信号等原始信息中提取出高层抽象属性。
附图说明
图1为本发明实施例提供的构建基于影视台词的标签自动获取模型的流程图;
图2为本发明实施例提供的采用共享节点CNN-LSTM算法构建影视原声的标签自动获取模型的方法流程图;
图3为本发明实施例提供的融合基于影视台词的标签自动获取模型与影视原声的标签自动获取模型所提及的两种模型的方法流程图;
图4为本发明实施例提供的一种基于深度神经网络影视标签自动获取方法的结构框图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图4,一种基于深度神经网络影视标签自动获取方法,具体分为以下五个步骤:
步骤1:收集电影的台词,构建台词数据集;
步骤2:收集电影原声,构建声音数据集;
步骤3:在影视平台收集其所生成的标签,构建电影标签数据集;
步骤4:构建基于电影台词的标签自动获取模型;
步骤5:采用共享节点CNN-LSTM算法构建基于电影原声的标签自动获取模型;
步骤6:融合步骤4与步骤5所提及的两种模型。
进一步,所述步骤1中,收集电影的台词,所述行为数据不包括电影结尾彩蛋部分。
再进一步,所述步骤2中,根据步骤1中的收集的电影台词,相对收集其所对应的电影原声,所述行为数据也不包括结尾彩蛋部分。
再进一步,所述步骤3中,所述影视平台包括爱奇艺、腾讯视频、优酷、猫眼电影和豆瓣影视,构建电影标签数据集包括以下过程:
3.1)合并5个平台所采集的所有标签,确保没有重复标签;
3.2)对所有标签进行格式标准化,包括文字编码统一以及标签分隔符统一;
3.3)将步骤1,2中的电影与收集到的标签对应起来。
所述步骤4中,构建基于电影台词的自动打标签模型包括以下过程:
4.1)用WordPiece工具来进行分词,并***特殊的分离符([CLS],用来分隔样本)和分隔符([SEP],用来分隔样本内的不同句子)。每个句子都对应的是一个矩阵X=(x1,x2,...,xt),其中xi都代表着第i个词的词向量(行向量),维度为d维,故x∈Rn×d,利用下列公式进行编码:
Figure BDA0002127609350000081
其中A,B为另外引入的另一个序列(矩阵),引入A,B的目的是为了让xt与每一个单词进行比较,从而得到yt
4.2)将上一步的结果输入模型进行预训练,模型计算公式如下:
Figure BDA0002127609350000082
Figure BDA0002127609350000083
其中t1,t2...,tN为连续的tokens,t1,t2...,tk也为连续的tokens。更进一步,设logptk为rk,建立双向模型,此模型便于对大规模文本进行训练,模型计算公式如下:
Figure BDA0002127609350000084
其中t1,t2...,tN为连续的tokens,t1,t2...,tk也为连续的tokens,θx是输入,输入的内容是最初始的词向量。θs是归一化层参数,
Figure BDA0002127609350000091
为前向LSTM模型,
Figure BDA0002127609350000092
为后向LSTM模型。在此基础上,百分之十五通过wordpiece所产生词向量会被随机遮掩;
4.3)经过基于Masked Language Model的改进模型预训练之后对向量进行embedding(嵌入)操作。嵌入操作的种类分别是Token embedding(表示当前词的embedding)、Segment Embedding(表示当前词所在句子的index embedding)及PositionEmbedding(表示当前词所在位置的index embedding)。其中为了能够同时表示单句子和句子对,多句子需要进行拼接作为单个句子用segment embedding和[SEG] 来进行区分;三个embedding进行求和得到输入的向量;
4.4)将上一步中所生成的向量作为输入放进层数为12,维度为 768的Transformer模型中;
4.5)利用fine-tuning(微调)对模型进行修改,取token的输出,作为输入softmax(归一化)层的输入,从而得到电影标签预测结果的输出。
所述步骤5中,采用共享节点的CNN-LSTM算法构建基于电影原声的自动打标签模型包括以下过程:
5.1)通过快速傅里 叶变换(FFT)得到与步骤4所对应的声音数据集的功率谱,然后利用三角窗函数将频谱映射到梅尔标度,计算公式如下:
Figure BDA0002127609350000093
其中f为赫兹频率。设E(b),0≤b<B表示第b个子带上的梅尔标度功率谱系数,其中B表示预处理时的滤波器总数,MFCCN值就是对E(b)取对数后离散余弦变换的频谱,其中对E(b)取对数设为H(b),其计算公式如下:
Figure BDA0002127609350000101
其中L代表MFCCN的维度,得到MFCCN特征向量如下所示:
xMFCCN=[MFCCN(0),MFCCN(1),...MFCCN(L-1)]T (7)
5.2)对等长音频片段在重叠的短窗内进行短时傅里叶变换,每个傅里叶变换都生成一帧,这些连续的帧组合成矩阵构成频谱,最后在将线性的频率轴上变换成梅尔尺度,对在频率轴上分布不均的幅值进行对数缩放,再将其作为音频信号的特征表示;
5.3)将上一步生成的特征输入含有32个长度为8的一维滤波器的卷积层,窗口大小为8;
5.4)将上一步的输出放入池化窗口长度为4最大池化层;
5.5)将上一步的输出放入含有32个长度为8的一维滤波器的卷积层,窗口大小为8;
5.6)将上一步的输出放入池化窗口长度为4最大池化层;
5.7)构建多个上述模型,采用共享节点,分别输出深度特征序列;
5.8)由于电影的长度不同,输入的片段个数也就不同,把上述传统三个CNN模型输出的变长的深度特征序列通过LSTM结构的循环神经网络抓取时间相关特性,最后输出预测标签值。
所述步骤6中,融合步骤4与步骤5所提及的两种模型包括以下过程:
6.1)音频表示和文本表示在通过各自的基础网络,选择使用卷积神经网络结构,经过批规范化操作后进行拼接,最后进行尺度变换得到输出;
6.2)将拼接后模型的输出再次输入至输出节点分别为1024及512 的两个全连接层中,最后输出标签预测值。
本发明实施例所提供的一种基于深度神经网络影视标签自动获取方法,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备 (可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器 (RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (3)

1.一种基于深度神经网络影视标签自动获取方法,其特征在于,所述方法包括以下步骤:
步骤1:收集电影的台词,构建台词数据集;
步骤2:收集电影原声,构建声音数据集;
步骤3:在影视平台收集其所生成的标签,构建电影标签数据集;
步骤4:构建基于电影台词的自动打标签模型;
步骤5:采用共享节点CNN-LSTM算法构建基于电影原声的自动打标签模型;
步骤6:融合步骤4与步骤5所提及的两种模型;
所述步骤4中,构建基于电影台词的自动打标签模型包括以下过程:
4.1)用WordPiece工具来进行分词,并***特殊的分离符[CLS],用来分隔样本,和分隔符[SEP],用来分隔样本内的不同句子,每个句子都对应的是一个矩阵X=(x1,x2,…,xt),其中xi都代表着第i个词的词向量,维度为d维,故x∈Rn×d,利用下列公式进行编码:
Figure FDA0003497884780000011
其中A,B为另外引入的另一个序列,引入A,B的目的是为了让xt与每一个单词进行比较,从而得到yt
4.2)将上一步的结果输入模型进行预训练,模型计算公式如下:
Figure FDA0003497884780000012
Figure FDA0003497884780000013
其中t1,t2…,tN为连续的tokens,t1,t2…,tk也为连续的tokens,更进一步,设logptk为rk,建立双向模型,此模型便于对大规模文本进行训练,模型计算公式如下:
Figure FDA0003497884780000014
其中t1,t2…,tN为连续的tokens,t1,t2…,tk也为连续的tokens,θx是输入,输入的内容是最初始的词向量,θs是归一化层参数,
Figure FDA0003497884780000021
为前向LSTM模型,
Figure FDA0003497884780000022
为后向LSTM模型,在此基础上,百分之十五通过wordpiece所产生词向量会被随机遮掩;
4.3)经过模型预训练之后对向量进行嵌入操作,嵌入操作的种类中,Token embedding表示当前词的embedding,Segment Embedding表示当前词所在句子的index embedding,Position Embedding表示当前词所在位置的index embedding,其中为了能够同时表示单句子和句子对,多句子需要进行拼接作为单个句子用segment embedding和[SEG]来进行区分;三个embedding进行求和得到输入的向量;
4.4)将上一步中所生成的向量作为输入放进层数为12,维度为768的Transformer模型中;
4.5)利用fine-tuning微调对模型进行修改,取token的输出,作为输入softmax归一化层的输入,从而得到电影标签预测结果的输出;
所述步骤5中,采用共享节点CNN-LSTM算法构建基于电影原声的自动打标签模型包括以下过程:
5.1)通过快速傅里叶变换FFT得到与步骤4所对应的声音数据集的功率谱,然后利用三角窗函数将频谱映射到梅尔标度m,计算公式如下:
Figure FDA0003497884780000023
其中f为赫兹频率,设E(b),0≤b<B表示第b个子带上的梅尔标度功率谱系数,其中B表示预处理时的滤波器总数,MFCCN值就是对E(b)取对数后离散余弦变换的频谱,其中对E(b)取对数设为H(b),其计算公式如下:
Figure FDA0003497884780000024
其中L代表MFCCN的维度,得到MFCCN特征向量xMFCCN如下所示:
xMFCCN=[MFCCN(0),MFCCN(1),...MFCCN(L-1)]T (7)
5.2)对等长音频片段在重叠的短窗内进行短时傅里叶变换,每个傅里叶变换都生成一帧,这些连续的帧组合成矩阵构成频谱,最后在将线性的频率轴上变换成梅尔尺度,对在频率轴上分布不均的幅值进行对数缩放,再将其作为音频信号的特征表示;
5.3)将上一步生成的特征输入含有32个长度为8的一维滤波器的卷积层,窗口大小为8;
5.4)将上一步的输出放入池化窗口长度为4最大池化层;
5.5)将上一步的输出放入含有32个长度为8的一维滤波器的卷积层,窗口大小为8;
5.6)将上一步的输出放入池化窗口长度为4最大池化层;
5.7)构建三个CNN模型,采用共享节点,分别输出深度特征序列;
5.8)由于电影的长度不同,输入的片段个数也就不同,把三个CNN模型输出的变长的深度特征序列通过LSTM结构的循环神经网络抓取时间相关特性,最后输出预测标签值。
2.如权利要求1所述的一种基于深度神经网络影视标签自动获取方法,其特征在于:所述步骤3中,所述影视平台包括爱奇艺、腾讯视频、优酷、猫眼电影和豆瓣影视;构建电影标签数据集包括以下过程:
3.1)合并5个平台所采集的所有标签,确保没有重复标签;
3.2)对所有标签进行格式标准化,包括文字编码统一以及标签分隔符统一;
3.3)将步骤1,步骤2中的电影与收集到的标签对应起来。
3.如权利要求1所述的一种基于深度神经网络影视标签自动获取方法,其特征在于:所述步骤6中,融合步骤4与步骤5所提及的两种模型包括以下过程:
6.1)音频表示和文本表示在通过各自的基础网络,选择使用卷积神经网络结构,经过批规范化操作后进行拼接,最后进行尺度变换得到输出;
6.2)将拼接后模型的输出再次输入至输出节点分别为1024及512的两个全连接层中,最后输出标签预测值。
CN201910627545.8A 2019-07-12 2019-07-12 一种基于深度神经网络影视标签自动获取方法 Active CN110516086B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910627545.8A CN110516086B (zh) 2019-07-12 2019-07-12 一种基于深度神经网络影视标签自动获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910627545.8A CN110516086B (zh) 2019-07-12 2019-07-12 一种基于深度神经网络影视标签自动获取方法

Publications (2)

Publication Number Publication Date
CN110516086A CN110516086A (zh) 2019-11-29
CN110516086B true CN110516086B (zh) 2022-05-03

Family

ID=68623048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910627545.8A Active CN110516086B (zh) 2019-07-12 2019-07-12 一种基于深度神经网络影视标签自动获取方法

Country Status (1)

Country Link
CN (1) CN110516086B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460820B (zh) * 2020-03-06 2022-06-17 中国科学院信息工程研究所 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置
CN112084371B (zh) * 2020-07-21 2024-04-16 中国科学院深圳先进技术研究院 一种电影多标签分类方法、装置、电子设备以及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294797A (zh) * 2016-08-15 2017-01-04 北京聚爱聊网络科技有限公司 一种视频基因的生成方法和装置
CN108965920A (zh) * 2018-08-08 2018-12-07 北京未来媒体科技股份有限公司 一种视频内容拆条方法及装置
CN109359636A (zh) * 2018-12-14 2019-02-19 腾讯科技(深圳)有限公司 视频分类方法、装置及服务器
CN109710800A (zh) * 2018-11-08 2019-05-03 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法、装置、终端及存储介质
CN109767785A (zh) * 2019-03-06 2019-05-17 河北工业大学 基于卷积神经网络的环境噪声识别分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9946933B2 (en) * 2016-08-18 2018-04-17 Xerox Corporation System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294797A (zh) * 2016-08-15 2017-01-04 北京聚爱聊网络科技有限公司 一种视频基因的生成方法和装置
CN108965920A (zh) * 2018-08-08 2018-12-07 北京未来媒体科技股份有限公司 一种视频内容拆条方法及装置
CN109710800A (zh) * 2018-11-08 2019-05-03 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法、装置、终端及存储介质
CN109359636A (zh) * 2018-12-14 2019-02-19 腾讯科技(深圳)有限公司 视频分类方法、装置及服务器
CN109767785A (zh) * 2019-03-06 2019-05-17 河北工业大学 基于卷积神经网络的环境噪声识别分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BERT: Pre-training of Deep Bidirectional Transformers for;Jacob Devlind等;《arXiv》;20190524;全文 *

Also Published As

Publication number Publication date
CN110516086A (zh) 2019-11-29

Similar Documents

Publication Publication Date Title
JP7142737B2 (ja) マルチモーダルに基づくテーマ分類方法、装置、機器及び記憶媒体
CN112749608B (zh) 视频审核方法、装置、计算机设备和存储介质
CN106328147B (zh) 语音识别方法和装置
CN112104919B (zh) 基于神经网络的内容标题生成方法、装置、设备、和计算机可读存储介质
CN112749326B (zh) 信息处理方法、装置、计算机设备及存储介质
CN110704674A (zh) 一种视频播放完整度预测方法及装置
US20240212706A1 (en) Audio data processing
CN111046225B (zh) 音频资源处理方法、装置、设备及存储介质
CN109299277A (zh) 舆情分析方法、服务器及计算机可读存储介质
CN110516086B (zh) 一种基于深度神经网络影视标签自动获取方法
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
CN111488813B (zh) 视频的情感标注方法、装置、电子设备及存储介质
EP3340073A1 (en) Systems and methods for processing of user content interaction
CN117033558A (zh) 一种融合bert-wwm与多特征的影评情感分析方法
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN115909390B (zh) 低俗内容识别方法、装置、计算机设备以及存储介质
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN113704541A (zh) 训练数据的获取、视频推送方法、装置、介质及电子设备
CN114547435A (zh) 内容质量的识别方法、装置、设备及可读存储介质
CN117009574B (zh) 热点视频模板的生成方法、***、设备及存储介质
CN114328990B (zh) 图像完整性识别方法、装置、计算机设备和存储介质
CN115905584B (zh) 一种视频拆分方法及装置
CN116610804A (zh) 一种提升小样本类别识别的文本召回方法和***
CN114372139A (zh) 数据处理方法、摘要展示方法、装置、设备及存储介质
CN113868463A (zh) 推荐模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant