CN110674339B

CN110674339B - 一种基于多模态融合的中文歌曲情感分类方法

Info

Publication number: CN110674339B
Application number: CN201910879131.4A
Authority: CN
Inventors: 朱贝贝; 王洁
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2021-04-16
Anticipated expiration: 2039-09-18
Also published as: CN110674339A

Abstract

本发明公开了一种基于多模态融合的中文歌曲情感分类方法，首先从音频信号中获取声谱图，并提取音频低层特征，然后基于LLD‑CRNN模型进行音频特征学习，从而得到中文歌曲的音频特征；对于歌词和评论信息，首先构建音乐情感词典，然后以该词典为基础，构造基于情感强度和词性的情感向量，从而得到中文歌曲的文本特征；最后使用决策融合和特征融合两种方法进行多模态融合，得到中文歌曲的情感类别。本方法基于LLD‑CRNN的音乐情感分类模型，该模型结合使用声谱图和音频低层特征作为输入序列。LLD集中在时域或频域，对于时、频特性关联变化的音频信号，而声谱图是音频信号在频率上的二维表示，在信息量上损失较少，因此，LLD和声谱图可以实现信息互补。

Description

一种基于多模态融合的中文歌曲情感分类方法

技术领域

本发明涉及自然语言处理技术、音频信号处理技术和深度学习领域，尤其涉及一种基于多模态融合的中文歌曲情感分类方法。

背景技术

随着计算机网络与多媒体技术的快速发展，互联网上涌现了越来越多的文本、图像、音频和视频等多媒体数据。音乐是多媒体数据的重要组成部分，面对音乐作品数量的***式增长，音乐种类的不断增多，音乐作品的组织和检索问题受到了专家学者的广泛关注。音乐是情感的载体，情感是音乐最重要的语义信息，情感词是在检索和描述音乐时最常用的词，因此，基于情感进行音乐分类能够有效提高音乐检索的效率，并逐渐成为研究热点。音乐情感分类属于音乐心理学和计算机学科的交叉领域，相关的研究具有重要意义。目前，音乐情感分类广泛应用于音乐数据库管理、音乐检索、音乐推荐和音乐治疗等领域。

采用纯人工的方式标记音乐情感效率较低，并且质量无法保证，难以满足海量音乐作品的情感标注需求，因此，越来越多的专家开始研究音乐情感自动识别技术。迄今为止，音乐情感自动识别的研究已有十几年的历史，国内外众多学者都对该领域做了深入的研究，并取得了一定成果。传统的音乐情感分类方法多数侧重于歌词或音频进行分析，但是单模态的数据只能获取对象的部分特性，仅利用单一模态的数据进行分类存在一定程度的信息缺失。近年来，越来越多的研究者开始关注多模态融合技术，该技术也为音乐情感分类问题提供了新的解决方案。

认知心理学研究表明，人脑通过对不同感官的信息进行综合判断，最终产生认知结果，这也表明了不同感官的信息具有互补性和相关性。“模态”即“感官”，多模态融合即将视觉、听觉、触觉、嗅觉等多种感官融合。相同的语义信息可以用音频、文本、图像等信息共同表达出来，例如，老虎的吼声，描述老虎的文字和包含老虎的图片均可以表达“老虎”这一语义概念。与传统的单模态研究相比，多模态信息具有更丰富的语义信息，表达效率和信息完整度更高。一般来说，基于多模态融合的分类方法比基于单一信息源的分类方法具有更好的分类性能。音乐主要由音频信号与歌词文本这两种模态的数据组成。音频中往往蕴含着情感的表达，密集型的节奏令人心情愉悦，而松散型的节奏令人心情宁静。同时，文字是人们表达情感的一种方式，歌词文本也可以体现音乐表达的情感，因此，结合音频和歌词文本将可以有效提高音乐情感分类的准确率。

发明内容

针对上述问题，本发明的目的在于采用了一种基于多模态融合技术的音乐情感分类方法，通过结合音频、歌词和音乐评论对中文歌曲的情感进行分类。

本发明主要思考是：传统的音乐情感分类方法多数侧重于歌词或音频进行分析，但是单模态数据所包含的语义信息有限，无法完全表达音乐情感。本发明以中文歌曲作为研究对象，基于多模态融合进行音乐情感分类。将深度学习方法用于音乐情感识别有助于跨越音频低层特征(Low Level Descriptors，LLD)和音乐高层情感概念之间的语义鸿沟，并且卷积循环神经网络适用于序列数据建模，本发明将卷积循环神经网络(ConvolutionalRecurrent Neural Network，CRNN)应用于音乐情感分类，提出一种基于LLD-CRNN的音乐情感分类模型。与音频低层特征相比，声谱图包含更多的音频信息，因此，该模型结合使用声谱图和音频低层特征作为输入序列，以实现信息互补。此外，音乐评论的情感倾向也可以体现音乐表达的情感，本发明提出了一种面向中文歌词和评论的音乐情感分类方法，通过结合歌词和评论文本挖掘更丰富的情感信息，并在构建情感向量时综合考虑了情感词的词频、情感强度和词性对情感分类的影响作用。

对于音频信息，首先从音频信号中获取声谱图，并提取音频低层特征，然后基于LLD-CRNN模型进行音频特征学习，从而得到中文歌曲的音频特征；对于歌词和评论信息，首先构建音乐情感词典，然后以该词典为基础，构造基于情感强度和词性的情感向量，从而得到中文歌曲的文本特征；最后使用决策融合和特征融合两种方法进行多模态融合，得到中文歌曲的情感类别。

该方法包括以下步骤：

步骤一，输入原始中文歌曲数据。

原始中文歌曲数据包括：训练样本集、训练样本集标签、测试样本集和测试样本集标签。训练样本集标签、测试样本集标签即为每个样本数据对应的数据所属类别。每个样本数据包含原始中文歌曲的歌词、音乐评论和音频。

步骤二，从歌曲的音频信号中获取声谱图，并提取音频特征。

音频信号是一个一维数组，该数组的长度由音频的时长和采样频率决定。通常从时域和频域两个角度分析音频信号特征，音频信号在时域上的变化快速而不稳定，并且频域信号比时域信号更符合人类听觉机制，一般将音频信号从时域转到频域，进而对音频进行分析。将歌曲的音频信号进行分帧加窗等预处理后，对每一帧做快速傅里叶变换，将时域信号转换为频域信号，把每一帧经过变换后的频域信号在时间上堆叠起来得到声谱图。此外，从音频信号中提取音频低层特征，音频低层特征包括Mel频率倒谱系数、基频特征、共振峰特征、八音频谱对比度和Chroma特征。

步骤三，基于LLD-CRNN模型学习音频特征。

LLD-CRNN模型主要分为两个部分，分别以CRNN和双向门限循环单元模型(Bi-directional Gated Recurrent Unit，Bi-GRU)作为分类模型。该分类模型结合使用声谱图和音频低层特征作为输入序列，以实现信息互补。CRNN部分将声谱图作为输入，提取音频的局部特征和序列特征；LLD作为Bi-GRU部分的输入，进一步获取音频特征的序列信息；最后将CRNN部分和Bi-GRU部分的音频特征连接后作为多模态音乐情感分类任务中的音频特征。

步骤四，构建音乐情感词典。

首先以VA情感模型为基础构建情感词表，采用Word2vec中词语相似度计算的思想扩展情感词表，构建中文音乐情感词典，词典中包含每个词的情感类别和情感权值。

步骤五，提取文本特征

以音乐情感词典为基础构造中文歌曲的文本特征，其中，文本包括歌词和评论。首先，对歌曲相关文本进行分词、去停用词、词性标注和词频统计等预处理操作。然后，采用情感词表中的4维情感类别作为情感向量，将文本中的实词与情感词典进行匹配，得到每个实词的情感类别和情感权值。最后，采用词频逆文档频率(Term Frequency-InverseDocument Frequency，TF-IDF)规则计算出每个情感类别的统计值，并进一步考虑词性对情感分类的影响，将情感向量扩展到16个维度。

步骤六，基于多模态融合进行中文歌曲情感分类。

将步骤三中得到的音频特征和步骤五中构造的文本特征进行多模态融合，得到中文歌曲的情感类别。多模态融合方法包括决策融合和特征融合两种方法，其中决策融合采用线性结合和子任务结合两种方式。实验结果如下表所示。

表1实验结果

为了验证本发明所提出的的多模态音乐情感分类方法的有效性，并对比不同多模态融合方法的分类效果，分别从准确率、精确率、召回率和F1值4个方面对比仅面向歌词和评论的音乐情感分类(Text-Only)、基于LLD-CRNN的音乐情感分类(Audio-Only)、采用线性结合决策融合的多模态音乐情感分类(Decision Fusion by Liner Combination，DFLC)、采用子任务结合决策融合的多模态音乐情感分类(Decision Fusion by SubtaskMerging，DFSM)、采用特征融合的多模态音乐情感分类(Feature Fusion，FF)5种情感分类方法在已构建的中文歌曲数据集上的分类性能。从上表可以看出，DFLC、DFSM和FF这3种基于多模态融合的音乐情感分类的所有评价指标均高于仅使用单模态信息的分类实验，证明了利用多模态信息能有效提高分类性能，这是因为单模态数据所包含的语义信息有限，无法完全表达音乐情感，并且音频和歌曲相关文本在不同情感类别上的分类能力不同，将两者结合能够实现信息互补。另外，基于音频的分类实验的整体分类性能优于仅使用歌词和评论的分类实验。

本方法提出的方案优势在于：(一)单模态数据所包含的语义信息有限，无法完全表达音乐情感，本方法结合音频、歌词和音乐评论进行多模态音乐情感分类能有效提高分类性能。(二)将CRNN应用于音乐情感识别，并设计了基于LLD-CRNN的音乐情感分类模型，该模型结合使用声谱图和音频低层特征作为输入序列。LLD通常集中在时域或频域，对于时、频特性关联变化的音频信号，往往会丢失部分信息，而声谱图是音频信号在频率上的二维表示，在信息量上损失较少，因此，LLD和声谱图可以实现信息互补。(三)音乐评论的情感倾向也可以体现音乐表达的情感，因此，本方法面向中文歌词和评论进行音乐情感分类，挖掘更丰富的情感信息，并在构建情感向量时综合考虑了情感词的词频、情感强度和词性对情感分类的影响作用。

附图说明

图1是VA情感模型。

图2是基于LLD-CRNN的音乐情感分类模型整体框架示意图。

图3是CRNN的网络结构。

图4是Bi-LSTM的网络结构。

图5是基础情感词典构建流程。

图6是音乐情感词典构建流程。

图7是本发明所设计方法的整体框架图。

图8是本发明所采用的多模态融合方法示意图，分别为决策融合和特征融合。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

步骤一，数据获取。

本发明需要构建适用于多模态音乐情感分类的中文歌曲数据集，数据集包含中文歌曲的歌词、音乐评论和音频。选择VA模型作为音乐情感分类的依据，将VA空间映射为4个离散类别，分别是“+V+A”、“-V+A”、“-V-A”和“+V-A”，如图1所示。根据这4个离散类别采集数据，中文歌曲数据集构建过程分为如下三个步骤：(1)中文歌曲的收集和情感标注。按照需要收集的情感类别，从各大音乐网站上搜索相关的中文歌曲。最终的数据集包含400首情感类别鲜明的中文歌曲，这些歌曲包括流行歌曲和革命时期的歌曲。为了使收集的语料更加均衡，减少语料对实验结果的影响，每个情感类别100首歌曲，并尽量收集不同演唱者的歌曲。每首歌由多个人进行情感标注，选择标注人数最多的类别作为该歌曲的标签。(2)歌词和音频的获取及预处理。从各大音乐网站上下载歌曲的歌词和音频。将歌词文本中的对歌曲情感分类没有帮助的语句去除，比如演唱者、作词、作曲和专辑信息等。下载的音频均为MP3格式，根据语音情感分类的要求，截取每首歌曲最具代表性的片段，时长为30s，所有音频的采样率均为22050Hz。(3)音乐评论的抓取和预处理。在音乐网站上抓取评论信息，每首歌曲抓取1000条最新评论，并去除与音乐情感无关的评论，比如对演唱者的评论。完成上述步骤后，得到了一个适用于多模态音乐情感分类的中文歌曲数据集，为本发明的实验提供了可用的数据集。

步骤二，从音频信号中获取声谱图，并提取音频特征。

LLD-CRNN的输入包括声谱图和音频低层特征，因此需要对音频文件的原始音频信号进行预加重、分帧和加窗等预处理，使用23ms的帧长，帧移为帧长的一半。LLD-CRNN模型使用的声谱图为Mel声谱图，所采用的音频情感特征如表2所示。

表2音频情感特征

步骤三，基于LLD-CRNN模型学习音频特征。

图2中框架通过将CRNN模型和Bi-GRU模型结合，构成了基于LLD-CRNN的音乐情感分类模型。模型的构建流程主要包括以下几步：(1)基于CRNN的局部特征和序列特征提取。CRNN部分的基本结构如图3所示。首先卷积层C₁使用两个不同的卷积核分别提取声谱图的时域特征和频域特征，其中，提取时域特征的卷积核在时域上卷积，而提取频域特征的卷积核在频域上卷积；然后，将卷积层C₁的所有特征矩阵拼接后进行池化操作，卷积层C₂进一步提取音频局部特征；最后，将第二个池化层的各特征矩阵依次取出排成一个向量，作为双向长短期记忆模型(Bi-Long Short-Term Memory，Bi-LSTM)的输入，提取音频特征的时序信息，Bi-LSTM的网络结构如图4所示。特别说明，池化层P₁和P₂均采用最大值池化(Max-pooling-over-time)进行降采样运算。(2)基于Bi-GRU的序列特征提取。Bi-GRU模型的输入为音频低层特征，其网络结构与Bi-LSTM类似，两层GRU分别独立学习音频特征的前向序列信息和后向序列信息，并将两个隐藏状态拼接为一个向量。(3)基于Softmax的音乐情感分类。

在LLD-CRNN模型的训练过程中，卷积层C₁使用两个不同的卷积核分别提取声谱图的时域特征和频域特征，卷积核尺寸分别为1*8、8*1，每种卷积核均设置4个；卷积层C₂使用二维卷积进一步提取音频局部特征，卷积核尺寸为3*3，个数为6个。池化层P₁和P₂均采用最大值池化，大小为1*2。Bi-LSTM和Bi-GRU的隐藏层神经元个数均为128个。

步骤四，构建音乐情感词典。

首先以VA情感模型为基础构建情感词表，如表3所示。然后借助Word2vec计算词语相似度，使用《哈工大同义词林》和歌词语料库对情感词表的38个情感词汇进行扩展，从而构建出一部适用于中文歌曲情感分类的词典，词典中包含每个词的情感类别和情感权值。使用《哈工大同义词林》对情感词表进行扩展，扩展后的词典仅包含情感词，称为基础情感词典，其存储结构为四元组(实词，情感词，情感类别，情感权值)，实现过程如图5所示。利用包含一万首中文歌曲的歌词语料库对基础情感词典做进一步扩展，以更适用于中文歌曲情感分类，扩展后的词典称为音乐情感词典，实现过程如图6所示。

表3情感词表

步骤五，提取文本特征。

以音乐情感词典为基础构造中文歌曲的文本特征，其中，文本包括歌词和评论，并在构造过程中综合考虑情感强度和词性对情感分类的影响作用。首先，对歌曲相关文本进行分词、去停用词、词性标注和词频统计等预处理操作。然后，采用情感词表中的4维情感类别作为情感向量，将文本中的实词与情感词典进行匹配，得到每个实词的情感类别和情感权值。最后，采用TF-IDF规则计算出每个情感类别的统计值，并进一步考虑词性对情感分类的影响，将情感向量扩展到16个维度。

在构造中文歌曲的情感特征时，需要对中文进行分词、去停用词、词性标注和词频统计等预处理操作。实验采用jieba进行分词，并使用《哈工大停用词表》去除停用词。使用K近邻算法作为分类器，当k＝5时分类效果最佳。选择中文歌曲数据集中的80％作为训练集，20％作为测试集。

步骤六，基于多模态融合进行中文歌曲情感分类。

结合音频、歌词和音乐评论进行多模态音乐情感分类，整体框架如图7所示。以步骤三和步骤五为基础进行多模态融合，得到中文歌曲的情感类别。多模态融合方法包括决策融合和特征融合两种方法，如图8所示。

决策融合常用的单模态分类结果融合方式为线性结合。首先，对音频和歌曲相关文本进行分类，将音频特征V_audio和文本特征V_text分别作为分类器的输入向量，预测出音频和文本的每种情感类别的概率值，预测结果分别为R_audio(x₁,x₂,x₃,x₄)和R_text(y₁,y₂,y₃,y₄)，其中x_i和y_i表示音频和文本第i类情感的概率预测值，i∈{1，2，3，4}。然后，将R_audio和R_text进行线性加权求和，得到多模态融合结果R_song(f₁,f₂,f₃,f₄)，其中：

f_i＝α*x_i+(1-α)*y_i

式中的参数α表示音频模态所占的比重，α∈[0,1]，当α＞0.5时表示音频占的比重大于文本，选择α＝0.5。最后，选择多模态融合结果R_song中的最大预测概率值所对应的类别作为歌曲的情感标签。

另一种决策融合方法为子任务结合，与线性结合的不同之处在于，这种融合方法基于二维情感模型，以VA模型为例进行说明。VA模型的横轴表示效价度，将情感类别分为“+V”和“-V”两种情感极性；其纵轴表示激活度，将情感类别分为“+A”和“-A”两种不同强度的情感。实验结果表明，歌曲相关文本在效价上的区分度较强，音频在激活度上的区分度较强。以上述实验结果为基础，将音频特征V_audio和文本特征V_text分别作为分类器的输入向量，根据V_audio将音乐情感分类为“+V”和“-V”，根据V_text分类为“+A”和“-A”，将两者的分类结果结合，得到最终的音乐情感类别。

特征融合一般采用特征拼接的方式，将音频特征V_audio和文本特征V_text连接为V_song，然后把V_song作为分类器的输入向量，从而得到最终分类结果。与决策融合相比，该方法可以更多的考虑各种模态特征之间的关联信息。

Claims

1.一种基于多模态融合的中文歌曲情感分类方法，对于音频信息，首先从音频信号中获取声谱图，并提取音频低层特征，然后基于LLD-CRNN模型进行音频特征学习，从而得到中文歌曲的音频特征；对于歌词和评论信息，首先构建音乐情感词典，然后以该词典为基础，构造基于情感强度和词性的情感向量，从而得到中文歌曲的文本特征；最后使用决策融合和特征融合两种方法进行多模态融合，得到中文歌曲的情感类别；

其特征在于：该方法包括以下步骤，

步骤一，输入原始中文歌曲数据；

原始中文歌曲数据包括：训练样本集、训练样本集标签、测试样本集和测试样本集标签；训练样本集标签、测试样本集标签即为每个样本数据对应的数据所属类别；每个样本数据包含原始中文歌曲的歌词、音乐评论和音频；

步骤二，从歌曲的音频信号中获取声谱图，并提取音频特征；

音频信号是一个一维数组，该数组的长度由音频的时长和采样频率决定；将歌曲的音频信号进行分帧加窗预处理后，对每一帧做快速傅里叶变换，将时域信号转换为频域信号，把每一帧经过变换后的频域信号在时间上堆叠起来得到声谱图；此外，从音频信号中提取音频低层特征，音频低层特征包括Mel频率倒谱系数、基频特征、共振峰特征、八音频谱对比度和Chroma特征；

步骤三，基于LLD-CRNN模型学习音频特征；

LLD-CRNN模型分为两个部分，分别以CRNN和双向门限循环单元模型(Bi-directionalGated Recurrent Unit，Bi-GRU)作为分类模型；该分类模型结合使用声谱图和音频低层特征作为输入序列，以实现信息互补；CRNN部分将声谱图作为输入，提取音频的局部特征和序列特征；LLD作为Bi-GRU部分的输入，进一步获取音频特征的序列信息；最后将CRNN部分和Bi-GRU部分的音频特征连接后作为多模态音乐情感分类任务中的音频特征；

步骤四，构建音乐情感词典；

首先以VA情感模型为基础构建情感词表，采用Word2vec中词语相似度计算的思想扩展情感词表，构建中文音乐情感词典，词典中包含每个词的情感类别和情感权值；

步骤五，提取文本特征

以音乐情感词典为基础构造中文歌曲的文本特征，其中，文本包括歌词和评论；首先，对歌曲相关文本进行分词、去停用词、词性标注和词频统计预处理操作；然后，采用情感词表中的4维情感类别作为情感向量，将文本中的实词与情感词典进行匹配，得到每个实词的情感类别和情感权值；最后，采用词频逆文档频率规则计算出每个情感类别的统计值，并进一步考虑词性对情感分类的影响，将情感向量扩展到16个维度；

步骤六，基于多模态融合进行中文歌曲情感分类；

将步骤三中得到的音频特征和步骤五中构造的文本特征进行多模态融合，得到中文歌曲的情感类别；多模态融合方法包括决策融合和特征融合两种方法，其中决策融合采用线性结合和子任务结合两种方式。

2.根据权利要求1所述的一种基于多模态融合的中文歌曲情感分类方法，其特征在于：决策融合的多模态分类结果融合方式为线性结合；首先，对音频和歌曲相关文本进行分类，将音频特征V_audio和文本特征V_text分别作为分类器的输入向量，预测出音频和文本的每种情感类别的概率值，预测结果分别为R_audio(x₁,x₂,x₃,x₄)和R_text(y₁,y₂,y₃,y₄)，其中x_i和y_i表示音频和文本第i类情感的概率预测值，i∈{1，2，3，4}；然后，将R_audio和R_text进行线性加权求和，得到多模态融合结果R_song(f₁,f₂,f₃,f₄)，其中：

f_i＝α*x_i+(1-α)*y_i

式中的参数α表示音频模态所占的比重，α∈[0,1]，当α＞0.5时表示音频占的比重大于文本，选择α＝0.5；最后，选择多模态融合结果R_song中的最大预测概率值所对应的类别作为歌曲的情感标签。

3.根据权利要求1所述的一种基于多模态融合的中文歌曲情感分类方法，其特征在于：决策融合方法为子任务结合，这种融合方法基于二维情感模型。

4.根据权利要求2所述的一种基于多模态融合的中文歌曲情感分类方法，其特征在于：特征融合采用特征拼接的方式，将音频特征V_audio和文本特征V_text连接为V_song，然后把V_song作为分类器的输入向量，从而得到最终分类结果。