CN114464152B

CN114464152B - 一种基于视觉变换网络的音乐流派分类方法及***

Info

Publication number: CN114464152B
Application number: CN202210381486.2A
Authority: CN
Inventors: 董安明; 刘宗银; 禹继国; 张丽; 韩玉冰; 张德辉; 刘洋; 张滕; 李素芳; 邱静
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-07-19
Anticipated expiration: 2042-04-13
Also published as: CN114464152A

Abstract

本发明提供一种基于视觉变换网络的音乐流派分类方法及***，属于深度学习技术领域，包括：对音频数据进行预处理；利用短时傅里叶变换将所述音频数据转换为全景频谱图；按照所述全景频谱图的时间轴切割为多个单通道频谱图；将单通道频谱图输入视觉变换网络模型，得到音乐流派的类别，其中，所述视觉变换网络模型包括块嵌入和位置编码模块、编码器模块、多层感知机分类头模块。本发明通过构建的视觉变换网络模型，通过编码器层对音乐进行特征提取，多层感知机分类头模块实现音乐派别识别，实现了高效率高精度的音乐流派识别。

Description

一种基于视觉变换网络的音乐流派分类方法及***

技术领域

本发明属于深度学习技术领域，具体涉及一种基于视觉变换网络的音乐流派分类方法及***。

背景技术

随着计算机和移动互联网的发展，数字音乐变得越来越普及，使得在线音乐产业日益繁荣。为了更好地服务用户、创造价值，音乐信息检索及推荐***受到娱乐产业和行业的广泛重视。根据音乐的不同风格和属性进行分类是构筑音乐检索和推荐***的首要步骤，对于提高音乐信息检索效率具有重要的意义。

目前基于机器学习的音乐流派分类方法一般由特征提取、特征选择以及分类等步骤组成，但是，目前存在的方法属于浅层学习网络，很难建立复杂的函数表示，不能应对复杂样本的音乐流派分类任务。随后,长短期记忆网络应用到音乐流派的识别上，分类效率有所提升,同时所分流派数目也有所增多。基于卷积神经网络的方法虽然也能实现较好的分类效果，但是卷积神经网络不具备提取全局表征的能力，限制了分类的性能。虽然可以通过不断的堆叠更深的卷积层扩大感受野，但这会造成模型过于臃肿，计算量急剧增加，违背了初衷。

发明内容

针对现有技术的上述不足，本发明提供一种基于视觉变换网络的音乐流派分类方法及***，以解决上述技术问题。

第一方面，本发明提供一种基于视觉变换网络的音乐流派分类方法，包括：

对音频数据进行预处理；

利用短时傅里叶变换将所述音频数据转换为全景频谱图；

按照所述全景频谱图的时间轴切割为多个单通道频谱图；

将单通道频谱图输入视觉变换网络模型，得到音乐流派的类别，其中，所述视觉变换网络模型包括块嵌入和位置编码模块、编码器模块、多层感知机分类头模块。

进一步的，所述将单通道频谱图输入视觉变换网络模型，得到音乐流派的类别，包括：

将输入的单通道频谱图分成多个像素块；

利用编码器提取频谱图的特征信息，其中所述编码器模块包括多个堆叠而成的编码器层，每个编码器层包括第一子层连接结构和第二子层连接结构，所述第一子层连接结构包括第一归一化层、多头自注意力子层和第一恒等映射，所述第二子层连接结构包括第二归一化层、多层感知机子层和第二恒等映射；

将所述特征信息送入多层感知机分类头模块，进行音乐流派的分类，所述多层感知机分类头模块，包括第三归一化层和全连接层。

进一步的，所述方法还包括：

将获取音频数据，并划分为训练集和测试集；

对所述训练集的单通道频谱图加入高斯噪声，得到增强频谱图；

将所述测试集的单通道频谱图及所述增强频谱图混合为最终训练集输入视觉变换网络模型。

进一步的，所述方法还包括：使用GPU对视觉变换网络模型进行并行训练，运用随机梯度下降算法进行迭代，最小化损失值，得到最优模型。

进一步的，所述方法还包括：在测试集上测试所述最优模型。

进一步的，所述对音频数据进行预处理，包括：

统一音频数据的格式，所述格式包括采样频率和编码格式；

将音频数据的多声道改为单声道。

进一步的，所述全景频谱图的横轴为时间，纵轴为频率，灰度值为频谱成分，其中，灰度越低，频谱分量越强。

第二方面，本发明提供一种基于视觉变换网络的音乐流派分类***，包括：

数据处理单元，用于对音频数据进行预处理；

频谱获取单元，用于利用短时傅里叶变换将所述音频数据转换为全景频谱图；

频谱切片单元，用于按照所述全景频谱图的时间轴切割为多个单通道频谱图；

模型输入单元，用于将单通道频谱图输入视觉变换网络模型，得到音乐流派的类别，其中，所述视觉变换网络模型包括块嵌入和位置编码模块、编码器模块、多层感知机分类头模块。

第三方面，提供一种终端，包括：处理器、存储器，其中，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得终端执行上述的终端的方法。

第四方面，提供了一种计算机存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本发明的有益效果在于，本发明提供的基于视觉变换网络的音乐流派分类方法及***，通过构建的视觉变换网络模型，通过编码器层对音乐进行特征提取，多层感知机分类头模块实现音乐派别识别，解决了卷积神经网络由于局部感受野限制，不具备全局建模能力的问题，实现了高效率高精度的音乐流派识别。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的方法的示意性流程图。

图2是本发明一个实施例的模型内部的分类方法的示意性流程图。

图3是本发明一个实施例的模型训练方法的整体流程图。

图4是本发明一个实施例的视觉变换网络模型架构图。

图5是本发明一个实施例的***的示意性框图。

图6为本发明实施例提供的一种终端的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

图1是本发明一个实施例的方法的示意性流程图。其中，图1执行主体可以为一种基于视觉变换网络的音乐流派分类***。通常，音乐流派包括蓝调、饶舌、古典音乐、乡村、摇滚、重金属等。

如图1所示，该方法包括：

S110、对音频数据进行预处理；

具体地，所述音频数据为待分类的音乐的信息，对音频数据进行格式化处理，方便进行后续处理。

S120、利用短时傅里叶变换将所述音频数据转换为全景频谱图；

具体地，所述全景频谱图为整个音频时段一系列的频谱图，其中，灰度越低，频谱分量越强。将音频数据的音乐时域信号转换为频域信号，便于实现频域特征的提取。

S130、按照所述全景频谱图的时间轴切割为多个单通道频谱图；

具体地，所述单通道频谱图的大小为128×128像素；

S140、将单通道频谱图输入视觉变换网络模型，得到音乐流派的类别，其中，所述视觉变换网络模型包括块嵌入和位置编码模块、编码器模块、多层感知机分类头模块。

具体地，向视觉变换网络模型输入单通道频谱图，利用编码器提取频谱图的特征信息，多层感知机分类头模块根据所述特征信息进行音乐流派的分类。

在本实施例中，通过视觉变换网络模型对音乐进行派别分类，解决了卷积神经网络由于局部感受野限制，不具备全局建模能力的问题。

在一种实现方式中，如图2、图3示，所述将单通道频谱图输入视觉变换网络模型，得到音乐流派的类别，包括：

S141、将输入的单通道频谱图分成多个像素块；

具体的，块嵌入和位置编码模块的块嵌入维度与输入的单通道频谱图维度一致，即块嵌入维度为128×128像素，像素块大小为16×16像素，则共有64个像素块。

S142、利用编码器提取频谱图的特征信息；

其中，编码器模块包括多个堆叠而成的编码器层，每个编码器层包括第一子层连接结构和第二子层连接结构，所述第一子层连接结构包括第一归一化层、多头自注意力子层和第一恒等映射，所述第二子层连接结构包括第二归一化层、多层感知机子层和第二恒等映射；

具体地，第一子层连接结构用于处理输入特征向量得到频谱图的全局特征表示。第二子层连接结构用于增强模型的学习能力，避免自注意力可能对复杂过程的拟合程度不够。多头自注意力子层用于对输入的特征向量进行相关与不相关的抉择建立动态权重参数，以加强关键特征弱化无用特征。第一归一化层和第二归一化层用于对特征向量进行规范化，使其特征数值在合理范围内，从而有利于加快模型收敛速度。多层感知机子层用于对特征进行非线性变换，提高模型的非线性表达能力和学习能力。第一恒等映射、第二恒等映射用于解决随着网络深度增加，网络性能退化问题。

具体地，编码器模块中编码器层的数量为10层，多头自注意力子层中使用8个注意力头，编码器层中第一层全连接的神经元个数为512，第二层全连接的神经元个数为128。在输入128×128像素单通道频谱图的前提下，编码器的输出是形状为64×128像素的特征矩阵，其中64表示像素块的数量，128表示每个像素块所对应特征的维度。

S143、将所述特征信息送入多层感知机分类头模块，进行音乐流派的分类；

所述多层感知机分类头模块，包括第三归一化层和全连接层。第三归一化层用于对特征向量进行规范化，使其特征数值在合理范围内，从而有利于加快模型收敛速度。

多层感知机分类头模块对特征信息进行组合，并映射到样本空间，实现特征到音乐流派类别的一一映射，其中，本实施例中的样本空间是以样本的属性为坐标轴形成的多维空间，记载了从属性空间X到标记空间Y的映射关系，其中X代表特征，Y代表音乐派别，特别地，一条样本的属性空间X有多个，但是标记空间Y只有一个。

在一种实现方式中，如图4所示，所述方法还包括：将获取音频数据，并划分为训练集和测试集；对所述训练集的单通道频谱图加入高斯噪声，得到增强频谱图；将所述测试集的单通道频谱图及所述增强频谱图混合为最终训练集输入视觉变换网络模型。

具体地，所述高斯噪声的均值为0，标准差为0.12。

在本实施例中，通过增加高斯噪声对频谱图进行数据增强，解决了模型训练过拟合的问题，得输入空间变得平滑，从而有利于神经网络学习，提高模型的泛化能力和容错率。将未增强的单通道频谱图及增强后的单通道频谱图混合作为最终训练集，对视觉变换网络模型进行训练，从而实现音乐流派高精度、高效率的分类。

在一种实现方式中，所述方法还包括：使用GPU对视觉变换网络模型进行并行训练，运用随机梯度下降算法进行迭代，最小化损失值，得到最优模型。

具体地，模型训练采用Adam优化器，损失函数为交叉熵，学习率设置为0.0003，训练轮次设置为300，批次大小定为128，训练至模型收敛，使用GPU并行训练，运用随机梯度下降算法进行迭代，最小化损失值，得到最优模型。

本实施例采用GPU进行高度并行化训练，解决了循环神经网络由于其采用顺序结构，无法进行并行化训练的问题，优化模型训练的效率，进而实现音乐流派分类的高效准确。

在一种实现方式中，所述方法还包括：在测试集上测试所述最优模型。

在模型训练完成后，将获取的测试集的音频数据，输入最优模型中进行测试，并记录测试结果。

在一种实现方式中，所述对音频数据进行预处理，包括：统一音频数据的格式，所述格式包括采样频率和编码格式；将音频数据的多声道改为单声道。

对获取的音频数据进行格式化处理，保证后续特征提取操作的高效准确。

在一种实现方式中，所述全景频谱图的横轴为时间，纵轴为频率，灰度值为频谱成分，其中，灰度越低，频谱分量越强。

图5示出的为本申请实施例提供的一种基于视觉变换网络的音乐流派分类***200，包括：

数据处理单元210，用于对音频数据进行预处理；

频谱获取单元220，用于利用短时傅里叶变换将所述音频数据转换为全景频谱图；

频谱切片单元230，用于按照所述全景频谱图的时间轴切割为多个单通道频谱图；

模型输入单元240，用于将单通道频谱图输入视觉变换网络模型，得到音乐流派的类别，其中，所述视觉变换网络模型包括块嵌入和位置编码模块、编码器模块、多层感知机分类头模块。

图6为本发明实施例提供的一种终端***300的结构示意图，该终端***300可以用于执行本发明实施例提供的一种基于视觉变换网络的音乐流派分类方法。

其中，该终端***300可以包括：处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信，本领域技术人员可以理解，图中示出的服务器的结构并不构成对本发明的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，该存储器320可以用于存储处理器310的执行指令，存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。当存储器320中的执行指令由处理器310执行时，使得终端300能够执行以下上述方法实施例中的部分或全部步骤。

处理器310为存储终端的控制中心，利用各种接口和线路连接整个电子终端的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器内的数据，以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit，简称IC) 组成，例如可以由单颗封装的IC 所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说，处理器310可以仅包括中央处理器(Central Processing Unit，简称CPU)。在本发明实施方式中，CPU可以是单运算核心，也可以包括多运算核心。

通信单元330，用于建立通信信道，从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。

本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体（英文：read-only memory，简称：ROM）或随机存储记忆体（英文：random access memory，简称：RAM）等。

因此，本发明提供的基于视觉变换网络的音乐流派分类方法及***，通过构建的视觉变换网络模型，通过编码器层对音乐进行特征提取，多层感知机分类头模块实现音乐派别识别，解决了卷积神经网络由于局部感受野限制，不具备全局建模能力的问题，实现了高效率高精度的音乐流派识别，本实施例所能达到的技术效果可以参见上文中的描述，此处不再赘述。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质，包括若干指令用以使得一台计算机终端（可以是个人计算机，服务器，或者第二终端、网络终端等）执行本发明各个实施例所述方法的全部或部分步骤。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于终端实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

在本发明所提供的几个实施例中，应该理解到，所揭露的***、***和方法，可以通过其它的方式实现。例如，以上所描述的***实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，***或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于视觉变换网络的音乐流派分类方法，其特征在于，包括：

对音频数据进行预处理；

利用短时傅里叶变换将所述音频数据转换为全景频谱图；

按照所述全景频谱图的时间轴切割为多个单通道频谱图；

将单通道频谱图输入视觉变换网络模型，得到音乐流派的类别，其中，所述视觉变换网络模型包括块嵌入和位置编码模块、编码器模块、多层感知机分类头模块；

将输入的单通道频谱图分成多个像素块；利用编码器提取频谱图的特征信息，其中所述编码器模块包括多个堆叠而成的编码器层，每个编码器层包括第一子层连接结构和第二子层连接结构，所述第一子层连接结构包括第一层归一化、多头自注意力子层和第一恒等映射，所述第二子层连接结构包括第二层归一化、多层感知机子层和第二恒等映射；

编码器模块中编码器层的数量为10层，多头自注意力子层中使用8个注意力头，编码器层中第一层全连接的神经元个数为512，第二层全连接的神经元个数为128；在输入128×128像素单通道频谱图的前提下，将 128×128像素的单通道频谱图切分为16×16大小像素块，则共有64个像素块，编码器的输出是形状为64×128像素的特征矩阵，其中64表示像素块的数量，128表示每个像素块所对应特征的维度；

将所述特征信息送入多层感知机分类头模块，多层感知机分类头模块对特征信息进行组合，并映射到样本空间，进行音乐流派的分类，所述多层感知机分类头模块，包括第三归一化层和全连接层；

将获取音频数据，并划分为训练集和测试集；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

使用GPU对视觉变换网络模型进行并行训练，运用随机梯度下降算法进行迭代，最小化损失值，得到最优模型。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

在测试集上测试所述最优模型。

4.根据权利要求1所述的方法，其特征在于，所述对音频数据进行预处理，包括：

统一音频数据的格式，所述格式包括采样频率和编码格式；

将音频数据的多声道改为单声道。

5.根据权利要求1所述的方法，其特征在于，所述全景频谱图的横轴为时间，纵轴为频率，灰度值为频谱成分，其中，灰度越低，频谱分量越强。

6.一种基于视觉变换网络的音乐流派分类***，其特征在于，包括：

数据处理单元，用于对音频数据进行预处理；

模型输入单元，用于将单通道频谱图输入视觉变换网络模型，得到音乐流派的类别，其中，所述视觉变换网络模型包括块嵌入和位置编码模块、编码器模块、多层感知机分类头模块；将输入的单通道频谱图分成多个像素块；利用编码器提取频谱图的特征信息，其中所述编码器模块包括多个堆叠而成的编码器层，每个编码器层包括第一子层连接结构和第二子层连接结构，所述第一子层连接结构包括第一层归一化、多头自注意力子层和第一恒等映射，所述第二子层连接结构包括第二层归一化、多层感知机子层和第二恒等映射；

模型训练单元，用于将获取音频数据，并划分为训练集和测试集；对所述训练集的单通道频谱图加入高斯噪声，得到增强频谱图；将所述测试集的单通道频谱图及所述增强频谱图混合为最终训练集输入视觉变换网络模型。