CN109285560B

CN109285560B - 一种音乐特征提取方法、装置及电子设备

Info

Publication number: CN109285560B
Application number: CN201811139448.6A
Authority: CN
Inventors: 刘思阳; 蒋紫东; 冯巍
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2021-09-03
Anticipated expiration: 2038-09-28
Also published as: CN109285560A

Abstract

本发明实施例提供了一种音乐特征提取方法及装置，该方法包括：获取音乐数据，所述音乐数据是由δ个音符矩阵组成的时序序列，每个所述音符矩阵的每一行分别表示一个音符，所述音符矩阵的每一列分别表示所述音符的播放状态，δ为正整数；将所述音乐数据输入预先训练好的循环神经网络，得到所述音乐数据的特征，所述音乐数据的特征包括音节BEAT特征矩阵、小节BAR特征矩阵和曲目特征向量。这样,本发明实施例通过预先训练好的循环神经网络来获得音乐数据的多个维度的音乐特征，可以有效解决现有技术存在的人工提取音乐特征效率较低的问题。

Description

一种音乐特征提取方法、装置及电子设备

技术领域

本发明涉及音乐特征提取领域，特别是涉及一种音乐特征提取方法、装置及电子设备。

背景技术

随着科技的不断发展，使用终端欣赏音乐的用户越来越多。用户可以通过终端欣赏各种类别的音乐，例如，流行音乐，古典音乐等。

为了满足用户的需求，越来越多的音乐可以供用户欣赏；且为了方便用户可以根据音乐的类别来选择其要欣赏的音乐，需要对音乐进行分类。传统的音乐分类方法通常为：人工提取音乐的音乐特征，并基于人工所提取的音乐特征对音乐进行分类。很显然，现有的这种人工提取音乐特征的方式效率较低。

发明内容

本发明实施例的目的在于提供一种音乐特征提取方法、装置及电子设备，以提高音乐特征提取的效率，具体技术方案如下：

第一方面，本发明实施例提供了一种音乐特征提取方法，所述方法包括：

获取音乐数据，所述音乐数据是由δ个音符矩阵组成的时序序列，每个所述音符矩阵的每一行分别表示一个音符，所述音符矩阵的每一列分别表示所述音符的播放状态，δ为正整数；

将所述音乐数据输入预先训练好的循环神经网络，得到所述音乐数据的特征，所述音乐数据的特征包括音节BEAT特征矩阵、小节BAR特征矩阵和曲目特征向量。

可选的，所述音符矩阵M∈R^a×3，其中，M表示所述音符矩阵，a表示所述M的行数，所述M的第一列表示所述音符是否播放，所述M的第二列表示所述音符是否被再次播放，所述M的第三列表示所述音符的播放强度。

可选的，ε个音符矩阵组成一个BEAT，ζ个BEAT组成一个BAR，η个BAR组成一个音乐曲目，所述音乐数据由一个或者多个音乐曲目组成，ε,ζ,η均为正整数。

可选的，所述将所述音乐数据输入预先训练好的循环神经网络，得到所述音乐数据的特征的步骤，包括：

在所述音乐数据输入所述预先训练好的循环神经网络时，确定当前输入所述预先训练好的循环神经网络的音符矩阵M_t在目标BAR中的位置信息，所述目标BAR为所述音符矩阵M_t所在的BAR；

将所述M_t在目标BAR中的位置信息转换为位置向量

其中，

γ表示一个BAR中含有的音符矩阵的数量；

将所述音符矩阵M_t、音符矩阵M_t之前的N个音符矩阵以及音符矩阵M_t之后的N个音符矩阵输入所述预先训练好的循环神经网络中卷积核为θ的一维卷积层，得到音符矩阵C_t∈R^а×3×θ，所述音乐矩阵C_t为与音符矩阵M_t上下文相关的音符矩阵，N为正整数；

将所述位置向量

分别与音符矩阵C_t进行拼接，并将拼接得到的矩阵输入所述预先训练好的循环神经网络的第一层神经网络，通过所述得到BEAT特征矩阵，其中，所述预先训练好的循环神经网络的第一层神经网络用于对所述音乐数据中的BEAT矩阵进行特征提取，ζ个BEAT特征矩阵组成一个BAR矩阵；

将所输出的BEAT特征矩阵输入所述预先训练好的循环神经网络的第二层神经网络，得到BAR特征矩阵，其中，所述预先训练好的循环神经网络的第二层神经网络用于对所述BEAT特征矩阵进行特征提取，所述η个BAR特征矩阵组成一个音乐曲目；

将所述BAR特征矩阵输入所述预先训练好的循环神经网络的第三层网络，得到曲目特征向量，其中，所述预先训练好的循环神经网络的第三层网络用于对所述BAR特征矩阵进行特征提取。

可选的，所述方法还包括：

将所述曲目特征向量输入所述预先训练好的循环神经网络的全连接层和softmax层，输出所述音乐数据的各个类别。

可选的，所述预先训练好的循环神经网络为双向长短期记忆循环神经网络Bi-LSTM。

第二方面，本发明实施例提供了一种音乐特征提取装置，包括：

获取模块，用于获取音乐数据，所述音乐数据是由δ个音符矩阵组成的时序序列，每个所述音符矩阵的每一行分别表示一个音符，所述音符矩阵的每一列分别表示所述音符的播放状态；

特征提取模块，用于将所述音乐数据输入预先训练好的循环神经网络，得到所述音乐数据的特征，所述音乐数据的特征包括音节BEAT特征矩阵、小节BAR特征矩阵和曲目特征向量。

可选的，ε个音符矩阵组成一个BEAT，ζ个BEAT组成一个BAR，η个BAR组成一个音乐曲目，所述音乐数据由一个或者多个音乐曲目组成。

可选的，所述特征提取模块，包括：

位置信息获取子模块，用于在所述音乐数据输入所述预先训练好的循环神经网络时，确定当前输入所述预先训练好的循环神经网络的音符矩阵M_t在目标BAR中的位置信息，所述目标BAR为所述音符矩阵M_t所在的BAR；

转换子模块，用于将所述M_t在目标BAR中的位置信息转换为位置向量

其中，

γ表示一个BAR中含有的音符矩阵的数量；

输入子模块，用于将所述音符矩阵M_t、音符矩阵M_t之前的N个音符矩阵以及音符矩阵M_t之后的N个音符矩阵输入所述预先训练好的循环神经网络中卷积核为θ的一维卷积层，得到音符矩阵C_t∈R^а×3×θ，所述音乐矩阵C_t为与音符矩阵M_t上下文相关的音符矩阵，N为正整数；

第一处理子模块，用于将所述位置向量

第二处理子模块，用于将所输出的BEAT特征矩阵输入所述预先训练好的循环神经网络的第二层神经网络，得到BAR特征矩阵，其中，所述预先训练好的循环神经网络的第二层神经网络用于对所述BEAT特征矩阵进行特征提取，所述η个BAR特征矩阵组成一个音乐曲目；

第三处理子模块，用于将所述BAR特征矩阵输入所述预先训练好的循环神经网络的第三层网络，得到曲目特征向量，其中，所述预先训练好的循环神经网络的第三层网络用于对所述BAR特征矩阵进行特征提取。

可选的，所述装置还包括：

输入模块，用于将所述曲目特征向量输入所述预先训练好的循环神经网络的全连接层和softmax层，输出所述音乐数据的各个类别。

第三方面，本发明实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现第一方面所述的音乐特征提取方法。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行第一方面所述的音乐特征提取方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行第一方面所述的音乐特征提取方法。

本发明实施例提供的音乐特征提取方法，通过获取音乐数据，该音乐数据是由δ个音符矩阵组成的时序序列，并将音乐数据输入预先训练好的循环神经网络，得到音乐数据的特征，音乐数据的特征包括BEAT特征矩阵、BAR特征矩阵和曲目特征向量。这样，本发明实施例通过预先训练好的循环神经网络得到音乐数据的多个维度的特征，可以有效解决现有技术中存在的人工选取音乐特征效率低下的问题，且可以提高所提取的音乐特征的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的音乐特征提取方法流程图；

图2为本发明提供的又一实施例中音乐特征提取的示意图；

图3为本发明实施例提供的音乐特征提取装置示意图；

图4为本发明实施例提供的音乐特征提取设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

为了解决现有技术存在的人工提取音乐特征效率较低的问题，本发明实施例提供了一种音乐特征提取方法、装置及电子设备。

第一方面，首先对本发明实施例提供的一种音乐特征提取方法进行详细阐述。

如图1所示，该本发明实施例提供的一种音乐特征提取方法可以包括以下步骤：

步骤S110，获取音乐数据，其中，本发明实施例中提供的音乐数据是由δ个音符矩阵组成的时序序列，每个音符矩阵的每一行分别表示一个音符，音符矩阵的每一列分别表示音符的播放状态。

本发明实施例中的音乐数据可以为：MID格式的音乐数据，该音乐数据可以为音符时序序列。通过将音符时序序列中的每一个时刻音符组合转换为音符矩阵，可以得到由δ个音符矩阵组成的时序序列。

本发明实施例中，可以用M来表示音符矩阵，该音符矩阵M可以由a行3列的矩阵来表示，其中a表示音符的数量，M的第一列表示音符是否播放，可以用0和1来表示，例如用1表示该音符播放，0表示未播放；M的第二列表示音符是否被再次播放，例如用1表示该音符再次播放，0表示未再次播放，M的第三列表示音符的播放强度，该播放强度可以将MID音乐文件中的强度映射到0～β的区间内，其中β表示音符播放强度的最大值。可以理解的是，每个音符可以对应一个音符键，在音符键被按下时，对应的音符被播放，否则该音符未被播放。

示例性的，音符矩阵M可以表示为：M∈R^a×3，例如：

其中，x，y和z的值属于不大于β的正数。

本发明提供的实施例中，可以将ε个音符矩阵组成一个BEAT，ζ个BEAT组成一个BAR，η个BAR组成一个音乐曲目，音乐数据由多个音乐曲目组成。当然，BEAT、BEAT和音乐曲目都可以是矩阵。

举例而言，以4/4的乐曲为例，四个音符矩阵M组成一个BEAT，四个BEAT组成一个BAR，16个BAR组成一个乐曲曲目，这里的乐曲曲目可以是一个乐曲片段，可以将该乐曲曲目作为训练样本；按照上述规则对MID文件进行切割，一个训练样本即为一个矩阵，该矩阵∈R^а×3×δ，其中δ＝ε×ζ×η。

步骤S120，将音乐数据输入预先训练好的循环神经网络，得到音乐数据的特征，音乐数据的特征包括音节BEAT特征矩阵、小节BAR特征矩阵和曲目特征向量。

通过上述描述可知，本发明实施例是将音乐数据可以为包括多个音符矩阵组成的矩阵，即ε个音符矩阵组成一个BEAT，ζ个BEAT组成一个BAR，η个BAR组成一个音乐曲目，该音乐数据可以由一个或者多个音乐曲目组成。

因此，本发明实施例可以将该音乐数据输入到预先训练好的循环神经网络中，该预先训练好的循环神经网络可以为卷积神经网络(Convolutional Neural Network，简称CNN)，也可以为双向长短期记忆循环神经网络Bi-LSTM。利用预先训练好的循环神经网络来提取音乐数据的BEAT特征矩阵、BAR特征矩阵和曲目特征向量。

为了描述清楚以及方案完整，将在下面实施例对S120的具体实现方式进行详细描述。

本发明实施例提供的音乐特征提取方法，通过获取音乐数据，该音乐数据是由δ个音符矩阵组成的时序序列，并将音乐数据输入预先训练好的循环神经网络，得到音乐数据的特征，音乐数据的特征包括BEAT特征矩阵、BAR特征矩阵和曲目特征向量。这样本发明实施例通过预先训练好的循环神经网络得到音乐数据的多维度特征，可以有效解决现有技术中存在的人工选取音乐特征效率低下的问题，且可以提高所提取的音乐特征的准确率。

为了对将所述音乐数据输入预先训练好的循环神经网络，得到所述音乐数据的特征进行详细阐述，结合上述实施例，在本发明提供的又一实施例中，如图2所示，步骤S120可以包括如下步骤：

步骤S1，在音乐数据输入预先训练好的循环神经网络时，确定当前输入预先训练好的循环神经网络的音符矩阵M_t在目标BAR中的位置信息，目标BAR为音符矩阵M_t所在的BAR。

步骤S2，将M_t在目标BAR中的位置信息转换为位置向量

其中，

γ表示一个BAR中含有的音符矩阵的数量。

步骤S3，将音符矩阵M_t、音符矩阵M_t之前的N个音符矩阵以及音符矩阵M_t之后的N个音符矩阵输入预先训练好的循环神经网络中卷积核为θ的一维的卷积层，得到音符矩阵C_t∈R^а×3×θ。

步骤S4，将位置向量

分别与音符矩阵C_t进行拼接，并将拼接得到的矩阵输入预先训练好的循环神经网络的第一层神经网络，得到BEAT特征矩阵，其中，预先训练好的循环神经网络的第一层神经网络用于对音乐数据中的BEAT矩阵进行特征提取，ζ个BEAT特征矩阵组成一个BAR矩阵。

其中，ζ个BEAT特征矩阵组成一个BAR矩阵。

步骤S5，将所输出的BEAT特征矩阵输入预先训练好的循环神经网络的第二层神经网络，得到BAR特征矩阵，其中，所述预先训练好的循环神经网络的第二层神经网络用于对BAR矩阵进行特征提取。

其中，η个BAR特征矩音乐数据阵组成一个音乐曲目。

步骤S6，将BAR特征矩阵输入预先训练好的循环神经网络的第三层网络，得到曲目特征向量，其中，预先训练好的循环神经网络的第三层网络用于对BAR特征矩阵进行特征提取。

为了方案完整及描述清楚，下面将结合具体的实施例，以预先训练好的循环神经网络为双向长短期记忆循环神经网络Bi-LSTM为例，对本发明实施例提供的技术方案进行详细描述。

如图2所示，Bi-LSTM的输入为音符矩阵M组成的时序序列，在输入音符矩阵M_t的时候，第一步，确定音符矩阵M_t在其所在BAR的位置，生成位置向量

其中该位置的向量为一维向量，被置为1的位置即为音符矩阵M_t在所在BAR的位置，故

其中γ为一个BAR中含有的音符矩阵的个数。具体的，假设5个BEAT特征矩阵组成一个BAR特征矩阵，假设一个BEAT是该BAR特征矩阵的第二个BEAT，那么生成的位置向量

为[0 1 0 0 0]。

第二步，将音符矩阵M_t、音符矩阵M_t之前的N个音符矩阵以及音符矩阵M_t之后的N个音符矩阵输入到预先训练好的循环神经网络中卷积核为θ个的一维卷积层，获得与音符矩阵M_t上下文相关的音符矩阵C_t∈R^а×3×θ，其中，上下文相关的音符矩阵C_t为：融合音符矩阵M_t前后音符矩阵信息的关系矩阵。具体的，将M_t-N，M_t-N+1，…，M_t+N-1，M_t+N送到卷积核为θ个的一维的卷积层，即可以输出与音符矩阵M_t上下文相关的音符矩阵。

然后，将位置向量

分别与与C_t进行拼接，并将拼接得到的矩阵输入到Bi-LSTM的第一层神经网络，为了描述清楚将Bi-LSTM的第一层神经网络称为第一层Bi-LSTM网络，第一层Bi-LSTM网络用于提取音乐数据的BEAT特征，即第一层Bi-LSTM网络的输出为由BEAT向量1、BEAT向量2、…、BEAT向量m组成的BEAT特征矩阵。

需要说明的是，将位置向量

分别与与C_t的拼接过程可以为将位置向量

与C_t合并。举例而言，假设位置向量

为[0 0 0 1]，音符矩阵C_t为[1 2 3 4]以及[5 6 7 8]，位置向量

与音符矩阵C_t拼接后，得到的矩阵为：[1 2 3 4 0 0 0 1]以及[5 6 7 8 0 0 0 1]。

第三步，将BEAT特征矩阵输入到Bi-LSTM的第二层神经网络，为了描述清楚，可以将Bi-LSTM的第二层神经网络称为第二层Bi-LSTM网络，第二层Bi-LSTM网络用于提取音乐数据的BAR特征，即第二层Bi-LSTM网络的输出为有BAR向量1、BAR向量2、…、BAR向量n组成的BAR特征矩阵。

第四步，将BAR特征矩阵输入到Bi-LSTM的第三层神经网络，为了描述清楚，可以将Bi-LSTM的第三层神经网络称为第三层Bi-LSTM网络，第三层Bi-LSTM网络用于对整个乐曲特征进行更高维度的抽取，即第三层Bi-LSTM网络的输出为曲目向量。

第五步，将曲目向量输入到全连接层及Softmax层，输出该音乐数据的分类结果，可以理解的是，不同的曲目向量对应不同的分类结果，其中，分类结果可以为音乐类别的编号等。

这样通过本发明实施例提供的音乐特征提取方法可以自动高效的提取音乐曲目中的特征数据，并且可以对乐曲不同级别的特征进行提取，提取出的特征数据可以方便地对音乐曲目进行自动分类。

第二方面，本发明实施例还提供了一种音乐特征提取装置，如图3所示，该装置可以包括：

获取模块310，用于获取音乐数据，所述音乐数据是由δ个音符矩阵组成的时序序列，每个所述音符矩阵的每一行分别表示一个音符，所述音符矩阵的每一列分别表示所述音符的播放状态；

特征提取模块320，用于将所述音乐数据输入预先训练好的循环神经网络，得到所述音乐数据的特征，所述音乐数据的特征包括音节BEAT特征矩阵、小节BAR特征矩阵和曲目特征向量。

可选的，所述特征提取模块，包括：

其中，

γ表示一个BAR中含有的音符矩阵的数量；

输入子模块，用于将所述音符矩阵M_t、音符矩阵M_t之前的N个音符矩阵以及音符矩阵M_t之后的N个音符矩阵输入所述预先训练好的循环神经网络中卷积核为θ的一维卷积层，得到音符矩阵C_t∈R^а×3×θ，所述音乐矩阵C_t为与音符矩阵M_t上下文相关的音符矩阵；

第一处理子模块，用于将所述位置向量

可选的，所述装置还包括：

可选的，所述预先训练好的循环神经网络为双向长短期记忆预先训练好的循环神经网络Bi-LSTM。

第三方面，本发明实施例还提供了一种电子设备，如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信，

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的程序时，实现第一方面所述的音乐特征提取方法。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

第四方面，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机实现第一方面所述的音乐特征提取方法。

第五方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机实现第一方面所述的音乐特征提取方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、***、电子设备、存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种音乐特征提取方法，其特征在于，包括：

获取音乐数据，所述音乐数据是由δ个音符矩阵组成的时序序列，每个所述音符矩阵的每一行分别表示一个音符，所述音符矩阵的每一列分别表示所述音符的播放状态，δ为正整数；其中，ε个音符矩阵组成一个BEAT，ζ个BEAT组成一个BAR，η个BAR组成一个音乐曲目，所述音乐数据由一个或者多个音乐曲目组成，ε,ζ,η均为正整数；

将所述音乐数据输入预先训练好的循环神经网络，得到所述音乐数据的特征，所述音乐数据的特征包括音节BEAT特征矩阵、小节BAR特征矩阵和曲目特征向量；

所述将所述音乐数据输入预先训练好的循环神经网络，得到所述音乐数据的特征的步骤，包括：

将所述M_t在目标BAR中的位置信息转换为位置向量

其中，

γ表示一个BAR中含有的音符矩阵的数量；

将所述位置向量

分别与音符矩阵C_t进行拼接，并将拼接得到的矩阵输入所述预先训练好的循环神经网络的第一层神经网络，得到BEAT特征矩阵，其中，所述预先训练好的循环神经网络的第一层神经网络用于对所述音乐数据中的BEAT矩阵进行特征提取，ζ个BEAT特征矩阵组成一个BAR矩阵；

将所输出的BEAT特征矩阵输入所述预先训练好的循环神经网络的第二层神经网络，得到BAR特征矩阵，其中，所述预先训练好的循环神经网络的第二层神经网络用于对所述BEAT特征矩阵进行特征提取，η个BAR特征矩阵组成一个音乐曲目；

2.根据权利要求1所述的方法，其特征在于，所述音符矩阵M∈R^a×3，其中，M表示所述音符矩阵，a表示所述M的行数，所述M的第一列表示所述音符是否播放，所述M的第二列表示所述音符是否被再次播放，所述M的第三列表示所述音符的播放强度。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述预先训练好的循环神经网络为双向长短期记忆循环神经网络Bi-LSTM。

5.一种音乐特征提取装置，其特征在于，包括：

获取模块，用于获取音乐数据，所述音乐数据是由δ个音符矩阵组成的时序序列，每个所述音符矩阵的每一行分别表示一个音符，所述音符矩阵的每一列分别表示所述音符的播放状态；其中，ε个音符矩阵组成一个BEAT，ζ个BEAT组成一个BAR，η个BAR组成一个音乐曲目，所述音乐数据由一个或者多个音乐曲目组成；

特征提取模块，用于将所述音乐数据输入预先训练好的循环神经网络，得到所述音乐数据的特征，所述音乐数据的特征包括音节BEAT特征矩阵、小节BAR特征矩阵和曲目特征向量；

所述特征提取模块，包括：

其中，

γ表示一个BAR中含有的音符矩阵的数量；

第一处理子模块，用于将所述位置向量

第二处理子模块，用于将所输出的BEAT特征矩阵输入所述预先训练好的循环神经网络的第二层神经网络，得到BAR特征矩阵，其中，所述预先训练好的循环神经网络的第二层神经网络用于对所述BEAT特征矩阵进行特征提取，η个BAR特征矩阵组成一个音乐曲目；

6.根据权利要求5所述的装置，其特征在于，所述音符矩阵M∈R^a×3，其中，M表示所述音符矩阵，a表示所述M的行数，所述M的第一列表示所述音符是否播放，所述M的第二列表示所述音符是否被再次播放，所述M的第三列表示所述音符的播放强度。

7.根据权利要求5所述的装置，其特征在于，还包括：

8.根据权利要求5至7任一项所述的装置，其特征在于，所述预先训练好的循环神经网络为双向长短期记忆循环神经网络Bi-LSTM。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-4任一所述的方法步骤。