CN109285560B - 一种音乐特征提取方法、装置及电子设备 - Google Patents

一种音乐特征提取方法、装置及电子设备 Download PDF

Info

Publication number
CN109285560B
CN109285560B CN201811139448.6A CN201811139448A CN109285560B CN 109285560 B CN109285560 B CN 109285560B CN 201811139448 A CN201811139448 A CN 201811139448A CN 109285560 B CN109285560 B CN 109285560B
Authority
CN
China
Prior art keywords
note
matrix
neural network
recurrent neural
music
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811139448.6A
Other languages
English (en)
Other versions
CN109285560A (zh
Inventor
刘思阳
蒋紫东
冯巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201811139448.6A priority Critical patent/CN109285560B/zh
Publication of CN109285560A publication Critical patent/CN109285560A/zh
Application granted granted Critical
Publication of CN109285560B publication Critical patent/CN109285560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/036Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal of musical genre, i.e. analysing the style of musical pieces, usually for selection, filtering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Auxiliary Devices For Music (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种音乐特征提取方法及装置,该方法包括:获取音乐数据,所述音乐数据是由δ个音符矩阵组成的时序序列,每个所述音符矩阵的每一行分别表示一个音符,所述音符矩阵的每一列分别表示所述音符的播放状态,δ为正整数;将所述音乐数据输入预先训练好的循环神经网络,得到所述音乐数据的特征,所述音乐数据的特征包括音节BEAT特征矩阵、小节BAR特征矩阵和曲目特征向量。这样,本发明实施例通过预先训练好的循环神经网络来获得音乐数据的多个维度的音乐特征,可以有效解决现有技术存在的人工提取音乐特征效率较低的问题。

Description

一种音乐特征提取方法、装置及电子设备
技术领域
本发明涉及音乐特征提取领域,特别是涉及一种音乐特征提取方法、装置及电子设备。
背景技术
随着科技的不断发展,使用终端欣赏音乐的用户越来越多。用户可以通过终端欣赏各种类别的音乐,例如,流行音乐,古典音乐等。
为了满足用户的需求,越来越多的音乐可以供用户欣赏;且为了方便用户可以根据音乐的类别来选择其要欣赏的音乐,需要对音乐进行分类。传统的音乐分类方法通常为:人工提取音乐的音乐特征,并基于人工所提取的音乐特征对音乐进行分类。很显然,现有的这种人工提取音乐特征的方式效率较低。
发明内容
本发明实施例的目的在于提供一种音乐特征提取方法、装置及电子设备,以提高音乐特征提取的效率,具体技术方案如下:
第一方面,本发明实施例提供了一种音乐特征提取方法,所述方法包括:
获取音乐数据,所述音乐数据是由δ个音符矩阵组成的时序序列,每个所述音符矩阵的每一行分别表示一个音符,所述音符矩阵的每一列分别表示所述音符的播放状态,δ为正整数;
将所述音乐数据输入预先训练好的循环神经网络,得到所述音乐数据的特征,所述音乐数据的特征包括音节BEAT特征矩阵、小节BAR特征矩阵和曲目特征向量。
可选的,所述音符矩阵M∈Ra×3,其中,M表示所述音符矩阵,a表示所述M的行数,所述M的第一列表示所述音符是否播放,所述M的第二列表示所述音符是否被再次播放,所述M的第三列表示所述音符的播放强度。
可选的,ε个音符矩阵组成一个BEAT,ζ个BEAT组成一个BAR,η个BAR组成一个音乐曲目,所述音乐数据由一个或者多个音乐曲目组成,ε,ζ,η均为正整数。
可选的,所述将所述音乐数据输入预先训练好的循环神经网络,得到所述音乐数据的特征的步骤,包括:
在所述音乐数据输入所述预先训练好的循环神经网络时,确定当前输入所述预先训练好的循环神经网络的音符矩阵Mt在目标BAR中的位置信息,所述目标BAR为所述音符矩阵Mt所在的BAR;
将所述Mt在目标BAR中的位置信息转换为位置向量
Figure BDA0001815430350000021
其中,
Figure BDA0001815430350000022
γ表示一个BAR中含有的音符矩阵的数量;
将所述音符矩阵Mt、音符矩阵Mt之前的N个音符矩阵以及音符矩阵Mt之后的N个音符矩阵输入所述预先训练好的循环神经网络中卷积核为θ的一维卷积层,得到音符矩阵Ct∈Rа×3×θ,所述音乐矩阵Ct为与音符矩阵Mt上下文相关的音符矩阵,N为正整数;
将所述位置向量
Figure BDA0001815430350000023
分别与音符矩阵Ct进行拼接,并将拼接得到的矩阵输入所述预先训练好的循环神经网络的第一层神经网络,通过所述得到BEAT特征矩阵,其中,所述预先训练好的循环神经网络的第一层神经网络用于对所述音乐数据中的BEAT矩阵进行特征提取,ζ个BEAT特征矩阵组成一个BAR矩阵;
将所输出的BEAT特征矩阵输入所述预先训练好的循环神经网络的第二层神经网络,得到BAR特征矩阵,其中,所述预先训练好的循环神经网络的第二层神经网络用于对所述BEAT特征矩阵进行特征提取,所述η个BAR特征矩阵组成一个音乐曲目;
将所述BAR特征矩阵输入所述预先训练好的循环神经网络的第三层网络,得到曲目特征向量,其中,所述预先训练好的循环神经网络的第三层网络用于对所述BAR特征矩阵进行特征提取。
可选的,所述方法还包括:
将所述曲目特征向量输入所述预先训练好的循环神经网络的全连接层和softmax层,输出所述音乐数据的各个类别。
可选的,所述预先训练好的循环神经网络为双向长短期记忆循环神经网络Bi-LSTM。
第二方面,本发明实施例提供了一种音乐特征提取装置,包括:
获取模块,用于获取音乐数据,所述音乐数据是由δ个音符矩阵组成的时序序列,每个所述音符矩阵的每一行分别表示一个音符,所述音符矩阵的每一列分别表示所述音符的播放状态;
特征提取模块,用于将所述音乐数据输入预先训练好的循环神经网络,得到所述音乐数据的特征,所述音乐数据的特征包括音节BEAT特征矩阵、小节BAR特征矩阵和曲目特征向量。
可选的,所述音符矩阵M∈Ra×3,其中,M表示所述音符矩阵,a表示所述M的行数,所述M的第一列表示所述音符是否播放,所述M的第二列表示所述音符是否被再次播放,所述M的第三列表示所述音符的播放强度。
可选的,ε个音符矩阵组成一个BEAT,ζ个BEAT组成一个BAR,η个BAR组成一个音乐曲目,所述音乐数据由一个或者多个音乐曲目组成。
可选的,所述特征提取模块,包括:
位置信息获取子模块,用于在所述音乐数据输入所述预先训练好的循环神经网络时,确定当前输入所述预先训练好的循环神经网络的音符矩阵Mt在目标BAR中的位置信息,所述目标BAR为所述音符矩阵Mt所在的BAR;
转换子模块,用于将所述Mt在目标BAR中的位置信息转换为位置向量
Figure BDA0001815430350000031
其中,
Figure BDA0001815430350000032
γ表示一个BAR中含有的音符矩阵的数量;
输入子模块,用于将所述音符矩阵Mt、音符矩阵Mt之前的N个音符矩阵以及音符矩阵Mt之后的N个音符矩阵输入所述预先训练好的循环神经网络中卷积核为θ的一维卷积层,得到音符矩阵Ct∈Rа×3×θ,所述音乐矩阵Ct为与音符矩阵Mt上下文相关的音符矩阵,N为正整数;
第一处理子模块,用于将所述位置向量
Figure BDA0001815430350000033
分别与音符矩阵Ct进行拼接,并将拼接得到的矩阵输入所述预先训练好的循环神经网络的第一层神经网络,通过所述得到BEAT特征矩阵,其中,所述预先训练好的循环神经网络的第一层神经网络用于对所述音乐数据中的BEAT矩阵进行特征提取,ζ个BEAT特征矩阵组成一个BAR矩阵;
第二处理子模块,用于将所输出的BEAT特征矩阵输入所述预先训练好的循环神经网络的第二层神经网络,得到BAR特征矩阵,其中,所述预先训练好的循环神经网络的第二层神经网络用于对所述BEAT特征矩阵进行特征提取,所述η个BAR特征矩阵组成一个音乐曲目;
第三处理子模块,用于将所述BAR特征矩阵输入所述预先训练好的循环神经网络的第三层网络,得到曲目特征向量,其中,所述预先训练好的循环神经网络的第三层网络用于对所述BAR特征矩阵进行特征提取。
可选的,所述装置还包括:
输入模块,用于将所述曲目特征向量输入所述预先训练好的循环神经网络的全连接层和softmax层,输出所述音乐数据的各个类别。
可选的,所述预先训练好的循环神经网络为双向长短期记忆循环神经网络Bi-LSTM。
第三方面,本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现第一方面所述的音乐特征提取方法。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行第一方面所述的音乐特征提取方法。
在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行第一方面所述的音乐特征提取方法。
本发明实施例提供的音乐特征提取方法,通过获取音乐数据,该音乐数据是由δ个音符矩阵组成的时序序列,并将音乐数据输入预先训练好的循环神经网络,得到音乐数据的特征,音乐数据的特征包括BEAT特征矩阵、BAR特征矩阵和曲目特征向量。这样,本发明实施例通过预先训练好的循环神经网络得到音乐数据的多个维度的特征,可以有效解决现有技术中存在的人工选取音乐特征效率低下的问题,且可以提高所提取的音乐特征的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的音乐特征提取方法流程图;
图2为本发明提供的又一实施例中音乐特征提取的示意图;
图3为本发明实施例提供的音乐特征提取装置示意图;
图4为本发明实施例提供的音乐特征提取设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了解决现有技术存在的人工提取音乐特征效率较低的问题,本发明实施例提供了一种音乐特征提取方法、装置及电子设备。
第一方面,首先对本发明实施例提供的一种音乐特征提取方法进行详细阐述。
如图1所示,该本发明实施例提供的一种音乐特征提取方法可以包括以下步骤:
步骤S110,获取音乐数据,其中,本发明实施例中提供的音乐数据是由δ个音符矩阵组成的时序序列,每个音符矩阵的每一行分别表示一个音符,音符矩阵的每一列分别表示音符的播放状态。
本发明实施例中的音乐数据可以为:MID格式的音乐数据,该音乐数据可以为音符时序序列。通过将音符时序序列中的每一个时刻音符组合转换为音符矩阵,可以得到由δ个音符矩阵组成的时序序列。
本发明实施例中,可以用M来表示音符矩阵,该音符矩阵M可以由a行3列的矩阵来表示,其中a表示音符的数量,M的第一列表示音符是否播放,可以用0和1来表示,例如用1表示该音符播放,0表示未播放;M的第二列表示音符是否被再次播放,例如用1表示该音符再次播放,0表示未再次播放,M的第三列表示音符的播放强度,该播放强度可以将MID音乐文件中的强度映射到0~β的区间内,其中β表示音符播放强度的最大值。可以理解的是,每个音符可以对应一个音符键,在音符键被按下时,对应的音符被播放,否则该音符未被播放。
示例性的,音符矩阵M可以表示为:M∈Ra×3,例如:
Figure BDA0001815430350000061
其中,x,y和z的值属于不大于β的正数。
本发明提供的实施例中,可以将ε个音符矩阵组成一个BEAT,ζ个BEAT组成一个BAR,η个BAR组成一个音乐曲目,音乐数据由多个音乐曲目组成。当然,BEAT、BEAT和音乐曲目都可以是矩阵。
举例而言,以4/4的乐曲为例,四个音符矩阵M组成一个BEAT,四个BEAT组成一个BAR,16个BAR组成一个乐曲曲目,这里的乐曲曲目可以是一个乐曲片段,可以将该乐曲曲目作为训练样本;按照上述规则对MID文件进行切割,一个训练样本即为一个矩阵,该矩阵∈Rа×3×δ,其中δ=ε×ζ×η。
步骤S120,将音乐数据输入预先训练好的循环神经网络,得到音乐数据的特征,音乐数据的特征包括音节BEAT特征矩阵、小节BAR特征矩阵和曲目特征向量。
通过上述描述可知,本发明实施例是将音乐数据可以为包括多个音符矩阵组成的矩阵,即ε个音符矩阵组成一个BEAT,ζ个BEAT组成一个BAR,η个BAR组成一个音乐曲目,该音乐数据可以由一个或者多个音乐曲目组成。
因此,本发明实施例可以将该音乐数据输入到预先训练好的循环神经网络中,该预先训练好的循环神经网络可以为卷积神经网络(Convolutional Neural Network,简称CNN),也可以为双向长短期记忆循环神经网络Bi-LSTM。利用预先训练好的循环神经网络来提取音乐数据的BEAT特征矩阵、BAR特征矩阵和曲目特征向量。
为了描述清楚以及方案完整,将在下面实施例对S120的具体实现方式进行详细描述。
本发明实施例提供的音乐特征提取方法,通过获取音乐数据,该音乐数据是由δ个音符矩阵组成的时序序列,并将音乐数据输入预先训练好的循环神经网络,得到音乐数据的特征,音乐数据的特征包括BEAT特征矩阵、BAR特征矩阵和曲目特征向量。这样本发明实施例通过预先训练好的循环神经网络得到音乐数据的多维度特征,可以有效解决现有技术中存在的人工选取音乐特征效率低下的问题,且可以提高所提取的音乐特征的准确率。
为了对将所述音乐数据输入预先训练好的循环神经网络,得到所述音乐数据的特征进行详细阐述,结合上述实施例,在本发明提供的又一实施例中,如图2所示,步骤S120可以包括如下步骤:
步骤S1,在音乐数据输入预先训练好的循环神经网络时,确定当前输入预先训练好的循环神经网络的音符矩阵Mt在目标BAR中的位置信息,目标BAR为音符矩阵Mt所在的BAR。
步骤S2,将Mt在目标BAR中的位置信息转换为位置向量
Figure BDA0001815430350000071
其中,
Figure BDA0001815430350000072
γ表示一个BAR中含有的音符矩阵的数量。
步骤S3,将音符矩阵Mt、音符矩阵Mt之前的N个音符矩阵以及音符矩阵Mt之后的N个音符矩阵输入预先训练好的循环神经网络中卷积核为θ的一维的卷积层,得到音符矩阵Ct∈Rа×3×θ
步骤S4,将位置向量
Figure BDA0001815430350000073
分别与音符矩阵Ct进行拼接,并将拼接得到的矩阵输入预先训练好的循环神经网络的第一层神经网络,得到BEAT特征矩阵,其中,预先训练好的循环神经网络的第一层神经网络用于对音乐数据中的BEAT矩阵进行特征提取,ζ个BEAT特征矩阵组成一个BAR矩阵。
其中,ζ个BEAT特征矩阵组成一个BAR矩阵。
步骤S5,将所输出的BEAT特征矩阵输入预先训练好的循环神经网络的第二层神经网络,得到BAR特征矩阵,其中,所述预先训练好的循环神经网络的第二层神经网络用于对BAR矩阵进行特征提取。
其中,η个BAR特征矩音乐数据阵组成一个音乐曲目。
步骤S6,将BAR特征矩阵输入预先训练好的循环神经网络的第三层网络,得到曲目特征向量,其中,预先训练好的循环神经网络的第三层网络用于对BAR特征矩阵进行特征提取。
为了方案完整及描述清楚,下面将结合具体的实施例,以预先训练好的循环神经网络为双向长短期记忆循环神经网络Bi-LSTM为例,对本发明实施例提供的技术方案进行详细描述。
如图2所示,Bi-LSTM的输入为音符矩阵M组成的时序序列,在输入音符矩阵Mt的时候,第一步,确定音符矩阵Mt在其所在BAR的位置,生成位置向量
Figure BDA0001815430350000081
其中该位置的向量为一维向量,被置为1的位置即为音符矩阵Mt在所在BAR的位置,故
Figure BDA0001815430350000082
其中γ为一个BAR中含有的音符矩阵的个数。具体的,假设5个BEAT特征矩阵组成一个BAR特征矩阵,假设一个BEAT是该BAR特征矩阵的第二个BEAT,那么生成的位置向量
Figure BDA0001815430350000083
为[0 1 0 0 0]。
第二步,将音符矩阵Mt、音符矩阵Mt之前的N个音符矩阵以及音符矩阵Mt之后的N个音符矩阵输入到预先训练好的循环神经网络中卷积核为θ个的一维卷积层,获得与音符矩阵Mt上下文相关的音符矩阵Ct∈Rа×3×θ,其中,上下文相关的音符矩阵Ct为:融合音符矩阵Mt前后音符矩阵信息的关系矩阵。具体的,将Mt-N,Mt-N+1,…,Mt+N-1,Mt+N送到卷积核为θ个的一维的卷积层,即可以输出与音符矩阵Mt上下文相关的音符矩阵。
然后,将位置向量
Figure BDA0001815430350000084
分别与与Ct进行拼接,并将拼接得到的矩阵输入到Bi-LSTM的第一层神经网络,为了描述清楚将Bi-LSTM的第一层神经网络称为第一层Bi-LSTM网络,第一层Bi-LSTM网络用于提取音乐数据的BEAT特征,即第一层Bi-LSTM网络的输出为由BEAT向量1、BEAT向量2、…、BEAT向量m组成的BEAT特征矩阵。
需要说明的是,将位置向量
Figure BDA0001815430350000085
分别与与Ct的拼接过程可以为将位置向量
Figure BDA0001815430350000086
与Ct合并。举例而言,假设位置向量
Figure BDA0001815430350000087
为[0 0 0 1],音符矩阵Ct为[1 2 3 4]以及[5 6 7 8],位置向量
Figure BDA0001815430350000088
与音符矩阵Ct拼接后,得到的矩阵为:[1 2 3 4 0 0 0 1]以及[5 6 7 8 0 0 0 1]。
第三步,将BEAT特征矩阵输入到Bi-LSTM的第二层神经网络,为了描述清楚,可以将Bi-LSTM的第二层神经网络称为第二层Bi-LSTM网络,第二层Bi-LSTM网络用于提取音乐数据的BAR特征,即第二层Bi-LSTM网络的输出为有BAR向量1、BAR向量2、…、BAR向量n组成的BAR特征矩阵。
第四步,将BAR特征矩阵输入到Bi-LSTM的第三层神经网络,为了描述清楚,可以将Bi-LSTM的第三层神经网络称为第三层Bi-LSTM网络,第三层Bi-LSTM网络用于对整个乐曲特征进行更高维度的抽取,即第三层Bi-LSTM网络的输出为曲目向量。
第五步,将曲目向量输入到全连接层及Softmax层,输出该音乐数据的分类结果,可以理解的是,不同的曲目向量对应不同的分类结果,其中,分类结果可以为音乐类别的编号等。
这样通过本发明实施例提供的音乐特征提取方法可以自动高效的提取音乐曲目中的特征数据,并且可以对乐曲不同级别的特征进行提取,提取出的特征数据可以方便地对音乐曲目进行自动分类。
第二方面,本发明实施例还提供了一种音乐特征提取装置,如图3所示,该装置可以包括:
获取模块310,用于获取音乐数据,所述音乐数据是由δ个音符矩阵组成的时序序列,每个所述音符矩阵的每一行分别表示一个音符,所述音符矩阵的每一列分别表示所述音符的播放状态;
特征提取模块320,用于将所述音乐数据输入预先训练好的循环神经网络,得到所述音乐数据的特征,所述音乐数据的特征包括音节BEAT特征矩阵、小节BAR特征矩阵和曲目特征向量。
本发明实施例提供的音乐特征提取方法,通过获取音乐数据,该音乐数据是由δ个音符矩阵组成的时序序列,并将音乐数据输入预先训练好的循环神经网络,得到音乐数据的特征,音乐数据的特征包括BEAT特征矩阵、BAR特征矩阵和曲目特征向量。这样本发明实施例通过预先训练好的循环神经网络得到音乐数据的多维度特征,可以有效解决现有技术中存在的人工选取音乐特征效率低下的问题,且可以提高所提取的音乐特征的准确率。
可选的,所述音符矩阵M∈Ra×3,其中,M表示所述音符矩阵,a表示所述M的行数,所述M的第一列表示所述音符是否播放,所述M的第二列表示所述音符是否被再次播放,所述M的第三列表示所述音符的播放强度。
可选的,ε个音符矩阵组成一个BEAT,ζ个BEAT组成一个BAR,η个BAR组成一个音乐曲目,所述音乐数据由一个或者多个音乐曲目组成。
可选的,所述特征提取模块,包括:
位置信息获取子模块,用于在所述音乐数据输入所述预先训练好的循环神经网络时,确定当前输入所述预先训练好的循环神经网络的音符矩阵Mt在目标BAR中的位置信息,所述目标BAR为所述音符矩阵Mt所在的BAR;
转换子模块,用于将所述Mt在目标BAR中的位置信息转换为位置向量
Figure BDA0001815430350000101
其中,
Figure BDA0001815430350000102
γ表示一个BAR中含有的音符矩阵的数量;
输入子模块,用于将所述音符矩阵Mt、音符矩阵Mt之前的N个音符矩阵以及音符矩阵Mt之后的N个音符矩阵输入所述预先训练好的循环神经网络中卷积核为θ的一维卷积层,得到音符矩阵Ct∈Rа×3×θ,所述音乐矩阵Ct为与音符矩阵Mt上下文相关的音符矩阵;
第一处理子模块,用于将所述位置向量
Figure BDA0001815430350000103
分别与音符矩阵Ct进行拼接,并将拼接得到的矩阵输入所述预先训练好的循环神经网络的第一层神经网络,通过所述得到BEAT特征矩阵,其中,所述预先训练好的循环神经网络的第一层神经网络用于对所述音乐数据中的BEAT矩阵进行特征提取,ζ个BEAT特征矩阵组成一个BAR矩阵;
第二处理子模块,用于将所输出的BEAT特征矩阵输入所述预先训练好的循环神经网络的第二层神经网络,得到BAR特征矩阵,其中,所述预先训练好的循环神经网络的第二层神经网络用于对所述BEAT特征矩阵进行特征提取,所述η个BAR特征矩阵组成一个音乐曲目;
第三处理子模块,用于将所述BAR特征矩阵输入所述预先训练好的循环神经网络的第三层网络,得到曲目特征向量,其中,所述预先训练好的循环神经网络的第三层网络用于对所述BAR特征矩阵进行特征提取。
可选的,所述装置还包括:
输入模块,用于将所述曲目特征向量输入所述预先训练好的循环神经网络的全连接层和softmax层,输出所述音乐数据的各个类别。
可选的,所述预先训练好的循环神经网络为双向长短期记忆预先训练好的循环神经网络Bi-LSTM。
第三方面,本发明实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现第一方面所述的音乐特征提取方法。
本发明实施例提供的音乐特征提取方法,通过获取音乐数据,该音乐数据是由δ个音符矩阵组成的时序序列,并将音乐数据输入预先训练好的循环神经网络,得到音乐数据的特征,音乐数据的特征包括BEAT特征矩阵、BAR特征矩阵和曲目特征向量。这样本发明实施例通过预先训练好的循环神经网络得到音乐数据的多维度特征,可以有效解决现有技术中存在的人工选取音乐特征效率低下的问题,且可以提高所提取的音乐特征的准确率。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
第四方面,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机实现第一方面所述的音乐特征提取方法。
本发明实施例提供的音乐特征提取方法,通过获取音乐数据,该音乐数据是由δ个音符矩阵组成的时序序列,并将音乐数据输入预先训练好的循环神经网络,得到音乐数据的特征,音乐数据的特征包括BEAT特征矩阵、BAR特征矩阵和曲目特征向量。这样本发明实施例通过预先训练好的循环神经网络得到音乐数据的多维度特征,可以有效解决现有技术中存在的人工选取音乐特征效率低下的问题,且可以提高所提取的音乐特征的准确率。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机实现第一方面所述的音乐特征提取方法。
本发明实施例提供的音乐特征提取方法,通过获取音乐数据,该音乐数据是由δ个音符矩阵组成的时序序列,并将音乐数据输入预先训练好的循环神经网络,得到音乐数据的特征,音乐数据的特征包括BEAT特征矩阵、BAR特征矩阵和曲目特征向量。这样本发明实施例通过预先训练好的循环神经网络得到音乐数据的多维度特征,可以有效解决现有技术中存在的人工选取音乐特征效率低下的问题,且可以提高所提取的音乐特征的准确率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、***、电子设备、存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (9)

1.一种音乐特征提取方法,其特征在于,包括:
获取音乐数据,所述音乐数据是由δ个音符矩阵组成的时序序列,每个所述音符矩阵的每一行分别表示一个音符,所述音符矩阵的每一列分别表示所述音符的播放状态,δ为正整数;其中,ε个音符矩阵组成一个BEAT,ζ个BEAT组成一个BAR,η个BAR组成一个音乐曲目,所述音乐数据由一个或者多个音乐曲目组成,ε,ζ,η均为正整数;
将所述音乐数据输入预先训练好的循环神经网络,得到所述音乐数据的特征,所述音乐数据的特征包括音节BEAT特征矩阵、小节BAR特征矩阵和曲目特征向量;
所述将所述音乐数据输入预先训练好的循环神经网络,得到所述音乐数据的特征的步骤,包括:
在所述音乐数据输入所述预先训练好的循环神经网络时,确定当前输入所述预先训练好的循环神经网络的音符矩阵Mt在目标BAR中的位置信息,所述目标BAR为所述音符矩阵Mt所在的BAR;
将所述Mt在目标BAR中的位置信息转换为位置向量
Figure FDA0003170342270000011
其中,
Figure FDA0003170342270000012
γ表示一个BAR中含有的音符矩阵的数量;
将所述音符矩阵Mt、音符矩阵Mt之前的N个音符矩阵以及音符矩阵Mt之后的N个音符矩阵输入所述预先训练好的循环神经网络中卷积核为θ的一维卷积层,得到音符矩阵Ct∈Rа×3×θ,所述音乐矩阵Ct为与音符矩阵Mt上下文相关的音符矩阵,N为正整数;
将所述位置向量
Figure FDA0003170342270000013
分别与音符矩阵Ct进行拼接,并将拼接得到的矩阵输入所述预先训练好的循环神经网络的第一层神经网络,得到BEAT特征矩阵,其中,所述预先训练好的循环神经网络的第一层神经网络用于对所述音乐数据中的BEAT矩阵进行特征提取,ζ个BEAT特征矩阵组成一个BAR矩阵;
将所输出的BEAT特征矩阵输入所述预先训练好的循环神经网络的第二层神经网络,得到BAR特征矩阵,其中,所述预先训练好的循环神经网络的第二层神经网络用于对所述BEAT特征矩阵进行特征提取,η个BAR特征矩阵组成一个音乐曲目;
将所述BAR特征矩阵输入所述预先训练好的循环神经网络的第三层网络,得到曲目特征向量,其中,所述预先训练好的循环神经网络的第三层网络用于对所述BAR特征矩阵进行特征提取。
2.根据权利要求1所述的方法,其特征在于,所述音符矩阵M∈Ra×3,其中,M表示所述音符矩阵,a表示所述M的行数,所述M的第一列表示所述音符是否播放,所述M的第二列表示所述音符是否被再次播放,所述M的第三列表示所述音符的播放强度。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述曲目特征向量输入所述预先训练好的循环神经网络的全连接层和softmax层,输出所述音乐数据的各个类别。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述预先训练好的循环神经网络为双向长短期记忆循环神经网络Bi-LSTM。
5.一种音乐特征提取装置,其特征在于,包括:
获取模块,用于获取音乐数据,所述音乐数据是由δ个音符矩阵组成的时序序列,每个所述音符矩阵的每一行分别表示一个音符,所述音符矩阵的每一列分别表示所述音符的播放状态;其中,ε个音符矩阵组成一个BEAT,ζ个BEAT组成一个BAR,η个BAR组成一个音乐曲目,所述音乐数据由一个或者多个音乐曲目组成;
特征提取模块,用于将所述音乐数据输入预先训练好的循环神经网络,得到所述音乐数据的特征,所述音乐数据的特征包括音节BEAT特征矩阵、小节BAR特征矩阵和曲目特征向量;
所述特征提取模块,包括:
位置信息获取子模块,用于在所述音乐数据输入所述预先训练好的循环神经网络时,确定当前输入所述预先训练好的循环神经网络的音符矩阵Mt在目标BAR中的位置信息,所述目标BAR为所述音符矩阵Mt所在的BAR;
转换子模块,用于将所述Mt在目标BAR中的位置信息转换为位置向量
Figure FDA0003170342270000021
其中,
Figure FDA0003170342270000022
γ表示一个BAR中含有的音符矩阵的数量;
输入子模块,用于将所述音符矩阵Mt、音符矩阵Mt之前的N个音符矩阵以及音符矩阵Mt之后的N个音符矩阵输入所述预先训练好的循环神经网络中卷积核为θ的一维卷积层,得到音符矩阵Ct∈Rа×3×θ,所述音乐矩阵Ct为与音符矩阵Mt上下文相关的音符矩阵,N为正整数;
第一处理子模块,用于将所述位置向量
Figure FDA0003170342270000031
分别与音符矩阵Ct进行拼接,并将拼接得到的矩阵输入所述预先训练好的循环神经网络的第一层神经网络,得到BEAT特征矩阵,其中,所述预先训练好的循环神经网络的第一层神经网络用于对所述音乐数据中的BEAT矩阵进行特征提取,ζ个BEAT特征矩阵组成一个BAR矩阵;
第二处理子模块,用于将所输出的BEAT特征矩阵输入所述预先训练好的循环神经网络的第二层神经网络,得到BAR特征矩阵,其中,所述预先训练好的循环神经网络的第二层神经网络用于对所述BEAT特征矩阵进行特征提取,η个BAR特征矩阵组成一个音乐曲目;
第三处理子模块,用于将所述BAR特征矩阵输入所述预先训练好的循环神经网络的第三层网络,得到曲目特征向量,其中,所述预先训练好的循环神经网络的第三层网络用于对所述BAR特征矩阵进行特征提取。
6.根据权利要求5所述的装置,其特征在于,所述音符矩阵M∈Ra×3,其中,M表示所述音符矩阵,a表示所述M的行数,所述M的第一列表示所述音符是否播放,所述M的第二列表示所述音符是否被再次播放,所述M的第三列表示所述音符的播放强度。
7.根据权利要求5所述的装置,其特征在于,还包括:
输入模块,用于将所述曲目特征向量输入所述预先训练好的循环神经网络的全连接层和softmax层,输出所述音乐数据的各个类别。
8.根据权利要求5至7任一项所述的装置,其特征在于,所述预先训练好的循环神经网络为双向长短期记忆循环神经网络Bi-LSTM。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-4任一所述的方法步骤。
CN201811139448.6A 2018-09-28 2018-09-28 一种音乐特征提取方法、装置及电子设备 Active CN109285560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811139448.6A CN109285560B (zh) 2018-09-28 2018-09-28 一种音乐特征提取方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811139448.6A CN109285560B (zh) 2018-09-28 2018-09-28 一种音乐特征提取方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN109285560A CN109285560A (zh) 2019-01-29
CN109285560B true CN109285560B (zh) 2021-09-03

Family

ID=65182408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811139448.6A Active CN109285560B (zh) 2018-09-28 2018-09-28 一种音乐特征提取方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN109285560B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136729B (zh) * 2019-03-27 2021-08-20 北京奇艺世纪科技有限公司 模型生成方法、音频处理方法、装置及计算机可读存储介质
CN110264984B (zh) * 2019-05-13 2021-07-06 北京奇艺世纪科技有限公司 模型训练方法、音乐生成方法、装置和电子设备
CN112885315B (zh) * 2020-12-24 2024-01-02 携程旅游信息技术(上海)有限公司 模型的生成方法、音乐合成的方法、***、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186527A (zh) * 2011-12-27 2013-07-03 北京百度网讯科技有限公司 建立音乐分类模型的***、推荐音乐的***及相应方法
CN107045867A (zh) * 2017-03-22 2017-08-15 科大讯飞股份有限公司 自动作曲方法、装置和终端设备
CN107123415A (zh) * 2017-05-04 2017-09-01 吴振国 一种自动编曲方法及***
CN107146631A (zh) * 2016-02-29 2017-09-08 北京搜狗科技发展有限公司 音乐识别方法、音符识别模型建立方法、装置及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9214143B2 (en) * 2012-03-06 2015-12-15 Apple Inc. Association of a note event characteristic
US9183849B2 (en) * 2012-12-21 2015-11-10 The Nielsen Company (Us), Llc Audio matching with semantic audio recognition and report generation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186527A (zh) * 2011-12-27 2013-07-03 北京百度网讯科技有限公司 建立音乐分类模型的***、推荐音乐的***及相应方法
CN107146631A (zh) * 2016-02-29 2017-09-08 北京搜狗科技发展有限公司 音乐识别方法、音符识别模型建立方法、装置及电子设备
CN107045867A (zh) * 2017-03-22 2017-08-15 科大讯飞股份有限公司 自动作曲方法、装置和终端设备
CN107123415A (zh) * 2017-05-04 2017-09-01 吴振国 一种自动编曲方法及***

Also Published As

Publication number Publication date
CN109285560A (zh) 2019-01-29

Similar Documents

Publication Publication Date Title
CN109446430B (zh) 产品推荐的方法、装置、计算机设备及可读存储介质
CN109285560B (zh) 一种音乐特征提取方法、装置及电子设备
CN110362723B (zh) 一种题目特征表示方法、装置及存储介质
WO2022095376A1 (zh) 方面级别情感分类方法、装置、设备及可读存储介质
CN110110139B (zh) 一种对推荐结果进行解释的方法、装置及电子设备
USRE47830E1 (en) Computing device and method using associative pattern memory using recognition codes for input patterns
CN106203487A (zh) 一种基于多核学习分类器融合的图像分类方法及装置
CN110705585A (zh) 网络欺诈识别方法、装置、计算机装置及存储介质
CN107247753B (zh) 一种相似用户选取方法及装置
WO2021159744A1 (zh) 药物分类方法、装置、终端设备以及存储介质
CN113761359B (zh) 数据包推荐方法、装置、电子设备和存储介质
WO2023087914A1 (zh) 推荐内容的选择方法、装置、设备、存储介质及程序产品
CN113591881A (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
EP2854134A1 (en) A method and a system for determining a product vector for performing Dynamic Time Warping
CN117349402A (zh) 一种基于机器阅读理解的情绪原因对识别方法及***
CN112633340A (zh) 目标检测模型训练、检测方法、设备及存储介质
CN102236652B (zh) 一种信息的分类方法和装置
CN107220651B (zh) 一种提取图像特征的方法及装置
CN115238092A (zh) 一种实体关系抽取方法、装置、设备及存储介质
CN114218377A (zh) 书籍推荐方法、电子设备及存储介质
CN108319682A (zh) 分类器修正和分类语料库构建的方法、装置、设备及介质
CN107480289B (zh) 用户属性获取方法及装置
CN110738233B (zh) 模型训练、数据分类方法、装置、电子设备及存储介质
CN111539490B (zh) 一种业务模型训练方法和装置
CN110502698B (zh) 一种信息推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant