CN112885315A - 模型的生成方法、音乐合成的方法、***、设备及介质 - Google Patents

模型的生成方法、音乐合成的方法、***、设备及介质 Download PDF

Info

Publication number
CN112885315A
CN112885315A CN202011552361.9A CN202011552361A CN112885315A CN 112885315 A CN112885315 A CN 112885315A CN 202011552361 A CN202011552361 A CN 202011552361A CN 112885315 A CN112885315 A CN 112885315A
Authority
CN
China
Prior art keywords
note
matrix
neural network
model
recurrent neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011552361.9A
Other languages
English (en)
Other versions
CN112885315B (zh
Inventor
周明康
罗超
邹宇
胡泓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Travel Information Technology Shanghai Co Ltd
Original Assignee
Ctrip Travel Information Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Travel Information Technology Shanghai Co Ltd filed Critical Ctrip Travel Information Technology Shanghai Co Ltd
Priority to CN202011552361.9A priority Critical patent/CN112885315B/zh
Publication of CN112885315A publication Critical patent/CN112885315A/zh
Application granted granted Critical
Publication of CN112885315B publication Critical patent/CN112885315B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/32Constructional details

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种模型的生成方法、音乐合成的方法、***、设备及介质,其中,模型的生成方法,包括:将音乐片段拆分成为时序上连续的多个音符;对音乐片段进行处理,以获取每个音符对应的基频矩阵以及音符密度矩阵;将基频矩阵和音符密度矩阵拼接生成第一拼接矩阵;将第一拼接矩阵输入包含多个循环神经网络层和多个线性层的模型中进行训练,以生成音符预测模型。本发明提供的模型的生成方法基于基频矩阵以及音符密度矩阵作为特征数据,输入包括循环神经网络层和线性层构建的模型中进行训练,该模型结构简单、训练难度小,提高了模型的训练速度,减少了训练时间。

Description

模型的生成方法、音乐合成的方法、***、设备及介质
技术领域
本发明涉及计算机音乐合成领域,具体涉及一种模型的生成方法、音乐合成的方法、***、设备及介质。
背景技术
随着深度学习的不断发展,其在图像、文本、语言各个方面具有广泛的应用。近几年,直播行业的快速兴起,各行各业都在进行直播“带货”,互联网公司也在大力发展直播行业。互联网公司进行酒店介绍时需要配合背景音乐,但是现有的背景音乐都是通过音乐艺术家进行音乐创造而生成的。艺术家数量有限,每年创作的作品较少,无法满足市场需求,并且需要购买版权,成本较高。
因此,利用人工智能生成音乐受到广泛的关注。在人工智能领域,通常采用生成模型合成音乐,现有的模型结构复杂、训练难度大,且合成的音符不流畅、音乐片段效果差。
发明内容
本发明要解决的技术问题是为了克服现有技术中利用生成模型合成音乐时,模型结构复杂、训练难度大,且合成的音符不流畅、音乐片段效果差的缺陷,提供一种模型的生成方法、音乐合成的方法、***、设备及介质。
本发明是通过下述技术方案来解决上述技术问题:
第一方面,本发明提供一种模型的生成方法,所述方法包括:
将音乐片段拆分成为时序上连续的多个音符;
对所述音乐片段进行处理,以获取每个音符对应的基频矩阵以及音符密度矩阵;其中,所述音符密度矩阵用于表征所对应的所述音符的触发和截至的时间;
将所述基频矩阵和所述音符密度矩阵拼接生成第一拼接矩阵;
将所述第一拼接矩阵输入包含多个循环神经网络层和多个线性层的模型中进行训练,以生成音符预测模型;其中,所述线性层用于提取所述音符对应的音乐特征,所述循环神经网络层用于确定相邻音符之间的关联性,所述音符预测模型用于音符识别。
较佳地,所述包含多个循环神经网络层和多个线性层的模型包括依次连接的第一线性层、第二线性层、第一循环神经网络层、第二循环神经网络层、第三线性层以及分类层;
所述第一线性层的输入包括所述第一拼接矩阵;
所述第二线性层的输入包括所述第一线性层的输出,所述第二线性层将所述第一线性层的输出利用激活函数,生成所述第一拼接矩阵对应的所述音乐特征;
所述第一循环神经网络层的输入包括所述音乐特征;
所述第二循环神经网络层的输入包括所述第一循环神经网络层的输出,所述第二循环神经网络层的输出包括相邻音符之间的关联信息;
所述第三线性层的输入包括所述关联信息;
所述分类层的输入包括所述第二循环神经网络层的输出,所述分类层的输出包括所述第一拼接矩阵对应的音符识别结果。
较佳地,所述包含多个循环神经网络层和多个线性层的模型使用的损失函数为交叉熵损失函数,所述处理包括Embedding处理。
较佳地,所述循环神经网络层为双向长短记忆LSTM(Long Short-Term Memory,长短期记忆人工神经网络)网络层。
第二方面,本发明提供一种音乐合成的方法,所述方法包括:
利用如第一方面所述的模型的生成方法训练生成音符预测模型;
获取待合成音乐包含的预设音符数以及每个预设音符所对应的目标基频矩阵和目标音符密度矩阵;其中,每个所述预设音符具有音符位置标签;
将所述目标基频矩阵和所述目标音符密度矩阵拼接生成目标拼接矩阵;
将所有所述预设音符对应的所述目标拼接矩阵按照预设的时序上的音符排列顺序依次输入至所述音符预测模型,以获取每个所述预设音符对应的目标音符;
按照所述音符位置标签将所有的所述目标音符进行拼接,以生成目标音乐片段。
第三方面,本发明提供一种模型的生成***,所述生成***包括:
拆分模块,用于将音乐片段拆分成为时序上连续的多个音符;
处理模块,用于对所述音乐片段进行处理,以获取每个音符对应的基频矩阵以及音符密度矩阵;其中,所述音符密度矩阵用于表征所对应的所述音符的触发和截至的时间;
第一拼接模块,用于将所述基频矩阵和所述音符密度矩阵拼接生成第一拼接矩阵;
训练模块,用于将所述第一拼接矩阵输入包含多个循环神经网络层和多个线性层的模型中进行训练,以生成音符预测模型;其中,所述线性层用于提取所述音符对应的音乐特征,所述循环神经网络层用于确定相邻音符之间的关联性,所述音符预测模型用于音符识别。
较佳地,所述包含多个循环神经网络层和多个线性层的模型包括依次连接的第一线性层、第二线性层、第一循环神经网络层、第二循环神经网络层、第三线性层以及分类层;
所述第一线性层的输入包括所述第一拼接矩阵;
所述第二线性层的输入包括所述第一线性层的输出,所述第二线性层将所述第一线性层的输出利用激活函数,生成所述第一拼接矩阵对应的所述音乐特征;
所述第一循环神经网络层的输入包括所述音乐特征;
所述第二循环神经网络层的输入包括所述第一循环神经网络层的输出,所述第二循环神经网络层的输出包括相邻音符之间的关联信息;
所述第三线性层的输入包括所述关联信息;
所述分类层的输入包括所述第二循环神经网络层的输出,所述分类层的输出包括所述第一拼接矩阵对应的音符识别结果。
较佳地,所述包含多个循环神经网络层和多个线性层的模型使用的损失函数为交叉熵损失函数,所述处理包括Embedding处理。
较佳地,所述循环神经网络层为双向长短记忆LSTM网络层。
第四方面,本发明提供一种音乐合成的***,所述***包括:
模型训练模块,用于利用如第三方面所述的模型的生成***,训练生成音符预测模型;
获取模块,用于获取待合成音乐包含的预设音符数以及每个预设音符所对应的目标基频矩阵和目标音符密度矩阵;其中,每个所述预设音符具有音符位置标签;
第二拼接模块,用于将所述目标基频矩阵和所述目标音符密度矩阵拼接生成目标拼接矩阵;
输入模块,用于将所有所述预设音符对应的所述目标拼接矩阵按照预设的时序上的音符排列顺序依次输入至所述音符预测模型,以获取每个所述预设音符对应的目标音符;
音乐生成模块,用于按照所述音符位置标签将所有的所述目标音符进行拼接,以生成目标音乐片段。
第五方面,本发明还提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面所述的一种模型的生成方法,或者实现如第二方面所述的音乐合成的方法。
第六方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的一种模型的生成方法的步骤,或者实现如第二方面所述的音乐合成的方法的步骤。
本发明的积极进步效果在于:提供一种模型的生成方法、音乐合成的方法、***、设备及介质,本发明提供的模型的生成方法基于基频矩阵以及音符密度矩阵作为特征数据,输入包括循环神经网络层和线性层构建的模型中进行训练,该模型结构简单、训练难度小,提高了模型的训练速度,减少了训练时间;本发明提供的音乐合成的方法利用训练好的模型生成多个预测音符,在时序上将所有预测音符进行拼接,合成最终的音乐片段,增强了音乐合成的流畅性、改善了音乐片段的效果。
附图说明
图1为本发明实施例1的模型的生成方法的流程图。
图2为本发明实施例1的模型的生成方法中使用的网络结构的示意图。
图3为本发明实施例2的模型的生成***的模块示意图。
图4为本发明实施例3的音乐合成的方法的流程图。
图5为本发明实施例4的音乐合成的***的模块示意图。
图6为本发明实施例5的电子设备的硬件结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例提供一种模型的生成方法,如图1所示,该生成方法包括:
步骤S11、将音乐片段拆分成为时序上连续的多个音符。
步骤S12、对音乐片段进行处理,以获取每个音符对应的基频矩阵以及音符密度矩阵。其中,音符密度矩阵用于表征所对应的音符的触发和截至的时间。具体的,处理包括Embedding处理。
步骤S13、将基频矩阵和音符密度矩阵拼接生成第一拼接矩阵。
步骤S14、将第一拼接矩阵输入包含多个循环神经网络层和多个线性层的模型中进行训练,以生成音符预测模型。其中,线性层用于提取音符对应的音乐特征,循环神经网络层用于确定相邻音符之间的关联性,音符预测模型用于音符识别。
其中,循环神经网络层为双向长短记忆LSTM网络层。
在一些可行的实施方式中,用户可以从终端设备中打开播放音乐的应用程序,可以从MIDI(Musical Instrument Digital Interface)电子乐器数字接口获取MIDI音乐文件,该MIDI音乐文件中包含了若干个音乐片段。获取某一段音乐片段,将其拆分成为时序上连续的多个音符,对音乐片段经过数字信号处理,获取音乐的基本信息,该基本信息可以包括基频、音符密度和音符数。
需要说明的是,不同的音符,音符密度差别比较大,比如舒缓的低音,持续时间会长一些,则音符被触发和截止间隔比较大,同理,比较欢快的高音,音符变换快,则音符被触发和截止间隔比较小。本实施例中,对音符的选取的类型不作具体限制,也即,可以存在多个不同的舒缓的音,也可以存在多个不同的欢快的高音,在此不做具体限制。
从基本信息中获取固定维度的基频矩阵,利用Embedding处理将音符密度对应的矩阵转化为与基频矩阵相同维度的矩阵。将预设维度的基频矩阵和降维处理后生成的音符密度矩阵拼接生成第一拼接矩阵,将第一拼接矩阵输入包含多个循环神经网络层和多个线性层的模型中进行训练。本发明中选择 Adam(优化算法),batch size(批处理量)设为64,学习率设为0.001,总共训练40万步模型在训练的过程中迭代收敛,loss(损失函数)不再下降时,模型训练完成。
如图2所示,包含多个循环神经网络层和多个线性层的模型包括依次连接的第一线性层、第二线性层、第一循环神经网络层、第二循环神经网络层、第三线性层以及分类层。
第一线性层的输入包括第一拼接矩阵。
第二线性层的输入包括第一线性层的输出,第二线性层将第一线性层的输出利用激活函数,生成第一拼接矩阵对应的音乐特征。
第一循环神经网络层的输入包括音乐特征。
第二循环神经网络层的输入包括第一循环神经网络层的输出,第二循环神经网络层的输出包括相邻音符之间的关联信息。
第三线性层的输入包括关联信息。
分类层的输入包括第二循环神经网络层的输出,分类层的输出包括第一拼接矩阵对应的音符识别结果。
如图2所示,将拼接的结果输入到两个相邻的Linear层(线性层),使用LeakyReLU激活函数,输出的特征再输入两层双向的LSTM层,最后经过线性层,接入Softmax(分类层),得到分类的结果,取概率最大的为预测的音符。
需要说明的是,本实施例中,对于线性层的个数可以不作限制,该模型可以加入第三个线性层,第四个线性层,或者,该模型可以加入第三个第一循环神经网络层,第二个循环神经网络层,在此对于线性层和循环神经网络层的个数不作具体限制。
其中,包含多个循环神经网络层和多个线性层的模型使用的损失函数为交叉熵损失函数。
Figure BDA0002858370790000071
具体的,计算每个预测的音符和预先设定的音符标签的结果之间的交叉熵,交叉熵损失函数中,N表示音符类别数量,pc表示属于音符类别c的概率。例如,设定预测音符的类别为128类,则N=128, yc为0或1,当预先设定的音符标签和预测结果一致时yc为1,当预先设定的音符标签和预测结果不一致时yc为0。
本发明实施例提供了一种模型的生成方法,基于基频矩阵以及音符密度矩阵作为特征数据,输入包括循环神经网络层和线性层构建的模型中进行训练,该模型结构简单、训练难度小,提高了模型的训练速度,减少了训练时间。
实施例2
本实施例,提供一种模型的生成***,如图3所示,具体包括:拆分模块110、处理模块120、第一拼接模块130以及训练模块140。
其中,拆分模块110,用于将音乐片段拆分成为时序上连续的多个音符。
处理模块120,用于对音乐片段进行处理,以获取每个音符对应的基频矩阵以及音符密度矩阵。其中,音符密度矩阵用于表征所对应的音符的触发和截至的时间。具体的,处理包括Embedding处理。
第一拼接模块130,用于将基频矩阵和音符密度矩阵拼接生成第一拼接矩阵。
训练模块140,用于将第一拼接矩阵输入包含多个循环神经网络层和多个线性层的模型中进行训练,以生成音符预测模型。其中,线性层用于提取音符对应的音乐特征,循环神经网络层用于确定相邻音符之间的关联性,音符预测模型用于音符识别。
其中,循环神经网络层为双向长短记忆LSTM网络层。
在一些可行的实施方式中,用户可以从终端设备中打开播放音乐的应用程序,可以从MIDI电子乐器数字接口获取MIDI音乐文件,该MIDI音乐文件中包含了若干个音乐片段。获取某一段音乐片段,将其拆分成为时序上连续的多个音符,对音乐片段经过数字信号处理,获取音乐的基本信息,该基本信息可以包括基频、音符密度和音符数。
需要说明的是,不同的音符,音符密度差别比较大,比如舒缓的低音,持续时间会长一些,则音符被触发和截止间隔比较大,同理,比较欢快的高音,音符变换快,则音符被触发和截止间隔比较小。本实施例中,对音符的选取的类型不作具体限制,也即,可以存在多个不同的舒缓的音,也可以存在多个不同的欢快的高音,在此不做具体限制。
从基本信息中获取固定维度的基频矩阵,利用Embedding处理将音符密度对应的矩阵转化为与基频矩阵相同维度的矩阵。将预设维度的基频矩阵和降维处理后生成的音符密度矩阵拼接生成第一拼接矩阵,将第一拼接矩阵输入包含多个循环神经网络层和多个线性层的模型中进行训练。本发明中选择 Adam优化算法,batch size设为64,学习率设为0.001,总共训练40万步模型在训练的过程中迭代收敛,loss不再下降时,模型训练完成。
其中,包含多个循环神经网络层和多个线性层的模型包括依次连接的第一线性层、第二线性层、第一循环神经网络层、第二循环神经网络层、第三线性层以及分类层。
第一线性层的输入包括第一拼接矩阵。
第二线性层的输入包括第一线性层的输出,第二线性层将第一线性层的输出利用激活函数,生成第一拼接矩阵对应的音乐特征。
第一循环神经网络层的输入包括音乐特征。
第二循环神经网络层的输入包括第一循环神经网络层的输出,第二循环神经网络层的输出包括相邻音符之间的关联信息。
第三线性层的输入包括所述关联信息。
分类层的输入包括第二循环神经网络层的输出,分类层的输出包括第一拼接矩阵对应的音符识别结果。
需要说明的是,本实施例中,对于线性层的个数可以不作限制,该模型可以加入第三个线性层,第四个线性层,或者,该模型可以加入第三个第一循环神经网络层,第二个循环神经网络层,在此对于线性层和循环神经网络层的个数不作具体限制。
其中,包含多个循环神经网络层和多个线性层的模型使用的损失函数为交叉熵损失函数。
Figure BDA0002858370790000091
具体的,计算每个预测的音符和预先设定的音符标签的结果之间的交叉熵,上述的公式表示本实施例的交叉熵损失函数,在该公式中,N表示音符类别数量,pc表示属于音符类别c的概率。例如,设定预测音符的类别为128 类,则N=128,yc为0和1,当预先设定的音符标签和预测结果一致时yc为1,当预先设定的音符标签和预测结果不一致时yc为0。
本发明实施例提供了一种模型的生成***,基于基频矩阵以及音符密度矩阵作为特征数据,输入包括循环神经网络层和线性层构建的模型中进行训练,该模型结构简单、训练难度小,提高了模型的训练速度,减少了训练时间。
实施例3
本实施例,提供一种音乐合成的方法,如图4所示,该方法包括:
步骤S21、利用如实施例1的模型的生成方法训练生成音符预测模型。
步骤S22、获取待合成音乐包含的预设音符数以及每个预设音符所对应的目标基频矩阵和目标音符密度矩阵;其中,每个预设音符具有音符位置标签。
步骤S23、将目标基频矩阵和目标音符密度矩阵拼接生成目标拼接矩阵。
步骤S24、将所有预设音符对应的目标拼接矩阵按照预设的时序上的音符排列顺序依次输入至音符预测模型,以获取每个预设音符对应的目标音符。
步骤S25、按照音符位置标签将所有的目标音符进行拼接,以生成目标音乐片段。
本实施例中,可以指定待合成的音乐片段中的预设音符的个数和类型,每个预设音符具有表征待合成音乐片段中音符位置标签,利用该模块可以每次识别一个音符,若预设音符的个数为10个,则该模型循环10次;若预设音符的个数为11个,则该模型循环11次。
模型最终输出的是单个音符的结果,将多次预测的结果拼接,生成最终的音乐片段,由于前后的预测的音符并没有关联性,拼接后的音乐会比较突兀,引入了两层是双向LSTM层,将上一次预测时得到隐藏状态作为当前第一循环神经网络层或者第二循环神经网络层的隐藏状态,建立起前后两次预测音符的连贯性,使得最终拼接得到的音乐更加流畅动听。
本发明实施例中,提供的音乐合成的方法利用训练好的模型生成多个预测音符,在时序上将所有预测音符进行拼接,合成最终的音乐片段,增强了音乐合成的流畅性、改善了音乐片段的效果。
实施例4
本实施例提供一种音乐合成的***,如图5所示,具体包括:模型训练模块210、获取模块220、第二拼接模块230、输入模块240以及音乐生成模块250。
其中,模型训练模块210,用于利用如实施例3的模型的生成***训练生成音符预测模型。
获取模块220,用于获取待合成音乐包含的预设音符数以及每个预设音符所对应的目标基频矩阵和目标音符密度矩阵;其中,每个预设音符具有音符位置标签。
第二拼接模块230,用于将目标基频矩阵和目标音符密度矩阵拼接生成目标拼接矩阵。
输入模块240,用于将所有预设音符对应的目标拼接矩阵按照预设的时序上的音符排列顺序依次输入至音符预测模型,以获取每个预设音符对应的目标音符。
音乐生成模块250,用于按照音符位置标签将所有的目标音符进行拼接,以生成目标音乐片段。
本实施例中,可以指定待合成的音乐片段中的预设音符的个数和类型,每个预设音符具有表征待合成音乐片段中音符位置标签,利用该模块可以每次识别一个音符,若预设音符的个数为10个,则该模型会循环10次;若预设音符的个数为11个,则该模型会循环11次。
模型最终输出的是单个音符的结果,将多次预测的结果拼接,生成最终的音乐片段,由于前后的预测的音符并没有关联性,拼接后的音乐会比较突兀,引入了两层是双向LSTM层,将上一次预测时得到隐藏状态作为当前第一循环神经网络层或者第二循环神经网络层的隐藏状态,建立起前后两次预测音符的连贯性,使得最终拼接得到的音乐更加流畅动听。
本发明实施例中,提供的音乐合成的***利用训练好的模型生成多个预测音符,在时序上将所有预测音符进行拼接,合成最终的音乐片段,增强了音乐合成的流畅性、改善了音乐片段的效果。
实施例5
图6为本实施例提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1的模型的生成方法或实施例3的音乐合成的方法,图6显示的电子设备60仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
电子设备60可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备60的组件可以包括但不限于:上述至少一个处理器61、上述至少一个存储器62、连接不同***组件(包括存储器62和处理器61)的总线 63。
总线63包括数据总线、地址总线和控制总线。
存储器62可以包括易失性存储器,例如随机存取存储器(RAM)621和/ 或高速缓存存储器622,还可以进一步包括只读存储器(ROM)623。
存储器62还可以包括具有一组(至少一个)程序模块624的程序/实用工具625,这样的程序模块624包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器61通过运行存储在存储器62中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1的模型的生成方法或实施例3的音乐合成的方法。
电子设备60也可以与一个或多个外部设备64(例如键盘、指向设备等) 通信。这种通信可以通过输入/输出(I/O)接口65进行。并且,模型生成的设备60还可以通过网络适配器66与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器66通过总线63与模型生成的设备60的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备60使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)***、磁带驱动器以及数据备份存储***等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例6
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1的模型的生成方法的步骤或实施例3的音乐合成的方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1的模型的生成方法的步骤或实施例3的音乐合成的方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (12)

1.一种模型的生成方法,其特征在于,所述生成方法包括:
将音乐片段拆分成为时序上连续的多个音符;
对所述音乐片段进行处理,以获取每个音符对应的基频矩阵以及音符密度矩阵;其中,所述音符密度矩阵用于表征所对应的音符的触发和截至的时间;
将所述基频矩阵和所述音符密度矩阵拼接生成第一拼接矩阵;
将所述第一拼接矩阵输入包含多个循环神经网络层和多个线性层的模型中进行训练,以生成音符预测模型;其中,所述线性层用于提取所述音符对应的音乐特征,所述循环神经网络层用于确定相邻音符之间的关联性,所述音符预测模型用于音符识别。
2.如权利要求1所述的模型的生成方法,其特征在于,所述包含多个循环神经网络层和多个线性层的模型包括依次连接的第一线性层、第二线性层、第一循环神经网络层、第二循环神经网络层、第三线性层以及分类层;
所述第一线性层的输入包括所述第一拼接矩阵;
所述第二线性层的输入包括所述第一线性层的输出,所述第二线性层将所述第一线性层的输出利用激活函数,生成所述第一拼接矩阵对应的所述音乐特征;
所述第一循环神经网络层的输入包括所述音乐特征;
所述第二循环神经网络层的输入包括所述第一循环神经网络层的输出,所述第二循环神经网络层的输出包括相邻音符之间的关联信息;
所述第三线性层的输入包括所述关联信息;
所述分类层的输入包括所述第二循环神经网络层的输出,所述分类层的输出包括所述第一拼接矩阵对应的音符识别结果。
3.如权利要求2所述的模型的生成方法,其特征在于,所述包含多个循环神经网络层和多个线性层的模型使用的损失函数为交叉熵损失函数,所述处理包括Embedding处理。
4.如权利要求1-3任意一项所述的模型的生成方法,其特征在于,所述循环神经网络层为双向长短记忆LSTM网络层。
5.一种音乐合成的方法,其特征在于,所述方法包括:
利用如权利要求1至4任一项所述的模型的生成方法训练生成音符预测模型;
获取待合成音乐包含的预设音符数以及每个预设音符所对应的目标基频矩阵和目标音符密度矩阵;其中,每个所述预设音符具有音符位置标签;
将所述目标基频矩阵和所述目标音符密度矩阵拼接生成目标拼接矩阵;
将所有所述预设音符对应的所述目标拼接矩阵按照预设的时序上的音符排列顺序依次输入至所述音符预测模型,以获取每个所述预设音符对应的目标音符;
按照所述音符位置标签将所有的所述目标音符进行拼接,以生成目标音乐片段。
6.一种模型的生成***,其特征在于,所述生成***包括:
拆分模块,用于将音乐片段拆分成为时序上连续的多个音符;
处理模块,用于对所述音乐片段进行处理,以获取每个音符对应的基频矩阵以及音符密度矩阵;其中,所述音符密度矩阵用于表征所对应的音符的触发和截至的时间;
第一拼接模块,用于将所述基频矩阵和所述音符密度矩阵拼接生成第一拼接矩阵;
训练模块,用于将所述第一拼接矩阵输入包含多个循环神经网络层和多个线性层的模型中进行训练,以生成音符预测模型;其中,所述线性层用于提取所述音符对应的音乐特征,所述循环神经网络层用于确定相邻音符之间的关联性,所述音符预测模型用于音符识别。
7.如权利要求6所述的模型的生成***,其特征在于,所述包含多个循环神经网络层和多个线性层的模型包括依次连接的第一线性层、第二线性层、第一循环神经网络层、第二循环神经网络层、第三线性层以及分类层;
所述第一线性层的输入包括所述第一拼接矩阵;
所述第二线性层的输入包括所述第一线性层的输出,所述第二线性层将所述第一线性层的输出利用激活函数,生成所述第一拼接矩阵对应的所述音乐特征;
所述第一循环神经网络层的输入包括所述音乐特征;
所述第二循环神经网络层的输入包括所述第一循环神经网络层的输出,所述第二循环神经网络层的输出包括相邻音符之间的关联信息;
所述第三线性层的输入包括所述关联信息;
所述分类层的输入包括所述第二循环神经网络层的输出,所述分类层的输出包括所述第一拼接矩阵对应的音符识别结果。
8.如权利要求7所述的模型的生成***,其特征在于,所述包含多个循环神经网络层和多个线性层的模型使用的损失函数为交叉熵损失函数,所述处理包括Embedding处理。
9.如权利要求6-8任意一项所述的模型的生成***,其特征在于,所述循环神经网络层为双向长短记忆LSTM网络层。
10.一种音乐合成的***,其特征在于,所述***包括:
模型训练模块,用于利用如权利要求6至9任一项所述的模型的生成***,训练生成音符预测模型;
获取模块,用于获取待合成音乐包含的预设音符数以及每个预设音符所对应的目标基频矩阵和目标音符密度矩阵;其中,每个所述预设音符具有音符位置标签;
第二拼接模块,用于将所述目标基频矩阵和所述目标音符密度矩阵拼接生成目标拼接矩阵;
输入模块,用于将所有所述预设音符对应的所述目标拼接矩阵按照预设的时序上的音符排列顺序依次输入至所述音符预测模型,以获取每个所述预设音符对应的目标音符;
音乐生成模块,用于按照所述音符位置标签将所有的所述目标音符进行拼接,以生成目标音乐片段。
11.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-4中的任一项所述的模型的生成方法,或者实现如权利要求5所述音乐合成的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1-4中的任一项所述的模型的生成方法,或者实现如权利要求5所述的音乐合成的方法。
CN202011552361.9A 2020-12-24 2020-12-24 模型的生成方法、音乐合成的方法、***、设备及介质 Active CN112885315B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011552361.9A CN112885315B (zh) 2020-12-24 2020-12-24 模型的生成方法、音乐合成的方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011552361.9A CN112885315B (zh) 2020-12-24 2020-12-24 模型的生成方法、音乐合成的方法、***、设备及介质

Publications (2)

Publication Number Publication Date
CN112885315A true CN112885315A (zh) 2021-06-01
CN112885315B CN112885315B (zh) 2024-01-02

Family

ID=76043488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011552361.9A Active CN112885315B (zh) 2020-12-24 2020-12-24 模型的生成方法、音乐合成的方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN112885315B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210241734A1 (en) * 2020-01-31 2021-08-05 Obeebo Labs Ltd. Systems, devices, and methods for computer-generated musical note sequences

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087635A (zh) * 2018-08-30 2018-12-25 湖北工业大学 一种语音智能分类方法及***
CN109285560A (zh) * 2018-09-28 2019-01-29 北京奇艺世纪科技有限公司 一种音乐特征提取方法、装置及电子设备
CN109346045A (zh) * 2018-10-26 2019-02-15 平安科技(深圳)有限公司 基于长短时神经网络的多声部音乐生成方法及装置
CN110164460A (zh) * 2019-04-17 2019-08-23 平安科技(深圳)有限公司 歌唱合成方法和装置
CN110264984A (zh) * 2019-05-13 2019-09-20 北京奇艺世纪科技有限公司 模型训练方法、音乐生成方法、装置和电子设备
KR102093233B1 (ko) * 2018-09-27 2020-03-26 동국대학교 산학협력단 신경망 기반의 음악 자동 생성 장치 및 그 방법
CN111627418A (zh) * 2020-05-27 2020-09-04 携程计算机技术(上海)有限公司 语音合成模型的训练方法、合成方法、***、设备和介质
CN111862937A (zh) * 2020-07-23 2020-10-30 平安科技(深圳)有限公司 歌声合成方法、装置及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087635A (zh) * 2018-08-30 2018-12-25 湖北工业大学 一种语音智能分类方法及***
KR102093233B1 (ko) * 2018-09-27 2020-03-26 동국대학교 산학협력단 신경망 기반의 음악 자동 생성 장치 및 그 방법
CN109285560A (zh) * 2018-09-28 2019-01-29 北京奇艺世纪科技有限公司 一种音乐特征提取方法、装置及电子设备
CN109346045A (zh) * 2018-10-26 2019-02-15 平安科技(深圳)有限公司 基于长短时神经网络的多声部音乐生成方法及装置
CN110164460A (zh) * 2019-04-17 2019-08-23 平安科技(深圳)有限公司 歌唱合成方法和装置
CN110264984A (zh) * 2019-05-13 2019-09-20 北京奇艺世纪科技有限公司 模型训练方法、音乐生成方法、装置和电子设备
CN111627418A (zh) * 2020-05-27 2020-09-04 携程计算机技术(上海)有限公司 语音合成模型的训练方法、合成方法、***、设备和介质
CN111862937A (zh) * 2020-07-23 2020-10-30 平安科技(深圳)有限公司 歌声合成方法、装置及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210241734A1 (en) * 2020-01-31 2021-08-05 Obeebo Labs Ltd. Systems, devices, and methods for computer-generated musical note sequences
US11948542B2 (en) * 2020-01-31 2024-04-02 Obeebo Labs Ltd. Systems, devices, and methods for computer-generated musical note sequences

Also Published As

Publication number Publication date
CN112885315B (zh) 2024-01-02

Similar Documents

Publication Publication Date Title
CN108446374B (zh) 用户意图预测方法、装置、电子设备、存储介质
CN111883110B (zh) 语音识别的声学模型训练方法、***、设备及介质
CN110264991A (zh) 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质
US11670322B2 (en) Method and system for learning and using latent-space representations of audio signals for audio content-based retrieval
CN103902642A (zh) 利用歌词与旋律之间的相关性的音乐作曲***
CN112749262B (zh) 基于人工智能的问答处理方法、装置、电子设备及存储介质
CN110264984B (zh) 模型训练方法、音乐生成方法、装置和电子设备
CN110444203A (zh) 语音识别方法、装置及电子设备
CN113434664B (zh) 文本摘要生成方法、装置、介质及电子设备
CN112669815B (zh) 歌曲定制生成方法及其相应的装置、设备、介质
CN111209468B (zh) 一种用于生成关键词的方法与设备
CN112084301B (zh) 文本修正模型的训练方法及装置、文本修正方法及装置
CN111753126B (zh) 用于视频配乐的方法和装置
CN113035163B (zh) 音乐作品的自动生成方法及装置、存储介质、电子设备
CN112885315B (zh) 模型的生成方法、音乐合成的方法、***、设备及介质
CN114637885A (zh) 模型训练方法、多样性评分确定方法、介质、装置及设备
KR102371487B1 (ko) 명목형 데이터를 포함하는 데이터를 기반으로 하는 학습 방법 및 장치
CN110516109B (zh) 音乐标签的关联方法、装置及存储介质
Zhu et al. A Survey of AI Music Generation Tools and Models
CN113314096A (zh) 语音合成方法、装置、设备和存储介质
CN113420869B (zh) 基于全方向注意力的翻译方法及其相关设备
KR20220169778A (ko) 프로그램 코드 처리 장치 및 방법
CN114580790A (zh) 生命周期阶段预测和模型训练方法、装置、介质及设备
CN114331637A (zh) 对象推荐方法及装置、存储介质、电子设备
CN113553401A (zh) 一种文本处理方法、装置、介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant