CN113035163B

CN113035163B - 音乐作品的自动生成方法及装置、存储介质、电子设备

Info

Publication number: CN113035163B
Application number: CN202110509175.5A
Authority: CN
Inventors: 黄安麒; 曹偲; 赵翔宇; 刘华平
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-08-10
Anticipated expiration: 2041-05-11
Also published as: CN113035163A

Abstract

本公开提供了一种音乐作品的自动生成方法及装置、存储介质、电子设备，涉及机器学习技术领域，该方法包括：接收生成所述音乐作品所需的生成参数，并将所述生成参数输入至预设的音乐生成模型中，得到多个待预测音乐数据；基于预设的音乐真实性判别模型计算各所述待预测音乐数据的预测仿真值，并基于预设的音乐热度计算模型计算各所述待预测音乐数据的预测热度值；根据预测仿真值大于第一预设阈值的待预测音乐数据生成第一数据集，并根据预测热度值大于第二预设阈值的待预测音乐数据生成第二数据集；计算所述第一数据集以及第二数据集的交集，并根据交集计算结果得到所述音乐作品。本公开提高了音乐作品的生成效率。

Description

音乐作品的自动生成方法及装置、存储介质、电子设备

技术领域

本发明公开的实施方式涉及机器学习技术领域，更具体地，本发明公开的实施方式涉及一种音乐作品的自动生成方法、音乐作品的自动生成装置、计算机可读存储介质以及电子设备。

背景技术

本部分旨在为权利要求书中陈述的本发明公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在一些音乐作品的自动生成方案中，可以基于如下技术方案实现：预设一批音乐素材，根据乐理理论，通过一套预设的规则对各音乐素材进行拼接，拼接结果即为生成的音乐输出。

但是，采用上述方法所得到的音乐输出，生成的音乐只符合乐理规则，音乐的听感质量较低。

发明内容

但是，现有技术中，一方面，在生成音乐时，只是对一些音乐素材进行简单的拼接，使得最终的音乐缺少音节变化，不符合用户的喜好；另一方面，在进行音乐拼接的过程中，并未考虑到用户对音乐的反馈信息，因此无法对上述规则进行优化；再一方面，在进行音乐拼接的过程中，并未加入真实的音乐，因此会使得最终输出的音乐与真实音乐之间的偏差较大，降低了用户的听觉感受；进一步的，由于需要通过预设的规则对音乐素材进行拼接，进而使得音乐输出的效率较低。

为此，非常需要一种改进的音乐作品的自动生成方法，以通过音乐生成模型根据输入的生成参数，自动的生成与真实音乐之间偏差较小且符合用户听觉感受的音乐作品。

在本上下文中，本发明公开的实施方式期望提供一种音乐作品的自动生成方法、音乐作品的自动生成装置、计算机可读存储介质以及电子设备。

根据本发明公开的一个方面，提供一种音乐作品的自动生成方法，包括：

接收生成所述音乐作品所需的生成参数，并将所述生成参数输入至预设的音乐生成模型中，得到多个待预测音乐数据；

基于预设的音乐真实性判别模型计算各所述待预测音乐数据的预测仿真值，并基于预设的音乐热度计算模型计算各所述待预测音乐数据的预测热度值；

根据预测仿真值大于第一预设阈值的待预测音乐数据生成第一数据集，并根据预测热度值大于第二预设阈值的待预测音乐数据生成第二数据集；

计算所述第一数据集以及第二数据集的交集，并根据交集计算结果得到所述音乐作品。

在本发明公开的一种示例性实施例中，所述预设的音乐生成模型中包括多个由多个全连接层以及长短期记忆网络组成的神经网络单元；

其中，将所述生成参数输入至预设的音乐生成模型中，得到多个待预测音乐数据，包括：

利用所述预设的音乐生成模型中包括第一个神经网络单元中的多个全连接层对所述生成参数进行特征整理，得到所述生成参数的第一特征向量；

将所述第一特征向量、预设的随机数向量以及预设的时间特征输入至所述第一个神经网络单元中的长短期记忆网络，得到第一帧输出数据；

将所述第一帧输出数据以及所述生成参数输入至其他神经网络单元，得到与其他神经网络单元对应的其他帧输出数据；其中，在所述其他神经网络单元中，上一个神经网络单元的输出，是与其对应的下一个神经网络单元的输入，且每一个其他神经网络单元的输入中还包括与该神经网络单元对应的随机数向量以及时间特征；

根据所述其他帧输出数据的输出顺序，对所述第一帧输出数据以及其他帧输出数据进行拼接，得到所述多个待预测音乐数据。

在本发明公开的一种示例性实施例中，所述预设的音乐真实性判别模型中包括多层卷积神经网络、由两个长短期记忆网络以及一个隐藏层构成的多个并列连接的中间层以及多个全连接层；

其中，基于预设的音乐真实性判别模型计算各所述待预测音乐数据的预测仿真值，包括：

利用所述多层卷积神经网络提取所述待预测音乐数据的第二特征向量；

利用所述中间层对所述第二特征向量进行时序特征关联，并利用所述多个全连接层对时序特征关联后的第二特征向量进行预测，得到所述预测仿真值。

在本发明公开的一种示例性实施例中，所述音乐作品的自动生成方法还包括：

获取原始音乐数据，并从所述原始音乐数据中筛选通过人工创作的音乐，以生成真实音乐数据集；

将随机输入参数输入至第一待训练的神经网络模型中，得到多个仿真音乐，并根据各所述仿真音乐生成第一仿真音乐数据集；

根据所述真实音乐数据集以及第一仿真音乐数据集生成带标签的真实音乐判别数据集，并利用所述带标签的真实音乐判别数据集对第二待训练的神经网络模型进行训练，得到所述预设的音乐真实性判别模型。

获取所述真实音乐数据集中所包括的音乐的热度值，并根据所述热度值以及所述真实音乐数据集，生成带标签的热度数据集；

利用所述带标签的热度数据集对第三待训练的神经网络模型进行训练，得到所述预设的音乐热度计算模型。

利用所述预设的音乐真实性判别模型计算所述第一仿真音乐数据集中所包括的仿真音乐的第一热度偏差值；

利用所述预设的音乐热度计算模型计算所述第一仿真音乐数据集中所包括的仿真音乐的第一真实性偏差值；

根据所述随机输入参数、所述第一热度偏差值以及所述第一真实性偏差值对所述第一待训练的神经网络模型进行训练，得到所述预设的音乐生成模型。

在本发明公开的一种示例性实施例中，根据所述随机输入参数、所述热度偏差值以及所述真实性偏差值对所述第一待训练的神经网络模型进行训练，得到所述预设的音乐生成模型，包括：

根据所述第一热度偏差值以及第一真实性偏差值构建第一损失函数，并将所述随机输入参数再次输入至所述第一待训练的神经网络模型中，得到第二仿真音乐数据集；

计算所述第二仿真音乐数据集中所包括的仿真音乐的第二热度偏差值以及第二真实性偏差值，并根据所述第二热度偏差值以及第二真实性偏差值生成第二损失函数；

重复所述第二损失函数的生成步骤，以得到多个其他损失函数，并基于各所述损失函数对所述第一待训练的神经网络模型中所包括的参数进行调整，得到所述预设的音乐生成模型。

根据本发明公开的一个方面，提供一种音乐作品的自动生成装置，包括：

待预测数据生成模块，用于接收生成所述音乐作品所需的生成参数，并将所述生成参数输入至预设的音乐生成模型中，得到多个待预测音乐数据；

第一计算模块，用于基于预设的音乐真实性判别模型计算各所述待预测音乐数据的预测仿真值，并基于预设的音乐热度计算模型计算各所述待预测音乐数据的预测热度值；

第一数据集生成模块，用于根据预测仿真值大于第一预设阈值的待预测音乐数据生成第一数据集，并根据预测热度值大于第二预设阈值的待预测音乐数据生成第二数据集；

音乐作品生成模块，用于计算所述第一数据集以及第二数据集的交集，并根据交集计算结果得到所述音乐作品。

在本发明公开的一种示例性实施例中，所述音乐作品的自动生成装置还包括：

数据获取模块，用于获取原始音乐数据，并从所述原始音乐数据中筛选通过人工创作的音乐，以生成真实音乐数据集；

第二数据集生成模块，用于将随机输入参数输入至第一待训练的神经网络模型中，得到多个仿真音乐，并根据各所述仿真音乐生成第一仿真音乐数据集；

第一模型训练模块，用于根据所述真实音乐数据集以及第一仿真音乐数据集生成带标签的真实音乐判别数据集，并利用所述带标签的真实音乐判别数据集对第二待训练的神经网络模型进行训练，得到所述预设的音乐真实性判别模型。

第三数据集生成模块，用于获取所述真实音乐数据集中所包括的音乐的热度值，并根据所述热度值以及所述真实音乐数据集，生成带标签的热度数据集；

第二模型训练模块，用于利用所述带标签的热度数据集对第三待训练的神经网络模型进行训练，得到所述预设的音乐热度计算模型。

第二计算模块，用于利用所述预设的音乐真实性判别模型计算所述第一仿真音乐数据集中所包括的仿真音乐的第一热度偏差值；

第三计算模块，用于利用所述预设的音乐热度计算模型计算所述第一仿真音乐数据集中所包括的仿真音乐的第一真实性偏差值；

第三模型训练模块，用于根据所述随机输入参数、所述第一热度偏差值以及所述第一真实性偏差值对所述第一待训练的神经网络模型进行训练，得到所述预设的音乐生成模型。

根据本发明公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的音乐作品的自动生成方法。

根据本发明公开的一个方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的音乐作品的自动生成方法。

根据本发明公开实施方式的音乐作品的自动生成方法和音乐作品的自动生成装置，可以接收生成音乐作品所需的生成参数，并将生成参数输入至预设的音乐生成模型中，得到多个待预测音乐数据；基于预设的音乐真实性判别模型计算各待预测音乐数据的预测仿真值，并基于预设的音乐热度计算模型计算各待预测音乐数据的预测热度值；根据预测仿真值大于第一预设阈值的待预测音乐数据生成第一数据集，并根据预测热度值大于第二预设阈值的待预测音乐数据生成第二数据集；计算第一数据集以及第二数据集的交集，并根据交集计算结果得到音乐作品，而无需基于预设的规则对音乐素材进行拼接，从而显著地降低了由于需要对音乐素材进行拼接进而导致的音乐输出效率较低的问题，并且减少了由于仅是对一些音乐素材进行拼接，并未加入真实的音乐，因此会使得最终输出的音乐与真实音乐之间的偏差较大，降低了用户的听觉感受的问题，为用户带来了更好的体验。

附图说明

通过参考附图阅读下文的详细描述，本发明公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明公开的若干实施方式，其中：

图1示意性地示出了根据本发明公开示例实施例的一种音乐作品的自动生成方法的流程图；

图2示意性地示出了根据本发明公开示例实施例的一种生成音乐作品所需的生成参数的输入界面示例图；

图3示意性地示出了根据本发明公开示例实施例的一种将所述生成参数输入至预设的音乐生成模型中，得到多个待预测音乐数据的方法流程图；

图4示意性地示出了根据本发明公开示例实施例的一种预设的音乐生成模型的结构示例图；

图5示意性地示出了根据本发明公开示例实施例的一种基于预设的音乐真实性判别模型计算各所述待预测音乐数据的预测仿真值的方法流程图；

图6示意性地示出了根据本发明公开示例实施例的一种预设的音乐真实性判别模型的结构示例图；

图7示意性地示出了根据本发明公开示例实施例的一种预设的音乐真实性判别模型的训练方法的流程图；

图8示意性地示出了根据本发明公开示例实施例的一种预设的音乐热度计算模型的训练方法的流程图；

图9示意性地示出了根据本发明公开示例实施例的一种预设的音乐生成模型的训练方法的流程图；

图10示意性地示出了根据本发明公开示例实施例的一种模型训练过程的场景示例图；

图11示意性地示出了根据本发明公开示例实施例的一种音乐作品的生成过程的场景示例图；

图12示意性地示出了根据本发明公开示例实施例的一种音乐作品的自动生成装置的框图；

图13示意性地示出了根据本发明公开示例实施例的一种用于对上述音乐作品的自动生成方法进行存储的计算机可读存储介质；

图14示意性地示出了根据本发明公开示例实施例的一种用于实现上述音乐作品的自动生成方法的电子设备。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明公开，而并非以任何方式限制本发明公开的范围。相反，提供这些实施方式是为了使本发明公开更加透彻和完整，并且能够将本发明公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明公开的实施方式可以实现为一种***、装置、设备、方法或计算机程序产品。因此，本发明公开可以具体实现为以下形式，即：完全的硬件、完全的软件（包括固件、驻留软件、微代码等），或者硬件和软件结合的形式。

根据本发明公开的实施方式，提出了一种音乐作品的自动生成方法、音乐作品的自动生成装置、计算机可读存储介质以及电子设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明公开的若干代表性实施方式，详细阐释本发明公开的原理和精神。

发明概述

本申请人首先考虑到，可以通过神经网络实现一个音乐生成模型，再通过神经网络实现一个判别“真实音乐”和“算法生成音乐”的模型，两个模型作为生成对抗网络，结合起来训练，进行相互优化（生成模型以判别模型不能判别为目标，判别模型以成功判别为目的，进行迭代训练）。最终训练出效果较佳的音乐生成模型，能生成出与真实音乐较为接近的音乐。进一步的，本申请人还想到，在音乐拼接的过程中，可以引入用户对音乐的反馈信息，以利用用户对音乐的喜好因素调整音乐拼接方式，提高所生成的音乐的受欢迎概率。

基于此，本发明公开示例实施例提供了一种音乐作品的自动生成方法，一方面，接收生成音乐作品所需的生成参数，并将生成参数输入至预设的音乐生成模型中，得到多个待预测音乐数据；基于预设的音乐真实性判别模型计算各待预测音乐数据的预测仿真值，并基于预设的音乐热度计算模型计算各待预测音乐数据的预测热度值；根据预测仿真值大于第一预设阈值的待预测音乐数据生成第一数据集，并根据预测热度值大于第二预设阈值的待预测音乐数据生成第二数据集；计算第一数据集以及第二数据集的交集，并根据交集计算结果得到音乐作品，由于在生成音乐作品的过程中，同时考虑到了音乐作品的真实性以及音乐作品的热度值，进而可以避免现有技术中仅是对一些音乐素材进行拼接，并未加入真实的音乐，因此会使得最终输出的音乐与真实音乐之间的偏差较大的问题；另一方面，在最终生成的音乐作品中，是根据第一数据集以及第二数据集的交集得到的，也就是说，最终得到的音乐作品是较为真实且具有一定热度潜力的，进而可以大大的提升用户的听觉体验；进一步的，在整个音乐作品的生成过程中，都是基于模型实现的，无需配置预设的规则，进而提升了音乐作品的生成效率。

在介绍了本发明公开的基本原理之后，下面具体介绍本发明公开的各种非限制性实施方式。

示例性方法

本示例实施方式中首先提供了一种音乐作品的自动生成方法，该方法可以运行于服务器、服务器集群或云服务器等；当然，本领域技术人员也可以根据需求在其他平台运行本发明公开的方法，本示例性实施例中对此不做特殊限定。参考图1所示，该音乐作品的自动生成可以包括以下步骤：

步骤S110. 接收生成所述音乐作品所需的生成参数，并将所述生成参数输入至预设的音乐生成模型中，得到多个待预测音乐数据；

步骤S120. 基于预设的音乐真实性判别模型计算各所述待预测音乐数据的预测仿真值，并基于预设的音乐热度计算模型计算各所述待预测音乐数据的预测热度值；

步骤S130. 根据预测仿真值大于第一预设阈值的待预测音乐数据生成第一数据集，并根据预测热度值大于第二预设阈值的待预测音乐数据生成第二数据集；

步骤S140. 计算所述第一数据集以及第二数据集的交集，并根据交集计算结果得到所述音乐作品。

上述音乐作品的自动生成方法中，通过接收生成音乐作品所需的生成参数，并将生成参数输入至预设的音乐生成模型中，得到多个待预测音乐数据；基于预设的音乐真实性判别模型计算各待预测音乐数据的预测仿真值，并基于预设的音乐热度计算模型计算各待预测音乐数据的预测热度值；根据预测仿真值大于第一预设阈值的待预测音乐数据生成第一数据集，并根据预测热度值大于第二预设阈值的待预测音乐数据生成第二数据集；计算第一数据集以及第二数据集的交集，并根据交集计算结果得到音乐作品，而无需基于预设的规则对音乐素材进行拼接，从而显著地降低了由于需要对音乐素材进行拼接进而导致的音乐输出效率较低的问题，并且减少了由于仅是对一些音乐素材进行拼接，并未加入真实的音乐，因此会使得最终输出的音乐与真实音乐之间的偏差较大，降低了用户的听觉感受的问题，为用户带来了更好的体验。

以下，将结合附图对本发明公开示例实施例音乐作品的自动生成方法进行详细的解释以及说明。

首先，对本发明公开示例实施例中所涉及到的名词进行解释。

歌曲热度：歌曲在音乐流媒体平台（例如网易云音乐）上的播放量，包括音乐的播放量以及与该歌曲对应的视频的播放量。

歌曲热度预测模型：输入歌曲音频等信息，输出该歌曲在未来的歌曲热度的一种算法模型。

智能音乐生成：输入（或随机）一系列参数（例如调式、乐器、风格、节奏等），通过该音乐生成算法模型，输出一首歌曲的音频内容。

算法生成音乐：通过算法生成，而不是人类通过正常创作方法制作的音乐。

真实音乐：人类通过正常创作方法制作的音乐。

其次，对本发明公开示例实施例的发明目的进行解释以及说明。

具体的，本发明公开提供一种基于歌曲热度预测的智能音乐生成方法，该方法同时以是否真实，是否具有成为热门歌曲的潜力，作为歌曲生成的目标，进而解决仅以是否真实为目标，而无法以好听为目标的问题；进一步的，通过进行热歌预测，实现通过用户反馈数据，优化歌曲生成算法，解决生成算法与用户评价体系脱节的问题。

进一步的，在本发明公开示例实施例的一种音乐作品的自动生成方法中：

在步骤S110中，接收生成所述音乐作品所需的生成参数，并将所述生成参数输入至预设的音乐生成模型中，得到多个待预测音乐数据。

在本示例实施例中，可以基于随机生成或提供界面通过人工输入的方式接收生成音乐作品所需的生成参数。具体的，参考图2所示，该生成参数可以包括曲风参数，例如：现代电影、21世纪电影、航海民谣、爵士乐、幻想、流行、摇滚、中国风、探戈、电子以及氛围等等；还可以包括其他参数，例如乐器、调号、拍号、速度、时长等等，乐器、调号、拍号、速度、时长可以根据实际需要选取，也可以选择默认值，本示例对此不做特殊限定。

进一步的，当接收到生成参数后，可以将其输入至预设的音乐生成模型中，得到多个待预测音乐数据；其中，所述预设的音乐生成模型中包括多个由多个全连接层以及长短期记忆网络组成的神经网络单元。具体的，参考图3所示，将所述生成参数输入至预设的音乐生成模型中，得到多个待预测音乐数据，可以包括以下步骤：

步骤S310，利用所述预设的音乐生成模型中包括第一个神经网络单元中的多个全连接层对所述生成参数进行特征整理，得到所述生成参数的第一特征向量；

步骤S320，将所述第一特征向量、预设的随机数向量以及预设的时间特征输入至所述第一个神经网络单元中的长短期记忆网络，得到第一帧输出数据；

步骤S330，将所述第一帧输出数据以及所述生成参数输入至其他神经网络单元，得到与其他神经网络单元对应的其他帧输出数据；其中，在所述其他神经网络单元中，上一个神经网络单元的输出，是与其对应的下一个神经网络单元的输入，且每一个其他神经网络单元的输入中还包括与该神经网络单元对应的随机数向量以及时间特征；

步骤S340，根据所述其他帧输出数据的输出顺序，对所述第一帧输出数据以及其他帧输出数据进行拼接，得到所述多个待预测音乐数据。

以下，将结合图4对步骤S310-步骤S340进行解释以及说明。

首先，参考图4所示，该预设的音乐生成模型可以包括多个输入层401（输入层1、输入层2、……、输入层n），由多个全连接层以及长短期记忆网络组成的神经网络单元402（神经网络单元1、神经网络单元2、……、神经网络单元n）、多个输出层403（输出层1、输出层2、……、输出层n）以及拼接层404。其中，每一个神经网络单元分别连接一个输入层以及一个输出层，各输出层均与拼接层连接，并且，在除开第一个神经网络单元以外的其他神经网络单元中，上一个神经网络单元的输出，是与其对应的下一个神经网络单元的输入，也就是说，第一个神经网络单元的输出是第二个网络神经单元的输入的一部分，第二神经网络单元的输出，是第三个神经网络单元的输入的一部分，依次类推；同时，在其他神经网络单元中，上一个神经网络单元的长短期记忆网络以及与其相邻的神经网络单元的长短期记忆网络是相连的，这样可以保证在最终得到的待预测音乐数据的精确度。

基于此可以得知，待预测音乐数据的具体生成过程可以包括：输入音乐生成参数，在随机数向量（目的在于为生成的音乐带来变化，每一个神经网络单元对应一个不同的随机向量）、时间特征（即当前帧在全曲中的时间位置信息）的参与下，经过多层全连接进行特征整理，LSTM（Long Short-Term Memory，长短期记忆网络）层进行时序关联和推演的网络计算，输出待预测音乐数据；其中，该待预测音乐数据可以包括音频数据，但也可以是能够表征音乐的其他类型数据，例如曲谱、频谱图等等，本示例对此不做特殊限制。

在步骤S120中，基于预设的音乐真实性判别模型计算各所述待预测音乐数据的预测仿真值，并基于预设的音乐热度计算模型计算各所述待预测音乐数据的预测热度值。

在本示例实施例中，首先，基于预设的音乐真实性判别模型计算各待预测音乐数据的预测仿真值；其中，所述预设的音乐真实性判别模型中包括多层卷积神经网络、由两个长短期记忆网络以及一个隐藏层构成的多个并列连接的中间层以及多个全连接层。

具体的，参考图5所示，基于预设的音乐真实性判别模型计算各所述待预测音乐数据的预测仿真值，可以包括以下步骤：

步骤S510，利用所述多层卷积神经网络提取所述待预测音乐数据的第二特征向量；

步骤S520，利用所述中间层对所述第二特征向量进行时序特征关联，并利用所述多个全连接层对时序特征关联后的第二特征向量进行预测，得到所述预测仿真值。

以下，将结合图6对步骤S510-步骤S520进行解释以及说明。

首先，参考图6所示，该预设的音乐真实性判别模型可以包括多层卷积神经网络601、由两个长短期记忆网络以及一个隐藏层构成的多个并列连接的中间层602（中间层1、中间层2、……、中间层n）以及多层全连接层603。其中，每一个中间层分别与多层卷积神经网络以及多个全连接层连接；并且，在每一个中间层所包括的两个长短期记忆网络中，第一个长短期记忆网络从前到后依次连接（第一个中间层中包括的第一个长短期记忆网络与第二中间层包括的第一个长短期记忆网络连接，第二中间层包括的第一个长短期记忆网络与第三个中间层包括的第一个长短期极意网络连接）；第二个长短期记忆网络从后到前一起连接（第n个中间层中包括的第一个长短期记忆网络与第n-1个中间层包括的第二个长短期记忆网络连接，第n-1个中间层包括的第二个长短期记忆网络与第n-2个中间层包括的第二个长短期记忆网络连接）；进一步的，在每一个中间层中，第一个长短期记忆网络以及第二长短期记忆网络的输入相同（都是将多个卷积神经网络的输出作为输入），第一个长短期记忆网络的输出以及第二个长短期记忆网络的输出共同作为隐藏层的输入。

基于此可以得知，在对待预测音乐数据的预测仿真值的计算过程中，可以将待预测音乐数据作为多层卷积神经网络的输入，经过多层CNN（Convolutional NeuralNetworks，卷积神经网络）进行特征提取，然后再通过LSTM（Long Short-Term Memory，长短期记忆网络）进行时序特征关联，并通过多层全连接层进行输出计算，进而输出待预测音乐数据的预测仿真值（范围0~1，数字越大则音乐的真实度越高）。

进一步的，在本示例实施例中，还需要基于预设的音乐热度计算模型对待预测音乐数据的预测热度值进行计算。其中，该预设的音乐热度模型在结构上与预设的音乐真实性判别模型相似，也包括多层卷积神经网络、由两个长短期记忆网络以及一个隐藏层构成的多个并列连接的中间层（中间层1、中间层2、……、中间层n）以及多层全连接层，具体的原理此处不再赘述。

当然，在具体的预测热度值计算过程中，可以将待预测音乐数据作为音乐热度计算模型中的多层卷积神经网络的输入，经过多层CNN进行特征提取，然后再通过LSTM进行时序特征关联，并通过多层全连接层进行输出计算，进而输出待预测音乐数据的预测热度值（范围0~1，数字越大则预测歌曲热度潜力越大）。

在步骤S130中，根据预测仿真值大于第一预设阈值的待预测音乐数据生成第一数据集，并根据预测热度值大于第二预设阈值的待预测音乐数据生成第二数据集。

具体的，当得到各待预测音乐数据的预测仿真值以及预测热度值以后，可以根据各待预测音乐数据的预测仿真值以及预测热度值分别对各待预测音乐数据进行排序，进而根据排序结果将预测仿真值大于第一预设阈值的待预测音乐数据集放置到第一数据集中，并将预测热度值大于第二预设阈值的待预测音乐数据集放置到第二数据集中。此处需要补充说明的是，第一预设阈值以及第二预设阈值可以取相同的数值，也可以取不同的数值，本示例对此不做特殊限制；并且，第一预设阈值以及第二预设阈值的取值不能过大，也不能过小；如果过大，则导致第一数据集以及第二数据集中的待预测音乐数据数量过少，可能会存在交集为空的情况；如果过小，则会存在待预测音乐数据的仿真值较小或热度值较小，进而不能提升用户听觉体验的问题。

在步骤S140中，计算所述第一数据集以及第二数据集的交集，并根据交集计算结果得到所述音乐作品。

具体的，当得到第一数据集以及第二数据集以后，即可计算第一数据集以及第二数据集的交集，得到具有高仿真歌曲和高热度潜力歌曲的音乐作品，进而使得该音乐作品可以满足用户的听觉体验。

以下，将对上述预设的音乐生成模型、预设的音乐真实性判别模型以及预设的音乐热度计算模型的具体训练过程进行解释以及说明。

首先，参考图7所示，预设的音乐真实性判别模型的具体训练过程可以包括以下步骤：

步骤S710，获取原始音乐数据，并从所述原始音乐数据中筛选通过人工创作的音乐，以生成真实音乐数据集。

具体的，可以从各大媒体平台的数据库中获取原始音乐数据，并通过该原始音乐数据是否存在真实的作词人、作曲人或者演唱者等等方式，从中筛选出通过人工创作的音乐，以生成真实音乐数据集。

步骤S720，将随机输入参数输入至第一待训练的神经网络模型中，得到多个仿真音乐，并根据各所述仿真音乐生成第一仿真音乐数据集。

具体的，该输入参数可以包括该生成参数可以包括曲风参数，例如：现代电影、21世纪电影、航海民谣、爵士乐、幻想、流行、摇滚、中国风、探戈、电子以及氛围等等；还可以包括其他参数，例如乐器、调号、拍号、速度、时长等等，当然也可以根据实际需要自行输入，本示例对此不做特殊限定。同时，上述第一待训练的神经网络模型的具体结构与前文所述的预设的音乐生成模型的结构类似，此处不再赘述。

步骤S730，根据所述真实音乐数据集以及第一仿真音乐数据集生成带标签的真实音乐判别数据集，并利用所述带标签的真实音乐判别数据集对第二待训练的神经网络模型进行训练，得到所述预设的音乐真实性判别模型。

具体的，在真实音乐判别数据集中，无需通过人工的方式对各音乐数据进行逐一标注，直接根据各音乐数据的来源（真实音乐数据集或者第一仿真音乐数据集）即可准确的为各音乐数据准确的配置标签，进而可以提高该带标签的真实音乐数据集的准确率，从而提高音乐真实性判别模型的准确率。此处需要补充说明的是，在具体的训练过程中，可以将该带标签的真实音乐数据集划分成训练集、测试集以及验证集，具体的划分比例可以根据实际需要自行分配，此处对此不做特殊限定；并且，在具体的训练过程中所采用到的损失函数，可以采用常见的二分类损失函数，例如Sigmoid函数等等，本示例对此不做特殊限制。

其次，参考图8所示，预设的音乐热度计算模型的具体训练过程可以包括以下步骤：

步骤S810，获取所述真实音乐数据集中所包括的音乐的热度值，并根据所述热度值以及所述真实音乐数据集，生成带标签的热度数据集。

具体的，可以根据真实音乐数据集中所包括的音乐的点击量、下载量或者播放量，计算该音乐的热度值；当然，在热度值的计算过程中，也可以加入该音乐的发布时间长短作为权重，本示例对此不做特殊限制。

步骤S820，利用所述带标签的热度数据集对第三待训练的神经网络模型进行训练，得到所述预设的音乐热度计算模型。

具体的，在具体的训练过程中，可以将该带标签的热度数据集划分成训练集、测试集以及验证集，具体的划分比例可以根据实际需要自行分配，此处对此不做特殊限定；并且，在具体的训练过程中所采用到的损失函数，可以是交叉熵损失函数，本示例对此不做特殊限制。

进一步的，参考图9所示，预设的音乐生成模型的具体训练过程可以包括以下步骤：

步骤S910，利用所述预设的音乐真实性判别模型计算所述第一仿真音乐数据集中所包括的仿真音乐的第一热度偏差值；

步骤S920，利用所述预设的音乐热度计算模型计算所述第一仿真音乐数据集中所包括的仿真音乐的第一真实性偏差值；

步骤S930，根据所述随机输入参数、所述第一热度偏差值以及所述第一真实性偏差值对所述第一待训练的神经网络模型进行训练，得到所述预设的音乐生成模型。

在本示例实施例中，首先，根据所述第一热度偏差值以及第一真实性偏差值构建第一损失函数，并将所述随机输入参数再次输入至所述第一待训练的神经网络模型中，得到第二仿真音乐数据集；其次，计算所述第二仿真音乐数据集中所包括的仿真音乐的第二热度偏差值以及第二真实性偏差值，并根据所述第二热度偏差值以及第二真实性偏差值生成第二损失函数；最后，重复所述第二损失函数的生成步骤，以得到多个其他损失函数，并基于各所述损失函数对所述第一待训练的神经网络模型中所包括的参数进行调整，得到所述预设的音乐生成模型。

具体的，该损失函数具体可以如下公式（1）所示：

Loss=αP+βP 公式（1）

其中，Loss为第一损失函数，P为第一热度偏差值，R为第一真实性偏差值，α以及β为第一热度偏差值以及第一真实性偏差值的权重系数，并且有α+β=1。

需要进一步补充说明的是，在对第一仿真音乐数据集的第一热度偏差值以及第一真实性偏差值的计算过程中，默认第一方阵音乐数据集的热度值为零，进而可以根据所得到的预测热度值得到第一热度偏差值，第一真实性偏差值的计算过程类似，此处不再赘述；同时，其他损失函数的与第一损失函数类似，此处也不再赘述。

以下，结合图10对上述各模型的具体训练过程进行进一步的解释以及说明。

步骤S1001，生成真实音乐数据集D：具体的，收集若干首（例如10000首）人类通过正常创作方法制作的歌曲，即可作为真实音乐数据集D；

步骤S1002，带标签的热度数据集E。具体的，通过收集流媒体平台上的用户对真实音乐数据集中所包括的音乐的行为数据，对歌曲进行音乐热度的打标，进而得到带标签的热度数据集E。其中，打标方式为：对歌曲在流媒体平台上的多个用户行为数据（收藏量、点播量等）进行加权，得到加权结果x；例如，预设高热阈值m（例如100000），低热阈值n（例如100），若x>m，则此歌曲的热度标记y为高热；若n<x<m，则此歌曲的热度标记y为中热；若x<n，则此歌曲的热度标记d为低热（此实现中，热度标签通过两个阈值分为高中低三档，实际也可以通过更多阈值划分为更多档）；通过该方法，打标若干首（例如10000首）音乐的数据，即得到带标签的热度数据集E；

步骤S1003，以E为训练数据集，通过歌曲热度预测训练模块J，训练歌曲热度预测模型F的参数。具体的，歌曲热度预测模块F是一个神经网络算法，输入是音乐作品，经过多层CNN进行特征提取，LSTM进行时序特征关联，多层全连接进行输出计算的网络计算；输出音乐热度预测b（范围0~1，数字越大则预测歌曲热度潜力越大）；

步骤S1004，音乐生成模型B以随机参数初始化，以音乐生成参数输入模块A进行随机输入，通过音乐生成模块B，生成算法生成音乐。重复多次，以输出的多个“算法生成音乐”作为算法生成音乐临时数据集K；其中，音乐生成参数可以随机生成，或提供界面让人工输入，音乐生成算法所需要的参数a；参数可以包括：曲风、乐器、调号、拍号、速度、时长等；

步骤S1005，以算法生成音乐临时数据集K、真实音乐数据集D，组成真实音乐判别带标签数据集G。其中，以音乐生成参数输入模块A进行随机输入，通过音乐生成模块B，生成“算法生成音乐”；重复多次，以输出的多个“算法生成音乐”作为算法生成音乐临时数据集K；同时，以算法生成音乐临时数据集K、真实音乐数据集D，组成真实音乐判别带标签数据集G；该标签为该数据是否真实音乐，来源为K的数据标签为0，来源为D的数据标签为1；

步骤S1006，以G为训练数据集，通过真实音乐判别训练模块I，训练真实音乐判别模块C的参数。其中，真实音乐判别模块C是一个神经网络算法，输入是音乐作品，经过多层CNN进行特征提取，LSTM进行时序特征关联，多层全连接进行输出计算，的网络计算。输出歌曲是真实音乐的概率c（范围0~1，数字越大则认为是真实音乐的可能性越大）；以G为训练数据集，通过真实音乐判别训练模块I，训练真实音乐判别模块C的参数；

步骤S1007，完成C和F的参数训练后，以K为输入，通过C计算K的歌曲真实性偏差值R，通过F计算K的歌曲热度偏差值P；然后，以K、R以及P为训练数据，通过音乐生成训练模块H，训练音乐生成模块B的参数。其中，音乐生成模块B（也即预设的音乐生成模型），其输入是音乐生成参数a，在随机数向量（目的在于为生成的音乐带来变化）、时间特征（即当前帧在全曲中的时间位置信息）的参与下，经过多层全连接进行特征整理，LSTM层进行时序关联以及推断演算的网络计算，输出音乐作品（音乐作品这里是指音频数据，但也可以是能够表征音乐的其他类型数据，例如曲谱、频谱图等）；

进一步的，重复步骤S1004~S1007多次（例如1000次），实现B和C的迭代优化，使得最终得到的音乐生成模块B的模型参数以及真实音乐判别模块C的参数较为优良，进而完成音乐生成模型的训练。

以下，结合图11对上述各模型的具体应用过程进行解释以及说明。

步骤S1101，利用音乐生成参数输入模块A接收通过随机输入或人工输入的生成参数；

步骤S1102，将生成参数发送至音乐生成模块B，以得到待预测音乐数据，并根据待预测音乐数据生成音乐临时数据集K；

步骤S1103，以K为输入，通过C计算每首歌的歌曲的仿真程度R，通过F计算每首歌的热度潜力P；

步骤S1104，根据R把K中歌曲划分为低仿真歌曲、高仿真歌曲；具体的，以m为阈值（例如0.5），若R>=m则为高仿真歌曲，若R<m则为低仿真歌曲；

步骤S1105，根据P把K中歌曲划分为低热度潜力歌曲、高热度潜力歌曲；具体的，以n为阈值（例如0.5），若P>=n则为高热度潜力歌曲，若P<n则为低热度潜力歌曲；

步骤S1106，取高仿真歌曲和高热度潜力歌曲的交集，作为作品输出。

本发明公开示例实施例所提供的音乐作品的自动生成方法，一方面，可以生成出不但真实，并且好听（即具有高热度潜力）的歌曲；另一方面，还可以基于与热歌预测模块结合，通过更新音乐热度带标签数据集E，让算法可以跟进和学习，最新的用户反馈（收藏量、点播量等），解决生成算法与用户反馈体系脱节的问题。

示例性装置

在介绍了本发明公开示例性实施方式的音乐作品的自动生成方法之后，接下来，参考图12对本发明公开示例性实施方式的音乐作品的自动生成装置进行解释以及说明。参考图12所示，该音乐作品的自动生成装置可以包括待预测数据生成模块1210、第一计算模块1220、第一数据集生成模块1230以及音乐作品生成模块1240。其中：

待预测数据生成模块1210可以用于接收生成所述音乐作品所需的生成参数，并将所述生成参数输入至预设的音乐生成模型中，得到多个待预测音乐数据；

第一计算模块1220可以用于基于预设的音乐真实性判别模型计算各所述待预测音乐数据的预测仿真值，并基于预设的音乐热度计算模型计算各所述待预测音乐数据的预测热度值；

第一数据集生成模块1230可以用于根据预测仿真值大于第一预设阈值的待预测音乐数据生成第一数据集，并根据预测热度值大于第二预设阈值的待预测音乐数据生成第二数据集；

音乐作品生成模块1240可以用于计算所述第一数据集以及第二数据集的交集，并根据交集计算结果得到所述音乐作品。

示例性存储介质

在介绍了本发明公开示例性实施方式的音乐作品的自动生成方法和音乐作品的自动生成装置之后，接下来，参考图13对本发明公开示例性实施方式的存储介质进行说明。

参考图13所示，描述了根据本发明公开的实施方式的用于实现上述方法的程序产品1300，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明公开的程序产品不限于此。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备。

示例性电子设备

在介绍了本发明公开示例性实施方式的存储介质之后，接下来，参考图14对本发明公开示例性实施方式的电子设备进行说明。

图14显示的电子设备1400仅仅是一个示例，不应对本发明公开实施例的功能和使用范围带来任何限制。

如图14所示，电子设备1400以通用计算设备的形式表现。电子设备1400的组件可以包括但不限于：上述至少一个处理单元1410、上述至少一个存储单元1420、连接不同***组件（包括存储单元1420和处理单元1410）的总线1430、显示单元1440。

其中，所述存储单元1420存储有程序代码，所述程序代码可以被所述处理单元1410执行，使得所述处理单元1410执行本说明书上述“示例性方法”部分中描述的根据本发明公开各种示例性实施方式的步骤。例如，所述处理单元1410可以执行如图1中所示的步骤S110-S140。

存储单元1420可以包括易失性存储单元，例如随机存取存储单元（RAM）14201和/或高速缓存存储单元14202，还可以进一步包括只读存储单元（ROM）14203。

存储单元1420还可以包括具有一组（至少一个）程序模块14205的程序/实用工具14204，这样的程序模块14205包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1430可以包括数据总线、地址总线和控制总线。

电子设备1400也可以通过输入/输出（I/O）接口1450，与一个或多个外部设备1500（例如键盘、指向设备、蓝牙设备等）通信。并且，电子设备1400还可以通过网络适配器1460与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器1460通过总线1430与电子设备1400的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

应当注意，尽管在上文详细描述中提及了音乐作品的自动生成装置的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

应当注意，尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明公开的精神和原理，但是应该理解，本发明公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种音乐作品的自动生成方法，其特征在于，包括：

2.根据权利要求1所述的音乐作品的自动生成方法，其中，所述预设的音乐生成模型中包括多个由多个全连接层以及长短期记忆网络组成的神经网络单元；

3.根据权利要求1所述的音乐作品的自动生成方法，其中，所述预设的音乐真实性判别模型中包括多层卷积神经网络、由两个长短期记忆网络以及一个隐藏层构成的多个并列连接的中间层以及多个全连接层；

4.根据权利要求1所述的音乐作品的自动生成方法，其中，所述音乐作品的自动生成方法还包括：

5.根据权利要求4所述的音乐作品的自动生成方法，其中，所述音乐作品的自动生成方法还包括：

6.根据权利要求5所述的音乐作品的自动生成方法，其中，所述音乐作品的自动生成方法还包括：

7.根据权利要求6所述的音乐作品的自动生成方法，其中，根据所述随机输入参数、所述热度偏差值以及所述真实性偏差值对所述第一待训练的神经网络模型进行训练，得到所述预设的音乐生成模型，包括：

8.一种音乐作品的自动生成装置，其特征在于，包括：

9.根据权利要求8所述的音乐作品的自动生成装置，其中，所述预设的音乐生成模型中包括多个由多个全连接层以及长短期记忆网络组成的神经网络单元；

10.根据权利要求8所述的音乐作品的自动生成装置，其中，所述预设的音乐真实性判别模型中包括多层卷积神经网络、由两个长短期记忆网络以及一个隐藏层构成的多个并列连接的中间层以及多个全连接层；

11.根据权利要求8所述的音乐作品的自动生成装置，其中，所述音乐作品的自动生成装置还包括：

12.根据权利要求11所述的音乐作品的自动生成装置，其中，所述音乐作品的自动生成装置还包括：

13.根据权利要求12所述的音乐作品的自动生成装置，其中，所述音乐作品的自动生成装置还包括：

14.根据权利要求13所述的音乐作品的自动生成装置，其中，根据所述随机输入参数、所述热度偏差值以及所述真实性偏差值对所述第一待训练的神经网络模型进行训练，得到所述预设的音乐生成模型，包括：

15.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的音乐作品的自动生成方法。

16.一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的音乐作品的自动生成方法。