CN105976802A

CN105976802A - 基于机器学习技术的音乐自动生成***

Info

Publication number: CN105976802A
Application number: CN201610253700.0A
Authority: CN
Inventors: 汤影; 杨林
Original assignee: Chengdu Tuya Technology Co Ltd
Current assignee: Chengdu Tuya Technology Co Ltd
Priority date: 2016-04-22
Filing date: 2016-04-22
Publication date: 2016-09-28

Abstract

本发明公开了一种基于机器学习技术的音乐自动生成***，包括：素材库，位于后端服务器，用于存储Riff，并标注Riff的属性；用户输入模块，安装于移动终端，用于用户输入触发信息；音乐生成模块，安装于移动终端，用于根据用户输入的触发信息从素材库中筛选备用Riff，并根据备用Riff和触发信息生成音乐文件。本发明中用户只需要输入触发信息，***即可根据触发信息自动生成相应的音乐；通过机器学习等技术的帮助，使得普通大众能够参与到音乐制作、交互这种专业活动中创造属于自己的音乐，在此过程中用户只需输入语音信息，即可自动生成相应的说唱音乐。

Description

基于机器学习技术的音乐自动生成***

技术领域

本发明涉及音乐制作技术领域，特别是涉及一种基于机器学习技术的音乐自动生成***。

背景技术

回顾音乐的发展史，音乐的创作和交互方式从未发生过大的变化。在人类文明高度发展的今天，传统上音乐首先被专业人士创作出来，进而以磁带、CD、电台或互联网音频流等形式进入大众耳朵。现场演出会可能发生的部分即兴改编，或类似于“音乐背后的创作故事”等对话交流，音乐从被创作出来，直至在大众中传播的整个过程几乎不存在任何变化。同时，音乐本身和听众之间的交互也仅停留于“你写我听”的层面。由于听众类型、情绪、喜好等外在因素和音乐本身之间缺少感应传输媒介，音乐也无法随外界输入变化而变化。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于机器学习技术的音乐自动生成***，用户通过输入触发信息，即可自动生成相应的音乐。

本发明的目的是通过以下技术方案来实现的：基于机器学习技术的音乐自动生成***，包括：素材库，位于后端服务器，用于存储Riff，并标注Riff的属性；用户输入模块，安装于移动终端，用于用户输入触发信息；音乐生成模块，安装于移动终端，用于根据用户输入的触发信息从素材库中筛选备用Riff，并根据备用Riff和触发信息生成音乐文件。

所述触发信息为语音信息、文字信息或动作信息。

所述动作信息为晃动手机或划屏动作。

所述音乐生成模块包括：筛选子模块，用于根据用户输入的触发信息从素材库中选取Riff；音乐制作子模块，用于根据用户输入的触发信息将选取的Riff进行排序生成音乐文件；效果器添加子模块，用于向音乐文件中添加效果器；音乐输出子模块，用于输入音乐文件。

所述音乐生成模块还包括音乐调节子模块，用于对音乐文件进行变速不变调调节。

所述音乐生成模块还包括语音文字互转模块，用于将语音信息转换为文本信息，或是将文本信息转换为语音信息。

所述效果器包括混响效果器、镶边效果器、延迟效果器和回声效果器。

本发明的有益效果是：本发明中，用户只需要输入触发信息，***即可根据触发信息自动生成相应的音乐；本发明通过机器学习等技术的帮助，使得普通大众能够参与到音乐制作、交互这种专业活动中创造属于自己的音乐，在此过程中用户只需输入语音信息，即可自动生成相应的说唱音乐。

附图说明

图1为本发明基于机器学习技术的音乐自动生成***的流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，基于机器学习技术的音乐自动生成***，包括素材库、用户输入模块和音乐生成模块。

所述素材库，位于后端服务器，用于存储Riff，并标注Riff的属性。Riff包括Loop（如鼓、吉他、贝斯、弦乐、特殊音效等音频片段）和VST（包括midi文件和虚拟乐器采样），多个不同的Riff按音乐发挥在那的时间先后顺序排列构成一轨的Riff集，若干轨的Riff集（比如常见的鼓轨Riff集，吉他轨Riff集，贝斯轨Riff集，弦乐轨Riff集，特殊音效轨Riff集等）构成一首完整歌曲的音乐部分。对Riff的属性进行标注的方式包括半监督学习方式和人工标注方式，本实施例中以半监督学习方式为主，结合人工标注，为素材库中Riff添加标签，即进行标注（如鼓、吉他、贝司等Riff的速度、长度、根音、节奏型，甚至情绪类型等）。

所述用户输入模块，安装于移动终端，用于用户输入触发信息。

所述移动终端内部设有方向传感器、加速度传感器、地磁传感器、压力传感器，以及温度传感器。

所述触发信息为语音信息、文字信息或动作信息；当触发信息为语音信息时，音乐生成模块输出的音乐文件为说唱音乐；当触发信息为文本信息时，音乐生成文件输出端音乐文件为说唱音乐或纯音乐；当触发信息为动作信息时，输音乐生成模块输出的音乐文件为纯音乐。

所述动作信息为晃动手机或划屏动作，用户可以在上下左右等方向上晃动手机或在上下左右方向上进行划屏动作。用户的操作的不同特征对应音乐不同的组成要素，例如，用户晃动手机的速度对应音乐的速度、用户晃动手机的力度对应音乐的节奏、用户晃动手机的方向对应音乐的调性，用户划屏的方向对应音乐的调性、用户划屏的频率对应音乐的速度、用户划屏的力度对应音乐的节奏。

所述音乐生成模块，安装于移动终端，用于根据用户输入的触发信息从素材库中筛选备用Riff，并根据备用Riff和触发信息生成音乐文件。

所述音乐生成模块包括筛选子模块、音乐制作子模块、效果器添加子模块和音乐输出子模块。

所述筛选子模块，用于根据用户输入的触发信息从素材库中选取Riff。

所述音乐制作子模块，用于根据用户输入的触发信息将选取的Riff进行排序生成音乐文件。

所述效果器添加子模块，用于向音乐文件中添加效果器。所述效果器包括混响效果器、镶边效果器、延迟效果器和回声效果器。

所述音乐输出子模块，用于输入音乐文件。

所述音乐生成模块还包括音乐调节子模块，用于对音乐文件进行变速不变调调节；本实施例中采用SOLA算法实现对分段语音的变速不变调操作，SOLA算法可以使一段语音在语调不发生变化的前提下，加快、减慢语音速度，被广泛用于复读机、语音扫描等领域，商用音高修正等软件中的核心组成部分是在保持语音速度不变的前提下，SOLA算法可用于提高、降低语音之音调。

本发明的工作原理为：建立Riff库，Riff标注子模块对Riff库中的Riff进行属性标注。用户输入触发信息：

若触发信息为语音信息，则利用基于深度学习的语音识别技术将语音信息转为文本信息，对文本信息进行分词，以分词后文本和Riff之间，Riff和Riff之间在整体上协调性最大为目标，粗筛Riff库得到备选Riff，局部细调分词后文本的各分词间的相对位置，最大化文本和Riff在局部上的协调性，根据细调后的分词文本和语音端点检测技术对原始语音信息进行分段，得到分段语音，然后根据分词后文本的各分词间的相对位置信息对分段语音进行调速不调频操作，得到语音信息和Riff之间的最优配对，使得二者协调性最大，对分段语音和备选Riff，在一定约束下，分别随机加入效果器，最终输出为说唱音乐，还可以将输出的说唱音乐分享到社交网站上。

若触发信息为文本信息，则对文本信息进行分词，以分词后文本和Riff之间，Riff和Riff之间在整体上协调性最大为目标，粗筛Riff库得到备选Riff，局部细调分词后文本的各分词间的相对位置，最大化文本和Riff在局部上的协调性，对备选素材在一定约束下随机加入效果器，最终输出为纯音乐，还可以将输出的纯音乐分享到社交网站上，对分段语音和备选Riff，在一定约束下，分别随机加入效果器，最终输出为说唱音乐，还可以将输出的说唱音乐分享到社交网站上。

若触发信息为文本信息，则对文本信息进行分词，以分词后文本和Riff之间，Riff和Riff之间在整体上协调性最大为目标，粗筛Riff库得到备选Riff，局部细调分词后文本的各分词间的相对位置，最大化文本和Riff在局部上的协调性，根据分词文本间的相对位置信息，将分词文本转换为带节奏的分段语音，对分段语音和备选Riff，在一定约束下，分别随机加入效果器，最终输出为说唱音乐，还可以将输出的说唱音乐分享到社交网站上。

若触发信息为动作信息，则根据用户的动作信息（动作信息包括用户在移动终端上的操作的类型和频率）筛选出备选Riff，对备选Riff加入效果器，最终输出为纯音乐，还可以将输出的纯音乐分享到社交网站上。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.基于机器学习技术的音乐自动生成***，其特征在于：包括：

素材库，位于后端服务器，用于存储Riff，并标注Riff的属性；

用户输入模块，安装于移动终端，用于用户输入触发信息；

音乐生成模块，安装于移动终端，用于根据用户输入的触发信息从素材库中筛选备用Riff，并根据备用Riff和触发信息生成音乐文件。

2.根据权利要求1所述的基于机器学习技术的音乐自动生成***，其特征在于：所述触发信息为语音信息、文字信息或动作信息。

3.根据权利要求2所述的基于机器学习技术的音乐自动生成***，其特征在于：所述动作信息为晃动手机或划屏动作。

4.根据权利要求1所述的基于机器学习技术的音乐自动生成***，其特征在于：所述音乐生成模块包括：

筛选子模块，用于根据用户输入的触发信息从素材库中选取Riff；

音乐制作子模块，用于根据用户输入的触发信息将选取的Riff进行排序生成音乐文件；

效果器添加子模块，用于向音乐文件中添加效果器；

音乐输出子模块，用于输入音乐文件。

5.根据权利要求4所述的基于机器学习技术的音乐自动生成***，其特征在于：所述音乐生成模块还包括音乐调节子模块，用于对音乐文件进行变速不变调调节。

6.根据权利要求2或4所述的基于机器学习技术的音乐自动生成***，其特征在于：所述音乐生成模块还包括语音文字互转模块，用于将语音信息转换为文本信息，或是将文本信息转换为语音信息。

7.根据权利要求4所述的基于机器学习技术的音乐自动生成***，其特征在于：所述效果器包括混响效果器、镶边效果器、延迟效果器和回声效果器。