CN113539215A

CN113539215A - 音乐风格转换方法、装置、设备及存储介质

Info

Publication number: CN113539215A
Application number: CN202011591466.5A
Authority: CN
Inventors: 田思达
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-10-22
Anticipated expiration: 2040-12-29
Also published as: CN113539215B

Abstract

本申请提供了一种音乐风格转换方法、装置、设备及存储介质，该方法包括：获取待转换音乐和待转换音乐的目标转换风格；获取待转换音乐的主旋律数据；获取基于主旋律数据的至少一种MIDI数据；根据至少一种MIDI数据生成至少一种乐器音乐；根据至少一种乐器音乐，得到待转换音乐对应的风格转换后的音乐。一方面可以避免音乐杂音的出现，另一方面可以提高风格转换后的音乐的辨识度。

Description

音乐风格转换方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能(Artificial Intellegence，AI)技术，尤其涉及一种音乐风格转换方法、装置、设备及存储介质。

背景技术

目前各种音乐软件都提供了音乐风格转换功能，比如将输入音乐转换为摇滚、爵士、流行、演唱会风格等。

目前的音乐风格转换功能实质是利用基于Wavenet网络结构的编码器和解码器，对输入音频的脉冲编码调制(Pulse Code Modulation，PCM)信息建模，进而输出指定风格的音乐。这种基于端到端Wavenet的音乐风格转换方法，存在输出音频杂音过大的问题，并且输出音频的指定风格不明显，即辨识度不高的问题。

发明内容

本申请提供一种音乐风格转换方法、装置、设备及存储介质，一方面可以避免音乐杂音的出现，另一方面可以提高风格转换后的音乐的辨识度。

第一方面，本申请提供一种音乐风格转换方法，包括：获取待转换音乐和待转换音乐的目标转换风格；获取待转换音乐的主旋律数据；获取基于主旋律数据的至少一种MIDI数据，其中，每种MIDI数据对应目标转换风格的一种乐器；根据至少一种MIDI数据生成至少一种乐器音乐；根据至少一种乐器音乐，得到待转换音乐对应的风格转换后的音乐。

第二方面，本申请提供一种音乐风格转换装置，包括：第一获取模块、第二获取模块、第三获取模块、生成模块和处理模块，其中，第一获取模块用于获取待转换音乐和待转换音乐的目标转换风格；第二获取模块用于获取待转换音乐的主旋律数据；第三获取模块用于获取基于主旋律数据的至少一种MIDI数据，其中，每种MIDI数据对应目标转换风格的一种乐器；生成模块用于根据至少一种MIDI数据生成至少一种乐器音乐；处理模块用于根据至少一种乐器音乐，得到待转换音乐对应的风格转换后的音乐。

第三方面，提供了一种音乐风格转换设备，包括：处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，以执行第一方面的方法。

第四方面，提供了一种计算机可读存储介质，用于存储计算机程序，该计算机程序使得计算机执行第一方面的方法。

通过本申请提供的技术方案，由于获取的是MIDI数据，因此不会有杂音，另外，由于组合了对应乐器音乐，而这些音乐的辨识度较高，从而可以提高风格转换后的音乐的辨识度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种音乐风格转换方法的流程图；

图2为本申请实施例提供的一种音乐风格转换过程的示意图；

图3为本申请实施例提供的自动转录前后的示意图；

图4A为本申请实施例提供的另一种音乐风格转换过程的示意图；

图4B为本申请实施例提供的再一种音乐风格转换过程的示意图；

图5为本申请实施例提供的后处理操作之前的示意图；

图6为本申请实施例提供的后处理操作之后的示意图；

图7为本申请实施例提供的一种音乐风格转换装置的示意图；

图8是本申请实施例提供的音乐风格转换设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解的是，本申请涉及AI技术。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

如上所述，目前的音乐风格转换功能实质是利用基于Wavenet网络结构的编码器和解码器，对输入音频的PCM信息建模，进而输出指定风格的音乐。这种基于端到端Wavenet的音乐风格转换方法，存在输出音频杂音过大的问题，并且输出音频的指定风格不明显，即辨识度不高的问题。

为了解决上述技术问题，本申请通过提取输入音乐的音乐数字接口(MusicalInstrument Digital Interface，MIDI)数据，并根据该MIDI数据获取指定风格或者待转换风格对应的至少一种乐器音乐，最后可以对这些乐器音乐进行合成，以输出风格转换后的音乐。

可选地，本申请可以应用于如下场景，但不限于此：用户可以通过Web接口或者应用(Application，APP)向音乐风格转换设备上传以下任一项：待转换音乐、包含待转换音乐的视频文件、待转换音乐的统一资源定位符(Uniform Resource Locator，URL)、包含待转换音乐的视频文件的URL。

下面将对本申请技术方案进行详细阐述：

图1为本申请实施例提供的一种音乐风格转换方法的流程图，该方法的执行主体可以是音乐风格转换设备，该设备可以是平板、个人电脑(Personal Computer，PC)、服务器等智能设备，该方法包括如下步骤：

步骤S110：获取待转换音乐和对应的目标转换风格。

步骤S120：获取待转换音乐的主旋律数据。

步骤S130：获取基于主旋律数据的至少一种MIDI数据，其中，每种MIDI数据对应目标转换风格的一种乐器。

步骤S140：根据至少一种MIDI数据生成至少一种乐器音乐。

步骤S150：根据至少一种乐器音乐，得到待转换音乐对应的风格转换后的音乐。

可选地，用户可以向音乐风格转换设备上传待转换音乐的URL或者包含上述待转换音乐的视频文件的URL，以使音乐风格转换设备可以通过URL从对应服务器获取待转换音乐或者包含上述待转换音乐的视频文件。当然，用户也可以直接上传待转换音乐或者包含上述待转换音乐的视频文件。本申请对此不做限制。

可选地，假设上述音乐风格转换方法由音乐风格转换设备中的某算法模型实现，那么该算法模型的输入可以是上述待转换音乐，其中，若音乐风格转换设备获取到的是包含上述待转换音乐的视频文件，则音乐风格转换设备先要从该视频文件中提取待转换音乐。

应理解的是，本申请对如何从视频文件中提取待转换音乐不做限制。

可选地，若上述算法模型对输入的待转换音乐有格式要求，例如：该算法模型只对wav格式的音频做处理，那么音乐风格转换设备在将待转换音乐输入至算法模型之前，还需要判断该待转换音乐的格式是否符合算法模型的格式要求，如果不符合算法模型的格式要求，则将待转换音乐的格式转换为算法模型规定的格式，例如：将mp3格式转换为wav格式。

应理解的是，本申请对如何进行音乐格式转换不做限制。

可选地，待转换音乐的目标转换风格是待转换音乐对应的转换后的音乐风格。例如：目标转换风格可以是民谣、歌剧、流行、轻音乐、中国风、摇滚、DJ、FutureBass、R&B等。

需要说明的是，步骤S120可以被称为前处理步骤、前处理过程或者前处理操作。

可选地，音乐风格转换设备在获取到待转换音乐后，可以进行音乐分离，分为贝斯、鼓点、演唱声、主旋律4个轨道或者4组数据，如图2所示。其中主旋律轨道或者主旋律数据用于获取MIDI数据，演唱声轨道可视具体应用场景或用户选择是否贴合到最终的输出音乐中，贝斯和鼓点轨道可以丢弃。

应理解的是，上述演唱者轨道也可以被称为演唱者数据或者歌声数据等，本申请对此不做限制。

值得一提的是，从待转换音乐中提取主旋律数据的好处有：一是可以扩大待转换音乐的范围，例如：待转换音乐可以不仅仅是主旋律，也可以包括有歌声。二是可以排除其他轨道对后续音乐风格转换的干扰，例如：可以排除贝斯和鼓点对后续音乐风格转换过程的影响。

可选地，音乐风格转换设备采用现有任意的音源分离算法进行音源分离。例如：采取开源的spleeter算法来实施音源分离，该算法采用基于U-net网络的编码解码结构对待转换音乐建模，实现高效准确的音源分离功能。

需要说明的是，可以将步骤S130中获取任一种MIDI数据的过程称为自动转录步骤或者自动转录操作。即自动转录步骤或者自动转录操作都是针对单一乐器进行的。例如：假设目标转换风格是民谣，那么针对木吉他尼龙弦、民谣贝斯、木鱼等乐器，分别基于主旋律数据生成它们对应的MIDI数据。再例如：假设目标转换风格是国风，那么针对弹拨弦乐、短笛、长笛、十三弦筝、木鱼等乐器，分别基于主旋律数据生成它们对应的MIDI数据。

应理解的是，假设由一算法模型实现自动转录操作，那么该算法模型的输入是主旋律数据，即主旋律的PCM数据，输出的是某一乐器对应的MIDI数据。针对不同的乐器，其对应的用于实现自动转录操作的算法模型不同。

可选地，上述算法模型采用的算法可以是Onsets and Frames算法，但不限于此。

应理解的是，当采用Onsets and Frames算法获取MIDI数据时，该算法对应的算法模型在获取到主旋律数据之后，先将该主旋律数据转化为Log Mel谱矩阵，其次将Log Mel谱矩阵传输至深度网络中，最终得到MIDI数据。其中，深度网络分为Onsets分支和Frames分支，前者预测每个时刻88个钢琴键开启的概率，后者受到Onset分支限制，预测每个时刻88个钢琴键真实存在的概率。

可选地，MIDI数据由不同的节拍组成，每个节拍包含音高、起始时间、终止时间等信息。如图3所示，上方为主旋律的PCM数据，下方为MIDI数据，每个方格表示一个节拍。

应理解的是，某乐器的MIDI数据可以被理解为该乐器的乐谱。

可选地，音乐风格转换设备在得到至少一种MIDI数据之后，可以结合音色器文件，可由合成库自动生成至少一种MIDI数据各自对应的乐器音乐。或者，音乐风格转换设备在得到至少一种MIDI数据之后，先修正MIDI数据，得到至少一种修正后的MIDI数据，然后可以结合音色器文件，可由合成库自动生成至少一种MIDI修正后的数据各自对应的乐器音乐。或者，音乐风格转换设备在得到至少一种MIDI数据之后，可以自适应的确定是否需要修正MIDI数据，如果不需要修改MIDI数据，则可以结合音色器文件，可由合成库自动生成至少一种MIDI数据各自对应的乐器音乐。如果需要修正MIDI数据，则先修正MIDI数据，然后结合音色器文件，可由合成库自动生成至少一种修正后的MIDI数据各自对应的乐器音乐。

应理解的是，音色器文件也被称为乐器文件，该文件包括：多种乐器的声音、音色等，本申请对此不做限制。

示例性地，假设目标转换风格是民谣，且音乐风格转换设备获取到了木吉他尼龙弦、民谣贝斯、木鱼等乐器分别对应的MIDI数据。那么音乐风格转换设备结合音色器文件，生成木吉他尼龙弦、民谣贝斯、木鱼等乐器对应的音乐。

示例性地，假设目标转换风格是国风，且音乐风格转换设备获取到了弹拨弦乐、短笛、长笛、十三弦筝、木鱼等乐器分别对应的MIDI数据。那么音乐风格转换设备结合音色器文件，生成弹拨弦乐、短笛、长笛、十三弦筝、木鱼等乐器对应的音乐。

值得一提的是，如果音乐风格转换设备对MIDI数据进行了修正，那么可以将该修正过程称为后处理过程或者后处理操作。如图4A所示，这种情况下，在音乐风格转换过程中包括后处理操作。当然，也可以不对MIDI数据进行修正，如图4B所示。

可选地，在得到至少一种乐器音乐之后，音乐风格转换设备可以对至少一种乐器音乐进行组合，得到待转换音乐对应的风格转换后的音乐。或者，音乐风格转换设备可以对至少一种乐器音乐进行组合并且加入鼓点音乐，得到待转换音乐对应的风格转换后的音乐。又或者，音乐风格转换设备可以对至少一种乐器音乐进行组合，并且加入鼓点音乐和从待转换音乐中提取的歌声数据，得到待转换音乐对应的风格转换后的音乐。

需要说明的是，步骤S150的可实现方式不限于此上述方法。

可选地，音乐风格转换设备在得到风格转换后的音乐之后，也可以生成该音乐的URL，并将URL推送给用户。

综上，在本申请中，音乐风格转换设备可以获取主旋律数据的MIDI数据，相当于乐谱一样，然后再根据MIDI生成对应乐器音乐，可以对这些对应乐器音乐进行组合，或者结合鼓点音乐和/或歌声数据，最终输出风格转换后的音乐，在本申请中，由于获取的是MIDI数据，因此不会有杂音，另外，由于组合了对应乐器音乐，而这些音乐的辨识度较高，从而可以提高风格转换后的音乐的辨识度。

此外，相对于基于端到端Wavenet的音乐风格转换方法，即Wavenet的输入和输出均是音乐，而本申请提供的音乐风格转换方法并不涉及这种端到端的方法，即音乐风格转换设备中的算法模型的输入是主旋律数据，输出是MIDI数据，从这一点即可看出该算法模型相对于Wavenet较为简单，从模型模型的训练角度而言，本申请涉及的用于获取MIDI数据的算法模块的训练时间相较于Wavenet的训练时间更短。

在有些情况下，由于待转换音乐太过复杂，尽管在前处理阶段提取了主旋律数据进行自动音乐转录，但这部分音乐和用于获取MIDI数据的算法模型的训练数据可能会有差距，从而导致MIDI数据并不准确，如图5所示，这种情况下，会出现很多细碎的节拍。为了解决这一问题，本申请可以对MIDI数据进行修正，即进行后处理操作，具体如下：

可选地，在对MIDI数据进行修正之前，可以先判断主旋律数据是否满足预设条件，如果满足预设条件，则修正MIDI数据，否则，不修正MIDI数据。

可选地，预设条件包括，但不限于此：主旋律数据中第一节拍在主旋律数据中的比例大于预设比例；其中，该第一节拍是时长小于预设时长的节拍。即第一节拍为主旋律数据中的细碎节拍。

可选地，上述预设比例可以是20％或者30％等，本申请对此不做限制。

可选地，上述预设时长可以是1ms或者2ms等，本申请对此不做限制。

示例性地，假设预设比例为20％，而对于纯净主旋律而言，其第一节拍的比例一般为10％，对于复杂主旋律而言，其第一节拍的比例一般为30％，按照本申请提供的是否修正MIDI数据的自适应方法，音乐风格转换设备应该无需修正纯净主旋律，而需要修正复杂主旋律。

可选地，当音乐风格转换设备确定需要修正上述至少一种MIDI数据时，针对至少一种MIDI数据中的任一种MIDI数据，音乐风格转换设备可以采用如下方式修正这种MIDI数据，但不限于此：(1)针对这种MIDI数据中同一音高同一小节内的节拍，对第一预设时间范围内的第二节拍进行合并。(2)对第二预设时间范围内的第二节拍和第三节拍进行合并。(3)对第四节拍进行处理。

其中，第二节拍是时长大于第一预设时长且小于第二预设时长的节拍。第三节拍是时长大于或等于第二预设时长的节拍。第四节拍是时长小于或等于第一预设时长的节拍。

应理解的是，第二节拍可以被理解为细碎节拍，第四节拍可以被理解为超小节拍，第三节拍可以理解为除细碎节拍、超小节拍之外的正常节拍。

可选地，上述第一预设时间范围、第二预设时间范围可以是预定义的。第一预设时间范围和第二预设时间范围的长度可以相同或者不同，例如：第二预设时间范围的长度可以大于第一预设时间范围的长度。

应理解的是，对于同一音高同一小节内的节拍，只要在第一预设时间范围内的第二节拍，都可以进行合并。参照图6和图5，如图5所示的，同一音高同一小节内的节拍A和节拍B，其在第一预设时间范围内，对二者进行合并，得到如图6所示的节拍C。

可选地，在对第一预设时间范围内的各个第二节拍合并之后，可能会存在一些没有合并的第二节拍，即孤立的第二节拍，这种情况下，可以对这类第二节拍和与其在第二预设范围内的第三节拍进行合并。

值得一提的是，该第三节拍可以是在没进行第(1)点之前的正常节拍，也可以是在进行第(1)点由于合并第二节拍而形成的正常节拍。

应理解的是，对于同一音高同一小节内的节拍，只要在第二预设时间范围内的第二节拍和第三节拍，都可以进行合并。

可选地，在对第二预设时间范围内的第二节拍和第三节拍合并之后，由于上述只是对第二节拍进行了合并，因此，可能会存在一些第四节拍，即超小节拍，这种情况下，可以删除或者延长这类节拍。

可选地，可以将第四节拍延长至第二节拍的长度或者第三节拍的长度，本申请对此不做限制。

需要说明的是，上述第(1)点、第(2)点和第(3)点可以独立执行，也可以执行部分或者全部，例如：只执行第(1)点，或者执行第(1)点和第(2)点，或者，执行第(1)点至第(3)点。

此外，本申请对上述第(1)点、第(2)点和第(3)点的执行顺序不做限制，例如：可以先执行第(1)点，再执行第(2)点，最后执行第(3)点，当然也可以先执行第(3)点，再执行第(1)点，最后执行第(2)点。

综上，在本申请中，音乐风格转换设备可以针对是否修正MIDI数据，采取自适应方法，即在MIDI数据准确度较高的情况下，无需修正MIDI数据，从而可以提高音乐风格转换效率。而在MIDI数据准确度较低的情况下，可以修正MIDI数据，从而可以提高音乐风格转换的准确率。

进一步地，在本申请中，由于细碎节拍，即上述第二节拍的音高和位置都是正确的，因此可以对这类节拍进行合并，从而可以提高MIDI数据的准确性，即自动转录的准确性。此外，通过删除超小节拍的方式，也可以提高自动转录的准确性。

可选地，在音乐风格转换设备得到上述至少一种乐器音乐之后，可以对至少一种乐器音乐进行组合，得到组合后的音乐。

示例性地，假设目标转换风格是民谣，且得到木吉他尼龙弦、木吉他钢弦、民谣贝斯、木鱼等乐器的音乐之后，可以对它们进行组合，以生成民谣曲风。假设目标转换风格是国风，且得到弹拨弦乐、短笛、长笛、十三弦筝、木鱼等乐器的音乐之后，可以对它们进行组合，以生成国风曲风。

值得一提的是，对于一些节奏感较强的曲风，例如：摇滚、DJ、FutureBass、R&B等，需要搭配对应的鼓点音乐才能更好地体现风格特性。这种情况下，需要获取待转换音乐对应的鼓点音乐，并对上述组合后的音乐和待转换音乐对应的鼓点音乐进行组合，以得到待转换音乐对应的风格转换后的音乐。

可选地，音乐风格转换设备可以采用一定的算法先确定待转换音乐需要加入鼓点音乐的位置。其次，对目标转换风格对应的鼓点音乐进行伸缩处理，使得待转换音乐对应的鼓点音乐与待转换音乐需要加入鼓点音乐的位置对齐，以得到待转换音乐对应的鼓点音乐。

可选地，音乐风格转换设备可以采用RNNDownBeat算法来确定待转换音乐需要加入鼓点音乐的位置。该算法的大致流程包括：先获取待转换音乐的PCM数据，接着利用快速傅里叶变换获取该PCM数据对应的频谱图，然后将该频谱图输入至循环神经网络(Recurrent Neural Network,RNN)时序深度模型中，以获取鼓点概率较高的位置，该位置即为待转换音乐需要加入鼓点音乐的位置。

如上所述，音乐风格转换设备可以获取到待转换音乐的歌声数据，基于此，可以将该歌声数据与上述组合后的音乐进行组合，或者将该歌声数据、待转换音乐对应的鼓点音乐与上述组合后的音乐组合进行组合，以适应具体应用场景。或者，如果用户选择了需要加入歌声数据这种模式，则执行上述操作。

综上，在本申请中，音乐风格转换设备可以对至少一种乐器音乐进行组合，最终输出风格转换后的音乐。或者，对至少一种乐器音乐进行组合，得到组合后的音乐，并结合待转换音乐的鼓点音乐，得到风格转换后的音乐。又或者，对至少一种乐器音乐进行组合，得到组合后的音乐，并结合歌声数据，得到风格转换后的音乐。再或者，对至少一种乐器音乐进行组合，得到组合后的音乐，并结合歌声数据和鼓点音乐，得到风格转换后的音乐。由于组合了至少一种乐器音乐，而这些音乐的辨识度较高，从而可以提高风格转换后的音乐的辨识度。

图7为本申请实施例提供的一种音乐风格转换装置的示意图，该音乐风格转换装置包括：

第一获取模块710，用于获取待转换音乐和待转换音乐的目标转换风格。

第二获取模块720，用于获取待转换音乐的主旋律数据。

第三获取模块730，用于获取基于主旋律数据的至少一种MIDI数据，其中，每种MIDI数据对应目标转换风格的一种乐器。

生成模块740，用于根据至少一种MIDI数据生成至少一种乐器音乐。

处理模块750，用于根据至少一种乐器音乐，得到待转换音乐对应的风格转换后的音乐。

可选地，音乐风格转换装置还包括：判断模块760，用于在生成模块根据至少一种MIDI数据生成至少一种乐器音乐之前，判断主旋律数据是否满足预设条件。

可选地，生成模块740具体用于：若主旋律数据满足预设条件，则修正至少一种MIDI数据，得到修正后的至少一种MIDI数据。生成修正后的至少一种MIDI数据对应的至少一种乐器音乐。若主旋律数据不满足预设条件，则生成至少一种MIDI数据对应的至少一种乐器音乐。

可选地，预设条件包括：主旋律数据中第一节拍在主旋律数据中的比例大于预设比例。其中，第一节拍是时长小于预设时长的节拍。

可选地，生成模块740具体用于：针对至少一种MIDI数据中的任一种MIDI数据，针对MIDI数据中同一音高同一小节内的节拍，对第一预设时间范围内的第二节拍进行合并。对第二预设时间范围内的第二节拍和第三节拍进行合并。对第四节拍进行处理。其中，第二节拍是时长大于第一预设时长且小于第二预设时长的节拍。第三节拍是时长大于或等于第二预设时长的节拍。第四节拍是时长小于或等于第一预设时长的节拍。

可选地，生成模块740具体用于：延长或者删除第四节拍。

可选地，生成模块740具体用于：将第四节拍延长至第二节拍的时长。

可选地，处理模块750具体用于：对至少一种乐器音乐进行组合，得到组合后的音乐。根据目标转换风格，判断组合后的音乐是否需要加入鼓点音乐。根据组合后的音乐是否需要加入鼓点音乐的结果以及组合后的音乐，得到待转换音乐对应的风格转换后的音乐。

可选地，处理模块750具体用于：若组合后的音乐需要加入鼓点音乐，则获取待转换音乐对应的鼓点音乐，并对组合后的音乐和待转换音乐对应的鼓点音乐进行组合，得到待转换音乐对应的风格转换后的音乐。若组合后的音乐不需要加入鼓点音乐，则将组合后的音乐作为待转换音乐对应的风格转换后的音乐。

可选地，音乐风格转换装置还包括：第四获取模块770，用于获取待转换音乐的歌声数据。

处理模块750具体用于：根据待转换音乐的歌声数据和至少一种乐器音乐，得到待转换音乐对应的风格转换后的音乐。

可选地，处理模块750具体用于：对至少一种乐器音乐进行组合，得到组合后的音乐。根据目标转换风格，判断组合后的音乐是否需要加入鼓点音乐。根据组合后的音乐是否需要加入鼓点音乐的结果、组合后的音乐以及歌声数据，得到待转换音乐对应的风格转换后的音乐。

可选地，处理模块750具体用于：若组合后的音乐需要加入鼓点音乐，则获取待转换音乐对应的鼓点音乐，并对组合后的音乐、待转换音乐对应的鼓点音乐和歌声数据进行组合，得到待转换音乐对应的风格转换后的音乐。若组合后的音乐不需要加入鼓点音乐，则对组合后的音乐和歌声数据进行组合，得到待转换音乐对应的风格转换后的音乐。

可选地，处理模块750具体用于：确定待转换音乐需要加入鼓点音乐的位置。对目标转换风格对应的鼓点音乐进行伸缩处理，以得到待转换音乐对应的鼓点音乐。其中，待转换音乐对应的鼓点音乐与待转换音乐需要加入鼓点音乐的位置对齐。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图7所示的音乐风格转换装置可以执行图1对应的方法实施例，并且音乐风格转换装置中的各个模块的前述和其它操作和/或功能分别为了实现图1中的各个方法中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的音乐风格转换装置。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图8是本申请实施例提供的音乐风格转换设备的示意性框图。

如图8所示，该音乐风格转换设备可包括：

存储器810和处理器820，该存储器810用于存储计算机程序，并将该程序代码传输给该处理器820。换言之，该处理器820可以从存储器810中调用并运行计算机程序，以实现本申请实施例中的方法。

例如，该处理器820可用于根据该计算机程序中的指令执行上述方法实施例。

在本申请的一些实施例中，该处理器820可以包括但不限于：

通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器810包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器810中，并由该处理器820执行，以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该音乐风格转换设备中的执行过程。

如图8所示，该音乐风格转换设备还可包括：

收发器830，该收发器830可连接至该处理器820或存储器810。

其中，处理器820可以控制该收发器830与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器830可以包括发射机和接收机。收发器830还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该音乐风格转换设备中的各个组件通过总线***相连，其中，总线***除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

本申请还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上该，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种音乐风格转换方法，其特征在于，包括：

获取待转换音乐和所述待转换音乐的目标转换风格；

获取所述待转换音乐的主旋律数据；

获取基于所述主旋律数据的至少一种音乐数字接口MIDI数据，其中，每种MIDI数据对应所述目标转换风格的一种乐器；

根据所述至少一种MIDI数据生成至少一种乐器音乐；

根据所述至少一种乐器音乐，得到所述待转换音乐对应的风格转换后的音乐。

2.根据权利要求1所述的方法，其特征在于，所述根据所述至少一种MIDI数据生成至少一种乐器音乐之前，还包括：

判断所述主旋律数据是否满足预设条件；

所述根据所述至少一种MIDI数据生成至少一种乐器音乐，包括：

若所述主旋律数据满足所述预设条件，则修正所述至少一种MIDI数据，得到修正后的至少一种MIDI数据；生成所述修正后的至少一种MIDI数据对应的所述至少一种乐器音乐；

若所述主旋律数据不满足所述预设条件，则生成所述至少一种MIDI数据对应的所述至少一种乐器音乐。

3.根据权利要求2所述的方法，其特征在于，所述预设条件包括：所述主旋律数据中第一节拍在所述主旋律数据中的比例大于预设比例；

其中，所述第一节拍是时长小于预设时长的节拍。

4.根据权利要求2或3所述的方法，其特征在于，所述修正所述至少一种MIDI数据，包括：

针对所述至少一种MIDI数据中的任一种MIDI数据，针对所述MIDI数据中同一音高同一小节内的节拍，对第一预设时间范围内的第二节拍进行合并；

对第二预设时间范围内的所述第二节拍和第三节拍进行合并；

对第四节拍进行处理；

其中，所述第二节拍是时长大于第一预设时长且小于第二预设时长的节拍；所述第三节拍是时长大于或等于所述第二预设时长的节拍；所述第四节拍是时长小于或等于所述第一预设时长的节拍。

5.根据权利要求4所述的方法，其特征在于，所述对第四节拍进行处理包括：

延长或者删除所述第四节拍。

6.根据权利要求5所述的方法，其特征在于，延长所述第四节拍，包括：

将所述第四节拍延长至所述第二节拍的时长。

7.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述至少一种乐器音乐，得到所述待转换音乐对应的风格转换后的音乐，包括：

对所述至少一种乐器音乐进行组合，得到组合后的音乐；

根据所述目标转换风格，判断所述组合后的音乐是否需要加入鼓点音乐；

根据所述组合后的音乐是否需要加入鼓点音乐的结果以及所述组合后的音乐，得到所述待转换音乐对应的风格转换后的音乐。

8.根据权利要求7所述的方法，其特征在于，所述根据所述组合后的音乐是否需要加入鼓点音乐的结果以及所述组合后的音乐，得到所述待转换音乐对应的风格转换后的音乐，包括：

若所述组合后的音乐需要加入鼓点音乐，则获取所述待转换音乐对应的鼓点音乐，并对所述组合后的音乐和所述待转换音乐对应的鼓点音乐进行组合，得到所述待转换音乐对应的风格转换后的音乐；

若所述组合后的音乐不需要加入鼓点音乐，则将所述组合后的音乐作为所述待转换音乐对应的风格转换后的音乐。

9.根据权利要求1-3任一项所述的方法，其特征在于，还包括：

获取所述待转换音乐的歌声数据；

所述根据所述至少一种乐器音乐，得到所述待转换音乐对应的风格转换后的音乐，包括：

根据所述待转换音乐的歌声数据和所述至少一种乐器音乐，得到所述待转换音乐对应的风格转换后的音乐。

10.根据权利要求9所述的方法，其特征在于，所述根据所述待转换音乐的歌声数据和所述至少一种乐器音乐，得到所述待转换音乐对应的风格转换后的音乐，包括：

对所述至少一种乐器音乐进行组合，得到组合后的音乐；

根据所述组合后的音乐是否需要加入鼓点音乐的结果、所述组合后的音乐以及所述歌声数据，得到所述待转换音乐对应的风格转换后的音乐。

11.根据权利要求10所述的方法，其特征在于，所述根据所述组合后的音乐是否需要加入鼓点音乐的结果、所述组合后的音乐以及所述歌声数据，得到所述待转换音乐对应的风格转换后的音乐，包括：

若所述组合后的音乐需要加入鼓点音乐，则获取所述待转换音乐对应的鼓点音乐，并对所述组合后的音乐、所述待转换音乐对应的鼓点音乐和所述歌声数据进行组合，得到所述待转换音乐对应的风格转换后的音乐；

若所述组合后的音乐不需要加入鼓点音乐，则对所述组合后的音乐和所述歌声数据进行组合，得到所述待转换音乐对应的风格转换后的音乐。

12.根据权利要求8或11所述的方法，其特征在于，所述获取所述待转换音乐对应的鼓点音乐，包括：

确定所述待转换音乐需要加入鼓点音乐的位置；

对所述目标转换风格对应的鼓点音乐进行伸缩处理，以得到待转换音乐对应的鼓点音乐；

其中，所述待转换音乐对应的鼓点音乐与所述待转换音乐需要加入鼓点音乐的位置对齐。

13.一种音乐风格转换装置，其特征在于，包括：

第一获取模块，用于获取待转换音乐和所述待转换音乐的目标转换风格；

第二获取模块，用于获取所述待转换音乐的主旋律数据；

第三获取模块，用于获取基于所述主旋律数据的至少一种MIDI数据，其中，每种MIDI数据对应所述目标转换风格的一种乐器；

生成模块，用于根据所述至少一种MIDI数据生成至少一种乐器音乐；

处理模块，用于根据所述至少一种乐器音乐，得到所述待转换音乐对应的风格转换后的音乐。

14.一种音乐风格转换设备，其特征在于，包括：

处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行权利要求1至12中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至12中任一项所述的方法。