CN108428441B

CN108428441B - 多媒体文件生成方法、电子设备和存储介质

Info

Publication number: CN108428441B
Application number: CN201810132586.5A
Authority: CN
Inventors: 卓利波
Original assignee: China Mobile Communications Group Co Ltd; MIGU Music Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Music Co Ltd
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2021-08-06
Anticipated expiration: 2038-02-09
Also published as: CN108428441A

Abstract

本发明公开了一种多媒体文件生成方法，所述方法包括：对采集到的音频信息进行分段处理，得到至少一个音频片段；确定每个所述音频片段所对应的旋律特征；在歌曲旋律库中获取与所述旋律特征匹配的演唱音频数据和/或歌词数据；基于所述音频信息及所述演唱音频数据和/或歌词数据，生成多媒体文件。本发明实施例还提供了一种电子设备和存储介质。

Description

多媒体文件生成方法、电子设备和存储介质

技术领域

本发明涉及移动终端领域中的信息处理技术，特别涉及一种多媒体文件生成方法、电子设备和存储介质。

背景技术

随着移动终端技术的飞速发展，移动终端所能提供的功能变得越来越丰富。因此，依托于移动终端的移动应用也越来越朝着多功能的方向发展。以音乐软件为例，音乐软件作为较为常见的娱乐应用，为了满足用户的娱乐需求，现在的音乐软件可提供的功能，从传统的仅提供单纯的听歌功能转向了可以提供社交、消费、K歌等多种功能。

在日常生活中，用户对音乐方面的需求，除了听歌、搜歌等需求之外，歌曲的手动制作(Do It Yourself，DIY)也是目前比较热门的需求。然而，音乐制作对用户的专业能力要求较高，一般用户不会自己作词、编曲以实现音乐DIY。此外，歌曲的合成或者改编，也需要用户有较高的音乐素养，同时还要求用户能够熟练的使用一些音频处理软件。可见，通过歌曲合成、改编等方式来实现歌曲DIY，所要求的技术门槛比较高，对用户来说实现难度较大。

发明内容

为解决现有存在的技术问题，本发明实施例主要提供一种制作歌曲的方法、电子设备和存储介质，能够解决在用户在歌曲制作时难度较大的问题。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种多媒体文件生成方法，所述方法包括：

对采集到的音频信息进行分段处理，得到至少一个音频片段；

确定每个所述音频片段所对应的旋律特征；

在歌曲旋律库中获取与所述旋律特征匹配的演唱音频数据和/或歌词数据；

基于所述音频信息及所述演唱音频数据和/或歌词数据，生成多媒体文件。

上述技术方案中，确定每个所述音频片段所对应的旋律特征，包括：

提取每个所述音频片段的音频参数；

根据所述音频参数，确定每个所述音频片段对应的旋律特征。

上述技术方案中，所述歌曲旋律库中存储有演唱音频数据、演唱音频数据的旋律特征以及演唱音频数据对应的歌词数据；所述在歌曲旋律库中获取与所述旋律特征匹配的演唱音频数据和/或歌词数据，包括：

将所述音频片段的旋律特征与歌曲旋律库中的旋律特征进行匹配；

确定旋律特征匹配程度最高的演唱音频数据；

获取所述演唱音频数据和/或所述演唱音频数据对应的歌词数据。

上述技术方案中，所述基于所述音频信息及所述歌词数据，生成多媒体文件，包括：

根据所述音频片段与所述歌词数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述歌词数据拼接为文本；

基于所述音频信息及所述文本生成所述多媒体文件，其中，所述多媒体文件的音频部分包括所述音频信息，且所述多媒体文件的歌词部分包括所述文本。

上述技术方案中，所述基于所述音频信息及所述演唱音频数据，生成多媒体文件，包括：

根据所述音频片段与所述演唱音频数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述演唱音频数据合成；

基于所述音频信息及所述演唱音频生成所述多媒体文件，其中，所述多媒体文件的演唱音频部分包括合成后的所述演唱音频数据，且所述多媒体文件的伴奏音频部分包括所述音频信息。

上述技术方案中，基于所述音频信息及所述演唱音频数据和歌词数据，生成多媒体文件，包括：

根据所述音频片段与所述演唱音频数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述演唱音频数据合成演唱音频；

基于所述音频信息、所述文本及所述演唱音频，生成所述多媒体文件，其中，所述多媒体文件的演唱音频部分包括合成后的所述演唱音频数据，所述多媒体文件的伴奏音频部分包括所述音频信息，所述多媒体文件的歌词部分包括所述文本。

本发明实施例还提供了一种电子设备，所述电子设备包括：处理模块、确定模块、获取模块和生成模块；其中，

所述处理模块，用于对采集到的音频信息进行分段处理，得到至少一个音频片段；

所述确定模块，用于确定每个所述音频片段所对应的旋律特征；

所述获取模块，用于在歌曲旋律库中获取与所述旋律特征匹配的演唱音频数据和/或歌词数据；

所述生成模块，用于基于所述音频信息及所述演唱音频数据和/或歌词数据，生成多媒体文件。

上述技术方案中，所述确定模块，具体用于提取每个所述音频片段的音频参数；根据所述音频参数，确定每个所述音频片段对应的旋律特征。

上述技术方案中，所述歌曲旋律库中存储有演唱音频数据、演唱音频数据的旋律特征以及演唱音频数据对应的歌词数据；

所述获取模块，具体用于将所述音频片段的旋律特征与歌曲旋律库中的旋律特征进行匹配；确定旋律特征匹配程度最高的演唱音频数据；获取所述演唱音频数据和/或所述演唱音频数据对应的歌词数据。

上述技术方案中，所述生成模块，具体用于根据所述音频片段与所述歌词数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述歌词数据拼接为文本；基于所述音频信息及所述文本生成所述多媒体文件，其中，所述多媒体文件的音频部分包括所述音频信息，且所述多媒体文件的歌词部分包括所述文本。

上述技术方案中，所述生成模块，具体用于根据所述音频片段与所述演唱音频数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述演唱音频数据合成演唱音频；基于所述音频信息及所述演唱音频生成所述多媒体文件，其中，所述多媒体文件的演唱音频部分包括合成后的所述演唱音频数据，且所述多媒体文件的伴奏音频部分包括所述音频信息。

上述技术方案中，所述生成模块，具体用于根据所述音频片段与所述歌词数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述歌词数据拼接为文本；根据所述音频片段与所述演唱音频数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述演唱音频数据合成演唱音频；基于所述音频信息、所述文本及所述演唱音频，生成所述多媒体文件，其中，所述多媒体文件的演唱音频部分包括合成后的所述演唱音频数据，所述多媒体文件的伴奏音频部分包括所述音频信息，所述多媒体文件的歌词部分包括所述文本。

本发明实施例还提供了一种电子设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

所述处理器，与所述存储器连接，用于运行所述计算机程序时，执行上述方法的步骤。

本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本发明实施例所提供的多媒体文件生成方法，可以对采集的用户弹奏或哼唱的音频信息进行拆分，进而得到信号较为稳定的多个音频片段；再根据每个音频片段的旋律特征，在歌曲旋律库中获取与所述旋律特征匹配的演唱音频数据和/或歌词数据，进而可以利用获取的演唱数据和/或歌词数据与采集的音频信息合成一个多媒体文件。通过这种方式，不需要用户具有较高的音乐素养以及额外的音频处理软件，就可以简单地制作歌曲，例如，为用户输入的乐曲进行填词，或者将用户的弹奏作为伴奏等。与传统的音乐制作方式相比，本发明实施例中生成多媒体文件的方式操作简单，用户可简单的哼唱一段小曲或者弹奏一段小曲，就可以得到与该段小曲匹配的歌词数据和/或演唱音频数据，从而可以简单快捷地实现歌曲的DIY功能，为用户带来了更好的使用体验。

附图说明

图1为本发明实施例提供的多媒体文件生成方法的基本流程示意图；

图2为本发明实施例提供的多媒体文件生成方法的具体流程示意图；

图3为本发明实施例提供的一电子设备的组成结构示意图；

图4为本发明实施例提供的一电子设备的组成结构示意图。

具体实施方式

本发明实施例提供了一种多媒体文件生成方法，可以为用户输入的音乐添加歌词和/或添加演唱音频。本发明实施例中多媒体文件生成方法的基本流程可如图1所示，具体包括以下步骤：

步骤101，对采集到的音频信息进行分段处理，得到至少一个音频片段；

步骤102，确定每个所述音频片段所对应的旋律特征；

步骤103，在歌曲旋律库中获取与所述旋律特征匹配的演唱音频数据和/或歌词数据；

步骤104，基于所述音频信息及所述演唱音频数据和/或歌词数据，生成多媒体文件。

所述多媒体文件生成方法可以应用于终端中，终端中安装有使用所述多媒体文件生成方法的音乐应用软件，可以利用所述方法生成多媒体文件。所述终端可以为移动终端或固定终端。所述移动终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)、PMP(便携式多媒体播放器)、导航电子设备或可穿戴设备等电子设备，所述固定终端可包括诸如台式计算机、多媒体设备等电子设备。

所述音频信息可以为终端采集音频信息。例如，终端接收用户通过指定操作生成的操作指令，可以响应该操作指令，采集用户弹奏或哼唱的音频信息。所述指定操作可以手势操作，如滑动手势操作或按压手势操作等；所述指定操作还可以为对应用的操作界面的特定区域或按键的点击操作等，如通过点击操作界面上“弹唱DIY音乐”的区域，可以使应用响应于该操作指令，将音乐处理模组切换为“弹唱DIY”模式，进而用户可该模式下进行相应的操作。

在所述步骤101中，所述对采集到的音频信息进行分段处理，得到至少一个音频片段，可以为：对采集到的音频信息进行分段处理，得到持续时间等于预设时长的音频片段。其中，所述预设时长可以为3秒或5秒等，在实际操作中可根据具体情况进行设置。具体如，在终端采集到用户的音频信息之后，将所述音频信息分为多个以5秒为时长的音频片段。

需要说明的是，采集的音频信息可以为非稳定状态的信号，这种非稳定状态可以表现为信号在声音频谱上的振荡，这种振荡可为在连续时间内采集的一段信号的频谱差大于预设值。在较短的时间段之内，可以认为采集的音频信息是相对稳定的信号，在声音频谱上可表现为振幅变化的连续性。因此，在对音频信息进行处理时，可以将采集的音频信息进行分段处理，得到预设时长的音频片段，以使得经过分段处理后的每个音频片段具有相对稳定的信号，方便后续对每段音频片段进行声学特征提取。

在对所述音频信息进行分段处理之后，所述方法还可包括：按照每个音频片段在所述音频信息的时间顺序，为每个音频片段编号。具体如，在为音频信息进行分段处理时，可以记录每个音频片段在采集的音频信息中的顺序，将记录的顺序作为每个音频片段的编号。例如，终端采集到用户弹奏的一段20秒的乐曲，以5秒为音频片段时长对该段乐曲进行分段处理，则可以分为4个音频片段。其中，1至5秒的音频信息可作为该乐曲的第一音频片段，6至10秒的音频信息可作为该乐曲的第二音频片段，11至15秒的音频信息可作为该乐曲的第三音频片段，16至20秒的音频信息可作为该乐曲的第四音频片段，以此编号可记录各个音频片段在用户弹奏的乐曲中的顺序。

在所述步骤102中，所述确定每个所述音频片段所对应的旋律特征，可包括：提取每个所述音频片段的音频参数；根据所述音频参数，确定每个所述音频片段对应的旋律特征。所述旋律特征可以为由音乐的音高、时值和音量构成的音乐要素之一。所述音频参数可以为组成所述旋律特征的音高、音符值和音量。所述音符值可指示单一音符演奏所持续的时长。一个完全音符等于两个二分音符；等于四个四分音符，八个八分音符；十六个十六分音符；三十二个三十二分音符。

所述提取每个所述音频片段的音频参数可以为对每个所述音频片段进行梅尔倒谱(Mel Frequency Cepstrum Coefficient，MFCC)系数提取操作，可以提取每个音频片段所对应的音频参数。利用提取到的音频参数，可以确定每个音频片段的旋律特征。

在所述步骤103中，所述歌曲旋律库中存储有演唱音频数据、演唱音频数据的旋律特征以及演唱音频数据对应的歌词数据；所述在歌曲旋律库中获取与所述旋律特征匹配的演唱音频数据和/或歌词数据，包括：将所述音频片段的旋律特征与歌曲旋律库中的旋律特征进行匹配；确定旋律特征匹配程度最高的演唱音频数据；获取所述演唱音频数据和/或所述演唱音频数据对应的歌词数据。

所述歌曲旋律库中的演唱音频数据、演唱音频数据的旋律特征以及演唱音频数据对应的歌词数据可以按照对应的歌曲片段进行存储。具体如，所述歌曲旋律库中存储有歌曲A，歌曲A的时长为1分钟，可以按照10秒时长将歌曲A进行分段处理，则歌曲A可以分成6个时长为10秒的歌曲片段。每个歌曲片段对应有演唱音频、旋律特征以及歌词，如歌曲片段1可对应演唱音频1、旋律特征a和歌词1，表1为歌曲片段、演唱音频、旋律特征以及歌词之间的对应关系，表1中属于同一行的歌曲片段、演唱音频、旋律特征以及歌词具有对应关系。

表1

需要说明的是，所述歌曲旋律库中的歌曲可以按照所述步骤101以及步骤102的方法进行音频片段的划分以及旋律特征的提取，这里不再赘述。所述歌曲旋律库中歌曲片段的时长与所述音频片段的时长相同。所述歌曲旋律库中还可存储有歌曲对应的伴奏音频，所述演唱音频与所述伴奏音频可以合成对应的歌曲片段。

所述将所述音频片段的旋律特征与歌曲旋律库中的旋律特征进行匹配，可以为：利用所述音频片段的音阶差对歌曲旋律库中的歌曲片段进行筛选，利用特定算法将所述音频片段的旋律特征与筛选后歌曲片段的旋律特征进行匹配。所述特定算法可以为动态时间伸缩算法。其中，所述音阶差可以为音频片段中最高音阶与最低音阶的差值。先通过音阶差对歌曲旋律库中的歌曲片段进行筛选，可以快速地筛除旋律特征不匹配的歌曲片段，进而可以减少旋律特征匹配过程中的数据处理量，提高旋律特征匹配的效率。

具体如，在进行旋律匹配时，可以先根据所述音频片段的音阶差对歌曲旋律库中的歌曲片段进行筛选，将歌曲旋律库中与所述音频片段的音阶差相差较大的歌曲片段筛除。再利用动态时间伸缩算法在筛选后的歌曲中确定与所述音频片段的旋律特征匹配程度最高的歌曲片段。当用户需要制作乐曲时，终端可以根据用户制作歌曲的操作指令获取该歌曲片段的演唱音频数据；当用户需要填词时，终端可以根据用户填词的操作指令获取该歌曲片段的歌词数据。

假设终端采集到用户弹奏的时长为30秒的乐曲，可以将该段乐曲进行分段处理，进而得到3段时长为10秒的音频片段，如音频片段a、音频片段b以及音频片段c，再分别确定这三个音频片段的旋律特征。通过旋律匹配后，可以在歌曲旋律库中分别确定与这三个音频片段的旋律特征相匹配的歌曲片段，进而可以确定与这三个音频片段相匹配的演唱音频数据和/或歌词数据。其中，音频片段a可与歌曲A中的歌曲片段1相匹配，音频片段b可与歌曲C中的歌曲片段2相匹配，音频片段c可与歌曲B中的歌曲片段3相匹配。

在所述步骤104中，所述基于所述音频信息及所述演唱音频数据和/或歌词数据，生成多媒体文件，可包括以下任一种方式：基于所述音频信息及所述歌词数据，生成多媒体文件；基于所述音频信息及演唱音频数据，生成多媒体文件；基于所述音频信息、所述演唱音频数据及所述歌词数据，生成多媒体文件。

所述基于所述音频信息及所述歌词数据，生成多媒体文件，可包括：

根据所述音频片段与所述歌词数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述歌词数据拼接为文本；基于所述音频信息及所述文本生成所述多媒体文件，其中，所述多媒体文件的音频部分包括所述音频信息，且所述多媒体文件的歌词部分包括所述文本。

所述基于所述音频信息及所述演唱音频数据，生成多媒体文件，可包括：

根据所述音频片段与所述演唱音频数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述演唱音频数据合成；基于所述音频信息及所述演唱音频生成所述多媒体文件，其中，所述多媒体文件的演唱音频部分包括合成后的所述演唱音频数据，且所述多媒体文件的伴奏音频部分包括所述音频信息。

所述基于所述音频信息、所述演唱音频数据及所述歌词数据，生成多媒体文件，可包括：

根据所述音频片段与所述歌词数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述歌词数据拼接为文本；根据所述音频片段与所述演唱音频数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述演唱音频数据合成演唱音频；基于所述音频信息、所述文本及所述演唱音频，生成所述多媒体文件，其中，所述多媒体文件的演唱音频部分包括合成后的所述演唱音频数据，所述多媒体文件的伴奏音频部分包括所述音频信息，所述多媒体文件的歌词部分包括所述文本。

具体如，终端根据用户的操作指令可以确定所述多媒体文件的生成模式。所述生成模式可以包括：填词模式、填歌模式和制作歌曲模式。

当多媒体文件的生成模式为填词模式时，终端可以根据所述音频片段与所述歌词数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述歌词数据拼接为文本，再将最初采集到的音频信息及拼接的文本合成为多媒体文件。其中，拼接后的文本可作为多媒体文件的歌词部分，采集的音频信息可作为多媒体文件的音频部分。

当多媒体文件的生成模式为填歌模式时，终端可以根据所述音频片段与所述演唱音频数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序，将多个演唱音频数据合成为一个演唱音频，再将所述音频信息及合成后的演唱音频生成所述多媒体文件。其中，合成后的演唱音频可作为多媒体文件的演唱音频部分，采集的音频信息可作为多媒体文件的伴奏部分。

当多媒体文件的生成模式为制作歌曲模式时，终端可以根据所述音频片段与所述演唱音频数据的对应关系，以及所述音频片段与所述歌词数据的对应关系，按照每个音频片段在所述音频信息中的顺序，将多个音频片段对应的演唱音频数据合成为一个演唱音频，并将多个音频片段对应的歌词数据拼接为文本。然后利用最初采集到的音频信息、合成的演唱音频以及拼接后的文本，生成最终的多媒体文件。其中，采集的音频信息可作为多媒体文件的伴奏部分，合成的演唱音频可作为多媒体文件的演唱部分，拼接后的文本可作为多媒体文件的歌词部分。

以填词模式为例，音频片段a与歌曲A中的演唱音频1对应的旋律特征相匹配，音频片段b与歌曲C中的演唱音频2对应的旋律特征相匹配，音频片段c与歌曲B中的演唱音频3对应的旋律特征相匹配。歌曲A中演唱音频1对应的歌词为“一二三四”，歌曲C中的演唱音频2对应的歌词为“五六七”，歌曲B中的演唱音频3对应的歌词为“八九十”，进而可以将“一二三四”可作为音频片段a对应的歌词，“五六七”可作为音频片段b对应的歌词，“八九十”可作为音频片段c对应的歌词。而通过歌词数据拼接之后生成的文本可以为“一二三四五六七八九十”。

本发明实施例提供的多媒体文件生成方法，可以通过终端采集用户弹奏或哼唱的乐曲，并对采集的乐曲进行拆分，这样可以得到音频信号较为稳定的音频片段。再对音频片段的旋律特征提取，可以在歌曲旋律库中确定与各音频片段相匹配的歌曲片段，进而可获取相配歌曲片段的歌词或者演唱音频，从而可以为用户弹奏或哼唱的乐曲填词和/或添加演唱音频，可自动为用户进行谱曲的效果，使音乐DIY更加简单快捷，可以为用户带来更好的使用体验。

为了更加详尽地说明本发明实施例提供的多媒体文件生成方法，图2为本发明实施例提供的多媒体文件生成方法的具体流程图，以填词功能为例，所述方法可以包括以下步骤：

步骤201，终端采集用户弹奏的乐曲A；

当用户通过指定操作触发终端中应用的填词功能时，终端可以调用麦克风，对用户弹奏或者哼唱的音频信息进行采集。其中，乐曲A即为采集的音频信息。

步骤202，终端对乐曲A进行分段处理，得到3个时长为5秒的音频片段，分别为音频片段a、音频片段b和音频片段c。

步骤203，终端对音频片段的旋律特征参数进行提取，并根据提取出的每个音频片段的特征参数，确定每个音频片段对应的旋律特征。

步骤204，终端在预设的歌曲旋律库中查找与各音频片段的旋律特征匹配的歌曲片段，其中，音频片段a与歌曲A中的歌曲片段1相匹配，音频片段b与歌曲C中的歌曲片段2相匹配，音频片段c与歌曲B中的歌曲片段3相匹配。

步骤205，终端获取歌曲A中的歌曲片段1的歌词1、歌曲C中的歌曲片段2的歌词2以及歌曲B中的歌曲片段3的歌词3。

步骤206，终端按照每个音频片段在乐曲A中的顺序，将歌词1、歌词2和歌词3进行拼接，形成乐曲A对应的歌词，并显示在应用的歌词界面上。

通过上述方式，可以快速地为用户弹奏或哼唱的乐曲进行填词，且不需要用户具有专业的音乐素养，操作方式简单。

本发明实施例还提供了一种电子设备，可以利用上述方法生成多媒体文件，所述电子设备的基本结构如图3所示，可包括：处理模块301、确定模块302、获取模块303和生成模块304。

所述处理模块301，用于对采集到的音频信息进行分段处理，得到至少一个音频片段；

所述确定模块302，用于确定每个所述音频片段所对应的旋律特征；

所述获取模块303，用于在歌曲旋律库中获取与所述旋律特征匹配的演唱音频数据和/或歌词数据；

所述生成模块304，用于基于所述音频信息及所述演唱音频数据和/或歌词数据，生成多媒体文件。

进一步地，所述确定模块302，具体用于提取每个所述音频片段的音频参数；根据所述音频参数，确定每个所述音频片段对应的旋律特征。所述旋律特征可以由音乐的音高、时值和音量构成的音乐要素之一。所述音频参数可以为组成所述旋律特征的音高、时值和音量。所述时值可以为组成乐曲的音符之间的相对持续时间。

进一步地，所述歌曲旋律库中存储有演唱音频数据、演唱音频数据的旋律特征以及演唱音频数据对应的歌词数据；

所述获取模块303，具体用于将所述音频片段的旋律特征与歌曲旋律库中的旋律特征进行匹配；确定旋律特征匹配程度最高的演唱音频数据；获取所述演唱音频数据和/或所述演唱音频数据对应的歌词数据。

所述获取模块303可以利用所述音频片段的音阶差对歌曲旋律库中的歌曲片段进行筛选，再利用特定算法将所述音频片段的旋律特征与筛选后歌曲片段的旋律特征进行匹配。所述音阶差可以为音频片段中最高音阶与最低音阶的差值。先通过音阶差对歌曲旋律库中的歌曲片段进行筛选，可以快速地筛除旋律特征不匹配的歌曲片段，进而可以减少旋律特征匹配过程中的数据处理量，提高旋律特征匹配的效率。

可选地，所述生成模块304，具体用于根据所述音频片段与所述歌词数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述歌词数据拼接为文本；基于所述音频信息及所述文本生成所述多媒体文件，其中，所述多媒体文件的音频部分包括所述音频信息，且所述多媒体文件的歌词部分包括所述文本。

可选地，所述生成模块304，具体用于根据所述音频片段与所述演唱音频数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述演唱音频数据合成演唱音频；基于所述音频信息及所述演唱音频生成所述多媒体文件，其中，所述多媒体文件的演唱音频部分包括合成后的所述演唱音频数据，且所述多媒体文件的伴奏音频部分包括所述音频信息。

可选地，所述生成模块304，具体用于根据所述音频片段与所述歌词数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述歌词数据拼接为文本；根据所述音频片段与所述演唱音频数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述演唱音频数据合成演唱音频；基于所述音频信息、所述文本及所述演唱音频，生成所述多媒体文件，其中，所述多媒体文件的演唱音频部分包括合成后的所述演唱音频数据，所述多媒体文件的伴奏音频部分包括所述音频信息，所述多媒体文件的歌词部分包括所述文本。

具体如，处理模块301对采集到的音频信息进行分段处理，得到至少一个预设时长的音频片段，如音频片段a、音频片段b和音频片段c。确定模块302提取每个音频片段的音频参数，根据提取的音频参数确定每个音频片段的旋律特征。获取模块303根据每个音频片段的旋律特征，在歌曲旋律库中获取与所述旋律特征匹配的演唱音频数据和/或歌词数据；生成模块304根据音频片段与演唱音频数据和/或歌词数据之间的对应关系，按照每个音频片段在音频信息中的顺序拼接演唱音频数据和/或歌词数据，再将采集的音频信息与拼接后得到的演唱音频和/或歌词合成一个多媒体文件。

本发明实施例还提供了一种电子设备，所述电子设备的组成结构如图4所示，可包括：处理器401和存储器402。

所述存储器402，用于存储能够在处理器上运行的计算机程序的存储器；

所述处理器401，与所述存储器402连接，用于运行所述计算机程序时，执行：

确定每个所述音频片段所对应的旋律特征；

所述处理器401还用于运行所述计算机程序时，执行：

提取每个所述音频片段的音频参数；

所述处理器401还用于运行所述计算机程序时，执行：

确定旋律特征匹配程度最高的演唱音频数据；

所述处理器401还用于运行所述计算机程序时，执行：

进一步地，所述电子设备还可包括：多媒体组件403和音频组件404。

所述多媒体组件403，用于接收用户输入的输入信号，并将所述电子设备的操作界面显示给用户。

所述音频组件404，用于输出和/或输入音频信号。

可以理解的是，可以理解的是，本发明实施例中的处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成前述方法的步骤。

本发明实施例中的存储器可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(ferromagnetic random access memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static Random Access Memory，SRAM)、同步静态随机存取存储器(Synchronous Static Random Access Memory，SSRAM)、动态随机存取存储器(DynamicRandom Access Memory，DRAM)、同步动态随机存取存储器(Synchronous Dynamic RandomAccess Memory，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSynchronous Dynamic Random Access Memory，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced Synchronous Dynamic Random Access Memory，ESDRAM)、同步连接动态随机存取存储器(SyncLink Dynamic Random Access Memory，SLDRAM)、直接内存总线随机存取存储器(Direct Rambus Random Access Memory，DRRAM)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本发明实施例中的多媒体组件包括在电子设备与用户之间提供的一个作为输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD，Liquid Crystal Display)和触控面板(TP，Touch Panel)。如果屏幕包括触控面板，屏幕可以由触摸屏来实现，以接收来自用户的输入信号。触控面板包括一个或多个触摸传感器，以感测触摸、滑动和触摸面板上的手势。触摸传感器不仅能感测触摸或滑动操作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件可以包括一个前置摄像头和/或后置摄像头。当歌曲制作处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头或后置摄像头可以是一个固定的光学透镜***、或具有焦距和光学变焦能力。

本发明实施例中的音频组件用于输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC，Microphone)，当电子设备处于操作模式，如呼叫模式、记录模式或语音识别模式时，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还可以包括一个扬声器，用于输出音频信号。

在示例性实施例中，本发明实施例还提供了一种计算机存储介质，例如包括计算机程序的存储器，上述计算机程序可由电子设备的处理器执行，以完成前述方法所述步骤。计算机存储介质可以是计算机可读存储介质，如FRAM、ROM、PROM、EPROM、EEPROM、FlashMemory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备，如移动电话、计算机、平板设备、个人数字助理等。

所述计算机存储介质，其上存储有计算机程序，该计算机程序被处理器运行时，执行：

确定每个所述音频片段所对应的旋律特征；

所述计算机程序被处理器运行时，还执行：

提取每个所述音频片段的音频参数；

所述计算机程序被处理器运行时，还执行：

确定旋律特征匹配程度最高的演唱音频数据；

所述计算机程序被处理器运行时，还执行：

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种多媒体文件生成方法，其特征在于，所述方法包括：

确定每个所述音频片段所对应的旋律特征；

利用所述音频片段的音阶差对歌曲旋律库中的歌曲片段进行筛选，利用动态时间伸缩算法将所述音频片段的旋律特征与筛选后歌曲片段的旋律特征进行匹配；在歌曲旋律库中获取与所述旋律特征匹配的演唱音频数据和/或歌词数据；

基于所述音频信息及所述演唱音频数据和/或歌词数据，生成多媒体文件；

所述多媒体文件包括伴奏音频部分及演唱音频部分和/或歌词部分，所述伴奏音频部分包括采集到的所述音频信息。

2.根据权利要求1所述的方法，其特征在于，确定每个所述音频片段所对应的旋律特征，包括：

提取每个所述音频片段的音频参数；

3.根据权利要求1所述的方法，其特征在于，所述歌曲旋律库中存储有演唱音频数据、演唱音频数据的旋律特征以及演唱音频数据对应的歌词数据；所述在歌曲旋律库中获取与所述旋律特征匹配的演唱音频数据和/或歌词数据，包括：

确定旋律特征匹配程度最高的演唱音频数据；

4.根据权利要求1所述的方法，其特征在于，基于所述音频信息及所述歌词数据，生成多媒体文件，包括：

5.根据权利要求1所述的方法，其特征在于，基于所述音频信息及所述演唱音频数据，生成多媒体文件，包括：

6.根据权利要求1所述的方法，其特征在于，基于所述音频信息及所述演唱音频数据和歌词数据，生成多媒体文件，包括：

7.一种电子设备，其特征在于，所述电子设备包括：处理模块、确定模块、获取模块和生成模块；其中，

所述获取模块，用于利用所述音频片段的音阶差对歌曲旋律库中的歌曲片段进行筛选，利用动态时间伸缩算法将所述音频片段的旋律特征与筛选后歌曲片段的旋律特征进行匹配；在歌曲旋律库中获取与所述旋律特征匹配的演唱音频数据和/或歌词数据；

所述生成模块，用于基于所述音频信息及所述演唱音频数据和/或歌词数据，生成多媒体文件；

8.根据权利要求7所述的电子设备，其特征在于，所述确定模块，具体用于提取每个所述音频片段的音频参数；根据所述音频参数，确定每个所述音频片段对应的旋律特征。

9.根据权利要求7所述的电子设备，其特征在于，

所述歌曲旋律库中存储有演唱音频数据、演唱音频数据的旋律特征以及演唱音频数据对应的歌词数据；

10.根据权利要求7所述的电子设备，其特征在于，

所述生成模块，具体用于根据所述音频片段与所述歌词数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述歌词数据拼接为文本；基于所述音频信息及所述文本生成所述多媒体文件，其中，所述多媒体文件的音频部分包括所述音频信息，且所述多媒体文件的歌词部分包括所述文本。

11.根据权利要求7所述的电子设备，其特征在于，

所述生成模块，具体用于根据所述音频片段与所述演唱音频数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述演唱音频数据合成演唱音频；基于所述音频信息及所述演唱音频生成所述多媒体文件，其中，所述多媒体文件的演唱音频部分包括合成后的所述演唱音频数据，且所述多媒体文件的伴奏音频部分包括所述音频信息。

12.根据权利要求7所述的电子设备，其特征在于，

所述生成模块，具体用于根据所述音频片段与所述歌词数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述歌词数据拼接为文本；根据所述音频片段与所述演唱音频数据的对应关系，按照每个所述音频片段在所述音频信息中的顺序将所述演唱音频数据合成演唱音频；基于所述音频信息、所述文本及所述演唱音频，生成所述多媒体文件，其中，所述多媒体文件的演唱音频部分包括合成后的所述演唱音频数据，所述多媒体文件的伴奏音频部分包括所述音频信息，所述多媒体文件的歌词部分包括所述文本。

13.一种电子设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

所述处理器，与所述存储器连接，用于运行所述计算机程序时，执行权利要求1至6任一项所述方法的步骤。

14.一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。