CN107481735A

CN107481735A - 一种转换音频发声的方法、服务器及计算机可读存储介质

Info

Publication number: CN107481735A
Application number: CN201710752085.2A
Authority: CN
Inventors: 冯祖学
Original assignee: China Mobile Communications Group Co Ltd; MIGU Music Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Music Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2017-08-28
Filing date: 2017-08-28
Publication date: 2017-12-15

Abstract

本发明公开了一种转换音频发声的方法，包括：获取待转换的音频数据及所述待转换音频数据的转换目标对象，对所述待转换的音频数据进行解析，得到解析结果，根据所述解析结果确定出所述待转换音频数据的音轨信息，其中，所述音轨信息至少包含所述待转换音频数据的音色；在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息，按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换，确定出转换后的音频数据。本发明还公开了一种转换音频发声装置以及计算机可读存储介质。

Description

一种转换音频发声的方法、服务器及计算机可读存储介质

技术领域

本发明涉及音频处理技术，尤其涉及一种转换音频发声的方法、服务器以及计算机可读存储介质。

背景技术

在现有的音乐APP中，虽然提供的功能越来越丰富，但是这些功能主要都是针对音乐APP的非音乐播放方面的功能，例如音乐社交功能以及音乐消费功能等，而针对传统的音乐播放领域，音乐APP所能提供的功能仍然主要为调音方面的功能，比如曲调、节奏等方面的调节，很明显这类功的主要目的是为了能带给用户一个更好的听歌体验，且要使用类似的调音功能也需要用户具有一定的音乐常识与基础，因而现有的音乐APP所能提供的这类调音功能的受众范围较小。因此，从整体上来说，现有的音乐APP所提供的功能在娱乐性方面仍略显不足，尤其是在音乐APP的基础功能——音乐播放方面，现有的音乐APP在音乐播放方面所提供的功能的娱乐性更显不足。

在日常生活中，每个用户往往都有自己所喜爱的一个或几个歌手，对于自己喜欢的歌手，用户不仅仅喜欢这些歌手自己唱的歌曲，可能还希望自己喜欢的歌手能演唱一些自己喜欢的其他歌曲。从目前现有技术中，还没有可以转换歌曲演唱者的方法，因此，现有的音乐APP所提供的功能无法满足用户使用需求。

发明内容

有鉴于此，本发明实施例期望提供一种转换音频发声的方法、服务器以及计算机可读存储介质，能够将选择的音频文件中原演唱者修改为自己喜欢的演唱者进行演唱，以提高趣味性和用户体验。

为达到上述目的，本发明实施例提供了一种转换音频发声的方法：

获取待转换的音频数据及所述待转换音频数据的转换目标对象，对所述待转换的音频数据进行解析，得到解析结果，根据所述解析结果确定出所述待转换音频数据的音轨信息，其中，所述音轨信息至少包含所述待转换音频数据的音色；

在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息，按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换，确定出转换后的音频数据。

其中，上述获取待转换的音频数据及转换目标对象之前，所述方法还包括：

获取至少一个转换目标对象的声学频谱信息，将所述转换目标对象的声学频谱信息与所述转换目标对象的标识信息进行关联，生成声学频谱信息数据库。

其中，上述获取至少一个对象的声学频谱信息，包括：

对对象的声音进行采集，对获得的所述对象声音进行数模转换，获得所述对象的数字音频数据，根据所述数字音频数据对所述对象进行解析，获取所述对象的声学频谱信息，其中，所述对象的声学频谱信息至少包括所述对象发音的音节频谱信息。

其中，上述按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换，包括：

根据所述目标转换对象的声学频谱信息中音频特征的音色对所述待转换音频数据的音轨信息中音节的音色进行调音。

本发明实施例提供了一种转换音频发声装置，其特征在于，所述装置包括：

解析模块，用于获取待转换的音频数据及所述待转换音频数据的转换目标对象，对所述待转换的音频数据进行解析，得到解析结果，根据所述解析结果确定出所述待转换音频数据的音轨信息，其中，所述音轨信息至少包含所述待转换音频数据的音色；；

转换模块，用于在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息，按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换，确定出转换后的音频数据。

其中，上述装置还包括：

生成模块，用于获取至少一个转换目标对象的声学频谱信息，将所述转换目标对象的声学频谱信息与所述转换目标对象的标识信息进行关联，生成声学频谱信息数据库。

其中，上述生成模块，具体用于：

其中，上述转换模块，具体用于：

本发明实施例提供了一种服务器，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行：

获取待转换的音频数据及所述待转换音频数据的转换目标对象，对所述待转换的音频数据进行解析，得到解析结果，根据所述解析结果确定出所述待转换音频数据的音轨信息，其中，所述音轨信息至少包含所述待转换音频数据的音色；在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息，按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换，确定出转换后的音频数据。

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现：

本发明实施例提供的一种转换音频发声的方法、服务器以及计算机存储介质，获取待转换的音频数据及所述待转换音频数据的转换目标对象，对所述待转换的音频数据进行解析，得到解析结果，根据所述解析结果确定出所述待转换音频数据的音轨信息，其中，所述音轨信息至少包含所述待转换音频数据的音色；在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息，按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换，确定出转换后的音频数据。如此，将选择的音频数据进行解析，获取所述音频的音轨信息，根据设定的转换对象的声学频谱信息对所述音频的音轨信息进行转换，获得具备转换对象音频特征的音频数据，提高了音乐APP的娱乐性，同时给用户带来更好的使用体验。

附图说明

图1为本发明实施例转换音频发声方法的流程示意图；

图2为本发明实施例转换音频发声装置的结构示意图；

图3为本发明第一实施例流程示意图。

具体实施方式

为了能够更加详细的了解本发明实施例的特点与技术内容，下面对本发明实施例的实现进行详细阐述。

图1为本发明实施例转换音频发声方法的流程示意图，如图1所示，本发明实施例提供的音频转换方法包括以下步骤：

步骤101：获取待转换的音频数据及所述待转换音频数据的转换目标对象，对所述待转换的音频数据进行解析，得到解析结果，根据所述解析结果确定出所述待转换音频数据的音轨信息；

其中，所述音轨信息至少包含所述待转换音频数据的音色。

步骤102：在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息，按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换，确定出转换后的音频数据。

其中，根据所述目标转换对象的声学频谱信息中音频特征的音色对所述待转换音频数据的音轨信息中音节的音色进行调音。

在实际应用中，所述按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换，确定出转换后的音频数据，还可以通过以下方式实现：

获取待转换的音频数据及所述待转换音频数据的转换目标对象，对所述待转换的音频数据进行解析，得到解析结果，根据所述解析结果确定出所述待转换音频数据的中各个文本信息以及所述文本信息对应的发音音节；

在预设的声学频谱信息数据库中确定出所述转换目标对象对所述文本信息的发音信息以及所述发音信息的频谱信息，根据所述文本信息的文字顺序对所述确定出的发音信息的频谱信息进行排列以及音频转换，确定出转后的音频数据。

在所述步骤101之前，本发明实施例提供的音频转换方法还包括以下步骤：

获取至少一个转换目标对象的声学频谱信息，将所述转换目标对象的声学频谱信息与所述转换目标对象的标识信息进行关联，生成声学频谱信息数据库；

其中，对对象的声音进行采集，对获得的所述对象声音进行数模转换，获得所述对象的数字音频数据，根据所述数字音频数据对所述对象进行解析，获取所述对象的声学频谱信息，其中，所述对象的声学频谱信息至少包括所述对象发音的音节频谱信息。

图2为本发明实施例转换音频发声装置的组成结构示意图，其特征在于，所述音频转换装置包括：

解析模块201，用于获取待转换的音频数据及所述待转换音频数据的转换目标对象，对所述待转换的音频数据进行解析，得到解析结果，根据所述解析结果确定出所述待转换音频数据的音轨信息，其中，所述音轨信息至少包含所述待转换音频数据的音色；

转换模块202，用于在预设的声学频谱信息数据库中确定出所述转换目标对象的声学频谱信息，按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换，确定出转换后的音频数据。

其中，上述解析模块201，具体用于：

对所述待转换的音频数据进行解析后，确定出至少一个所述待转换的音频数据音节的音频特征，其中，所述音频特征包括所述音频数据音节的响度、音调、音色；

将所述确定出的待转换的音频数据音节的音频特征进行合成，获得所述待转换的音频数据的音轨信息。

其中，上述装置还包括：

生成模块203，用于获取至少一个转换目标对象的声学频谱信息，将所述转换目标对象的声学频谱信息与所述转换目标对象的标识信息进行关联，生成声学频谱信息数据库。

其中，上述生成模块203，具体用于：

其中，上述转换模块202，具体用于：

其中，所述处理器用于运行所述计算机程序时，执行：

其中，上述根据所述解析结果确定出所述待转换音频数据的音轨信息，包括：

其中，上述获取待转换的音频数据及转换对象之前，所述方法还包括：

其中，上述获取至少一个对象的声学频谱信息，包括：

其中，上述根据所述转换对象的声学频谱对所述待转换音频数据的音轨信息进行转换，包括：

其中，上述获取至少一个对象的声学频谱信息，包括：

上述生成模块203可以由任何类型的易失性或非易失性存储设备、或者它们的组合来实现。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，Ferromagnetic Random Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，DynamicRandom Access Memory)、同步动态随机存取存储器(SDRAM，Synchronous Dynamic RandomAccess Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data RateSynchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的生成模块203旨在包括但不限于这些和任意其它适合类型的存储器。

在示例性实施例中，所述服务器可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU，Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现，用于执行前述方法。

下面通过音乐APP改变歌曲原演唱者为例对本发明实施例转换音频发声的方法进行进一步阐述。

实施例一

本发明第一实施例提供了一种转换音频发声方法的具体实现方法，如图3所示，所述方法包括以下步骤：

步骤301：采集声学频谱信息，建立声学频谱信息库；

在实际应用中，由于声音是一种具有一定振荡频率的声波，而声波有振荡频率、振幅、波形等物理参数或特性，正是这些不同的参数和特性，才使得声音有了各种不同的听觉效果。如果按照各种乐器的声音特点划分，有音调、音量、音色和音型等四种不同的表现形式，正是这些不同的形式，才决定了各种不同乐器声音的特点。其中，音调是和电磁波的振荡频率相关的一种形式，和频率成正比，频率高，则音调就高，频率低，则音调也低；音量是和电磁波的振荡幅度相关的一种形式，其大小与电磁波的振幅成正比，振幅大，音量就大，振幅小，音量也小。从我们比较直观的听觉效果来说，音调高，则发出的声音发尖、细，音调低则发出的声音显得浑厚。

而音色则是指声音的感觉特性，即人们听到声音的听觉效果，不同人的声音不同正是由音色区分的。同样是女高音，即使她们唱同一首歌，李谷一和***的声音，听众一听就可以准确的分辨出来，这就是音色的作用。而音色是由前面提到的电磁波的波形所决定的。标准电磁波的波形是正弦波，比如我们日常用的交流电，其波形就是一种标准的正弦波。但是，人的声音，各种乐器的声音，以及自然界中各种不同的声音，其波形往往是一种较为复杂的形状，恰恰是这些不同形状的波形，才决定了不同声音的音色。声音的音色除了可以通过波形表示(波形是声音的时域表示)外，还可以通过声音频谱表示(频谱是声音的频域表示)，通过对声音的一小段波形进行傅里叶变换，即可得到该段波形所对应的声音频谱。

由于同一种音色的声音可能有多种不同的波形，但是同一种音色的声音的频谱往往是相同的，因而通常使用声音频谱作为区分不同声音音色不同的主要依据。

本发明实施例中，为了可以实现模仿不同人声音的效果，本发明需要预先对待模仿的人进行声音采集，并从采集到的音频数据中提取该用户的声学频谱信息，具体的，音乐APP可以预先采集歌手的声音信息，并从采集到的音频信息中提取该些歌手的声学频谱信息；或者，当前用户还可以利用终端的音频输入装置，例如，麦克风，录入自己的声音，并通过音乐APP将自己的声音上传至服务器，以使得服务器提取到该用户的声学频谱信息。

在实际应用中，在采集声学频谱信息时，只需要采集20个基础声学频谱即可，通过这20个基础声学频谱可以全组合成400多种声学频谱组合，从而可以通过这400多种声学频谱组合来模拟该用户的声音。

当采集到用户或者其他歌手的声学频谱信息后，可以将该些声学频谱信息与用户或者歌手的名称关联保存到服务器的声学频谱信息库中。

步骤302：对用户选择的、待改变演唱歌手的歌曲进行音频解析；

在实际应用中，声音经过模拟设备记录或再生，成为模拟音频，再经数字化成为数字音频，我们平时通过音乐APP听到的歌曲，就是一种数字音频。这里所说的音频解析就是以数字音频信号为解析对象，以数字信号处理为解析手段，提取信号在时域、频域内一系列特性的过程。

音频解析主要利用了傅立叶变换和信号采样技术实现的。傅立叶变换是进行频谱分析的基础，信号的频谱分析是指按信号的频率结构，求取其分量的幅值、相位等按频率分布规律，建立以频率为横轴的各种“谱”，如幅度谱、相位谱。

本发明实施例中通过对用户选择的歌曲进行音频解析，可以得到该首歌曲的相关音频参数，比如音轨、响度、音调、波形等。其中，每条音轨都定义了该条音轨的属性，比如该条音轨的音色属性等。由于音色可以决定用户听到声音的不同，因此可以通过对该首歌曲解析得到的音轨进行修改，以改变该首歌曲演唱者的声音的效果。

步骤303：确定用户选择的歌手所对应的声学频谱信息，并按照确定的声学频谱信息，对待改变演唱歌手的歌曲的音轨信息进行修改；

在实际应用中，根据用户选择的歌手所对应的声学频谱信息，对通过执行步骤302获得的待改变演唱歌手的歌曲的音轨信息进行修改，通过改变音轨的方式，改变了该首歌曲演唱者的音色，从而可以达到将所述歌曲的演唱者的声音由原唱歌手的声音转换为用户所选择歌手的声音的效果。

实施例二

下面以对具体歌曲的演唱者进行转换为例对本发明实施例转换音频发声的方法进行阐述：

当前用户希望听到以孙燕姿的声音演唱原唱歌手为陶喆的歌曲《爱很简单》，首先，音乐APP对歌曲《爱很简单》的音频文件进行音频解析，获得该首歌曲的音轨；其次，从服务器中查找到孙燕姿的声学频谱信息，通过根据查找到的歌手孙燕姿的声学频谱信息对歌曲《爱很简单》的发音音轨进行修改，最终获得以孙燕姿的声音演唱的歌曲《爱很简单》，通过上述方式可以达到将歌曲《爱很简单》由陶喆的声音转化为孙燕姿的声音的效果。

在实际应用中对音轨进行修改的过程耗时很短，对一首10M左右的歌曲进行修改所耗费的时间大概在15s到30s左右，因而通过本发明给出的方法可以很快的到达转换歌曲演唱歌手声音的效果。

本发明实施例提供的一种转换音频发声的方法、服务器以及计算机存储介质，通过获取待转换的音频数据及转换对象，对所述待转换的音频数据进行解析，生成解析结果，根据所述解析结果确定出所述待转换音频数据的音轨信息；根据所述转换对象在预设的声学频谱信息数据库中确定出所述转换对象的声学频谱信息，根据所述转换对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换，确定出转换后的音频数据。如此，基于目前用户的使用需求而产生的，可以针对一首喜欢的歌曲，再选择一个自己喜欢的歌手，并通过该名歌手的嗓音演唱该首歌曲，从而达到用喜欢的歌手的嗓音演唱其他歌曲的效果，提高了音乐APP的娱乐性，同时给用户带来更好的使用体验。

需要说明的是，以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种转换音频发声的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待转换的音频数据及转换目标对象之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述获取至少一个对象的声学频谱信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述按照所述转换目标对象的声学频谱信息对所述待转换音频数据的音轨信息进行转换，包括：

5.一种转换音频发声装置，其特征在于，所述装置包括：

解析模块，用于获取待转换的音频数据及所述待转换音频数据的转换目标对象，对所述待转换的音频数据进行解析，得到解析结果，根据所述解析结果确定出所述待转换音频数据的音轨信息，其中，所述音轨信息至少包含所述待转换音频数据的音色；

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

7.根据权利要求6所述的装置，其特征在于，所述生成模块，具体用于：

8.根据权利要求6所述的装置，其特征在于，所述转换模块，具体用于：

9.一种服务器，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行权利要求1至4任一所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至4任一所述方法的步骤。