CN107767879A

CN107767879A - 基于音色的音频转换方法及装置

Info

Publication number: CN107767879A
Application number: CN201711008258.6A
Authority: CN
Inventors: 齐路; 颜钊; 张姗姗
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-10-25
Filing date: 2017-10-25
Publication date: 2018-03-06

Abstract

本发明涉及计算机技术领域，公开了一种基于音色的音频转换方法及装置，该基于音色的音频转换方法包括：获取待转换音频信息和目标音频标识信息；对所述待转换音频信息进行特征提取，得到待转换特征信息；根据预设的音色转换处理模块对所述待转换特征信息进行音色转换，将所述待转换特征信息转换为与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息，得到与所述目标音频信息音色相同的音频信息。本发明中，实现了对待转换音频的转换处理，提高了对音频信息的转换精准度，进而提升以及丰富了用户的使用体验感受。

Description

基于音色的音频转换方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种基于音色的音频转换方法及装置。

背景技术

在日常的生活交流中，一个人的声音往往就是他的身份名片，听到自己熟悉人的声音后，就可辨认出这个人。声音转换是声音信号处理领域近年来新兴的研究分支，声音转换技术是指在保持语义内容不变的情况下，通过改变一个原说话人的语音个性特征，使他说的话被听者认为是目标说话人说的话，由于可以将一个发音人的声音转换为另一个发音人的声音，使人听起来像是另一个人的声音，有着广泛的应用前景，如用户可以将自己的声音转换成所喜欢明星的声音，或转换成用户自己熟悉人的声音。

对于现有技术中的语音转换处理，通常是经过调整原说话人的语速或语调，从而实现将原说话人的声音转换为目标说话人的声音，虽然经过上述转换处理之后，可以使转换后的语音与目标说话人的语速、语调相对匹配，但其转换得到的语音相比较于目标说话人的声音，还是存在一定的差异，无法实现相对完美的语音转换。

发明内容

本发明提供基于音色的音频转换方法及装置，以实现对待转换音频信息的转换处理，提高对音频信息的转换精准度，进而提升以及丰富用户的使用体验感受。

本发明提供了一种基于音色的音频转换方法，包括：

获取待转换音频信息和目标音频标识信息；

对所述待转换音频信息进行特征提取，得到待转换特征信息；

根据预设的音色转换处理模块对所述待转换特征信息进行音色转换，将所述待转换特征信息转换为与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息，得到与所述目标音频信息音色相同的音频信息。

优选地，所述对所述待转换音频信息进行特征提取，得到待转换特征信息，包括：

对所述待转换音频信息进行声学特征提取得到待转换声学特征信息，并对所述待转换音频信息进行音素特征提取得到待转换音素特征信息。

优选地，所述对所述待转换音频信息进行声学特征提取得到待转换声学特征信息，包括：

对所述待转换音频信息进行声学特征提取，得到该待转换音频信息的梅尔频率倒谱系数MFCC特征信息；

对所述MFCC特征信息进行分帧处理，得到各帧对应的MFCC特征信息。

优选地，所述对所述待转换音频信息进行音素特征提取得到待转换音素特征信息，包括：

对所述待转换音频信息进行音素特征提取，得到该待转换音频信息的音素序列，其中，该音素序列为由构成该待转换音频信息的各音素组成的序列。

优选地，所述根据预设的音色转换处理模块对所述待转换特征信息进行音色转换，将所述待转换特征信息转换为与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息，包括：

获取预先存储的对应于所述目标音频标识信息的目标音频信息，提取所述目标音频特征信息对应的目标音频特征信息；

根据预设的音色转换处理模块对得到的待转换特征信息进行音色转换，将所述待转换特征信息转换为目标特征信息；

将所述目标特征信息与所述目标音频特征信息进行比对，确定二者匹配度；若匹配度大于预设阈值时，确定所述目标特征信息与所述目标音频特征信息匹配，得到与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息。

优选地，还包括：

采集所述待转换音频信息；

并根据用户的指示信息将该待转换音频信息通过数据上传请求发送到服务器，以使所述服务器根据接收到的待转换音频信息对所述音色转换处理模块中的样本数据进行更新。

优选地，所述将该待转换音频信息通过数据上传请求发送到服务器时，包括如下任意一种发送条件：

实时向服务器发送数据上传请求；

每隔预设时间段向服务器发送数据上传请求；

待转换音频信息的数量达到预设阈值时向服务器发送数据上传请求。

优选地，还包括：

接收服务器发送的更新指示，所述更新指示中携带有音色转换处理模块的更新信息；

根据所述音色转换处理模块的更新信息更新存储的该预设的音色转换处理模块。

优选地，所述待转换音频信息为用户上传的音频或本地存储的音频或云端存储的音频。

本发明还提供了一种基于音色的音频转换装置，包括：

获取单元，用于获取待转换音频信息和目标音频标识信息；

处理单元，用于对所述待转换音频信息进行特征提取，得到待转换特征信息；

转换单元，用于根据预设的音色转换处理模块对所述待转换特征信息进行音色转换，将所述待转换特征信息转换为与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息，得到与所述目标音频信息音色相同的音频信息。

优选地，所述处理单元，用于对所述待转换音频信息进行声学特征提取得到待转换声学特征信息，并对所述待转换音频信息进行音素特征提取得到待转换音素特征信息。

优选地，所述处理单元，具体用于对所述待转换音频信息进行声学特征提取，得到该待转换音频信息的梅尔频率倒谱系数MFCC特征信息；对所述MFCC特征信息进行分帧处理，得到各帧对应的MFCC特征信息。

优选地，所述处理单元，具体用于对所述待转换音频信息进行音素特征提取，得到该待转换音频信息的音素序列，其中，该音素序列为由构成该待转换音频信息的各音素组成的序列。

优选地，所述转换单元，具体用于：

优选地，还包括：

采集单元，用于采集所述待转换音频信息；

发送单元，用于根据用户的指示信息将该待转换音频信息通过数据上传请求发送到服务器，以使所述服务器根据接收到的待转换音频信息对所述音色转换处理模块中的样本数据进行更新。

优选地，所述发送单元将该待转换音频信息通过数据上传请求发送到服务器时，包括如下任意一种发送条件：

实时向服务器发送数据上传请求；

每隔预设时间段向服务器发送数据上传请求；

优选地，还包括：

接收单元，还用于接收服务器发送的更新指示，所述更新指示中携带有音色转换处理模块的更新信息；

更新单元，用于根据所述音色转换处理模块的更新信息更新存储的该预设的音色转换处理模块。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述的方法。

本发明还提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述的基于音色的音频转换方法对应的操作。

与现有技术相比，本发明至少具有以下优点：

通过对获取到的待转换音频信息进行特征提取，使得对音频信息以较为精细的特征信息进行处理，提高了转换的精度，再通过预设的音色转换处理模块对该待转换特征信息进行音色转换，进一步提高了对待转换音频信息转换时的转换精准度，达到更为准确的音频信息转换，进而提升以及丰富了用户的使用体验感受。

附图说明

图1是本发明提供的基于音色的音频转换方法的流程示意图；

图2是本发明提供的音色转换处理模块构建的流程示意图；

图3是本发明提供的音素识别模块构建的流程示意图；

图4是本发明提供的基于音色的音频转换装置的结构示意图。

具体实施方式

本发明提出一种基于音色的音频转换方法及装置，下面结合附图，对本发明具体实施方式进行详细说明。

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本发明中，提供了一种基于音色的音频转换方法，如图1所示，包括：

步骤101，获取待转换音频信息和目标音频标识信息。

其中，该待转换音频信息为用户上传的音频或本地存储的音频或云端存储的音频。对于上述待转换音频信息和目标音频标识信息的获取方式，可以是通过用户对实时上传的音频进行的音色转换请求，也可以是通过用户触发的对音频进行音色转换处理的指示，当然，上述待转换音频信息和目标音频标识信息的获取方式并不仅限于此，对于其他任意的获取方式均在本发明的保护范围之内。

步骤102，对所述待转换音频信息进行特征提取，得到待转换特征信息。

在本步骤中，该对所述待转换音频信息进行特征提取，得到待转换特征信息，包括了两种特征信息的提取处理，即待转换声学特征信息和待转换音素特征信息的提取，具体的：

该待转换声学特征信息的提取处理，包括：

对所述待转换音频信息进行声学特征提取，得到该待转换音频信息的MFCC(MelFrequency Cepstrum Coefficient，梅尔频率倒谱系数)特征信息；

该待转换音素特征信息的提取处理，包括：

步骤103，根据预设的音色转换处理模块对所述待转换特征信息进行音色转换，将所述待转换特征信息转换为与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息，得到与所述目标音频信息音色相同的音频信息。

本步骤中，所述根据预设的音色转换处理模块对所述待转换特征信息进行音色转换，将所述待转换特征信息转换为与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息，包括：

获取预先存储的对应于所述目标音频标识信息的目标音频信息，提取所述目标音频特征信息对应的目标音频特征信息；其中，该目标音频信息及其所包含的目标音频特征信息和目标音频标识信息存储于该预设的音色转换处理模块的数据库中。

进一步地，上述根据预设的音色转换处理模块对得到的待转换特征信息进行音色转换，可以具体包括：

利用该音色转换处理模块对上述特征提取时提取到的各帧对应的MFCC特征信息以及音素序列进行音色转换处理，得到目标特征信息，并在该音色转换处理模块中将该得到的目标特征信息与该音色转换处理模块中存储的目标音频特征信息进行比对，根据二者的匹配程度确定是否得到与目标音频信息音色相同的目标特征信息。

进一步地，对于本步骤中所涉及的音色转换处理模块，为通过训练深度卷积神经网络得到的一个用于音色转换的模块。其主要处理多媒体信息为音频信息的情况，如图2所示，其设计大体可以包括如下处理：

选取大量的原说话人的音频样本以及目标说话人的音频样本，分别进行音素识别模块的特征抽取处理，得到原说话人的音频帧特征以及目标说话人的音频帧特征；通过对得到的原说话人的音频帧特征以及目标说话人的音频帧特征进行神经网络的深度学习过程处理，从而构建音色转换处理模块。

对于上述音色转换处理模块构建中的音频特征抽取，是抽取到的声学特征信息和音素特征信息。

其中，在上述所构建的音色转换处理模块中的特征抽取处理过程中所使用的音素识别模块，其构建过程如图3所示，包括如下处理：

选取大量的音频样本，获取每个音频样本对应的文本信息，对音频样本进行语音特征抽取，得到对应的语音帧的特征信息；同时对各音频样本的文本信息进行音素特征的抽取，得到对应的音素的特征信息；通过对得到的语音帧的特征信息以及音素的特征信息进行神经网络的深度学习过程处理，从而构建出音素识别模块。

其中，上述音色转换处理模块和音素识别模块中所涉及的神经网络均可以为CNN((Convolutional Neural Network，卷积神经网络)、DNN(Deep Neural Network，深层神经网络)或RNN(Recurrent neural Network、循环神经网络)。

进一步地，本发明还包括服务器侧对音色转换处理模块的数据库的更新处理，包括：

采集所述待转换音频信息；

并根据用户的指示信息将该待转换音频信息通过数据上传请求发送到服务器，以使所述服务器根据接收到的待转换音频信息对所述音色转换处理模块中的样本数据进行更新，丰富扩大数据库中的样本数据。

其中，在将该待转换音频信息通过数据上传请求发送到服务器时，包括如下任意一种发送条件：

实时向服务器发送数据上传请求；

每隔预设时间段向服务器发送数据上传请求；

本发明还包括终端侧对音色转换处理模块的更新处理，包括：

其中，上述服务器对音色转换处理模块的更新处理，可以是实时进行更新处理，也可以是每隔一段时间之后进行更新处理；同样的，对于服务器向终端下发更新指示而言，也可以是该服务器更新之后实时下发，或者每隔一段时间之后下发。

针对上述本发明所提供的基于音色的音频转换方法，下面以两个实施例进行具体阐述。

在下述各实施例的阐述中，以终端为手机为例进行说明。

实施例一

手机终端接收到用户触发的一条转换请求信息，请求将一段语音转换为某个明星A的声音。根据该转换请求信息中携带的明星A声音的音频标识，提取该音频标识对应的目标音频特征信息；对该转换请求信息中携带的那段待转换语音进行音素特征提取，得到对应的待转换音素特征信息；在音色转换处理模块中，对得到的待转换音频特征信息进行声学特征提取，得到MFCC特征信息，对得到的待转换音素特征信息以及MFCC特征信息进行音色转换，得到目标特征信息，将该目标特征信息与目标音频特征信息进行比对，确定这两者的匹配程度，当匹配程度大于70％时，确定二者匹配，得到与该目标音频特征信息对应的音频信息音色相同的特征信息，进而实现了将用户的语音转换成了明星A的声音的音色处理。

其中，在进行该语音的转换处理时，还会同时将该语音携带于数据上传请求中发送到云端的服务器，从而使得服务器将该语音数据进行更新，丰富扩大了该音色转换处理模块的数据库中的样本数据，并在更新完成之后，通过该服务器实时向该手机终端下发针对该音色转换处理模块的更新指示，从而使得该手机终端根据接收到的更新指示对自身所存储的音色转换处理模块进行数据更新。

实施例二

手机终端接收到用户触发的一条转换请求信息，请求将一段语音转换为某个明星B的声音。根据该转换请求信息中携带的明星B声音的音频标识，提取该音频标识对应的目标音频特征信息；对该转换请求信息中携带的那段待转换语音进行音素特征提取，得到对应的待转换音素特征信息；在音色转换处理模块中，对得到的待转换音频特征信息进行声学特征提取，得到MFCC特征信息，对得到的待转换音素特征信息以及MFCC特征信息进行音色转换，得到目标特征信息，将该目标特征信息与目标音频特征信息进行比对，确定这两者的匹配程度，当匹配程度小于70％时，确定二者不匹配，无法得到与该目标音频特征信息对应的音频信息音色相同的特征信息，从而无法实现将用户的语音转换成明星B的声音，需要重新对该语音的转换操作处理。

其中，在该语音的转换处理结束时，还会每隔预设时间段将该语音携带于数据上传请求中发送到云端的服务器，从而使得服务器将该语音数据进行更新，丰富扩大了该音色转换处理模块的数据库中的样本数据，并在更新完成之后，通过该服务器实时向该手机终端下发针对该音色转换处理模块的更新指示，从而使得该手机终端根据接收到的更新指示对自身所存储的音色转换处理模块进行数据更新。

基于上述本发明所提供的基于音色的音频转换方法，本发明还提供了一种基于音色的音频转换装置，如图4所示，包括：

获取单元41，用于获取待转换音频信息和目标音频标识信息；

处理单元42，用于对所述待转换音频信息进行特征提取，得到待转换特征信息；

转换单元43，用于根据预设的音色转换处理模块对所述待转换特征信息进行音色转换，将所述待转换特征信息转换为与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息，得到与所述目标音频信息音色相同的音频信息。

优选地，所述处理单元42，用于对所述待转换音频信息进行声学特征提取得到待转换声学特征信息，并对所述待转换音频信息进行音素特征提取得到待转换音素特征信息。

优选地，所述处理单元42，具体用于对所述待转换音频信息进行声学特征提取，得到该待转换音频信息的梅尔频率倒谱系数MFCC特征信息；对所述MFCC特征信息进行分帧处理，得到各帧对应的MFCC特征信息。

优选地，所述处理单元42，具体用于对所述待转换音频信息进行音素特征提取，得到该待转换音频信息的音素序列，其中，该音素序列为由构成该待转换音频信息的各音素组成的序列。

优选地，所述转换单元43，具体用于：

优选地，还包括：

采集单元44，用于采集所述待转换音频信息；

发送单元45，用于根据用户的指示信息将该待转换音频信息通过数据上传请求发送到服务器，以使所述服务器根据接收到的待转换音频信息对所述音色转换处理模块中的样本数据进行更新。

优选地，所述发送单元45将该待转换音频信息通过数据上传请求发送到服务器时，包括如下任意一种发送条件：

实时向服务器发送数据上传请求；

每隔预设时间段向服务器发送数据上传请求；

优选地，还包括：

接收单元46，还用于接收服务器发送的更新指示，所述更新指示中携带有音色转换处理模块的更新信息；

更新单元47，用于根据所述音色转换处理模块的更新信息更新存储的该预设的音色转换处理模块。

本发明中，通过对获取到的待转换音频信息进行特征提取，使得对音频信息以较为精细的特征信息进行处理，提高了转换的精度，再通过预设的音色转换处理模块对该待转换特征信息进行音色转换，进一步提高了对待转换音频信息转换时的转换精准度，达到更为准确的音频信息转换，进而提升以及丰富了用户的使用体验感受。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

其中，本发明装置的各个模块可以集成于一体，也可以分离部署。上述模块可以合并为一个模块，也可以进一步拆分成多个子模块。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述，不代表实施例的优劣。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种基于音色的音频转换方法，其特征在于，包括：

获取待转换音频信息和目标音频标识信息；

2.如权利要求1所述的方法，其特征在于，所述对所述待转换音频信息进行特征提取，得到待转换特征信息，包括：

3.如权利要求2所述的方法，其特征在于，所述对所述待转换音频信息进行声学特征提取得到待转换声学特征信息，包括：

4.如权利要求2所述的方法，其特征在于，所述对所述待转换音频信息进行音素特征提取得到待转换音素特征信息，包括：

5.如权利要求1-4中任一项所述的方法，其特征在于，所述根据预设的音色转换处理模块对所述待转换特征信息进行音色转换，将所述待转换特征信息转换为与所述目标音频标识信息对应的目标音频信息音色相同的目标特征信息，包括：

6.如权利要求1-5中任一项所述的方法，其特征在于，还包括：

采集所述待转换音频信息；

7.如权利要求1-6中任一项所述的方法，其特征在于，所述待转换音频信息为用户上传的音频或本地存储的音频或云端存储的音频。

8.一种基于音色的音频转换装置，其特征在于，包括：

获取单元，用于获取待转换音频信息和目标音频标识信息；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1-7中任一项所述的方法。

10.一种计算设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的基于音色的音频转换方法对应的操作。