CN107818794A

CN107818794A - 基于节奏的音频转换方法及装置

Info

Publication number: CN107818794A
Application number: CN201711008281.5A
Authority: CN
Inventors: 齐路; 颜钊; 张姗姗
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-10-25
Filing date: 2017-10-25
Publication date: 2018-03-20

Abstract

本发明涉及计算机技术领域，公开了一种基于节奏的音频转换方法及装置，该基于节奏的音频转换方法包括：获取待转换音频信息和目标音频标识信息；对所述待转换音频信息进行特征提取，得到待转换特征信息；根据预设的节奏转换处理模块对所述待转换特征信息进行节奏转换，将所述待转换音频信息转换为与所述目标音频标识信息对应的目标音频信息节奏相同的目标特征信息，得到与所述目标音频信息节奏相同的音频信息。本发明中，实现了对待转换音频的转换处理，提高了对音频信息的转换精准度，进而提升以及丰富了用户的使用体验感受。

Description

基于节奏的音频转换方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种基于节奏的音频转换方法及装置。

背景技术

在日常的生活交流中，一个人的声音往往就是他的身份名片，听到自己熟悉人的声音后，就可辨认出这个人。在辨认人时，不只是通过该声音的音色，还有该声音的语调语速，不同的人在说同一句话，会有着不同的语调、语速。

声音转换是声音信号处理领域近年来新兴的研究分支，声音转换技术是指在保持语义内容不变的情况下，通过改变一个原说话人的语音个性特征，使他说的话被听者认为是目标说话人说的话，由于可以将一个发音人的声音转换为另一个发音人的声音，使人听起来像是另一个人的声音，有着广泛的应用前景，如用户可以将自己说话的声音转换成所喜欢明星的声音，或转换成用户自己熟悉人说话的声音。

对于现有技术中的语音转换处理，通常是经过调整原说话人的语速或语调，从而实现将原说话人的声音转换为目标说话人的声音，虽然经过上述转换处理之后，可以使转换后的语音与目标说话人的语速、语调相对匹配，但其转换得到的语音相比较于目标说话人的声音，还是存在一定的差异，无法实现相对完美的语音转换。

发明内容

本发明提供基于节奏的音频转换方法及装置，以实现对待转换音频信息的转换处理，提高对音频信息的转换精准度，进而提升以及丰富用户的使用体验感受。

本发明提供了一种基于节奏的音频转换方法，包括：

获取待转换音频信息和目标音频标识信息；

对所述待转换音频信息进行特征提取，得到待转换特征信息；

根据预设的节奏转换处理模块对所述待转换特征信息进行节奏转换，将所述待转换音频信息转换为与所述目标音频标识信息对应的目标音频信息节奏相同的目标特征信息，得到与所述目标音频信息节奏相同的音频信息。

优选地，所述对所述待转换音频信息进行特征提取，得到待转换特征信息，包括：

对所述待转换音频信息进行音素特征提取得到待转换音素特征信息。

优选地，所述对所述待转换音频信息进行音素特征提取得到待转换音素特征信息，包括：

对所述待转换音频信息进行音素特征提取，得到该待转换音频信息的音素序列、音素时长以及音素上下文特征信息；

其中，该音素序列为由构成该待转换音频信息的各音素组成的序列；

该音素时长为各音素在所构成的待转换音频信息的上下文信息中所占时长；

该音素上下文特征信息为各音素在所构成的待转换音频信息中所归属的上下文的特征信息。

优选地，所述根据预设的节奏转换处理模块对所述待转换特征信息进行节奏转换，将所述待转换音频信息转换为与所述目标音频标识信息对应的目标音频信息节奏相同的目标特征信息，包括：

获取预先存储的对应于所述目标音频标识信息的目标音频信息，提取所述目标音频特征信息对应的目标音频特征信息；

根据预设的节奏转换处理模块对得到的待转换特征信息按照所述目标音频特征信息进行节奏转换，将所述待转换特征信息转换为与所述目标特征信息节奏相同的特征信息。

优选地，还包括：

采集所述待转换音频信息；

并根据用户的指示信息将该待转换音频信息通过数据上传请求发送到服务器，以使所述服务器根据接收到的待转换音频信息对所述节奏转换处理模块中的样本数据进行更新。

优选地，所述将该待转换音频信息通过数据上传请求发送到服务器时，包括如下任意一种发送条件：

实时向服务器发送数据上传请求；

每隔预设时间段向服务器发送数据上传请求；

待转换音频信息的数量达到预设阈值时向服务器发送数据上传请求。

优选地，还包括：

接收服务器发送的更新指示，所述更新指示中携带有节奏转换处理模块的更新信息；

根据所述节奏转换处理模块的更新信息更新存储的该预设的节奏转换处理模块。

优选地，所述待转换音频信息为用户上传的音频或本地存储的音频或云端存储的音频。

本发明还提供了一种基于节奏的音频转换装置，包括：

获取单元，用于获取待转换音频信息和目标音频标识信息；

处理单元，用于对所述待转换音频信息进行特征提取，得到待转换特征信息；

转换单元，用于根据预设的节奏转换处理模块对所述待转换特征信息进行节奏转换，将所述待转换音频信息转换为与所述目标音频标识信息对应的目标音频信息节奏相同的目标特征信息，得到与所述目标音频信息节奏相同的音频信息。

优选地，所述处理单元，用于对所述待转换音频信息进行音素特征提取得到待转换音素特征信息。

优选地，所述处理单元，具体用于对所述待转换音频信息进行音素特征提取，得到该待转换音频信息的音素序列、音素时长以及音素上下文特征信息；

优选地，所述处理单元，具体用于：

优选地，还包括：

采集单元，用于采集所述待转换音频信息；

发送单元，用于根据用户的指示信息将该待转换音频信息通过数据上传请求发送到服务器，以使所述服务器根据接收到的待转换音频信息对所述节奏转换处理模块中的样本数据进行更新。

优选地，所述发送单元将该待转换音频信息通过数据上传请求发送到服务器时，包括如下任意一种发送条件：

实时向服务器发送数据上传请求；

每隔预设时间段向服务器发送数据上传请求；

优选地，还包括：

接收单元，还用于接收服务器发送的更新指示，所述更新指示中携带有节奏转换处理模块的更新信息；

更新单元，用于根据所述节奏转换处理模块的更新信息更新存储的该预设的节奏转换处理模块。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述的方法。

本发明还提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述的基于节奏的音频转换方法对应的操作。

与现有技术相比，本发明至少具有以下优点：

通过对获取到的待转换音频信息进行特征提取，使得对音频信息以较为精细的特征信息进行处理，提高了转换的精度，再通过预设的节奏转换处理模块对该待转换特征信息进行节奏转换，进一步提高了对待转换音频信息转换时的转换精准度，达到更为准确的对音频信息的节奏转换，从而将待转换音频信息转换为目标音频信息，进而提升以及丰富了用户的使用体验感受。

附图说明

图1是本发明提供的基于节奏的音频转换方法的流程示意图；

图2是本发明提供的节奏转换处理模块构建的流程示意图；

图3是本发明提供的音素识别模块构建的流程示意图；

图4是本发明提供的基于节奏的音频转换装置的结构示意图。

具体实施方式

本发明提出一种基于节奏的音频转换方法及装置，下面结合附图，对本发明具体实施方式进行详细说明。

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本发明中，提供了基于节奏的音频转换方法，如图1所示，包括：

步骤101，获取待转换音频信息和目标音频标识信息。

其中，该待转换音频信息为用户上传的音频或本地存储的音频或云端存储的音频。对于上述待转换音频信息和目标音频标识信息的获取方式，可以是通过用户对实时上传的音频进行的音色转换请求，也可以是通过用户触发的对音频进行音色转换处理的指示，当然，上述待转换音频信息和目标音频标识信息的获取方式并不仅限于此，对于其他任意的获取方式均在本发明的保护范围之内。

步骤102，对所述待转换音频信息进行特征提取，得到待转换特征信息。

在本步骤中，该对所述待转换音频信息进行特征提取，得到待转换特征信息，包括了音素特征信息的提取处理，具体的：

该对待转换音素特征信息的提取处理，包括：

步骤103，根据预设的节奏转换处理模块对所述待转换特征信息进行节奏转换，将所述待转换音频信息转换为与所述目标音频标识信息对应的目标音频信息节奏相同的目标特征信息，得到与所述目标音频信息节奏相同的音频信息。

本步骤中，根据预设的节奏转换处理模块对所述待转换特征信息进行节奏转换，将所述待转换音频信息转换为与所述目标音频标识信息对应的目标音频信息节奏相同的目标特征信息，包括：

获取预先存储的对应于所述目标音频标识信息的目标音频信息，提取所述目标音频特征信息对应的目标音频特征信息；其中，该目标音频信息及其所包含的目标音频特征信息和目标音频标识信息存储于该预设的节奏转换处理模块的数据库中。

进一步地，上述根据预设的节奏转换处理模块对得到的待转换特征信息进行节奏转换，可以具体包括：

利用该节奏转换处理模块对上述特征提取时提取到的音素序列、音素时长以及音素上下文特征信息进行节奏转换处理，在转换时参照其数据库中存储的目标音频信息所对应的目标音频特征信息(包括目标音频信息对应的音素序列、音素时长以及音素上下文特征信息)，从而得到与该目标音频信息的目标音频特征信息相同的特征信息，也即将该待转换特征信息转换为与所述目标特征信息节奏相同的特征信息。

进一步地，对于本步骤中所涉及的节奏转换处理模块，为通过训练GMM(GaussianMixture Model，高斯混合模型)-HMM(Hidden Markov Model，隐马尔可夫模型)得到的一个用于节奏转换的模块。其主要处理多媒体信息为音频信息的情况，如图2所示，其设计大体可以包括如下处理：

选取大量的目标说话人的音频样本，获取每个音频样本对应的文本信息，对音频样本进行音素识别，得到对应的音素序列以及音素时长；同时对各音频样本的文本信息进行文本特征的转换，得到对应的音素上下文特征信息；通过对得到的音素序列、音素时长以及音素上下文特征信息进行GMM-HMM的训练过程处理，从而构建出节奏转换处理模块。

其中，在上述所构建的节奏转换处理模块中所使用的音素识别模块，其构建过程如图3所示，包括如下处理：

选取大量的音频样本，获取每个音频样本对应的文本信息，对音频样本进行语音特征抽取，得到对应的语音帧的特征信息；同时对各音频样本的文本信息进行音素特征的抽取，得到对应的音素的特征信息；通过对得到的语音帧的特征信息以及音素的特征信息进行神经网络的深度学习过程处理，从而构建出音素识别模块。

其中，上述音素识别模块中所涉及的神经网络均可以为CNN((ConvolutionalNeural Network，卷积神经网络)、DNN(Deep Neural Network，深层神经网络)或RNN(Recurrent neural Network、循环神经网络)。

进一步地，本发明还包括服务器侧对音色转换处理模块的数据库的更新处理，包括：

采集所述待转换音频信息；

并根据用户的指示信息将该待转换音频信息通过数据上传请求发送到服务器，以使所述服务器根据接收到的待转换音频信息对所述节奏转换处理模块中的样本数据进行更新，丰富扩大数据库中的样本数据。

其中，在将该待转换音频信息通过数据上传请求发送到服务器时，包括如下任意一种发送条件：

实时向服务器发送数据上传请求；

每隔预设时间段向服务器发送数据上传请求；

本发明还包括终端侧对音色转换处理模块的更新处理，包括：

其中，上述服务器对节奏转换处理模块的更新处理，可以是实时进行更新处理，也可以是每隔一段时间之后进行更新处理；同样的，对于服务器向终端下发更新指示而言，也可以是该服务器更新之后实时下发，或者每隔一段时间之后下发。

针对上述本发明所提供的基于节奏的音频转换方法，下面以一个实施例进行具体阐述。

在下述实施例阐述中，以终端为手机为例进行说明。

实施例一

手机终端接收到用户触发的一条转换请求信息，请求将一段语音转换为某个明星A的声音。根据该转换请求信息中携带的明星A声音的音频标识，提取该音频标识对应的目标音频特征信息；对该转换请求信息中携带的那段待转换语音进行音素特征提取，得到对应的待转换音素特征信息；根据预设的节奏转换处理模块对得到的待转换音素特征信息进行节奏转换，将该待转换音素特征信息转换为与该目标音频特征信息节奏相同的特征信息，进而实现了将用户的语音转换成了明星A的声音的节奏处理。

其中，在进行该语音的转换处理时，还会同时将该语音携带于数据上传请求中发送到云端的服务器，从而使得服务器将该语音数据进行更新，丰富扩大了该节奏转换处理模块的数据库中的样本数据，并在更新完成之后，通过该服务器实时向该手机终端下发针对该节奏转换处理模块的更新指示，从而使得该手机终端根据接收到的更新指示对自身所存储的节奏转换处理模块进行数据更新。

基于上述本发明所提供的基于节奏的音频转换方法，本发明还提供了一种基于节奏的音频转换装置，如图4所示，包括：

获取单元41，用于获取待转换音频信息和目标音频标识信息；

处理单元42，用于对所述待转换音频信息进行特征提取，得到待转换特征信息；

转换单元43，用于根据预设的节奏转换处理模块对所述待转换特征信息进行节奏转换，将所述待转换音频信息转换为与所述目标音频标识信息对应的目标音频信息节奏相同的目标特征信息，得到与所述目标音频信息节奏相同的音频信息。

优选地，所述处理单元42，用于对所述待转换音频信息进行音素特征提取得到待转换音素特征信息。

优选地，所述处理单元42，具体用于对所述待转换音频信息进行音素特征提取，得到该待转换音频信息的音素序列、音素时长以及音素上下文特征信息；

优选地，所述处理单元42，具体用于：

优选地，还包括：

采集单元44，用于采集所述待转换音频信息；

发送单元45，用于根据用户的指示信息将该待转换音频信息通过数据上传请求发送到服务器，以使所述服务器根据接收到的待转换音频信息对所述节奏转换处理模块中的样本数据进行更新。

实时向服务器发送数据上传请求；

每隔预设时间段向服务器发送数据上传请求；

优选地，还包括：

接收单元46，还用于接收服务器发送的更新指示，所述更新指示中携带有节奏转换处理模块的更新信息；

更新单元47，用于根据所述节奏转换处理模块的更新信息更新存储的该预设的节奏转换处理模块。

本发明中，通过对获取到的待转换音频信息进行特征提取，使得对音频信息以较为精细的特征信息进行处理，提高了转换的精度，再通过预设的节奏转换处理模块对该待转换特征信息进行节奏转换，进一步提高了对待转换音频信息转换时的转换精准度，达到更为准确的对音频信息的节奏转换，从而将待转换音频信息转换为目标音频信息，进而提升以及丰富了用户的使用体验感受。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

其中，本发明装置的各个模块可以集成于一体，也可以分离部署。上述模块可以合并为一个模块，也可以进一步拆分成多个子模块。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明序号仅仅为了描述，不代表实施例的优劣。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种基于节奏的音频转换方法，其特征在于，包括：

获取待转换音频信息和目标音频标识信息；

2.如权利要求1所述的方法，其特征在于，所述对所述待转换音频信息进行特征提取，得到待转换特征信息，包括：

3.如权利要求2所述的方法，其特征在于，所述对所述待转换音频信息进行音素特征提取得到待转换音素特征信息，包括：

4.如权利要求1-3中任一项所述的方法，其特征在于，所述根据预设的节奏转换处理模块对所述待转换特征信息进行节奏转换，将所述待转换音频信息转换为与所述目标音频标识信息对应的目标音频信息节奏相同的目标特征信息，包括：

5.如权利要求1-4中任一项所述的方法，其特征在于，还包括：

采集所述待转换音频信息；

6.如权利要求1-5中任一项所述的方法，其特征在于，还包括：

7.如权利要求1-6中任一项所述的方法，其特征在于，所述待转换音频信息为用户上传的音频或本地存储的音频或云端存储的音频。

8.一种基于节奏的音频转换装置，其特征在于，包括：

获取单元，用于获取待转换音频信息和目标音频标识信息；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1-7中任一项所述的方法。

10.一种计算设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的基于节奏的音频转换方法对应的操作。