CN111383627A

CN111383627A - 一种语音数据处理方法、装置、设备及介质

Info

Publication number: CN111383627A
Application number: CN201811628970.0A
Authority: CN
Inventors: 杨鹏; 孙子涵; 邱家洪
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2020-07-07
Anticipated expiration: 2038-12-28
Also published as: CN111383627B

Abstract

本发明实施例公开了一种语音数据处理方法、装置、设备及介质，用以减少所需的目标发音人的语音训练数据，降低语音合成的工作量、周期和成本。所述语音数据处理方法，包括：获取多个发音人的语音训练数据和目标发音人的语音训练数据，所述目标发音人的语音训练数据的数量远小于所述多个发音人的语音训练数据总数量；基于所述多个发音人的语音训练数据和所述目标发音人的语音训练数据，训练生成用于合成所述目标发音人语音的初级语音合成模型；根据预先配置的文本语料，利用所述初级语音合成模型，得到所述目标发音人用于语音合成的语料数据。

Description

一种语音数据处理方法、装置、设备及介质

技术领域

本发明涉及语音处理领域，尤其是涉及一种语音数据处理方法、装置、设备及介质。

背景技术

随着各类智能音箱产品的发布，除了外观、音质、价格、内容等要素以外，用户越来越看重智能音箱的人工智能(Artificial Intelligence，AI)能力和个性化能力。

为打造个性化和差异化的音箱，不仅需要通过语音合成技术输出不同人设不同音色的语音，而且还需要使合成的语音清晰自然。为了合成声音清晰自然且富有个性化的语音，现有语音合成***的一般做法是选择一个目标发音人，设计大量的文本语料，依据设计的文本语料录制该目标发音人的大量语料数据，然后基于录制的语料数据合成目标发音人的语音。

虽然通过上述方式合成的语音音色与发音人本身发出的语音较为接近，但是在获取用于合成目标发音人语音的语料数据时，需要录制目标发音人的大量发音数据，不但工作量大，周期长，而且成本较高。

发明内容

本发明实施例提供一种语音数据处理方法、装置、设备及介质，用以减少所需的目标发音人的语音训练数据，降低语音合成的工作量、周期和成本。

第一方面，本发明实施例提供一种语音数据处理方法，包括：

获取多个发音人的语音训练数据和目标发音人的语音训练数据，目标发音人的语音训练数据的数量远小于多个发音人的语音训练数据总数量；

基于多个发音人的语音训练数据和目标发音人的语音训练数据，训练生成用于合成目标发音人语音的初级语音合成模型；

根据预先配置的文本语料，利用初级语音合成模型，得到目标发音人用于语音合成的语料数据。

在一种可能的实施方式中，本发明实施例提供的上述方法中，根据预先配置的文本语料，利用初级语音合成模型，得到目标发音人用于语音合成的语料数据，包括：

将文本语料输入至初级语音合成模型，得到文本语料对应的语音合成数据；

从语音合成数据中，筛选出符合预设要求的语音合成数据，并确定为目标发音人的语料数据。

在一种可能的实施方式中，本发明实施例提供的上述方法中，根据预先配置的文本语料，利用初级语音合成模型，得到目标发音人用于语音合成的语料数据之后，还包括：

利用语料数据，对初级语音合成模型的参数进行调整，得到用于合成目标发音人语音的目标语音合成模型。

从语料数据中提取语音片段，利用提取出的语音片段组成用于拼接合成目标发音人语音的语音库。

在一种可能的实施方式中，本发明实施例提供的上述方法中，基于多个发音人的语音训练数据和目标发音人的语音训练数据，训练生成用于合成目标发音人语音的初级语音合成模型，包括：

基于多个发音人的语音训练数据，训练生成用于合成语音的基础语音合成模型；

利用目标发音人的语音训练数据，对基础语音合成模型的参数进行调整，得到用于合成目标发音人语音的初级语音合成模型。

第二方面，本发明实施例提供一种语音数据处理装置，包括：

获取单元，用于获取多个发音人的语音训练数据和目标发音人的语音训练数据，目标发音人的语音训练数据的数量远小于多个发音人的语音训练数据总数量；

训练单元，用于基于多个发音人的语音训练数据和目标发音人的语音训练数据，训练生成用于合成目标发音人语音的初级语音合成模型；

处理单元，用于根据预先配置的文本语料，利用初级语音合成模型，得到目标发音人用于语音合成的语料数据。

在一种可能的实施方式中，本发明实施例提供的上述装置中，处理单元具体用于：

在一种可能的实施方式中，本发明实施例提供的上述装置中，处理单元还用于：

在一种可能的实施方式中，本发明实施例提供的上述装置中，训练单元具体用于：

第三方面，本发明实施例提供一种电子设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现如本发明实施例第一方面所提供的方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现如本发明实施例第一方面所提供的方法。

本发明实施例提供的语音数据处理方法、装置、设备及介质，获取多个发音人的语音训练数据和目标发音人的语音训练数据，目标发音人的语音训练数据的数量远小于多个发音人的语音训练数据总数量；基于多个发音人的语音训练数据和目标发音人的语音训练数据，训练生成用于合成目标发音人语音的初级语音合成模型；根据预先配置的文本语料，利用初级语音合成模型，得到目标发音人用于语音合成的语料数据。由于在生成目标发音人用于语音合成的语料数据时，只需获取目标发音人的少量语音训练数据即可，与现有语音合成***在获取用于合成目标发音人语音的语料数据时，需要录制目标发音人的大量发音数据相比，能够减少所需的目标发音人的语音训练数据，降低语音合成的工作量、周期和成本。

附图说明

图1为本发明实施例提供的语音数据处理方法的示意流程图；

图2为本发明实施例提供的语音数据处理装置的结构示意图；

图3为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图，对本发明实施例提供的一种语音数据处理方法、装置、设备及介质的具体实施方式进行详细地说明。

如图1所示，本发明实施例提供的语音数据处理方法，其可以包括如下步骤：

步骤101，获取多个发音人的语音训练数据和目标发音人的语音训练数据，目标发音人的语音训练数据的数量远小于多个发音人的语音训练数据总数量。

其中，目标发音人是指待合成语音对应的人设，并不特指某一发音人。例如，要合成发音人A的语音，则发音人A即为目标发音人。

实际应用中，由于普通人(或者普通发音人)的大规模语音数据(例如，3万句、30小时以上)比较容易获得，而目标发音人(例如，明星)的大量语音数据不易获得，针对目标发音人，一般仅能够获取几百句或者一小时以内的少量语音数据，例如30分钟的录制数据。因此，本发明实施例中多个发音人的语音训练数据可以是普通人的语音数据。

具体的，在获取多个发音人的语音训练数据和目标发音人的语音训练数据时，可以采用多种方式进行获取，例如，网络上的音频数据、影像资料数据、录制数据等。

步骤102，基于多个发音人的语音训练数据和目标发音人的语音训练数据，训练生成用于合成目标发音人语音的初级语音合成模型。

具体实施时，首先基于多个发音人的语音训练数据，训练生成用于合成语音的基础语音合成模型，然后利用目标发音人的语音训练数据，对基础语音合成模型的参数进行调整，得到用于合成目标发音人语音的初级语音合成模型。

具体的，基于多个发音人的语音训练数据，训练生成用于合成语音的基础语音合成模型时，可以提取语音训练数据的文本特征和声学特征，然后以文本特征为输入数据，以声学特征为输出数据，基于深度神经网络学习算法，训练生成深度神经网络模型，并将生成的深度神经网络模型作为基础语音合成模型。

其中，文本特征可以包括但不限于：音子序列、词性、词长以及韵律停顿等，声学特征可以包括但不限于：谱参数、时长以及基频等。

需要说明的是，基础语音合成模型是基于多个发音人的语音训练数据训练生成的，其包含了多个发音人语音训练数据的普适特征，而利用目标发音人的语音训练数据，对基础语音合成模型进行训练后生成的初级语音合成模型，根据目标发音人的少量语音训练数据，对基础语音合成模型中的参数进行了调整，这样调整参数后的基础语音合成模型(也即初级语音合成模型)输出的语音数据更贴近目标发音人的真实语音特征。

步骤103，根据预先配置的文本语料，利用初级语音合成模型，得到目标发音人用于语音合成的语料数据。

其中，预先配置的文本语料，可以根据实际需求进行配置，本发明实施例对此不做限定。例如，若合成的语音用于导航方面，则预先配置的文本语料可以是导航方面的语料，再例如，若合成的语音用于客户服务，则预先配置的文本语料可以是客户服务方面的语料。

由于目标发音人的录制语音数据很少，模型学习到的特征有限，步骤102得到的初级语音合成模型进行合成时，有些发音由于初级语音合成模型没有学习过，会导致与目标发音人的发音的声音特征(音色、声调、音准、语气等)不符合的语音合成数据，使得合成的准确率不高，为此需要得到大量的目标发音人的训练数据(即文本语料)。

具体实施时，根据预先配置的文本语料，利用初级语音合成模型，得到目标发音人用于语音合成的语料数据时，可以先将文本语料输入至初级语音合成模型，得到文本语料对应的语音合成数据，然后从语音合成数据中，筛选出符合预设要求的语音合成数据，并确定为目标发音人的语料数据，从而快速得到目标发音人的大量语料数据。

需要说明的是，从语音合成数据中，筛选出符合预设要求的语音合成数据时，可以根据目标发音人的语音数据的特征，从语音合成数据中，筛选出更符合目标发音人的语音数据的特征的语音合成数据，确定为目标发音人的语料数据。

举例说明，可以从语音合成数据的音色、声调、音准、语气等特征判断与目标发音人对应的音色、声调、音准、语气等特征的匹配度来筛选语音合成数据，从而将不准确的语音合成数据剔除。

需要说明的是，具体实施时此部分可以由人工进行筛选，也可以使用预设的算法或模型进行筛选，还可以采用两者的组合方式进行筛选，本发明实施例对此不做限定。例如，先使用算法或模型筛选出发音错误的语音合成数据，并剔除发音错误的语音合成数据，然后再由专业语音识别人士对剩余的语音合成数据进行筛选。

由于对通过初级语音合成模型得到的语音合成数据进行了筛选，将符合预设要求的语音合成数据确定为目标发音人的语料数据，这样，得到的目标发音人的语料数据更贴合目标发音人的语音特征。

在一种可能的实施方式中，在得到目标发音人用于语音合成的语料数据之后，本发明实施例还可以利用语料数据，对初级语音合成模型的参数进行调整，得到用于合成目标发音人语音的目标语音合成模型。

具体实施时，在得到用于合成目标发音人语音的目标语音合成模型后，可以基于该目标语音合成模型合成目标发音人的语音。即，将文本语料输入至该目标语音合成模型，输出该文本语料对应的目标发音人的语音。

由于使用目标发音人的语料数据，对初级语音合成模型的参数进行调整，使得基于该目标语音合成模型得到的语音合成数据更清晰、自然，更具目标发音人个性化音色。通过本发明实施例提供的语音合成方案，能够利用少量的目标发音人的录制语音数据，快速、低成本获取到音色、声调、音准、语气等特征十分近似目标发音人的语音合成模型，从而快速合成该目标发音人的各种语音数据。由于语音合成模型快速复制能力强，从而满足了智能设备不同人设角色的需求。

在另一可能的实施方式中，在得到目标发音人用于语音合成的语料数据之后，本发明实施例还可以从语料数据中提取语音片段，利用提取出的语音片段组成用于拼接合成目标发音人语音的语音库。

具体实施时，在得到用于拼接合成目标发音人语音的语音库，可以根据用于语音合成的语料数据确定目标发音人的声学特征，然后基于声学特征和语音库合成目标发音人的语音数据。

举例说明，在得到大量目标发音人的语料数据之后，对该语料数据进行处理，可以得到包含目标发音人的大量声学片段的语音库。在合成时，对输入文本进行处理得到该输入文本对应的声学参数；然后，根据得到的声学参数，从语音库中获取对应的声学片段进行拼接合成。

其中，获取声学参数时，可以通过深度神经网络模型的方法，也可以采用传统HTS的方法。比如，输入文本进行注音，生成拼音序列，然后对拼音序列进行结构分析，生成韵律层级信息，再根据声学模型将生成的韵律层级信息转换为如基频、谱等声学参数，最后将声学参数合成语音或者从语音库中获取对应的声学片段拼接为语音。

本发明实施例中，由于在生成目标发音人用于语音合成的语料数据时，只需获取目标发音人的少量语音训练数据即可，与现有语音合成***在获取用于合成目标发音人语音的语料数据时，需要录制目标发音人的大量发音数据相比，能够减少所需的目标发音人的语音训练数据，降低语音合成的工作量、周期和成本。并且，针对目标发音人进行数据增强，能够快速、低成本获取到声音特色十分近似目标发音人的语音合成模型或包含目标发音人的大量声学片段的语音库，从而在使用该语音合成模型或包含目标发音人的声学片段的语音库，合成该目标发音人的语音数据时，得到的语音合成数据更贴近目标发明人的声音特征。

基于相同的发明构思，本发明实施例还提供一种语音数据处理装置。

如图2所示，本发明实施例提供一种语音数据处理装置，包括：

获取单元201，用于获取多个发音人的语音训练数据和目标发音人的语音训练数据，目标发音人的语音训练数据的数量远小于多个发音人的语音训练数据总数量；

训练单元202，用于基于多个发音人的语音训练数据和目标发音人的语音训练数据，训练生成用于合成目标发音人语音的初级语音合成模型；

处理单元203，用于根据预先配置的文本语料，利用初级语音合成模型，得到目标发音人用于语音合成的语料数据。

在一种可能的实施方式中，处理单元203具体用于：将文本语料输入至初级语音合成模型，得到文本语料对应的语音合成数据；从语音合成数据中，筛选出符合预设要求的语音合成数据，并确定为目标发音人的语料数据。

在一种可能的实施方式中，处理单元203还用于：利用语料数据，对初级语音合成模型的参数进行调整，得到用于合成目标发音人语音的目标语音合成模型。

在一种可能的实施方式中，处理单元203还用于：从语料数据中提取语音片段，利用提取出的语音片段组成用于拼接合成目标发音人语音的语音库。

在一种可能的实施方式中，训练单元202具体用于：基于多个发音人的语音训练数据，训练生成用于合成语音的基础语音合成模型；利用目标发音人的语音训练数据，对基础语音合成模型的参数进行调整，得到用于合成目标发音人语音的初级语音合成模型。

另外，结合图1-图2描述的本发明实施例的语音数据处理方法和装置可以由电子设备来实现。其中，电子设备可以是智能设备(如机器人等)或智能设备的控制器，也可以是服务器。本发明实施例中不对电子设备的具体实现形式进行限定。图3示出了本发明实施例提供的电子设备的硬件结构示意图。

该电子设备可以包括处理器301以及存储有计算机程序指令的存储器302。

具体地，上述处理器301可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器302可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器302可在数据处理装置的内部或外部。在特定实施例中，存储器302是非易失性固态存储器。在特定实施例中，存储器302包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器301通过读取并执行存储器302中存储的计算机程序指令，以实现上述实施例中的任意一种语音数据处理方法。

在一个示例中，该电子设备还可包括通信接口303和总线310。其中，如图3所示，处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。

通信接口303，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线310包括硬件、软件或两者，将该电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线310可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

该电子设备可以基于获取到多个发音人的语音训练数据和目标发音人的语音训练数据，执行本发明实施例中的语音数据处理方法，从而实现结合图1-图2描述的语音数据处理方法和装置。

另外，结合上述实施例中的语音数据处理方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种语音数据处理方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音数据处理方法，其特征在于，包括：

获取多个发音人的语音训练数据和目标发音人的语音训练数据，所述目标发音人的语音训练数据的数量远小于所述多个发音人的语音训练数据总数量；

基于所述多个发音人的语音训练数据和所述目标发音人的语音训练数据，训练生成用于合成所述目标发音人语音的初级语音合成模型；

根据预先配置的文本语料，利用所述初级语音合成模型，得到所述目标发音人用于语音合成的语料数据。

2.根据权利要求1所述的方法，其特征在于，根据预先配置的文本语料，利用所述初级语音合成模型，得到所述目标发音人用于语音合成的语料数据，包括：

将所述文本语料输入至所述初级语音合成模型，得到所述文本语料对应的语音合成数据；

从所述语音合成数据中，筛选出符合预设要求的语音合成数据，并确定为所述目标发音人的语料数据。

3.根据权利要求1所述的方法，其特征在于，根据预先配置的文本语料，利用所述初级语音合成模型，得到所述目标发音人用于语音合成的语料数据之后，还包括：

利用所述语料数据，对所述初级语音合成模型的参数进行调整，得到用于合成所述目标发音人语音的目标语音合成模型。

4.根据权利要求1所述的方法，其特征在于，根据预先配置的文本语料，利用所述初级语音合成模型，得到所述目标发音人用于语音合成的语料数据之后，还包括：

从所述语料数据中提取语音片段，利用提取出的语音片段组成用于拼接合成所述目标发音人语音的语音库。

5.根据权利要求1-4中任一项所述的方法，其特征在于，基于所述多个发音人的语音训练数据和所述目标发音人的语音训练数据，训练生成用于合成所述目标发音人语音的初级语音合成模型，包括：

基于所述多个发音人的语音训练数据，训练生成用于合成语音的基础语音合成模型；

利用所述目标发音人的语音训练数据，对所述基础语音合成模型的参数进行调整，得到用于合成所述目标发音人语音的初级语音合成模型。

6.一种语音数据处理装置，其特征在于，包括：

获取单元，用于获取多个发音人的语音训练数据和目标发音人的语音训练数据，所述目标发音人的语音训练数据的数量远小于所述多个发音人的语音训练数据总数量；

训练单元，用于基于所述多个发音人的语音训练数据和所述目标发音人的语音训练数据，训练生成用于合成所述目标发音人语音的初级语音合成模型；

处理单元，用于根据预先配置的文本语料，利用所述初级语音合成模型，得到所述目标发音人用于语音合成的语料数据。

7.根据权利要求6所述的装置，其特征在于，所述处理单元具体用于：

8.根据权利要求6所述的装置，其特征在于，所述处理单元还用于：

9.根据权利要求6所述的装置，其特征在于，所述处理单元还用于：

10.一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-5中任一项所述的方法。