CN110517662A

CN110517662A - 一种智能语音播报的方法及***

Info

Publication number: CN110517662A
Application number: CN201910630232.8A
Authority: CN
Inventors: 贺来朋; 刘露婕
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-07-12
Filing date: 2019-07-12
Publication date: 2019-11-29

Abstract

本发明提供了一种智能语音播报的方法及***，所述智能语音播报的方法执行以下步骤：步骤1：获取生成语音，包括待处理文本中的固定句式部分所采用的真人录音和槽位部分所采用的合成语音；步骤2：采用从真人录音与合成语音中提取的特征参数，对生成语音的特征参数进行调整，以提升合成语音与真人录音的一致性；步骤3：对生成语音的整句合成文本做文本分析，以保留上下文韵律信息，提升拼接处的韵律连贯性；步骤4：对真人录音做音效处理，并对真人录音与合成语音进行能量规整，以使真人录音与合成语音之间的能量变化趋于一致水平。此方法分别对合成语音和真人录音进行处理，提升合成语音与真人录音的相似度，以及拼接后的语音的整体一致性。

Description

一种智能语音播报的方法及***

技术领域

本发明涉及智能语音技术领域，特别涉及一种智能语音播报的方法及***。

背景技术

在智能外呼等应用场景中，需要接近真人发音的高质量播报音频。目前常用的做法是对播报文本中的固定句式部分采用真人录音，对于文本中需要经常变化的部分(通常称为槽位，例如人名、个人信息等)采用合成语音，然后将真人录音与合成语音做实时拼接。

现有技术方案由于合成***效果的限制，在音质、音色等方面，合成语音与真人录音差异性较大，从而导致拼接后的语音在听感上很不自然，而且在拼接处存在明显的跳变感，影响产品体验。

发明内容

本发明提供一种智能语音播报的方法及***，用以提升合成语音与真人录音的相似度，以及拼接后的语音的整体一致性。

本发明提供了一种智能语音播报的方法，所述方法执行以下步骤：

步骤1：获取生成语音，所述生成语音包括待处理文本中的固定句式部分所采用的真人录音和槽位部分所采用的合成语音；

步骤2：采用从所述真人录音与所述合成语音中提取的特征参数，对所述生成语音的特征参数进行调整，以提升所述合成语音与所述真人录音的一致性；

步骤3：对所述生成语音的整句合成文本做文本分析，以保留上下文韵律信息，提升拼接处的韵律连贯性；

步骤4：对所述真人录音做音效处理，并对所述真人录音与所述合成语音进行能量规整，以使所述真人录音与所述合成语音之间的能量变化趋于一致水平。

进一步地，在所述步骤1之前，所述方法还包括采用所述真人录音对所述生成语音的时长模型和声学模型做调整的步骤。

进一步地，在所述步骤2和所述步骤3之间，还包括步骤5：对所述槽位部分的文本进行优化，使得优化的槽位部分的文本包含整个韵律短语信息。

进一步地，在所述步骤3和所述步骤4之间，所述方法还包括步骤6：去除所述真人录音与所述合成语音的拼接处的静音段，以提升拼接处的连贯性。

进一步地，在所述步骤4之后，所述方法还包括步骤7：针对不同类型的槽位文本，动态调整所述槽位部分的合成参数。

进一步地，在所述步骤4之后，所述方法还包括步骤8：针对不同应用场景，在播报语音中添加相应场景的背景音。

本发明实施例提供的一种智能语音播报的方法，具有以下有益效果：分别对合成语音和真人录音进行处理，提升合成语音与真人录音的相似度，以及拼接后的语音的整体一致性。

本发明还提供一种智能语音播报的***，包括：

获取模块，用于获取生成语音，所述生成语音包括待处理文本中的固定句式部分所采用的真人录音和槽位部分所采用的合成语音；

调整模块，用于采用所述真人录音与合成语音的特征参数，对所述生成语音的特征参数进行调整，以提升所述生成语音的一致性；

文本分析模块，用于对所述生成语音的整句合成文本做文本分析，以保留上下文韵律信息，提升拼接处的韵律连贯性；

音效处理模块，用于对所述真人录音进行音效处理，并将所述真人录音与所述合成语音的能量规整到一致水平。

优选地，所述智能语音播报的***还包括去除静音模块，用于去除所述真人录音与所述合成语音的拼接处的静音段，以提升拼接处的连贯性。

优选地，所述智能语音播报的***还包括参数调整模块，用于针对不同类型的槽位文本，动态调整所述槽位部分的合成参数。

优选地，所述智能语音播报的***还包括背景音添加模块，用于针对不同应用场景，在播报语音中添加相应场景的背景音。

本发明实施例提供的一种智能语音播报的***，具有以下有益效果：调整模块和音效处理模块分别对生成语音和真人录音进行处理，文本分析模块对生成语音的整句合成文本做文本分析，提升合成语音与真人录音的相似度，以及拼接后的语音的整体一致性

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种智能语音播报的方法的方法流程示意图；

图2为本发明实施例中一种智能语音播报的***的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种智能语音播报的方法，如图1所示，所述方法执行以下步骤：

具体地，在所述步骤2中，采用已有的真人录音与合成语音的声学特征参数对TTS(Text To Speech，从文本到语音)***模型做自适应调整，从而对生成语音的特征参数做相应调整。文本转语音技术能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。其中，声学特征包括语调、语速、音质、基频，频谱等声学参数。

在所述步骤3中，由TTS***中的前端模块完成，具体地，将整句合成文本输入TTS***的前端模块，前端模块对待转换文本信息进行分析处理，将原始输入的待转换文本信息转换为不同的中间状态信息，用于指导文本进行发声。

在所述步骤4中，所述音效处理包括降噪处理和/或混响处理。

上述技术方案的工作原理为：采用真人录音和合成语音的特征参数对生成语音的特征参数进行调整；对生成语音的整句合成文本做文本分析；对真人录音做音效处理，并将真人录音与合成语音的能量规整到一致水平。

上述技术方案的有益效果为：分别对合成语音和真人录音进行处理，提升合成语音与真人录音的相似度，以及拼接后的语音的整体一致性。

在一个实施例中，在所述步骤1之前，所述方法还包括采用所述真人录音对所述生成语音的时长模型和声学模型做调整的步骤。

上述技术方案的工作原理为：时长模型可以是卷积的神经网络，或者也可以是其他具有机器学习能力的模型。声学模型可以是隐马可夫模型，或者也可以是卷积神经网络模型，或者也可以是其他具有机器学习能力的模型。

上述技术方案的有益效果为：采用真人录音对生成语音的时长模型和声学模型做调整后，使得生成语音与真人录音更匹配。

在一个实施例中，在所述步骤2和所述步骤3之间，还包括步骤5：对所述槽位部分的文本进行优化，使得优化的槽位部分的文本包含整个韵律短语信息。

上述技术方案的工作原理为：在所述步骤5中，优化的槽位部分的文本包含的整个韵律短语信息指的是韵律词、韵律短语的位置信息等。

上述技术方案的有益效果为：进一步提升合成语音与真人录音的相似度，以及拼接后的语音的整体一致性。

上述技术方案的工作原理为：真人录音和合成语音两者是通过大语料库拼接算法进行拼接的，此外，在去除静音段后，所述步骤6还包括对所述真人录音与所述合成语音的拼接处进行平滑处理的步骤。

上述技术方案的有益效果为：提升真人录音与合成语音拼接处的连贯性。

在一个实施例中，在所述步骤4之后，所述方法还包括步骤7：针对不同类型的槽位文本，动态调整所述槽位部分的合成参数。

其中，所述合成参数包括语速和韵律等。

上述技术方案的工作原理为：通过动态调整槽位部分的合成参数，以强调文本中的重要信息。

上述技术方案的有益效果为：使得智能语音播报更加符合真人发音方式。

在一个实施例中，在所述步骤4之后，具体地，在所述步骤6之后，所述方法还包括步骤8：针对不同应用场景，在播报语音中添加相应场景的背景音。

上述技术方案的工作原理为：在播报语音中添加的背景音能够更加贴近真实的呼出场景。

上述技术方案的有益效果为：使得智能语音播报的通话过程更为真实。

本发明实施例还提供了一种智能语音播报的***，如图2所示，包括：

获取模块201，用于获取生成语音，所述生成语音包括待处理文本中的固定句式部分所采用的真人录音和槽位部分所采用的合成语音；

调整模块202，用于采用所述真人录音与合成语音的特征参数，对所述生成语音的特征参数进行调整，以提升所述生成语音的一致性；

文本分析模块203，用于对所述生成语音的整句合成文本做文本分析，以保留上下文韵律信息，提升拼接处的韵律连贯性；

音效处理模块204，用于对所述真人录音进行音效处理，并将所述真人录音与所述合成语音的能量规整到一致水平。

所述音效处理模块204包括降噪处理模块和混响处理模块。所述降噪处理模块用于对所述真人录音进行降噪处理，所述混响处理模块用于对所述真人录音进行混响处理。

上述技术方案的工作原理为：调整模块202采用真人录音与合成语音的特征参数，对生成语音的特征参数进行调整；文本分析模块203对生成语音的整句合成文本做文本分析；音效处理模块204对真人录音进行音效处理，并将真人录音与合成语音的能量规整到一致水平。

上述技术方案的有益效果为：调整模块和音效处理模块分别对生成成语音和真人录音进行处理，文本分析模块对生成语音的整句合成文本做文本分析，提升合成语音与真人录音的相似度，以及拼接后的语音的整体一致性。

在一个实施例中，所述智能语音播报的***还包括槽位文本优化模块205，用于对所述槽位部分的文本进行优化，使得优化的槽位部分的文本包含整个韵律短语信息。

上述技术方案的工作原理为：优化的槽位部分的文本包含的整个韵律短语信息指的是韵律词、韵律短语的位置信息等。

在一个实施例中，所述智能语音播报的***还包括去除静音模块206，用于去除所述真人录音与所述合成语音的拼接处的静音段，以提升拼接处的连贯性。

上述技术方案的工作原理为：所述去除静音模块206包括平滑处理模块，用于对所述真人录音与所述合成语音的拼接处进行平滑处理。

上述技术方案的有益效果为：可以提升真人录音与合成语音拼接处的连贯性。

在一个实施例中，所述智能语音播报的***还包括参数调整模块207，用于针对不同类型的槽位文本，动态调整所述槽位部分的合成参数。

其中，所述合成参数包括语速和韵律等。

在一个实施例中，所述智能语音播报的***还包括背景音添加模块208，用于针对不同应用场景，在播报语音中添加相应场景的背景音。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种智能语音播报的方法，其特征在于，所述方法执行以下步骤：

2.如权利要求1所述的智能语音播报的方法，其特征在于，在所述步骤1之前，所述方法还包括采用所述真人录音对所述生成语音的时长模型和声学模型做调整的步骤。

3.如权利要求1所述的智能语音播报的方法，其特征在于，在所述步骤2和所述步骤3之间，还包括步骤5：对所述槽位部分的文本进行优化，使得优化的槽位部分的文本包含整个韵律短语信息。

4.如权利要求2所述的智能语音播报的方法，其特征在于，在所述步骤3和所述步骤4之间，所述方法还包括步骤6：去除所述真人录音与所述合成语音的拼接处的静音段，以提升拼接处的连贯性。

5.如权利要求1所述的智能语音播报的方法，其特征在于，在所述步骤4之后，所述方法还包括步骤7：针对不同类型的槽位文本，动态调整所述槽位部分的合成参数。

6.如权利要求1所述的智能语音播报的方法，其特征在于，在所述步骤4之后，所述方法还包括步骤8：针对不同应用场景，在播报语音中添加相应场景的背景音。

7.一种智能语音播报的***，其特征在于，包括：

8.如权利要求7所述的智能语音播报的***，其特征在于，所述智能语音播报的***还包括去除静音模块，用于去除所述真人录音与所述合成语音的拼接处的静音段，以提升拼接处的连贯性。

9.如权利要求7所述的智能语音播报的***，其特征在于，所述智能语音播报的***还包括参数调整模块，用于针对不同类型的槽位文本，动态调整所述槽位部分的合成参数。

10.如权利要求7所述的智能语音播报的***，其特征在于，所述智能语音播报的***还包括背景音添加模块，用于针对不同应用场景，在播报语音中添加相应场景的背景音。