CN113314092A

CN113314092A - 一种模型训练和语音交互的方法及装置

Info

Publication number: CN113314092A
Application number: CN202110509888.1A
Authority: CN
Inventors: 张永超; 王俊; 虞国桥
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-08-27

Abstract

本说明书公开了一种模型训练和语音交互的方法及装置，业务平台可以获取语音数据，并根据该语音数据，确定该语音数据对应的待补偿语音信息，其中，该待补偿语音信息用于表征语音数据中包含的各语音单元对应的原始语音特征。而后，确定该语音数据对应的发音***时说出的语音之间的偏差。

Description

一种模型训练和语音交互的方法及装置

技术领域

本说明书涉及机器学习领域，尤其涉及一种模型训练和语音交互的方法及装置。

背景技术

随着信息技术的不断发展，智能语音客服、语音导航等依赖于自动合成语音的业务已经逐渐融入到人们的生活中，为人们的生活带来了便利。

在这些业务中，如何自动进行语音的合成是更好实现这些业务的重点，而在现有技术中，自动合成的语音通常与人们平时的说话偏差较大，例如，有些自动合成的语音较为机械化，说出的每个字的时间间隔通常较为一致，若是将这种语音应用到上述智能语音客服、语音导航等业务时，用户可能会难以适应这样的语音。

所以，如何降低自动合成的语音与人们平时说出的语音之间的偏差，则是一个亟待解决的问题。

发明内容

本说明书提供一种模型训练和语音交互的方法及装置，以部分地解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种模型训练的方法，包括：

获取语音数据；

根据所述语音数据，确定所述语音数据对应的待补偿语音信息，所述待补偿语音信息用于表征所述语音数据中包含的各语音单元对应的原始语音特征；

确定所述语音数据对应的发音习惯特征，并根据所述发音习惯特征，对所述待补偿语音信息进行补偿，得到补偿后语音信息；

将所述补偿后语音信息输入到待训练的语音合成模型，得到语音合成结果；

以最小化所述语音合成结果与所述语音数据之间的偏差为优化目标，对所述语音合成模型进行训练。

可选地，根据所述语音数据，确定所述语音数据对应的待补偿语音信息，具体包括：

对所述语音数据进行切分，得到各子句，其中，每个子句中包含有至少一个语音单元；

针对每个子句，确定该子句对应的待补偿语音信息；

根据每个子句对应的待补偿语音信息，确定所述语音数据对应的待补偿语音信息。

确定所述语音数据中的至少一个音源，并根据所述语音数据，确定所述至少一个音源中每个音源对应的音频数据；

根据所述至少一个音源中每个音源对应的音频数据，从所述至少一个音源中选取出目标音源；

根据所述目标音源对应的音频数据，确定所述语音数据对应的待补偿语音信息。

可选地，根据所述至少一个音源中每个音源对应的音频数据，从所述至少一个音源中选取出目标音源，具体包括：

根据所述至少一个音源中每个音源对应的音频数据，确定所述至少一个音源对应的整体声纹特征，以及确定所述至少一个音源中包含的每个音源对应的音源声纹特征；

根据所述整体声纹特征以及所述至少一个音源中包含的每个音源对应的音源声纹特征，从所述至少一个音源中选取出目标音源。

从所述语音数据中，筛选出语音质量符合预设条件的语音数据，作为目标语音数据；

根据所述目标语音数据，确定所述语音数据对应的待补偿语音信息。

可选地，从所述语音数据中，筛选出语音质量符合预设条件的语音数据，作为目标语音数据，具体包括：

从所述语音数据中，筛选出信噪比不低于设定信噪比的语音数据，作为目标语音数据；或

从所述语音数据中，筛选出声音幅度位于设定幅度范围内的语音数据，作为目标语音数据；或

从所述语音数据中，筛选出基频位于设定基频范围内的语音数据，作为目标语音数据；或

从所述语音数据中，筛选出语音时长不低于设定时长的语音数据，作为目标语音数据；或

从所述语音数据中，筛选出语速位于设定语速范围内的语音数据，作为目标语音数据。

可选地，所述语音单元包括：音素；所述待补偿语音信息包括音素信息以及原始停顿信息中的至少一种，所述原始停顿信息用于表征所述语音数据中出现语音停顿的原始位置；所述发音习惯特征包括：停顿特征、拖音特征以及吞音特征中的至少一种。

可选地，确定所述语音数据对应的发音习惯特征，具体包括：

针对所述语音数据中包含的每个音素，若该音素对应的时长超过第一设定时长，确定该音素对应的发音习惯特征为拖音特征，若该音素对应的时长小于第二设定时长，确定该音素对应的发音习惯特征为吞音特征，所述第二设定时长比所述第一设定时长短。

本说明书提供了一种语音交互的方法，包括：

响应于用户的语音交互请求，确定所述用户发送的语音消息；

根据所述语音消息，按照预设的回复策略，确定针对所述语音消息进行回复的文本信息；

将所述文本信息转换为语音合成信息，并将所述语音合成信息输入到预先训练的语音合成模型中，得到合成出的语音消息，所述语音合成信息用于表征所述文本信息中包含的各语音单元对应的语音特征，所述语音合成模型是通过模型训练的方法进行训练得到的；

将所述合成出的语音消息反馈给所述用户。

本说明书提供了一种模型训练的装置，包括：

获取模块，用于获取语音数据；

信息确定模块，用于根据所述语音数据，确定所述语音数据对应的待补偿语音信息，所述待补偿语音信息用于表征所述语音数据中包含的各语音单元对应的原始语音特征；

特征确定模块，用于确定所述语音数据对应的发音习惯特征，并根据所述发音习惯特征，对所述待补偿语音信息进行补偿，得到补偿后语音信息；

输入模块，用于将所述补偿后语音信息输入到待训练的语音合成模型，得到语音合成结果；

训练模块，用于以最小化所述语音合成结果与所述语音数据之间的偏差为优化目标，对所述语音合成模型进行训练。

本说明书提供了一种语音交互的装置，包括：

响应模块，用于响应于用户的语音交互请求，确定所述用户发送的语音消息；

文本确定模块，用于根据所述语音消息，按照预设的回复策略，确定针对所述语音消息进行回复的文本信息；

输入模块，用于将所述文本信息转换为语音合成信息，并将所述语音合成信息输入到预先训练的语音合成模型中，得到合成出的语音消息；

反馈模块，用于将所述合成出的语音消息反馈给所述用户，所述语音合成信息用于表征所述文本信息中包含的各语音单元对应的语音特征，所述语音合成模型是通过模型训练的方法进行训练得到的。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述模型训练或语音交互的方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述模型训练或语音交互的方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的模型训练和语音交互的方法及装置中，业务平台可以获取语音数据，并根据该语音数据，确定该语音数据对应的待补偿语音信息，其中，该待补偿语音信息用于表征语音数据中包含的各语音单元对应的原始语音特征。而后，确定该语音数据对应的发音习惯特征，并根据该发音习惯特征，对该待补偿语音信息进行补偿，得到补偿后语音信息，以及将该补偿后语音信息输入到待训练的语音合成模型，得到语音合成结果，从而，以最小化该语音合成结果与该语音数据之间的偏差为优化目标，对该语音合成模型进行训练，从而在后续可以将该语音合成模型应用到各种与语音合成相关的业务中。

从上述方法中可以看出，在进行模型训练时，业务平台可以对表示出原始语音特征的待补偿语音信息进行补偿，从而使补偿后语音信息能够表示出语音数据中说话者的个人发音***台需要什么样发音***常说话***时说出的语音之间的偏差。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中一种模型训练的方法的流程示意图；

图2为本说明书提供的一种对待补偿语音信息进行补偿的示意图；

图3为本说明书中一种语音交互的方法的流程示意图；

图4为本说明书中一种模型训练的装置的示意图；

图5为本说明书中一种语音交互的装置的示意图；

图6为本说明书提供的对应于图1或图3的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中一种模型训练的方法的流程示意图，具体包括以下步骤：

S101：获取语音数据。

S102：根据所述语音数据，确定所述语音数据对应的待补偿语音信息，所述待补偿语音信息用于表征所述语音数据中包含的各语音单元对应的原始语音特征。

在实际应用中，业务平台若需要搭建与语音合成相关的业务，则需要对语音合成模型进行构建、训练等，训练完成后的语音合成模型，可以根据业务平台给出的文本来生成相应的语音，从而，业务平台可以将语音合成模型应用在于语音合成相关的业务中。而在对语音合成模型的训练阶段，需要得到大量的用于训练该模型的数据。

基于此，业务平台可以获取语音数据，并根据该语音数据，确定该语音数据对应的待补偿语音信息。该语音数据可以通过多种途径获得，例如，人工客服通话过程中的录音、对人们平时说话的录音等。其中，该待补偿语音信息用于表征该语音数据中包含的各语音单元对应的原始语音特征，也就是说，不管是该语音数据中是何人说的话，对于相同的话(文字相同)来说，原始语音特征是一致的，即，该待补偿语音信息表示出的是普遍的说话习惯。

上述提到的语音单元可以是指音素，即，最小语音单位。上述提到的待补偿语音信息可以包括音素信息、原始停顿信息以及音调信息等，音调信息用于表示该语音数据中的平仄，原始停顿信息用于表征语音数据中出现语音停顿的原始位置。也就是说，该原始停顿信息表示说出该语音数据所对应的文本时应出现的停顿位置。音素信息可以表示语音数据的文本所对应的音素。当然，这里提到的语音单元也可以是指字。

由于待补偿语音信息表示的是普遍的说话习惯，因此，在确定该待补偿语音信息时，可以先确定出该语音数据所对应的文本，再通过该语音数据所对应的文本，确定出该待补偿语音信息，例如上述的音素信息以及原始停顿信息，可以通过该语音数据所对应的文本确定出，即，将文本转换为音素可以确定出该语音数据对应的音素信息。原始停顿信息，可以根据该语音数据对应的文本应出现的停顿位置确定出来。该语音数据对应的文本应出现的停顿位置，可以根据文本的语义来确定。例如，假设该语音数据对应的文本为“A市公园中的花开了”，由于A市为一个短语，则在A市后可以确定出应出现的停顿位置，从而确定出这个文本对应的原始停顿信息表示A市后存在停顿位置。

上述提到的语音数据可以是指多个时长较短的语音数据，即，每个语音数据均包含有一句话的语音，当然，该语音数据也可以是时长较长，较为完整的语音数据。而为了便于训练语音合成模型，若该语音数据为一个时长较长的语音数据，可以将该语音数据进行切分，得到各子句，其中，每个子句中包含有至少一个语音单元，业务平台可以针对每个子句，确定该子句对应的待补偿语音信息，并根据每个子句对应的待补偿语音信息，确定该语音数据对应的待补偿语音信息。也就是说，这是将该语音数据切分成了多个短句，并确定出了每个短句对应的待补偿语音信息，作为该语音数据对应的待补偿语音信息，具体可以通过语音端点检测技术(Voice Activity Detection，VAD)，来确定出该语音数据中的多个子句。

需要说明的是，语音数据中可能包含有不同音源，即，包含有不同人的声音，而在实际应用中，可能需要仅合成同一音源的语音，因此，业务平台可以确定出语音数据中的至少一个音源，并根据该语音数据，确定至少一个音源中每个音源对应的音频数据，从而，根据至少一个音源中每个音源对应的音频数据，从至少一个音源中选取出目标音源，以根据目标音源对应的音频数据，确定该语音数据对应的待补偿语音信息。

也就是说，业务平台需要确定出一个音源所对应的音频数据，即，目标音源对应的音频数据，从而通过这个目标音源的音频数据来训练语音合成模型，从而使得训练后的语音合成模型合成出的语音为目标音源的声音。

需要说明的是，从至少一个音源中选取出目标音源的方式可以有多种，例如，业务平台可以根据至少一个音源中每个音源对应的音频数据，确定至少一个音源对应的整体声纹特征，以及确定至少一个音源中包含的每个音源对应的音源声纹特征，并根据该整体声纹特征与每个音源对应的音源声纹特征，从至少一个音源中选取出目标音源。

也就是说，上述整体声纹特征是通过完整的语音数据确定出的，该整体声纹特征反映整体语音数据的声纹。而该语音数据可以是多个短句对应的语音数据，每个短句对应一个音源，一个音源可以对应多个短句，而业务平台可以针对每个短句提取出声纹特征，得到该短句对应的音源的音源声纹特征。

业务平台可以选取出音源声纹特征与整体声纹特征相似度高于设定相似度的短句，并通过这样的短句对应的语音数据来训练语音合成模型，即，业务平台选取出的音源是在整体语音数据中占比最多的音源，作为目标音源。当然，业务平台也可以选取出其他的音源，业务平台可以根据实际需求选取出所需的音源，如，选取出在整体语音数据中占比最小的音源。

还需说明的是，为了保证语音合成模型所合成出的语音的质量，需要保证用于训练该语音合成模型的语音数据的语音质量，因此，业务平台可以从语音数据中，筛选出语音质量符合预设条件的语音数据，作为目标语音数据，并根据该目标语音数据，确定该语音数据对应的待补偿语音信息。其中，业务平台获取的语音数据可以包含一段语音，当然，语音数据也可以是多个，每个语音数据对应一个短句的语音，业务平台在筛选时，既可以从一段语音中可以筛选出部分语音，也可以从多个语音数据中筛选出若干语音数据，作为目标语音数据。

上述提到的预设条件可以进行预先设定，并且，可以有多种预设条件，即，业务平台从语音数据中筛选出目标语音数据的方式可以有多种。例如，业务平台可以从语音数据中，筛选出信噪比不低于设定信噪比的语音数据，作为目标语音数据。信噪比即是指语音信号与噪声之间的比例，也就是说，业务平台需要选取出语音信号相比于环境噪声、通话噪声等噪声的比例较高的语音数据。

再例如，业务平台可以从语音数据中筛选出，声音幅度位于设定幅度范围内的语音数据，作为目标语音数据，声音幅度表示语音数据中语音的音量，也就是说，既不想用音量过低的语音数据来训练语音合成模型，也不想用音量过大，比方说不希望通过声音可能会到达喷麦的程度的语音数据来训练该语音合成模型。

再例如，业务平台可以从语音数据中筛选出，基频位于设定基频范围内的语音数据，作为目标语音数据，这里提到的基频表示语音数据中声音的音调，也就是说，希望选取出的目标语音数据的音调能够较为合适，目标语音数据中的声音既不会太尖，也不会太低沉。

再例如，该语音数据可能是多个短句的语音数据，若一个短句对应的语音数据时长太短，则该短句对应的语音数据中可能不包含多少语音，因此，业务平台可以从语音数据中，筛选出语音时长不低于设定时长的语音数据，作为目标语音数据。

再例如，业务平台可以从语音数据中，筛选出语速位于设定语速范围内的语音数据，作为目标语音数据，即，不通过语速过快或过慢的语音数据来训练该语音合成模型，上述提到的设定信噪比、设定幅度范围、设定基频范围、设定时长以及这里提到的设定语速范围均可以进行预先设置。

通过上述一系列的筛选操作，可以保证筛选出的目标语音数据语音质量较高，因此，不需要对业务平台获取到的语音数据的质量进行限制，即，不需要获取到通过特定录音环境所录制的语音数据，如，通过录音棚录制的语音数据。业务平台通过常规的通话、普通的录音设备进行录音等方式所得到的语音数据，均可以应用到本方法中，从而能够在一定程度上降低成本。

S103：确定所述语音数据对应的发音习惯特征，并根据所述发音习惯特征，对所述待补偿语音信息进行补偿，得到补偿后语音信息。

业务平台确定出语音数据对应的待补偿语音信息，可以确定出该语音数据对应的发音习惯特征，并根据该发音习惯特征，对该待补偿语音信息进行补偿，得到补偿后语音信息。

这里提到的发音习惯特征能够表示出语音数据中的说话者个人的发音习惯，而不是普遍的发音习惯，如，说话者自身在说话时个人习惯的停顿、说话者自身的拖音习惯等。因此，发音习惯特征可以包括停顿特征、拖音特征以及吞音特征等。停顿特征用于表征语音数据中由于说话者的个人习惯所导致的语音中的停顿位置。拖音特征以及吞音特征也是类似的，拖音特征表征语音数据中由于说话者的个人习惯所拉长的声音位置，而吞音特征表征语音数据中由于说话者的个人习惯较为短暂的声音位置。

由于吞音特征以及拖音特征与声音的长短有关，因此，业务平台在确定吞音特征和拖音特征时，可以针对该语音数据中的每个音素，确定该音素对应的时长，若该音素对应的时长超过第一设定时长，确定该音素对应的发音***台可以确定出语音数据中未出现人声的位置，并将这样的位置标记为停顿位置。

在确定音素对应的时长时，可以通过语音数据以及语音数据所对应的文本确定出来，也就是说，在将该语音数据转换为文本时，每个文字可以对应该语音数据中的一段时长，而音素也可以对应到文字上，因此，通过文字所对应的时长，能够确定出音素对应的时长。

业务平台确定出该语音数据对应的发音习惯特征后，可以根据该发音习惯特征，对该待补偿语音信息进行补偿，得到补偿后语音信息。例如，对于待补偿语音信息中的音素信息来说，若该音素信息中某个音素对应的发音习惯特征为拖音特征，则可以将该音素信息中的该音素的符号，更改为该音素对应的拖音音素符号，若该音素信息中某个音素对应的发音习惯特征为吞音特征，则可以将该音素信息中的该音素的符号，更改为该音素对应的吞音音素符号，从而得到补偿后语音信息，如图2所示。

图2为本说明书提供的一种对待补偿语音信息进行补偿的示意图。

从图2中可以看出，待补偿语音信息为将文本直接转换为音素得到的“zh ong d uy ong d u”，而在该语音数据中，语音数据中的说话者在说某些音素时声音较为拉长，因此，可以将这些音素对应的发音***台可以将音素信息中的这些音素的符号替换为，相应音素对应的拖音音素符号，从而得到补偿后语音信息，如图2中待补偿语音信息中的d被替换为了d，u被替换为了u，对于吞音来说也是类似的，可以通过另一种符号来代表吞音，这样一来，语音合成模型在合成语音时，可以确定出哪些音素的语音是拖音，哪些是吞音。

对于停顿特征来说，也可以根据该停顿特征对原始停顿信息进行更改，得到补偿后停顿信息，继续引用上述“A市公园中的花开了”的例子，若原始停顿信息表示A市后的停顿位置，而该语音数据中说话者实际在A后面有所停顿，未在市后面停顿，则该补偿后停顿信息可以表示A后的停顿位置。

S104：将所述补偿后语音信息输入到待训练的语音合成模型，得到语音合成结果。

S105：以最小化所述语音合成结果与所述语音数据之间的偏差为优化目标，对所述语音合成模型进行训练。

业务平台将补偿后语音信息输入到待训练的语音合成模型后，可以得到语音合成结果，并以最小化该语音合成结果与语音数据之间的偏差为优化目标，对该语音合成模型进行训练。

其中，在进行模型训练时，业务平台可以提取出语音数据对应的实际音频特征，将补偿后语音信息输入到待训练的语音合成模型后，可以得到语音合成模型合成出的音频特征，并以最小化该语音合成模型合成出的音频特征与实际音频特征之间的偏差为目标对该语音合成模型进行训练。这里提到的实际音频特征是通过该语音数据所对应的频域特征所得到的。

也就是说，训练该语音合成模型的目的在于，希望该语音合成模型能够学***台得到合成出的语音。

需要说明的是，在上述提到过，可以对语音数据进行筛选，得到目标语音数据，在后续不管是确定待补偿语音信息，还是进行模型训练，均使用目标语音数据。上述均是站在模型训练的角度进行描述的，而训练出的语音合成模型需要应用在一定的业务场景中，因此，下面站在模型应用的角度上，对本发明进行说明。

图3为本说明书中一种语音交互的方法的流程示意图，具体包括以下步骤：

S301：响应于用户的语音交互请求，确定所述用户发送的语音消息。

S302：根据所述语音消息，按照预设的回复策略，确定针对所述语音消息进行回复的文本信息。

S303：将所述文本信息转换为语音合成信息，并将所述语音合成信息输入到预先训练的语音合成模型中，得到合成出的语音消息，所述语音合成信息用于表征所述文本信息中包含的各语音单元对应的语音特征，所述语音合成模型是通过模型训练的方法进行训练得到的。

S304：将所述合成出的语音消息反馈给所述用户。

在实际应用中，很多种业务能够应用到本说明书中的语音合成模型，例如，语音交互业务、语音导航业务等，只要是需要将一定的文本转换成语音，均可以通过语音合成模型，合成出相应的语音。

下面以语音交互业务为例，来说明该语音合成模型的应用过程。业务平台响应于用户的语音交互请求，可以确定用户发送的语音消息，并根据该语音消息，按照预设的回复策略，确定针对该语音消息进行回复的文本信息，这里提到的回复策略可以是指预先人为设定的回复策略，或，该预设的回复策略为通过机器学习模型确定出回复的文本信息。语音消息指用户在语音交互过程中所说完的一句话的语音。

业务平台确定出回复的文本信息后，需要将该文本信息转换为语音，并发送给用户，因此，业务平台可以将文本信息转换为语音合成信息，并将该语音合成信息输入到预先训练的语音合成模型中，得到合成出的语音消息，以及将合成出的语音消息，发送给该用户，使用户根据听到的语音消息，继续进行语音交互。

其中上述提到的语音合成信息的格式与上述待补偿语音信息、补偿后语音信息一致，该语音合成信息可以表示上述文本信息中包含的各语音单元对应的语音特征，例如，若语音单元为音素，则业务平台可以将上述文本信息转换为音素维度上的信息，再确定出在哪些音素后应有所停顿。并且，业务平台还可以确定需要使哪些音素对应的语音有一定的吞音特征或是拖音特征等发音习惯特征，从而确定出语音合成信息，也就是说，该语音合成信息中可以包含音素信息以及停顿信息，该音素信息不但可以表示音素，还可以表示音素对应的吞音特征、拖音特征等。

从上述方法中可以看出，业务平台可以进行一定的筛选步骤，从而得到语音质量较高的目标语音数据，不需要直接获取到通过特定录音环境录制出的语音数据，从而能够降低成本。并且，在进行模型训练时，业务平台可以对表示出原始语音特征的待补偿语音信息进行补偿，从而使补偿后语音信息能够表示出语音数据中说话者的个人发音***台需要什么样发音习惯的语音，语音合成模型均能够合成，并且由于语音数据可以通过常规渠道(较为日常的说话录音等)获得，通过这种语音数据进行模型训练后，合成出的语音较为自然。

以上为本说明书的一个或多个实施例提供的模型训练和语音交互的方法，基于同样的思路，本说明书还提供了相应的模型训练和语音交互的装置，如图1或图3所示。

图4为本说明书提供的一种模型训练的装置的示意图，具体包括：

获取模块401，用于获取语音数据；

信息确定模块402，用于根据所述语音数据，确定所述语音数据对应的待补偿语音信息，所述待补偿语音信息用于表征所述语音数据中包含的各语音单元对应的原始语音特征；

特征确定模块403，用于确定所述语音数据对应的发音习惯特征，并根据所述发音习惯特征，对所述待补偿语音信息进行补偿，得到补偿后语音信息；

输入模块404，用于将所述补偿后语音信息输入到待训练的语音合成模型，得到语音合成结果；

训练模块405，用于以最小化所述语音合成结果与所述语音数据之间的偏差为优化目标，对所述语音合成模型进行训练。

可选地，所述信息确定模块402具体用于，对所述语音数据进行切分，得到各子句，其中，每个子句中包含有至少一个语音单元；针对每个子句，确定该子句对应的待补偿语音信息；根据每个子句对应的待补偿语音信息，确定所述语音数据对应的待补偿语音信息。

可选地，所述信息确定模块402具体用于，确定所述语音数据中的至少一个音源，并根据所述语音数据，确定所述至少一个音源中每个音源对应的音频数据；根据所述至少一个音源中每个音源对应的音频数据，从所述至少一个音源中选取出目标音源；根据所述目标音源对应的音频数据，确定所述语音数据对应的待补偿语音信息。

可选地，所述信息确定模块402具体用于，根据所述至少一个音源中每个音源对应的音频数据，确定所述至少一个音源对应的整体声纹特征，以及确定所述至少一个音源中包含的每个音源对应的音源声纹特征；根据所述整体声纹特征以及所述至少一个音源中包含的每个音源对应的音源声纹特征，从所述至少一个音源中选取出目标音源。

可选地，所述信息确定模块402具体用于，从所述语音数据中，筛选出语音质量符合预设条件的语音数据，作为目标语音数据；根据所述目标语音数据，确定所述语音数据对应的待补偿语音信息。

可选地，所述信息确定模块402具体用于，从所述语音数据中，筛选出信噪比不低于设定信噪比的语音数据，作为目标语音数据；或从所述语音数据中，筛选出声音幅度位于设定幅度范围内的语音数据，作为目标语音数据；或从所述语音数据中，筛选出基频位于设定基频范围内的语音数据，作为目标语音数据；或从所述语音数据中，筛选出语音时长不低于设定时长的语音数据，作为目标语音数据；或从所述语音数据中，筛选出语速位于设定语速范围内的语音数据，作为目标语音数据。

可选地，所述特征确定模块403具体用于，针对所述语音数据中包含的每个音素，若该音素对应的时长超过第一设定时长，确定该音素对应的发音习惯特征为拖音特征，若该音素对应的时长小于第二设定时长，确定该音素对应的发音习惯特征为吞音特征，所述第二设定时长比所述第一设定时长短。

图5为本说明书提供的一种语音交互的装置的示意图，具体包括：

响应模块501，用于响应于用户的语音交互请求，确定所述用户发送的语音消息；

文本确定模块502，用于根据所述语音消息，按照预设的回复策略，确定针对所述语音消息进行回复的文本信息；

输入模块503，用于将所述文本信息转换为语音合成信息，并将所述语音合成信息输入到预先训练的语音合成模型中，得到合成出的语音消息；

反馈模块504，用于将所述合成出的语音消息反馈给所述用户，所述语音合成信息用于表征所述文本信息中包含的各语音单元对应的语音特征，所述语音合成模型是通过模型训练的方法进行训练得到的。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1或图3所示的模型训练和语音交互的方法。

本说明书还提供了图6所示的电子设备的示意结构图。如图6所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1或图3所述的模型训练和语音交互的方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字***“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、***或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种模型训练的方法，其特征在于，包括：

获取语音数据；

2.如权利要求1所述的方法，其特征在于，根据所述语音数据，确定所述语音数据对应的待补偿语音信息，具体包括：

针对每个子句，确定该子句对应的待补偿语音信息；

3.如权利要求1所述的方法，其特征在于，根据所述语音数据，确定所述语音数据对应的待补偿语音信息，具体包括：

4.如权利要求3所述的方法，其特征在于，根据所述至少一个音源中每个音源对应的音频数据，从所述至少一个音源中选取出目标音源，具体包括：

5.如权利要求1所述的方法，其特征在于，根据所述语音数据，确定所述语音数据对应的待补偿语音信息，具体包括：

6.如权利要求5所述的方法，其特征在于，从所述语音数据中，筛选出语音质量符合预设条件的语音数据，作为目标语音数据，具体包括：

7.如权利要求1所述的方法，其特征在于，所述语音单元包括：音素；所述待补偿语音信息包括音素信息以及原始停顿信息中的至少一种，所述原始停顿信息用于表征所述语音数据中出现语音停顿的原始位置；所述发音习惯特征包括：停顿特征、拖音特征以及吞音特征中的至少一种。

8.如权利要求7所述的方法，其特征在于，确定所述语音数据对应的发音习惯特征，具体包括：

9.一种语音交互的方法，其特征在于，包括：

将所述文本信息转换为语音合成信息，并将所述语音合成信息输入到预先训练的语音合成模型中，得到合成出的语音消息，所述语音合成信息用于表征所述文本信息中包含的各语音单元对应的语音特征，所述语音合成模型是通过上述权利要求1～8任一项所述的方法进行训练得到的；

将所述合成出的语音消息反馈给所述用户。

10.一种模型训练的装置，其特征在于，包括：

获取模块，用于获取语音数据；

11.一种语音交互的装置，其特征在于，包括：

反馈模块，用于将所述合成出的语音消息反馈给所述用户，所述语音合成信息用于表征所述文本信息中包含的各语音单元对应的语音特征，所述语音合成模型是通过上述权利要求1～8任一项所述的方法进行训练得到的。

12.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～8或9任一项所述的方法。

13.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1～8或9任一项所述的方法。