CN118135984A

CN118135984A - 语音合成方法、装置、设备、存储介质及程序产品

Info

Publication number: CN118135984A
Application number: CN202211543327.4A
Authority: CN
Inventors: 彭聪
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2022-12-02
Filing date: 2022-12-02
Publication date: 2024-06-04

Abstract

本公开提供了一种语音合成方法、装置、设备、介质及程序产品。本公开涉及语音处理技术领域。在本公开的一些实施例中，在用户当前所处环境的声音状态为噪声状态的情况下，从当前环境声音中提取与用户对应的第一语音，以去除环境中的噪声；根据第一语音，确定用户所需的目标文本；根据用户实际所需的目标文本，生成准确的待传输信息，提升用户间交互质量，提升用户体验。

Description

语音合成方法、装置、设备、存储介质及程序产品

技术领域

本公开涉及语音处理技术领域，尤其涉及一种语音合成方法、装置、设备、存储介质及程序产品。

背景技术

随着手机的持续发展，越来越多的功能出现在人们的视野中，手机承担了越来越多的功能，各式各样的工作都可以通过手机完成办理，语音信息的传输非常的重要。

目前，在用户使用语音进行交互的过程中，外部环境中的噪声会对用户语音带来影响，降低用户间交互质量，用户体验较差。

发明内容

本公开提供一种语音合成方法、装置、设备、介质及程序产品，以至少解决现有用户间交互质量较低，用户体验较差的技术问题。

本公开的技术方案如下：

本公开实施例提供一种语音合成方法，包括：

在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与所述用户对应的第一语音；

根据所述第一语音，确定所述用户所需的目标文本；

根据所述目标文本，生成待传输信息。

可选地，在所述获取当前环境声音中的与所述用户对应的第一语音之前，所述方法还包括：

采集所述用户当前所处环境中的环境声音；

从所述环境声音中分离出环境噪声；

识别所述环境噪声对应的噪声分贝；

在所述噪声分贝大于设定分贝阈值的情况下，确定所述用户当前所处环境的声音状态为噪声状态。

可选地，所述在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与所述用户对应的第一语音，包括：

在用户当前所处环境的声音状态为噪声状态的情况下，采集所述当前环境声音；

根据所述用户对应的声纹特征，从所述当前环境声音中分离出与所述用户对应的第一语音。

可选地，所述根据所述第一语音，确定所述用户所需的目标文本，包括：

对所述第一语音进行文本识别，得到与所述第一语音对应的原始文本；

在界面上展示所述原始文本；

响应于对所述原始文本的处理操作，获取所述用户所需的所述目标文本。

可选地，所述界面包括确认控件，所述响应于对所述原始文本的处理操作，获取所述用户所需的所述目标文本，包括：

响应于对所述确认控件的触发操作，将所述原始文本作为所述目标文本。

响应于对所述原始文本的触发操作，将所述原始文本激活为可编辑状态；

响应于对所述可编辑状态的所述原始文本的修改操作，得到修改后的原始文本；

响应于对所述确认控件的触发操作，将所述修改后的原始文本作为所述目标文本。

可选地，所述根据所述目标文本，生成待传输信息，包括：

获取信息传输类型；

若所述信息传输类型为文本传输，则将所述目标文本作为所述待传输信息；

若所述信息传输类型为语音传输，将所述目标文本和所述用户的声纹特征输入已有的语音合成模型中，得到所述用户对应的第二语音；将所述第二语音作为所述待传输信息。

可选地，所述获取信息传输类型，包括：

响应于信息传输类型选择操作，获取所述信息传输类型；或者，

识别当前应用场景；查询应用场景与信息传输类型的映射关系表，得到所述当前应用场景对应的所述信息传输类型。

可选地，在使用所述语音合成模型之前，所述方法还包括：

采集所述用户对应的样本语音数据；

根据所述样本语音数据，对预训练模型进行模型训练，得到所述语音合成模型。

本公开实施例还提供一种语音合成装置，包括：

获取模块，用于在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与所述用户对应的第一语音；

确定模块，用于根据所述第一语音，确定所述用户所需的目标文本；

生成模块，用于根据所述目标文本，生成待传输信息。

可选地，所述获取模块在所述获取当前环境声音中的与所述用户对应的第一语音之前，还可用于：

采集所述用户当前所处环境中的环境声音；

从所述环境声音中分离出环境噪声；

识别所述环境噪声对应的噪声分贝；

可选地，所述获取模块在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与所述用户对应的第一语音时，用于：

可选地，所述确定模块在根据所述第一语音，确定所述用户所需的目标文本时，用于：

在界面上展示所述原始文本；

可选地，所述界面包括确认控件，所述确定模块在响应于对所述原始文本的处理操作，获取所述用户所需的所述目标文本时，用于：

可选地，所述生成模块在根据所述目标文本，生成待传输信息时，用于：

获取信息传输类型；

可选地，所述生成模块在获取信息传输类型时，用于：

可选地，所述生成模块在使用所述语音合成模型之前，还可用于：

采集所述用户对应的样本语音数据；

本公开实施例还提供一种手机，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述的方法中的各步骤。

本公开实施例还提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

本公开实施例还提供一种计算机可读存储介质，所述计算机指令用于使所述计算机执行上述的方法中的各步骤。

本公开实施例还提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述的方法中的各步骤。

本公开的实施例提供的技术方案至少带来以下有益效果：

在本公开的一些实施例中，在用户当前所处环境的声音状态为噪声状态的情况下，从当前环境声音中提取与用户对应的第一语音，以去除环境中的噪声；根据第一语音，确定用户所需的目标文本；根据用户实际所需的目标文本，生成准确的待传输信息，提升用户间交互质量，提升用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1为本公开示例性实施例提供的一种语音合成方法的流程示意图；

图2为本公开示例性实施例提供的另一种语音合成方法的流程示意图；

图3为本公开示例性实施例提供的另一种语音合成方法的流程示意图；

图4为本公开示例性实施例提供的一种语音合成装置的结构示意图；

图5为本公开示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开，本公开所涉及的用户信息包括但不限于：用户设备信息和用户个人信息；本公开中的用户信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

随着手机的持续发展，越来越多的功能出现在人们的视野中，手机承担了越来越多的功能，各式各样的工作都可以通过手机完成办理，语音信息的传输非常的重要，例如，在会议的过程中我们通常会有非常多的信息需要沟通交流，而对于语音的降噪处理也是非常有必要的一件事情。

在用户使用语音进行交互的过程中，通常身边的噪声以及周边的环境噪声会带来一定的信息误差和影响，这对于用户在沟通的时候传递出去的信息是致命的，纯净的通话质量是用户所需求的。因此，在用户使用语音进行交互的过程中，外部环境中的噪声会对用户语音带来影响，降低用户间交互质量，用户体验较差。

针对上述技术问题，在本公开的一些实施例中，在用户当前所处环境的声音状态为噪声状态的情况下，从当前环境声音中提取与用户对应的第一语音，以去除环境中的噪声；根据第一语音，确定用户所需的目标文本；根据用户实际所需的目标文本，生成准确的待传输信息，提升用户间交互质量，提升用户体验。

以下结合附图，详细说明本公开各实施例提供的技术方案。

图1为本公开示例性实施例提供的一种语音合成方法的流程示意图。如图1所示，该方法包括：

S101：在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与用户对应的第一语音；

S102：根据第一语音，确定用户所需的目标文本；

S103：根据目标文本，生成待传输信息。

在本实施例中，上述方法的执行主体可以为终端设备或者服务器。

在执行主体为终端设备时，并不限定终端设备的类型。终端设备包括但不限于以下任意一种：个人电脑，笔记本电脑，平板电脑，手机，智能手环，智能手表和智能音响。

在执行主体为服务器时，并不限定服务器的实现形态。例如，服务器可以是常规服务器、云服务器、云主机、虚拟中心等服务器设备。其中，服务器的构成主要包括处理器、硬盘、内存、***总线等，和通用的计算机架构类型。

在本实施例中，在用户当前所处环境的声音状态为噪声状态的情况下，从当前环境声音中提取与用户对应的第一语音，以去除环境中的噪声；根据第一语音，确定用户所需的目标文本；根据用户实际所需的目标文本，生成准确的待传输信息，提升用户间交互质量，提升用户体验。

在本公开的一些实施例中在使用语音合成模型之前，需要使用用户的语音数据对预训练模型进行模型训练，得到训练完成的语音合成模型。一种可实现的方式为，采集用户对应的样本语音数据，根据样本语音数据，对预训练模型进行模型训练，得到语音合成模型。

需要说明的是，在收集用户的语音数据时，应当采集覆盖用户尽可能多的发音音素的语音数据，以提升模型的语音合成效果。用户可采用终端设备录入样本语音数据，在训练得到语音合成模型的同时，提取用户的声纹特征。

需要说明的是，上述预训练模型具备将文本对应的语音转换为第三语音的能力，采用用户的语音数据对预训练模型进行微调，得到可以将目标文本对应的原始语音转换为第二语音的能力。

在本公开的一些实施例中，需要判断用户当前所处的环境的声音状态，若用户当前所处的环境的声音状态为噪声状态，则执行本公开的语音合成步骤，以提高用户的语音质量；若用户当前所处的环境的声音状态为非噪声状态，则不执行本公开的语音合成步骤。其中，判断用户当前所处的环境的声音状态，一种可实现的方式为，采集用户当前所处环境中的环境声音；从环境声音中分离出环境噪声；识别环境噪声对应的噪声分贝；在噪声分贝大于设定分贝阈值的情况下，确定用户当前所处环境的声音状态为噪声状态；在噪声分贝小于设定分贝阈值的情况下，确定用户当前所处环境的声音状态为噪声状态。

需要说明的是，本公开实施例对设定分贝阈值不作限定，设定分贝阈值可以根据实际情况作出调整。本公开实施例通过识别当前环境的声音状态为噪声状态的情况下，才执行语音合成步骤，有效降低设备功耗。

在本公开的一些实施例中，在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与用户对应的第一语音。一种可实现的方式为，在用户当前所处环境的声音状态为噪声状态的情况下，采集当前环境声音；根据用户对应的声纹特征，从当前环境声音中分离出与用户对应的第一语音。

例如，在用户参与会议过程中，若检测到用户当前所处环境的声音状态为噪声状态，采集当前环境声音；将用户对应的声纹特征和当前环境声音输入已经训练完成的人声分离模型，得到用户对应的第一语音。

再例如，在用户参与会议过程中，若检测到用户当前所处环境的声音状态为噪声状态，采集当前环境声音；从当前环境声音中分离出与用户对应的声纹特征的相似度大于相似度阈值的声音，作为用户对应的第一语音。其中，本公开实施例对相似度阈值不作限定，相似度阈值可以根据实际情况作出调整。

在本公开的一些实施例中，根据第一语音，确定用户所需的目标文本。一种可实现的方式为，对第一语音进行文本识别，得到与第一语音对应的原始文本；在界面上展示原始文本；响应于对原始文本的处理操作，获取用户所需的目标文本。本公开实施例展示第一语音对应的原始文本供用户进行确认，用户可以对原始文本进行处理操作，得到自身所需的目标文本，目标文本可以与原始文本不同，提升最终用户语音的准确度。

在一种示例性实施例中，界面中包括确认控件，在界面上展示原始文本后，若原始文本为用户所需的文本，则响应于对确认控件的触发操作，将原始文本作为目标文本。

在另一种示例性实施例中，界面包括确认控件，在界面上展示原始文本后，若原始文本不是用户所需的文本，则响应于对原始文本的触发操作，将原始文本激活为可编辑状态；响应于对可编辑状态的原始文本的修改操作，得到修改后的原始文本；响应于对确认控件的触发操作，将修改后的原始文本作为目标文本。用户在原始文本不是自身所需的文本时，可以对原始文本进行修改操作，将原始文本修改为用户所需的目标文本，可以提高目标语音的准确度。

例如，在界面上展示原始文本“下午四点时开会”，不是用户所需的文本，响应于对原始文本的触发操作，将原始文本激活为可编辑状态；对原始文本进行删除、重写输入等操作，将原始文本修改为用户所需的文本“下午四点三十开会”。

需要说明的是，本公开实施例对原始文本以及目标文本的展示形式不作限定，可以根据实际情况作出调整。

在本公开的一些实施例中，根据目标文本，生成待传输信息。一种可实现的方式为，获取信息传输类型；若信息传输类型为文本传输，则将目标文本作为待传输信息；若信息传输类型为语音传输，将目标文本和用户的声纹特征输入已有的语音合成模型中，得到用户对应的第二语音；将第二语音作为待传输信息。本公开根据不同的信息传输类型，生成相应的待传输信息，提升用户体验。

在上述实施例中，获取信息传输类型。包括但不限于以下几种获取方式：

获取方式一，响应于信息传输类型选择操作，获取信息传输类型。用户可以根据实际情况自动选择信息传输类型，以获取准确的信息传输方式。

获取方式二，识别当前应用场景；查询应用场景与信息传输类型的映射关系表，得到当前应用场景对应的信息传输类型。自动对应用场景进行识别，提升智能化程度。当前应用场景包括视频通话场景、语音通话场景和文本交互场景等。

在上述获取方式一中，例如，展示一界面，界面包括文本传输和语音传输；响应于用户对文本传输的选择操作，获取当前的信息传输类型为文本传输；响应于用户对语音传输的选择操作，获取当前的信息传输类型为语音传输。

在上述获取方式二中，例如，在识别到当前应用场景为视频通话场景的情况下，查询应用场景与信息传输类型的映射关系表，得到视频通话场景对应的信息传输类型为语音传输；在识别到当前应用场景为语音通话场景的情况下，查询应用场景与信息传输类型的映射关系表，得到语音通话场景对应的信息传输类型为语音传输；在识别到当前应用场景为文本交互场景的情况下，查询应用场景与信息传输类型的映射关系表，得到文本交互场景对应的信息传输类型为文本传输。

结合上述各实施例的描述，图2为本公开示例性实施例提供的另一种语音合成方法的流程示意图。如图2所示，方法包括：

S201：采集用户当前所处环境中的环境声音；

S202：从环境声音中分离出环境噪声；

S203；识别环境噪声对应的噪声分贝；

S204：在噪声分贝大于设定分贝阈值的情况下，确定用户当前所处环境的声音状态为噪声状态；

S205：在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与用户对应的第一语音；

S206：根据第一语音，确定用户所需的目标文本；

S207：根据目标文本，生成待传输信息。

在本实施例中，上述方法中的各步骤的实现方式可参见前述各实施例中的描述，本实施例不再赘述，本实施例也能取得前述各实施例相应部分的有益效果。

结合上述各实施例的描述，图3为本公开示例性实施例提供的另一种语音合成方法的流程示意图。如图3所示，方法包括：

S301：在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与用户对应的第一语音；

S302：对第一语音进行文本识别，得到与第一语音对应的原始文本；

S303：在界面上展示原始文本；

S304：响应于对原始文本的处理操作，获取用户所需的目标文本；

S305：根据目标文本，生成待传输信息。

在本公开的上述方法实施例中，在用户当前所处环境的声音状态为噪声状态的情况下，从当前环境声音中提取与用户对应的第一语音，以去除环境中的噪声；根据第一语音，确定用户所需的目标文本；根据用户实际所需的目标文本，生成准确的待传输信息，提升用户间交互质量，提升用户体验。

图4为本公开示例性实施例提供的一种语音合成装置40的结构示意图。如图4所示，该语音合成装置40包括：获取模块41，确定模块42和生成模块43。

其中，获取模块41，用于在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与用户对应的第一语音；

确定模块42，用于根据第一语音，确定用户所需的目标文本；

生成模块43，用于用于根据目标文本，生成待传输信息。

可选地，获取模块41在获取当前环境声音中的与用户对应的第一语音之前，还可用于：

采集用户当前所处环境中的环境声音；

从环境声音中分离出环境噪声；

识别环境噪声对应的噪声分贝；

在噪声分贝大于设定分贝阈值的情况下，确定用户当前所处环境的声音状态为噪声状态。

可选地，获取模块41在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与用户对应的第一语音时，用于：

在用户当前所处环境的声音状态为噪声状态的情况下，采集当前环境声音；

根据用户对应的声纹特征，从当前环境声音中分离出与用户对应的第一语音。

可选地，确定模块42在根据第一语音，确定用户所需的目标文本时，用于：

对第一语音进行文本识别，得到与第一语音对应的原始文本；

在界面上展示原始文本；

响应于对原始文本的处理操作，获取用户所需的目标文本。

可选地，界面包括确认控件，确定模块42在响应于对原始文本的处理操作，获取用户所需的目标文本时，用于：

响应于对确认控件的触发操作，将原始文本作为目标文本。

响应于对原始文本的触发操作，将原始文本激活为可编辑状态；

响应于对可编辑状态的原始文本的修改操作，得到修改后的原始文本；

响应于对确认控件的触发操作，将修改后的原始文本作为目标文本。

可选地，生成模块43在根据目标文本，生成待传输信息时，用于：

获取信息传输类型；

若信息传输类型为文本传输，则将目标文本作为待传输信息；

若信息传输类型为语音传输，将目标文本和用户的声纹特征输入已有的语音合成模型中，得到用户对应的第二语音；将第二语音作为待传输信息。

可选地，生成模块43在获取信息传输类型时，用于：

响应于信息传输类型选择操作，获取信息传输类型；或者，

识别当前应用场景；查询应用场景与信息传输类型的映射关系表，得到当前应用场景对应的信息传输类型。

可选地，生成模块43在使用语音合成模型之前，还可用于：

采集用户对应的样本语音数据；

根据样本语音数据，对预训练模型进行模型训练，得到语音合成模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5为本公开示例性实施例提供的一种电子设备的结构示意图。如图5所示，电子设备包括：存储器51和处理器52。另外，电子设备还包括电源组件53和通信组件54。

存储器51，用于存储计算机程序，并可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。

存储器51，可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

通信组件54，用于与其他设备进行数据传输。

处理器52，可执行存储器51中存储的计算机指令，以用于：在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与用户对应的第一语音；

根据第一语音，确定用户所需的目标文本；

根据目标文本，生成待传输信息。

可选地，处理器52在获取当前环境声音中的与用户对应的第一语音之前，还可用于：

采集用户当前所处环境中的环境声音；

从环境声音中分离出环境噪声；

识别环境噪声对应的噪声分贝；

可选地，处理器52在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与用户对应的第一语音时，用于：

可选地，处理器52在根据第一语音，确定用户所需的目标文本时，用于：

在界面上展示原始文本；

响应于对原始文本的处理操作，获取用户所需的目标文本。

可选地，界面包括确认控件，处理器52在响应于对原始文本的处理操作，获取用户所需的目标文本时，用于：

响应于对确认控件的触发操作，将原始文本作为目标文本。

可选地，处理器52在根据目标文本，生成待传输信息时，用于：

获取信息传输类型；

可选地，处理器52在获取信息传输类型时，用于：

响应于信息传输类型选择操作，获取信息传输类型；或者，

可选地，处理器52在使用语音合成模型之前，还可用于：

采集用户对应的样本语音数据；

相应地，本公开实施例还提供一种存储有计算机程序的计算机可读存储介质。当计算机可读存储介质存储计算机程序，且计算机程序被一个或多个处理器执行时，致使一个或多个处理器执行图1方法实施例中的各步骤。

相应地，本公开实施例还提供一种计算机程序产品，计算机程序产品包括计算机程序/指令，计算机程序/指令被处理器执行图1的方法实施例中的各步骤。

上述图5的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

上述图5中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理***，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述电子设备还包括音频组件和显示屏。

显示屏包括屏幕，其屏幕可以包括液晶显示屏(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风(MIC)，当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

在本公开的上述装置、设备、存储介质及计算机程序产品实施例中，在用户当前所处环境的声音状态为噪声状态的情况下，从当前环境声音中提取与用户对应的第一语音，以去除环境中的噪声；根据第一语音，确定用户所需的目标文本；根据用户实际所需的目标文本，生成准确的待传输信息，提升用户间交互质量，提升用户体验。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音合成方法，其特征在于，包括：

根据所述第一语音，确定所述用户所需的目标文本；

根据所述目标文本，生成待传输信息。

2.根据权利要求1所述的方法，其特征在于，在所述获取当前环境声音中的与所述用户对应的第一语音之前，所述方法还包括：

采集所述用户当前所处环境中的环境声音；

从所述环境声音中分离出环境噪声；

识别所述环境噪声对应的噪声分贝；

3.根据权利要求1所述的方法，其特征在于，所述在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与所述用户对应的第一语音，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一语音，确定所述用户所需的目标文本，包括：

在界面上展示所述原始文本；

5.根据权利要求4所述的方法，其特征在于，所述界面包括确认控件，所述响应于对所述原始文本的处理操作，获取所述用户所需的所述目标文本，包括：

6.根据权利要求4所述的方法，其特征在于，所述界面包括确认控件，所述响应于对所述原始文本的处理操作，获取所述用户所需的所述目标文本，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述目标文本，生成待传输信息，包括：

获取信息传输类型；

8.根据权利要求7所述的方法，其特征在于，所述获取信息传输类型，包括：

9.根据权利要求7所述的方法，其特征在于，在使用所述语音合成模型之前，所述方法还包括：

采集所述用户对应的样本语音数据；

10.一种语音合成装置，其特征在于，包括：

生成模块，用于根据所述目标文本，生成待传输信息。

11.根据权利要求10所述的装置，其特征在于，所述获取模块在所述获取当前环境声音中的与所述用户对应的第一语音之前，还可用于：

采集所述用户当前所处环境中的环境声音；

从所述环境声音中分离出环境噪声；

识别所述环境噪声对应的噪声分贝；

12.根据权利要求10所述的装置，其特征在于，所述获取模块在用户当前所处环境的声音状态为噪声状态的情况下，获取当前环境声音中的与所述用户对应的第一语音时，用于：

13.根据权利要求10所述的装置，其特征在于，所述确定模块在根据所述第一语音，确定所述用户所需的目标文本时，用于：

在界面上展示所述原始文本；

14.根据权利要求13所述的装置，其特征在于，所述界面包括确认控件，所述确定模块在响应于对所述原始文本的处理操作，获取所述用户所需的所述目标文本时，用于：

15.根据权利要求13所述的装置，其特征在于，所述界面包括确认控件，所述确定模块在响应于对所述原始文本的处理操作，获取所述用户所需的所述目标文本时，用于：

16.根据权利要求10所述的装置，其特征在于，所述生成模块在根据所述目标文本，生成待传输信息时，用于：

获取信息传输类型；

17.根据权利要求16所述的装置，其特征在于，所述生成模块在获取信息传输类型时，用于：

18.根据权利要求16所述的装置，其特征在于，所述生成模块在使用所述语音合成模型之前，还可用于：

采集所述用户对应的样本语音数据；

19.一种手机，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-9中任一项所述的方法中的各步骤。

20.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

21.一种计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法中的各步骤。

22.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1-9中任一项所述的方法中的各步骤。