CN112349266A

CN112349266A - 一种语音编辑方法及相关设备

Info

Publication number: CN112349266A
Application number: CN201910735271.4A
Authority: CN
Inventors: 赖国锋
Original assignee: Shenzhen TCL Digital Technology Co Ltd
Current assignee: Shenzhen TCL Digital Technology Co Ltd
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2021-02-09
Anticipated expiration: 2039-08-09
Also published as: CN112349266B

Abstract

本发明公开了一种语音编辑方法，该方法包括：对接收到的第一声音信息进行语音识别，获取所述第一声音信息的声音属性信息和第一文本信息；将所述第一声音属性信息输入已训练的声音转换模型，得到经过声音转换后的第二声音属性信息；对所述第一文本信息进行敏感信息过滤，得到第二文本信息；将所述第二声音属性信息与所述第二文本信息进行语音合成，得到第二声音信息。本发明所述方法通过对交流双方发出的语音信息进行编辑，调整语音信息中带有情绪的语气和过滤其中含有的敏感信息汇，使得沟通双方可以在非情绪因素的干扰下顺利完成事件处理，提高办事效率，减少事件处理等待时间。此外本发明还公开了一种语音编辑装置及相关设备。

Description

一种语音编辑方法及相关设备

技术领域

本发明涉及语音交互技术领域，尤其涉及的是一种语音编辑方法及相关设备。

背景技术

语音交流现有技术中最为常见的沟通方式，其包括：面对面沟通。电话沟通或者网络语音聊天等，而语音交流双方在进行语音聊天时，可能会出沟通不顺畅的情况，比如：当一方出现情绪失控，发出的语音音量过高或过低，或者发出的语音中含有一个或多个敏感信息，但是由于现有技术中沟通双方发出的语音信息未经过编辑和过滤，便直接发送至对方，因此语音信息中带有情绪的词语和语气可能会导致交流双方发生争执，造成原计划要完成的事件未能顺利处理完成，最终导致办事效率低的缺陷。进一步的，若语音交流为客户与人工客服之间，不仅仅会导致处理事件效率低，用户等待时间久，还会导致客服过程不规范，客户流失严重等问题，给语音交流双方的处理事件带来诸多不便。

因此，现有技术有待于进一步的改进。

发明内容

鉴于上述现有技术中的不足之处，本发明提供了一种语音编辑方法及相关设备，克服现有技术中的语音交流双方发出的语音信息未经过信息识别，其中含有的敏感信息可能会导致交流双方无法顺利事件处理，导致办事效率低的缺陷。

第一方面，本发明实施例提供了一种语音编辑方法，包括：

接收第一声音信息，对所述第一声音信息进行语音识别，获取所述第一声音信息的声音属性信息和所述第一声音信息所包含的第一文本信息；

将所述第一声音属性信息输入已训练的声音转换模型，得到经过声音转换后的第二声音属性信息，所述声音转换模型是基于输入声音属性与目标转换声音属性信息之间的对应关系训练而成的；其中，所述目标转换声音属性信息为按照预设声道参数范围对所述输入声音属性信息的声道参数进行调整后的声音属性信息；

对所述第一文本信息进行敏感信息过滤，得到第二文本信息；

将所述第二声音属性信息与所述第二文本信息进行语音合成，得到第二声音信息。

可选的，所述对所述第一声音信息进行语音识别的步骤包括：

将所述第一声音信息输入至已训练的声音识别模型中，得到所述第一声音属性信息和所述第一文本信息；所述声音识别模型是基于输入声音信息以及与所述声音信息所对应的声音属性信息和声音信息中所包含文本信息之间的对应关系训练而成的。

可选的，所述声音转换模型包括：语音分析层、参数预测层和信息转换层；

所述将所述第一声音属性信息输入已训练的声音转换模型，得到经过声音转换后的第二声音属性信息的步骤包括：

将所述第一声音属性信息输入语音分析层，得到所述语音分析层输出所述第一声音属性信息所对应的声道参数；

将所述第一声音属性信息所对应的声道参数输入到参数预测层，得到所述参数预测层按照预设声道参数范围对所述第一声音属性信息进行调整后，输出调整后的声道参数；

将所述调整后的声道参数输入到信息转换层，得到所述信息转换层输出的所述第二声道属性信息。

可选的，所述将所述第一声音属性信息所对应的声道参数输入到参数预测层，得到所述参数预测层按照预设声道参数范围对所述第一声音属性信息进行调整后，输出调整后的声道参数的步骤包括：

所述参数预测层接收所述声道参数，提取所述声道参数中含有的性别标识；

以及，将所述性别标识与预存接听方性别标识进行比对，若性别标识相同，则在所述预设声道参数范围内对所述第一声音属性信息的所属性别进行调整，输出调整后的声道参数，所述调整后的声道参数为所述第一声音属性信息的所属性别更改后的声道参数。

所述参数预测层接收所述声道参数，提取所述声道参数中含有的韵律参数和音频参数，并将所述韵律参数和音频参数调整到所述预设声道参数范围内，输出调整后的声道参数。

可选的，所述对所述第一文本信息进行敏感信息过滤的步骤包括：

将所述第一文本信息输入至已训练的信息过滤模型，得到过滤后的第二文本信息，所述信息过滤模型是基于文本信息与标记为敏感信息之间的对应关系训练而成的。

可选的，所述将所述第一文本信息输入至已训练的信息过滤模型，得到过滤后的第二文本信息的步骤之后还包括：

将所述第二文本信息输入至深度语义模型，得到整合后的第三文本信息；所述深度语义模型是基于文本信息与相匹配信息之间的对应关系训练而成的；所述相匹配信息为与所述文本信语义匹配度超出预设阈值的文本信息；

将所述第三文本信息作为所述第二文本信息输入至所述语音合成模型中。

可选的，所述将所述第二声音属性信息与所述第一文本信息进行语音合成的步骤包括：

将所述第二声音属性信息和所述第二文本信息输入至语音合成模型，得到输出的第二声音信息，所述语音合成模型是基于样本声音属性信息、第二文本信息和样本合成音频之间的对应关系训练而成的，其中，所述样本合成音频为根据所述样本声音属性信息和所述第二文本信息所生成的音频。

第二方面，本发明实施例提供了一种语音编辑装置，包括：

语音识别模块，用于接收第一声音信息，对所述第一声音信息进行语音识别，获取所述第一声音信息的声音属性信息和所述第一声音信息所包含的第一文本信息；

属性信息转换模块，用于将所述第一声音属性信息输入已训练的声音转换模型，得到经过声音转换后的第二声音属性信息，所述声音转换模型是基于输入声音属性信息与目标转换声音属性信息之间的对应关系训练而成的；其中，所述目标转换声音属性信息为按照预设声道参数范围对所述输入声音属性信息的声道参数进行调整后的声音属性信息；

文本过滤模块，用于对所述第一文本信息进行敏感信息过滤，得到第二文本信息；

语音合成模块，用于将所述第二声音属性信息与所述第二文本信息进行语音合成，得到第二声音信息。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现所述方法的步骤。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述的方法的步骤。

与现有技术相比，本发明实施例具有以下优点：

根据本发明实施方式提供的方法，通过对交流双方发出的声音信息进行编辑，获取所述声音信息的第一声音属性信息和第一文本信息，利用已训练的声音转换模型对所述第一声音属性信息进行转换，将所述第一声音属性信息的声道参数调整到预设声道参数范围内，以及对所述第一文字信息中含有的敏感信息进行过滤，实现了基于声音属性和文本信息两个方面对声音信息进行编辑。由于本实施例中对语音信息中可能带有的不满情绪语调进行调整，以及对语音信息中可能含有的敏感信息进行过滤，以使得调整后过滤后的语音信息的语调平缓且不带有偏激倾向的敏感信息，因此为交流双方创建了良好的沟通环境，有利于交流双方顺利完成事件处理，不仅提高办事效率，减少交流双方等待时间，而且为以后双方的再次交流沟通提供了良好的基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中一个示例性应用场景的框架示意图；

图2是本发明实施例中一种语音编辑方法的步骤流程图；

图3是本发明实施例中另一个示例性应用场景的框架示意图；

图4是本发明实施例中语音编辑装置的原理框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的语音交流方式，往往是直接通过媒介将语音交流双方的语音信息发送至对方，因此当交流双方出现不同意见时，交流一方或双方可能会发泄出不满情绪或者直接说带有敏感信息的词语，而该不满情绪会直接被对方获知，矛盾的增加可能会导致整个交流事件以沟通失败而告终，从而不仅仅没有达到预期的事件处理结果，也可能导致客户的流失等不良影响，因此需要一种可以有效解决双方沟通时矛盾的方式来提高交流双方处理事件的效率。

为了解决上述问题，在本发明实施例中，当交流双方发送声音信息至对方时，则首先接收交流双方发出的声音信息，然后对声音信息进行语音识别，得到该声音信息的声音属性信息和文本信息，该声音属性信息可以包括该声音信息的音色、音量、音强和音调等属性，所述文本信息即为该声音信息中含有的文字信息，分别对这两个部分信息进行处理，将声音属性信息中的高音量、超出预设振幅范围的音色和高音调进行调整到预设参数范围，将文本信息中含有的敏感文字删除，从而得到更加适宜沟通的声音信息，并将编辑后的声音信息发送至对方，从而达到较佳的事件沟通结果。

举例说明，本发明实施可以应用到如图1所示的场景。在该场景中，具有语音编辑功能的服务器102设置在客户终端101和客服终端103之间，用于对双方发出的声音信息进行编辑。当服务器102接收到来自客户终端101或客服终端103的声音信息后，对其进行语音识别，提取声音信息的声音属性信息和文本信息，再将声音属性信息输入至已训练的声音转换模型中，得到转换后的声音属性信息，以及对文本信息进行过滤处理，得到过滤掉敏感信息后的文本信息，最后将声音属性信息和过滤掉敏感信息的文本信息合成为编辑得到的声音信息，并将编辑得到的声音信息传输至客服终端103，相同的，客服终端103发出的声音信息也可以通过服务器102进行相应处理后，发送至客户终端101，从而实现双方在和谐的环境下进行高效率的沟通。

需要注意的是，上述应用场景仅是为了便于理解本发明而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

示例性方法

参见图2，示出了本发明实施例中的一种语音编辑方法。在本实施例中，所述方法例如可以包括以下步骤：

步骤S201、接收第一声音信息，对所述第一声音信息进行语音识别，获取所述第一声音信息的第一声音属性信息和所述第一声音信息所包含的第一文本信息。

所述第一声音属性信息所对应的是第一声音信息的音量、音调、音色等属性信息，其中，音量对应的是声音强度，由声波的振动幅度决定，也可以理解为声音信号的幅度，音调是指声音的高低，取决与声波的频率，一般男生的音调低沉，女生的音调尖锐；音色也即音质，是一种声音区别于另外一种声音的基本特征，比如不同物体之间发出的声音，是人声识别中最重要的分析因素。所述第一文本信息为对所述第一声音信息中含有的词汇内容进行识别，并将识别出的词汇内容转换成文本信息而得到的。

本实施例中，可以是通过麦克风接收交流方发出的第一声音信息，也可以是通过电话或其他方式接收交流双方的任一方发出的第一声音信息，其中，第一声音信息可以是MP3格式、wav格式等多种音频格式。

当语音编辑设备接收到目标用户输入的第一声音信息后，对所述第一声音信息进行语音识别，得到所述第一声音信息的第一声音属性信息和其中所含有的第一文本信息。

本步骤中对所述第一声音信息进行语音识别的方法为先获取到所述第一声音信息的第一声音属性信息，由于声音属性信息为声音信息本身的物理特性，因此在获取到所述第一声音信息的同时，便可以同时获取到第一声音信息的第一声音属性信息。所述第一声音属性信息中含有第一声音信息的音量大小，音调高低和音色所在幅值。再利用语音识别软件将第一声音信息中含有的词汇信息转换成文字信息，获取第一声音信息的第一文字信息，例如：使用百度语音识别软件、语音大师APP、科大讯飞研发的语音转文字APP等语音识别软件。举例：当客户发出“是否可以申请退货”的声音信息后，通过语音识别得到其中含有的词汇信息为“是否可以申请退货”和其当前的音量为预设音量阈值的两倍、音色所在幅值和音调所对应频率，所述预设音量阈值所在的范围可以为80dB到100dB之间的任意一个音量值。

另外，本步骤中对所述第一声音信息进行语音识别的方法还可以是使用神经网络模型来实现，具体的，使用已训练的声音识别模型对所述第一声音信息进行语音识别得到，所述声音识别模型是基于预先设置的第一神经网络模型训练得到的，则通过所述声音识别模型对所述第一声音信息进行语音识别的步骤包括：

首先，基于第一神经网络模型训练出用于进行声音识别的声音识别模型。

本步骤训练是基于输入声音信息与含有声音属性信息标识和文本信息标识的验证声音信息对预设的第一神经网络模型进行的，其训练方法包括以下步骤：

首先收集多个用于对所述声音识别模型进行训练的声音信息训练集和用于对所述声音识别模型进行验证的声音信息验证集。

所述声音信息训练集中含有多个训练声音样本信息，所述声音信息验证集中含有多个验证声音样本信息，所述验证声音样本信息包括：声音属性信息和文本信息，其中，所述声音属性信息为各个训练声音信息的声音属性信息的真实值，文本信息为各个训练声音信息中所含语音转化出的文本信息的真实值。一组声音属性信息和文本信息对应一个训练声音样本信息。

所述多个训练声音样本信息为多个用于训练的声音样本信息。所述多个验证声音信息所含有的多个声音属性信息和文本信息，用于对训练声音样本信息输入到第一神经网络模型所得到的输出结果进行验证，通过验证结果对第一神经网络模型的参数进行优化调整。

将所述训练集中的各个训练声音样本信息输入所述第一神经网络模型，得到所述第一神经网络模型输出的与训练声音样本信息相对应的声音属性信息和文本信息，所述第一神经网络模型输出的所述声音属性信息和文本信息为对各个训练声音样本信息进行声音识别得到的声音属性信息和文本信息的预测值，利用所述声音信息验证集中含有的训练声音样本信息的声音属性信息和文本信息的真实值对所述预测值进行验证，得到所述预测值与真实值之间的误差，并根据所述误差对所述第一神经网络模型的参数进行优化。

具体的，将所述声音信息训练集中含有的各个训练声音样本信息输入所述第一神经网络模型，得到所述第一神经网络模型输出的所述声音信息训练集中各个训练声音样本信息所对应的声音属性信息和文本信息。

将声音信息验证集中含有的各个训练声音信息的声音属性信息和文本信息的真实值与第一神经网络模型输出的各个训练声音属性信息和文本信息的预测值进行比较，得到本次训练的误差，并根据所述误差对第一神经网络模型的参数进行调整，重复将所述声音信息训练集中含有的各个训练语音样本信息输入所述第一神经网络模型的步骤，直至得到验证后的误差在预设范围内，训练步骤完成，得到已训练的所述声音识别模型。

其次，将所述第一声音信息输入至所述声音识别模型中，得到所述第一声音属性信息和所述第一文本信息；

所述声音识别模型是基于输入声音信息以及与所述声音信息所对应的声音属性信息和声音信息中所包含文本信息之间的对应关系训练而成的。

将所述第一声音信息输入至已训练的所述声音识别模型后，所述声音识别模型输出识别出的所述第一声音属性信息和第一文本信息。

步骤S202、将所述第一声音属性信息输入已训练的声音转换模型，得到经过声音转换后的第二声音属性信息，所述声音转换模型是基于输入声音属性信息与目标转换声音属性信息之间的对应关系训练而成的。所述目标转换声音属性信息为按照预设声道参数范围对所述输入声音属性信息的声道参数进行调整后的声音属性信息。

所述第二声音属性信息是将所述第一声音信息的声道参数调整到预设声道参数范围内得到的。所述预声道参数为各个声音属性信息所对应的参数。所述预设声道参数范围为预设的各个声音属性信息所对应的参数范围。所述预设声道参数范围包括：预设的音量、音调、音色等声道参数的预设范围。以使得调整后的目标转换声音属性信息的音量、音调、音色等声道参数均调整到预设参数范围内，为交流双方创建和谐的语言氛围。具体的，所述预设声道参数范围，可以设置为音量在50dB到100dB之间，音调所对应的音频参数控制在200～4000Hz之间；通过调节声音信息中的基音与各次谐音实现对声音信息音色的控制。

所述声音转换模型用于对第一声音信息中的声音属性信息进行调整，并输出调整后的第二声音属性信息。具体的，所述声音转换模型是基于输入声音属性信息与目标转换声音属性信息之间的对应关系训练而成的。所述目标转换声音属性信息为对输入声音属性信息进行调整后所得到的声音属性信息。

所述声音转换模型是通过多个训练声音属性信息对第二神经网络模型训练得到的，通过所述声音转换模型对第一声音信息中的声音属性信息进行调整，并输出调整后的第二声音属性信息。

具体的，所述声音转换模型的训练方法包括以下步骤：

首先收集多个用于对所述声音转换模型进行训练的声音属性信息训练集和声音属性信息验证集，所述声音属性信息训练集中含有多个训练声音属性样本信息，所述声音属性信息验证集中含有多个目标转换声音属性样本信息。所述多个目标转换声音属性样本信息为按照预设声道参数范围对各个所述输入声音属性样本信息的声道参数进行调整后得到的声音属性信息的真实值。

将所述训练声音属性样本信息输入所述第二神经网络模型，得到所述第二神经网络模型输出的各个训练声音属性样本信息相对应的目标转化声音属性信息，所述第二神经网络模型输出的目标转化声音属性信息为对所述训练声音属性样本信息进行声音转化后所得到的预测值，所述验证声音属性信息用于对所述预测值进行验证，得到所述预测值与真实值之间的误差，并根据误差对所述第二神经网络模型的参数进行优化。

分别将所述声音属性信息训练集中含有的各个训练声音属性样本信息输入预先设置的第二神经网络模型，得到所述第二神经网络模型输出的所述声音属性信息训练集中各个声音属性样本信息所对应的目标转换声音属性信息。

将所述第二神经网络模型输出的目标转换声音属性信息与验证集中各个训练声音属性样本信息的目标转换声音属性样本信息的真实值进行比较，得到本次训练的误差，并根据所述误差对所述第二神经网络的参数进行调整，重复将所述声音属性信息训练集中含有的各个训练声音属性信息和验证声音属性信息输入所述第二神经网络模型的步骤，直至得到训练的误差在预设范围内，训练步骤完成，得到已训练的所述声音转换模型。

将所述第一声音属性信息输入已训练的声音转换模型，得到输出的第二声音属性信息，所述第二声音属性信息为按照预设声道参数范围对所述第一声音属性信息的声道参数进行调整后的声音属性信息。

具体的，所述声音转换模型包括：语音分析层、参数预测层和信息转换层。所述语音分析层，用于获取所述第一声音属性信息所对应的声道参数，所述参数预测层，用于基于所述语音分析层获取到的第一声音属性信息的声道参数对目标转换声音属性所对应的声道参数进行预测，得到调整后的声道参数，所述信息转换层，用于根据调整后的声道参数生成第二声道属性信息。

进而，所述将所述第一声音属性信息输入已训练的声音转换模型，得到经过声音转换后的第二声音属性信息的步骤包括：

步骤2021、将所述第一声音属性信息输入语音分析层，得到所述语音分析层输出所述第一声音属性信息所对应的声道参数。

首先将所述第一声音属性信息输入到语音分析层，分析出所述第一声音属性信息在预设语音信号分析模型中的声道参数。

所述语音分析层利用语音信号的线性预测分析技术，准确的分析出第一声音属性信息的声道参数，利用线性预测分析技术分析出的声道参数为音频参数，包括：声音的频率、声音的音量、声音的频谱幅度等。同时也可以利用R语音分析，得到所述声道参数中含有的性别标识。所述性别标识为标记该声道参数属于男声还是女生，通常标记在声音属性最后一个字段。所述R语音分析提取出了声音信息的声音属性，基于所述声音属性得到其所属性别是男生还是女生。

步骤2022、将所述第一声音属性信息所对应的声道参数输入到参数预测层，得到所述参数预测层按照预设声道参数范围对所述第一声音属性信息进行调整后，输出调整后的声道参数。

所述参数预测层根据输入的声道参数，预测出第二声道属性信息所对应的声道参数。

本实施例中，为了使得沟通更加高效，在对所述声道参数进行调整中对发送方所发出的声音是男声还是女声进行识别，当识别出发送方所发出的声音是女声，且声音信息的接收方是女生，则可以将所述第一声音属性信息所对应的女声调整为男声，若声音信息的接收方是男生，则可以不做声音所属性别的调整，通过女生和男生之间更易于沟通的原因，提高沟通效率。例如：当男性客户想要发脾气时，由于对方的客服所发出的声音为女声，则可能会很快恢复平静的语气沟通。

因此在进行声道参数调整时，参数预测层对第一声音属性信息的声道参数做两个种不同的调整：第一种是对第一声音属性所属性别及性别标识进行更改和对第一声音属性的其他声音参数进行调整，第二种是除第一声音属性所属性别及性别标识之外的其他声音参数，对其他声道参数的调整，例如:音量、音调和音色等音频参数和/或能量曲线、声音速率和共振频率曲线等所述韵律参数。其中，性别标识为：男声和女声。第一声音属性所属性别可以为男生也可以为女生。所述参数预测层提取第一声音属性所属性别，识别出所发出的声音的所属性别是男生还是女生，再根据识别出的所属性别对其进行调整。

当对第一声音属性所述性别及性别标识进行更改时，其调整的步骤包括：

所述预存接听方性别标识，可以为男生或者女生，该预存接听方性别标识所对应的是交流方接听方，例如：当第一声音信息的发出方为客户时，则交流方接听方可以为客服，设定客服的位置一般固定，则可以预先将该位置对应的客服性别为男还是女进行预先存储在语音编辑器内，则语音编辑器识别出第一声音信息的发出方为男生，预先存储的客服的声音为男生，则可以将第一声音信息所对应的声音属性的所属性别更改为女性，将该声音转换成女生的声音发送至客服，由于异性之间交流更加顺畅，因此当声音属性信息中所属性别更改后，可以取得更好的沟通效果。

第一声音信息的接听方的性别标识也可以通过对接听方发出的语音信息进行识别得到，具体的识别出语音信息所属性别的方法可以通过神经网络模型实现，例如：通过简单的神经网络模型voice-gender数据集，该数据集通过R语言处理，它提取出了wav文件的一些声音属性,其最后一个字段标记了是男声还是女声，因此可以从最后一个字段的标记中识别出输入的声音属性信息是男声还是女声。

当对第一声音属性中声道参数所属性别进行更改之外，还对其他声音参数进行调整时，其步骤包括：

所述韵律参数包括：能量曲线、声音速率和共振频率曲线，所述音频参数包括：音量、音调和音色。

所述参数预测层可以利用码本映射、离散转换函数、神经网络和高斯混合模型等算法中的任意一种实现对上述声道参数的调整。

步骤2023、将所述调整后的声道参数输入到信息转换层，得到所述信息转换层输出的所述第二声道属性信息。

所述信息转换层得到所述参数预测层中调整后的声道参数，并根据调整后的声道参数合成第二声道属性信息。所述信息转换层可以使用声音合成算法实现根据调整后的声道参数合成出第二声道属性信息。

步骤S203、对所述第一文本信息进行敏感信息过滤，得到第二文本信息。

由于第一文本信息中可能会含有敏感信息，所述敏感信息为：不文明词语、含有愤怒、暴力和色情倾向的词汇或者政治敏感词汇，上述词汇可能会导致声音信息接听方感到不适，从而影响到交流双方的沟通。以不文明词语为例：当客户在申请退货被拒，则可能会说出含有气愤感情倾向的不文明词语，声音信息的接听方感受到上述词语中带有的不满情绪，其自身也同样也会产生抵触情绪，从而可能导致交流双方无法正常进行下一步的交流沟通，因此本步骤中需要对客户输入的声音信息进行过滤，使得传入到客服的声音信息中不含有敏感信息。

本步骤中对第一文本信息进行敏感信息过滤的方法，可以为使用预建立的敏感信息数据库，利用文本信息匹配查找出其中是否含有敏感信息，也可以使用敏感信息过滤软件或算法实现过滤。

步骤S204、将所述第二声音属性信息与所述第二文本信息进行语音合成，得到第二声音信息。

将上述步骤S202和步骤S203分别得到的第二声音属性信息和所述第二文本信息进行语音合成，得到编辑完成的第二声音信息。所述第二声音信息为对第一声音信息进行声音属性信息的调整和对敏感信息进行过滤所得到的，且得到的第二声音信息语气平缓，且不含有敏感信息的语句，因此上次步骤所提供的方法创建了和谐的沟通氛围。

本实施例中，为了获取到更为准确的过滤结果，上述步骤S203中对所述第一文本信息进行敏感信息过滤的步骤包括：

将所述第一文本信息输入至已训练的信息过滤模型，得到过滤后的第二文本信息，所述信息过滤模型是基于文本信息与标记有敏感信息的验证文本信息之间的对应关系训练而成的。

所述信息过滤模型用于对输入其中的文本信息进行过滤，是基于预设的第三神经网络模型训练而成的，其训练方法包括以下步骤：

首先收集多个用于对所述信息过滤模型进行训练的文本信息训练集和文本信息验证集，所述文本信息训练集中含有多个训练文本信息，所述文本信息验证集中含有多个验证文本信息。多个验证文本信息为对各个训练文本信息进行敏感信息过滤后得到的文本样本范本。

将所述训练文本信息输入所述第三神经网络模型，得到所述第三神经网络模型输出的各个训练文本信息中敏感信息过滤后得到的文本信息，所述验证文本信息用于对第三神经网络模型输出的过滤后的文本信息进行验证，得到文本信息范本与第三神经网络模型输出的过滤后的文本信息进行比较，得到文本信息范本与模型输出得到的文本信息之间的误差，根据所述误差所述第三神经网络模型的参数进行优化。

具体的，将所述文本信息训练集中含有的各个训练文本信息输入所述第三神经网络模型，得到所述第三神经网络模型输出对各个训练文本信息过滤后的文本信息。

将所述第三神经网络模型输出的过滤后的文本信息与验证集中验证文本信息进行比较，得到本次训练的误差，并根据所述误差对第三神经网络模型的参数进行调整，重复将所述文本信息训练集中含有的各个训练文本信息输入所述第三神经网络模型的步骤，直至得到训练的误差在预设范围内，训练步骤完成，得到已训练的所述信息过滤模型。

使用上述步骤中训练得到的信息过滤模型，对所述第一文本信息进行敏感信息过滤，得到所述信息过滤模型输出的过滤后的第二文本信息。

本步骤中选择使用基于神经网络模型的信息过滤模型对所述第一文本信息进行过滤，得到过滤后的第二文本信息，所述信息过滤模型是基于文本信息和已经标记为敏感信息的文本信息之间的对应关系训练而成的，因此可以获取到更加准确的结果。

本实施例中，由于第二文本信息是基于第一文本信息中删掉敏感信息得到的，因此可能会出现语句不通顺的情况，例如：若客户语句“我爱XXX”，则将通过敏感信息过滤后，判定该句子中的“XXX”为政治敏感词汇，即将“XXX”判定为敏感信息，则将“XXX”过滤后，过滤后的语句变成：“我爱”，因此过滤后的语句出现不通顺的情况，而不通顺的语句增加了沟通的难度，因此上述步骤S203中将所述第一文本信息输入至已训练的信息过滤模型，得到过滤后的第二文本信息的步骤之后还包括：

步骤S2031、将所述第二文本信息输入至深度语义模型，得到整合后的第三文本信息；所述深度语义模型是基于第一样本文本信息与相匹配信息之间的对应关系训练而成的；所述相匹配信息为与所述第一样本文本信息的语义匹配度大于预设阈值的文本信息。

所述深度语义模型用于对输入其中的文本信息进行整合，是基于预设的第四神经网络模型训练而成的，其训练方法包括以下步骤：

收集多个用于对所述深度语义模型进行训练的语义文本训练集和进行验证的语义文本验证集，所述语义文本训练集中含有多个训练语义文本，所述语义文本验证集中含有多个验证语义文本。所述验证语义文本为对所述训练语义文本进行整合后的语义文本，其中，所述对训练语义文本进行整合是基于文本信息之间的语义匹配度，为训练语义文本匹配到相似语义的文本，再基于语法结构、用语习惯根据匹配出的文本将训练语义文本整合为语序自然符合语法结构和用语习惯的文本，可以理解的是，验证语义文本为根据预设规则对训练语义文本进行调整后所得到的语序自然、符合语法结构和用语习惯的文本。比如：训练语义文本的其中一个句子为：“这衣服是那些穿的吗？质量差”，基于文本信息之间的语义匹配，为上述训练语义文本匹配到语义匹配度超过预设匹配度的文本“这衣服是人穿的，质量差”，将上述训练语义文本“这衣服是那些穿的吗？质量差”和匹配出的文本“这衣服是人穿的，质量差”对两个文本的内容进行语法结构、用语习惯的整合，得到两个文本所要表示的文本为“这衣服的质量较差”，从而得到与训练语义文本所对应的验证语义文本。

所述验证语义文本用于对第四神经网络模型中输出的对训练语义文本的整合结果进行验证，判断语义文本范本与模型输出的整合结果之间的误差，根据误差优化第四神经网络模型的参数。

将训练语义文本输入所述第四神经网络模型，得到所述第四神经网络模型输出的对训练语义文本的整合结果。将使用所述验证语义文本对所述第四神经网络模型输出的整合结果进行验证，通过验证结果对第四神经网络模型的参数进行优化调整。

将所述语义文本训练集中含有的多个训练语义文本输入所述第四神经网络模型，得到所述第四神经网络模型输出的第三文本信息，所述第三文本信息为对所述语义文本训练集中全部语义文本信息整合后得到的文本信息。

将所述第四神经网络模型输出的整合后的文本信息与验证集中验证语义文本进行比较，得到本次训练的误差，并根据所述误差对第四神经网络模型的参数进行调整，重复将所述语义文本训练集中含有的多个训练语义文本和多个验证语义文本输入所述第四神经网络模型的步骤，直至得到训练的误差在预设范围内，训练步骤完成，得到已训练的所述深度语义模型。

使用上述步骤中训练得到的深度语义模型，对所述第一文本信息进行文本信息整合，得到所述深度语义模型输出的整合后的第三文本信息。

本步骤基于文本信息之间的语义匹配度，对过滤后的语句进行重新整合，使得整合后的语句更加通顺，便于对方更易于理解沟通内容。例如，若客户语句“这衣服是那些low人穿的吧？质量杠杠滴差！”，则将通过敏感信息过滤后，该语句变成：“这衣服是那些穿的吗？质量差”，经过深度语义模型的整合后，当将上面客户发出语句整合为：“这衣服的质量较差”，语句语义更加清晰，则可以起到更好的沟通效果。

步骤S2032、将所述第三文本信息替换所述第二文本信息输入至所述语音合成模型中。

将整合后的较通顺的第三文本信息替换过滤后不通顺的第二文本信息，由于使用替换后的第二文本信息与第二声音属性信息输入语音合成模型中，通过所述语音合成模型合成得到第二语音信息。

本实施例中，步骤S204进行语音合成的步骤可以利用语音合成软件实现，也可以使用基于神经网络的语音合成模型实现。

当使用语音合成软件实现时，则只需要件第二声音属性信息和第二文本信息同时输入到语音合成软件中，语音合成软件对两种信息进行合成后，输出合成后的第二声音信息。

当使用基于神经网络的语音合成模型实现是，则将所述第二声音属性信息与所述第一文本信息进行语音合成的步骤包括：

所述第二声音属性信息是由第一声音属性信息进行了声道参数调整而得到的，所述第二文本信息是对第一文本进行了敏感信息过滤之后，再对其进行整合后得到的。基于对第一声音信息进行编辑后得到的第二声音属性信息和第二文本信息进行合成，得到第二声音信息。

分别将第二声音属性信息和第二文本信息输入至所述语音合成模型，所述语音合成模型输出合成后的第二声音信息。本实施例中，所述语音合成模型是基于样本声音属性信息、第二文本信息与样本合成音频之间的对应关系训练完成的，所述语音合成模型对合成音频中的声音属性信息和文本信息进行学***常音量的两倍发出“是否可以申请退货”的声音信息中含分别含有的声音属性信息和文本信息进行调整和过滤后，得到预设音量、音色和音调的声音(例如：林志玲的声音)发出的“是否可以申请退货”，从而得到很好收听效果。

具体的，所述语音合成模型是基于预先设置的第五神经网络模型训练而成的，则基于所述第五神经网络模型训练得到所述语音合成模型的步骤包括：

收集多个用于对所述深度语义模型进行训练的语音合成训练集和语音合成验证集，所述语音合成训练集中含有多个用于训练的样本声音属性信息、样本文本信息和样本合成音频信息，所述语音合成验证集中含有多个用于验证的样本声音属性信息、样本文本信息和样本合成音频信息，所述用于验证的样本声音属性信息、样本文本信息和样本合成语音含有与其相对应的合成音频信息的标识信息。

分别将多个用于训练的样本声音属性信息、样本文本信息和样本合成语音，以及多个用于验证的样本声音属性信息、样本文本信息和样本合成音频输入所述第五神经网络模型，得到所述第五神经网络模型输出的合成音频信息，所述合成音频为所述样本声音属性信息、样本文本信息整合后得到的合成音频

将所述第五神经网络模型输出的整合后的合成音频与验证集中样本合成音频进行比较，得到本次训练的误差，并根据所述误差对第五神经网络模型的参数进行调整，重复将多个用于训练的样本声音属性信息、样本文本信息和样本合成语音，以及多个用于验证的样本声音属性信息、样本文本信息和样本合成音频输入所述第五神经网络模型的步骤，直至得到训练的误差在预设范围内，训练步骤完成，得到已训练的所述语音合成模型。

在一种可能的实现方式中，本实施例的语音合成模型建立在WaveNet 上，这是一种自动编码器，可以根据录音波形生成模型，其采用了反向翻译技术，将一个人的声音转换为另一个指定人的声音。

进一步的，本发明所公开的语音编辑设备还可以接受用户咨询的问题，对问题进行分析后，给出回复信息，因此所述语音编辑设备可以应用在语音交互领域，尤其适用于需要客服机器人进行信息处理领域中。

结合图3所示，语音编辑设备与电话相连接，设置在客户和客服之间，客户发出的语音信息通过电话传输到本实施例提供的语音编辑设备中，所述语音编辑设备对接收到的语音信息进行识别，得到所述语音信息的声音属性和文本信息，比如：客户发出“请查询订单号xxx的物流信息”语音信息，则语音编辑设备获取该语音信息的声音属性以及其语音信息中的词汇信息。对获取到的所述第一声音属性信息进行声道参数调整，使其在预设声道参数范围内，若该语音信息多对应的音量过大，则对将其音量控制在预设音量范围以内，以及根据语音信息中含有的声音属性的性别标记识别该声音是男声还是女生，当客服为男生，客户也同为男生时，则控制将客户发出的声音所属性别调整为女声，以女声发送至客服，构建异性之间交流沟通的场景，使得客户与客服之间沟通更加顺畅。同时语音编辑设备还对客户发出的语音信息中词汇信息是否含有过激或者涉及到政治敏感词的内容进行过滤，过滤其中不文明或者违反法律法规的言论，传输给客服文明且语气平和的语句。

同样的，客服发出的语音信息也同样可以经过电话传输至语音编辑设备，语音编辑设备以同样的方式对客服发出的语音信息进行编辑，并将编辑后的语句传输至客户，客户同样接收到内容文明，且语气平和的语句，从而实现和谐的交流氛围。

示例性设备

在上述方法的基础上，本发明还公开了一种语音编辑装置，如图4所示，包括：

语音识别模块401，用于接收目标用户发出的第一声音信息，对所述第一声音信息进行语音识别，获取所述第一声音信息的声音属性信息和所述第一声音信息所包含的第一文本信息；其功能如步骤S201所示。

属性信息转换模块402，用于将所述第一声音属性信息输入已训练的声音转换模型，得到经过声音转换后的第二声音属性信息，所述声音转换模型是基于输入声音属性与目标转换声音属性信息之间的对应关系训练而成的；其功能如步骤S202所示。

文本过滤模块403，用于对所述第一文本信息进行敏感信息过滤，得到第二文本信息；其功能如步骤S203所示。

语音合成模块404，用于将所述第二声音属性信息与所述第二文本信息进行语音合成，得到第二声音信息，其功能如步骤S204所示。

在示例性实施例中，装置1800可以被一个或多个应用专用集成电路 (ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在上述方法的基础上，本发明还公开了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现所述方法的步骤。

在上述方法的基础上，本发明还公开了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现所述的方法的步骤。

本发明提供了一种语音编辑方法及相关设备，通过接收目标用户发出的第一声音信息，对所述第一声音信息进行语音识别，获取所述第一声音信息的声音属性信息和所述第一声音信息所包含的第一文本信息；将所述第一声音属性信息输入已训练的声音转换模型，得到经过声音转换后的第二声音属性信息，所述声音转换模型是基于输入声音属性与目标转换声音属性信息之间的对应关系训练而成的；对所述第一文本信息进行敏感信息过滤，得到第二文本信息；将所述第二声音属性信息与所述第二文本信息进行语音合成，得到第二声音信息。本发明所述方法通过对交流双方发出的语音信息进行编辑，调整语音信息中带有情绪的语气和过滤其中含有的敏感信息，使得沟通双方可以在非情绪因素的干扰下顺利完成事件处理，提高办事效率，减少交流双方等待时间。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种语音编辑方法，其特征在于，包括以下步骤：

接收第一声音信息，对所述第一声音信息进行语音识别，获取所述第一声音信息的第一声音属性信息和所述第一声音信息所包含的第一文本信息；

将所述第一声音属性信息输入已训练的声音转换模型，得到经过声音转换后的第二声音属性信息，所述声音转换模型是基于输入声音属性信息与目标转换声音属性信息之间的对应关系训练而成的；其中，所述目标转换声音属性信息为按照预设声道参数范围对所述输入声音属性信息的声道参数进行调整后的声音属性信息；

2.根据权利要求1所述的语音编辑方法，其特征在于，所述对所述第一声音信息进行语音识别的步骤包括：

3.根据权利要求1或2所述的语音编辑方法，其特征在于，所述声音转换模型包括：语音分析层、参数预测层和信息转换层；

将所述第一声音属性信息输入所述语音分析层，得到所述语音分析层输出所述第一声音属性信息所对应的声道参数；

将所述第一声音属性信息所对应的声道参数输入到所述参数预测层，得到所述参数预测层按照所述预设声道参数范围对所述第一声音属性信息进行调整后，输出调整后的声道参数；

将所述调整后的声道参数输入到所述信息转换层，得到所述信息转换层输出的所述第二声道属性信息。

4.根据权利要求3所述的语音编辑方法，其特征在于，所述将所述第一声音属性信息所对应的声道参数输入到参数预测层，得到所述参数预测层按照预设声道参数范围对所述第一声音属性信息进行调整后，输出调整后的声道参数的步骤包括：

以及，将所述性别标识与预存接听方性别标识进行比对，若所述性别标识与预存接听方性别标识相同，则在所述预设声道参数范围内对所述第一声音属性信息的所属性别进行调整，输出调整后的声道参数；所述调整后的声道参数为所述第一声音属性信息的所属性别更改后的声道参数。

5.根据权利要求3所述的语音编辑方法，其特征在于，所述将所述第一声音属性信息所对应的声道参数输入到参数预测层，得到所述参数预测层按照预设声道参数范围对所述第一声音属性信息进行调整后，输出调整后的声道参数的步骤包括：

6.根据权利要求1或2所述的语音编辑方法，其特征在于，所述对所述第一文本信息进行敏感信息过滤的步骤包括：

7.根据权利要求6所述的语音编辑方法，其特征在于，所述将所述第一文本信息输入至已训练的信息过滤模型，得到过滤后的第二文本信息的步骤之后还包括：

将所述第二文本信息输入至深度语义模型，得到整合后的第三文本信息；所述深度语义模型是基于第一样本文本信息与相匹配信息之间的对应关系训练而成的；所述相匹配信息为与所述第一样本文本信息的语义匹配度大于预设阈值的文本信息；

8.根据权利要求1-3任一项所述的语音编辑方法，其特征在于，所述将所述第二声音属性信息与所述第一文本信息进行语音合成的步骤包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。