CN113539233A

CN113539233A - 一种语音处理方法、装置和电子设备

Info

Publication number: CN113539233A
Application number: CN202010301719.4A
Authority: CN
Inventors: 李栋梁; 刘恺; 周明; 陈伟
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2021-10-22
Also published as: WO2021208531A1

Abstract

本发明实施例提供了一种语音处理方法、装置和电子设备，其中，所述方法包括：获取待转换的文本信息，以及确定所述文本信息对应的源语种和待转换的目标用户；依据所述文本信息和所述目标用户对应的目标转换模型，将所述文本信息转换为目标用户采用源语种发音的目标语音数据；其中，所述目标转换模型依据目标用户发音的单语种语音数据对训练后的通用转换模型进行自适应训练，所述通用转换模型依据包含N种语种的语音数据进行训练；所述源语种为所述N种语种中的一种，N为大于1的整数；进而能够在只有目标用户单一语种的语音数据情况下，将多语种的文本转为对应语种的目标用户的目标语音数据，实现多语种的语音转换。

Description

一种语音处理方法、装置和电子设备

技术领域

本发明涉及数据处理技术领域，特别是涉及一种语音处理方法、装置和电子设备。

背景技术

随着语音处理技术的发展，语音转换技术也随之被广泛应用。例如输入法领域应用语音转换技术实现变声输入；又例如，即时通讯软件应用语音转换技术实现视频通话或语音通话的变声；等等。

语音转换技术是指将一个人(源用户)的声音转换成另一个人(目标用户)声音的技术。现有技术中，通常是收集目标用户的语音数据，并采用目标用户的语音数据对模型进行训练；后续在应用过程中，获取源用户的语音数据后，采用训练后的模型对源用户的语音数据进行语音转换，得到目标用户的语音数据。

然而，若训练模型的数据是目标用户的单一语种语音数据，则现有技术只能将源用户采用该语种发音的语音数据，转换为目标用户采用该语种发音的语音数据；无法实现将源用户采用其他语种发音的语音数据，转换为目标用户采用其他语种发音的语音数据。例如，训练模型的数据为目标用户的中文语音数据，则只能对源用户采用中文发音的语音数据进行语音转换，得到目标用户采用中文发音语音数据；而无法将源用户采用英文发音的语音数据，转换为目标用户采用英文发音的语音数据。

发明内容

本发明实施例提供一种语音处理方法，以在只有目标用户单一语种的语音数据情况下，实现多语种语音转换。

相应的，本发明实施例还提供了一种语音处理装置和一种电子设备，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种语音处理方法，具体包括：获取待转换的文本信息，以及确定所述文本信息对应的源语种和待转换的目标用户；依据所述文本信息和所述目标用户对应的目标转换模型，将所述文本信息转换为目标用户采用源语种发音的目标语音数据；其中，所述目标转换模型依据目标用户的单语种语音数据对训练后的通用转换模型进行自适应训练，所述通用转换模型依据包含N种语种的语音数据进行训练；所述源语种为所述N种语种中的一种，N为大于1的整数。

可选地，所述获取待转换的文本信息，包括：获取源用户的源语音数据，其中，所述源用户与目标用户为相同用户或不同用户；对所述源语音数据进行语音识别，确定对应待转换的文本信息。

可选地，所述对所述源语音数据进行语音识别，确定对应待转换的文本信息，包括：将所述源语音数据分别输入至N个语音识别器，得到对应的N个语音识别结果，其中，一个语音识别器对应一种语种；将所述N个语音识别结果进行拼接，得到待转换的文本信息。

可选地，所述对所述源语音数据进行语音识别，确定对应待转换的文本信息，包括：将所述源语音数据输入至一个语音识别器，得到对应的语音识别结果，其中，所述语音识别器对应N种语种；将所述语音识别结果确定为待转换的文本信息。

可选地，所述依据所述文本信息和所述目标用户对应的目标转换模型，将所述文本信息转换为目标用户采用源语种发音的目标语音数据，包括：采用所述目标转换模型对所述文本信息进行转换，输出所述目标用户采用所述源语种发音的声学特征；采用合成器对所述声学特征进行合成，得到所述目标用户采用所述源语种发音的目标语音数据。

可选地，所述采用所述目标转换模型对所述文本信息进行转换，输出所述目标用户采用所述源语种对所述文本信息进行发音的声学特征，包括：将所述文本信息、源语种对应的语种标识和目标用户对应的用户标识，输入至所述目标转换模型中；所述目标转换模型查找与所述语种标识匹配和用户标识均匹配的目标模型参数；所述目标转换模型采用所述目标模型参数对所述文本信息进行转换，输出所述目标用户采用所述源语种发音的声学特征。

可选地，还包括对所述通用转换模型进行训练的步骤：收集M个用户的X条第一语音训练数据，其中，一条第一语音训练数据对应一种语种，X条第一语音训练数据对应N种语种；分别提取各条第一语音训练数据的参考声学特征，并分别为各条第一语音训练数据和对应的参考声学特征均标注对应的用户标识和语种标识；针对每一条第一语音训练数据，识别所述第一语音训练数据对应的文本信息；依据所述第一语音训练数据对应的文本信息、参考声学特征、用户标识和语种标识，对所述通用转换模型进行训练。

可选地，还包括依据目标用户的单语种语音数据对训练后的通用转换模型进行自适应训练，生成目标转换模型的步骤：获取所述目标用户的Y条第二语音训练数据，所述Y条第二语音训练数据对应的语种相同；分别提取各条第二语音训练数据的参考声学特征，并分别为各条第二语音训练数据和对应的参考声学特征均标注目标用户的用户标识和语种标识；针对每一条第二语音训练数据，识别所述第二语音训练数据对应的文本信息；依据所述第二训练语音数据对应的文本信息、参考声学特征、用户标识和语种标识，对训练后的通用转换模型进行自适应训练，得到目标转换模型。

本发明实施例还公开了一种语音处理装置，具体包括：获取模块，用于获取待转换的文本信息；信息确定模块，用于确定所述文本信息对应的源语种和待转换的目标用户；语音转换模块，用于依据所述文本信息和所述目标用户对应的目标转换模型，将所述文本信息转换为目标用户采用源语种发音的目标语音数据；其中，所述目标转换模型依据目标用户的单语种语音数据对训练后的通用转换模型进行自适应训练，所述通用转换模型依据包含N种语种的语音数据进行训练；所述源语种为所述N种语种中的一种，N为大于1的整数。

可选地，所述获取模块，包括：语音获取子模块，用于获取源用户的源语音数据，其中，所述源用户与目标用户为相同用户或不同用户；识别子模块，用于对所述源语音数据进行语音识别，确定对应待转换的文本信息。

可选地，所述识别子模块，包括：第一语音识别单元，用于将所述源语音数据分别输入至N个语音识别器，得到对应的N个语音识别结果，其中，一个语音识别器对应一种语种；将所述N个语音识别结果进行拼接，得到待转换的文本信息。

可选地，所述识别子模块，包括：第二语音识别单元，用于将所述源语音数据输入至一个语音识别器，得到对应的语音识别结果，其中，所述语音识别器对应N种语种；将所述语音识别结果确定为待转换的文本信息。

可选地，所述语音转换模块，包括：特征生成子模块，用于采用所述目标转换模型对所述文本信息进行转换，输出所述目标用户采用所述源语种发音的声学特征；语音合成子模块，用于采用合成器对所述声学特征进行合成，得到所述目标用户采用所述源语种发音的目标语音数据。

可选地，所述特征生成子模块，用于将所述文本信息、源语种对应的语种标识和目标用户对应的用户标识，输入至所述目标转换模型中；所述目标转换模型查找与所述语种标识匹配和用户标识均匹配的目标模型参数；所述目标转换模型采用所述目标模型参数对所述文本信息进行转换，输出所述目标用户采用所述源语种发音的声学特征。

可选地，还包括：第一训练模块，用于对所述通用转换模型进行训练；所述第一训练模块，具体用于收集M个用户的X条第一语音训练数据，其中，一条第一语音训练数据对应一种语种，X条第一语音训练数据对应N种语种；分别提取各条第一语音训练数据的参考声学特征，并分别为各条第一语音训练数据和对应的参考声学特征均标注对应的用户标识和语种标识；针对每一条第一语音训练数据，识别所述第一语音训练数据对应的文本信息；依据所述第一语音训练数据对应的文本信息、参考声学特征、用户标识和语种标识，对所述通用转换模型进行训练。

可选地，还包括：第二训练模块，用于依据目标用户的单语种语音数据对训练后的通用转换模型进行自适应训练，生成目标转换模型；所述第二训练模块，具体用于获取所述目标用户的Y条第二语音训练数据，所述Y条第二语音训练数据对应的语种相同；分别提取各条第二语音训练数据的参考声学特征，并分别为各条第二语音训练数据和对应的参考声学特征均标注目标用户的用户标识和语种标识；针对每一条第二语音训练数据，识别所述第二语音训练数据对应的文本信息；依据所述第二训练语音数据对应的文本信息、参考声学特征、用户标识和语种标识，对训练后的通用转换模型进行自适应训练，得到目标转换模型。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例任一所述的语音处理方法。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取待转换的文本信息，以及确定所述文本信息对应的源语种和待转换的目标用户；依据所述文本信息和所述目标用户对应的目标转换模型，将所述文本信息转换为目标用户采用源语种发音的目标语音数据；其中，所述目标转换模型依据目标用户的单语种语音数据对训练后的通用转换模型进行自适应训练，所述通用转换模型依据包含N种语种的语音数据进行训练；所述源语种为所述N种语种中的一种，N为大于1的整数。

可选地，还包含用于进行以下对所述通用转换模型进行训练的指令：收集M个用户的X条第一语音训练数据，其中，一条第一语音训练数据对应一种语种，X条第一语音训练数据对应N种语种；分别提取各条第一语音训练数据的参考声学特征，并分别为各条第一语音训练数据和对应的参考声学特征均标注对应的用户标识和语种标识；针对每一条第一语音训练数据，识别所述第一语音训练数据对应的文本信息；依据所述第一语音训练数据对应的文本信息、参考声学特征、用户标识和语种标识，对所述通用转换模型进行训练。

可选地，还包含用于进行以下依据目标用户的单语种语音数据对训练后的通用转换模型进行自适应训练，生成目标转换模型的指令：获取所述目标用户的Y条第二语音训练数据，所述Y条第二语音训练数据对应的语种相同；分别提取各条第二语音训练数据的参考声学特征，并分别为各条第二语音训练数据和对应的参考声学特征均标注目标用户的用户标识和语种标识；针对每一条第二语音训练数据，识别所述第二语音训练数据对应的文本信息；依据所述第二训练语音数据对应的文本信息、参考声学特征、用户标识和语种标识，对训练后的通用转换模型进行自适应训练，得到目标转换模型。

本发明实施例包括以下优点：

本发明实施例中，可以获取待转换的文本信息，并确定所述文本信息对应的源语种和待转换的目标用户；然后据所述文本信息和所述目标用户对应的目标转换模型，将所述文本信息转换为目标用户采用源语种发音的目标语音数据；其中，所述目标转换模型依据目标用户发音的单语种语音数据对训练后的通用转换模型进行自适应训练，所述通用转换模型依据包含N种语种的语音数据进行训练；所述源语种为所述N种语种中的一种，N为大于1的整数；进而能够在只有目标用户单一语种的语音数据情况下，将多语种的文本转为对应语种的目标用户的目标语音数据，实现多语种的语音转换。

附图说明

图1是本发明的一种语音处理方法实施例的步骤流程图；

图2是本发明的一种模型训练方法实施例的步骤流程图；

图3是本发明的一种模型自适应训练方法实施例的步骤流程图；

图4是本发明的一种语音处理方法可选实施例的步骤流程图；

图5a是本发明的一种语音处理方法的过程示意图；

图5b是本发明的另一种语音处理方法的过程示意图；

图6是本发明的一种语音处理装置实施例的结构框图；

图7是本发明的一种语音处理装置可选实施例的结构框图；

图8根据一示例性实施例示出的一种用于语音处理的电子设备的结构框图；

图9是本发明根据另一示例性实施例示出的一种用于语音处理的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种语音处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102、获取待转换的文本信息。

本发明实施例中，可以获取待转换为语音数据的文本信息，然后可以参照步骤104-步骤106，对该文本信息进行语音转换。

步骤104、确定所述文本信息对应的源语种和待转换的目标用户。

本发明实施例中，在获取待转换的文本信息后，可以确定该文本信息对应的源语种和待转换的目标用户，以便于后续确定将文本信息转换为哪个用户采用何种语种进行发音的语音数据。

步骤106、依据所述文本信息和所述目标用户对应的目标转换模型，将所述文本信息转换为目标用户采用源语种发音的目标语音数据；其中，所述目标转换模型依据目标用户的单语种语音数据对训练后的通用转换模型进行自适应训练，所述通用转换模型依据包含N种语种的语音数据进行训练；所述源语种为所述N种语种中的一种，N为大于1的整数。

本发明实施例中，可以预先依据包含N种语种的语音数据对通用转换模型进行训练，得到训练后的通用转换模型。再依据目标用户发音的单语种语音数据对训练后的通用转换模型进行自适应训练，得到所述目标用户对应的目标转换模型。其中，模型的训练和自适应训练过程在后续进行说明。

然后可以采用所述目标用户对应的目标转换模型，对所述文本信息进行转换，得到对应的转换结果；再依据所述转换结果，将所述文本信息转换为目标用户采用源语种发音的语音数据(后续称为目标语音数据)。其中，所述N为大于1的正整数，所述源语音数据对应的源语种，是这N种语种中的一种语种；进而能够实现在只有目标用户单一语种的语音数据情况下，将多语种的文本信息转为对应语种的目标用户的目标语音数据。

其中，所述源语种与用于训练后的通用转换模型进行自适应训练的目标用户的语音数据对应的语种可以相同，也可以不同，本发明实施例对此不作限制。

综上，本发明实施例中，可以获取待转换的文本信息，并确定所述文本信息对应的源语种和待转换的目标用户；然后依据所述文本信息和所述目标用户对应的目标转换模型，将所述文本信息转换为目标用户采用源语种发音的目标语音数据；其中，所述目标转换模型依据目标用户发音的单语种语音数据对训练后的通用转换模型进行自适应训练，所述通用转换模型依据包含N种语种的语音数据进行训练；所述源语种为所述N种语种中的一种，N为大于1的整数；进而能够在只有目标用户单一语种的语音数据情况下，将多语种的文本信息转为对应语种的目标用户的目标语音数据，实现多语种的语音转换。

以下对如何训练通用音合成模型进行说明。

参照图2，示出了本发明的一种模型训练方法实施例的步骤流程图，具体可以包括如下步骤：

步骤202、收集M个用户的X条第一语音训练数据，其中，一条第一语音训练数据对应一种语种，X条第一语音训练数据对应N种语种。

本发明实施例中，M、X和N均为正整数，且M、X和N均可以按照需求设置；例如M设为20，X设为1000，N设为5(如汉语、英语、日语、韩语和俄语5种语种)；本发明实施例对此不作限制。

在确定M、X和N后，可以针对M个用户的每一个用户，收集x(i)条语音数据；其中，i的取值为1～M，M个用户收集的语音数据的条数总和为X。其中，对于这X条语音数据收集的需求可以是，每一条语音数据对应一种语种，X条语音数据覆盖N种语种。然后可以将这X条语音数据的中的每一条语音数据确定第一语音训练数据，进而得到X条第一语音训练数据。

步骤204、分别提取各条第一语音训练数据对应的参考声学特征，并分别为各条第一语音训练数据和对应的参考声学特征均标注对应的用户标识和语种标识。

本发明实施例中，所述通用转换模型的输出是声学特征，所述声学特征是指可用于合成语音数据的特征。为了对所述通用转换模型进行训练，可以分别从每一条第一语音训练数据中提取出对应的声学特征，作为参考声学特征，以便于后续通过将参考声学特征与通用转换模型输出的声学特征进行比对，对所述通用转换模型进行反向训练。

由于针对同一文本信息，不同用户采用同一语种发音的声学特征不同，以及同一用户采用不同语种发音的声学特征也不同；为了能够训练所述通用转换模型学习到不同用户采用不同语种发音的声学特征，可以预先分别为每个用户分配对应的用户标识，以及为每种语种分配对应的语种标识；其中，所述用户标识用于唯一标识一个用户，所述语种标识用于唯一标识一种语种。然后分别为每一条第一语音训练数据和对应的参考声学特性，均标注对应用户的用户标识和对应语种的语种标识；再采用标注用户标识和语种标识的X条第一语音训练数据和对应的参考声学特征，对所述通用转换模型进行训练，可以参照步骤206-步骤208。

步骤206、针对每一条第一语音训练数据，识别所述第一语音训练数据对应的文本信息。

本发明实施例中，可以先对每条第一语音训练数据进行语音识别，确定对应的文本信息；然后再依据每条第一语音数据的文本信息，对所述通用转换模型进行训练。

本发明的一个示例中，一种对识别所述第一语音训练数据对应的文本信息的方式可以参照如下子步骤22-24；以下以一条第一语音训练数据为例进行说明。

子步骤22、将所述第一语音训练数据分别输入至N个语音识别器，得到对应的N个语音识别结果，其中，一个语音识别器对应一种语种；

子步骤24、将所述N个语音识别结果进行拼接，得到对应的文本信息。

本发明实施例中，可以将所述第一语音训练数据分别输入至N个语音识别器中，其中，这N个语音识别器中每一个语音识别器为一种语种的语音识别器。然后每个语音识别器对所述第一语音训练数据进行语音识别，输出对应的语音识别结果；其中，所述语音识别结果可以为文本编码信息，也可以为文本本身。当所述语音识别结果为文本编码信息时，可以按照预设顺序将各语音识别器输出的文本编码信息进行拼接，得到所述第一语音训练数据对应的文本信息；所述预设顺序可以按照需求设置，本发明实施例对此不作限制。当所述语音识别结果为文本本身时，可以分别对各语音识别器输出的语音识别结果进行编码(如one-hot(热编码)，转换为词向量等等)；然后再将各编码后的语音识别结果进行拼接。

本发明的一个示例中，又一种识别所述第一语音训练数据对应的文本信息的方式可以参照如下子步骤42-44；以下以一条第一语音训练数据为例进行说明。

子步骤42、将所述第一语音训练数据输入至一个语音识别器，得到对应的语音识别结果，其中，所述语音识别器对应N种语种。

子步骤44、将所述语音识别结果确定为文本信息。

本发明实施例中，也可以采用一个可识别N种语音的语音识别器，对所述第一语音训练数据进行语音识别；即将所述第一语音训练数据输入至该可识别N种语种的语音识别器，得到对应的语音识别结果。其中，所述语音识别结果可以是文本编码信息，该文本编码信息与上述一个可识别一种语种语音识别器输出的文本编码信息的维度以及每一维度对应的含义均不同。

本发明实施例中，无论是将第一语音训练数据输入至N个语音识别器，通过将各语音识别器的语音识别结果拼接得到文本信息，还是输入至一个语音识别器得到的文本信息；均包含了各语种之间关联。进而后续采用文本信息对通用转换模型进行训练后，可以使得训练后的通用转换模型可以学习到各语种之间的关联，从而在采用目标用户的单语种语音数据对训练后的通用转换模型进行自适应训练得到目标转换模型后，使得目标转换模型能够实现多语种语音转换。

步骤208、依据所述第一语音训练数据对应的文本信息、参考声学特征、用户标识和语种标识，对所述通用转换模型进行训练。

现以一条第一语音训练数据为例，对如何训练所述通用转换模型进行说明。本发明实施例中，可以将所述第一语音训练数据对应的文本信息、用户标识和语种标识输入至所述通用转换模型中；由所述通用转换模型对所述文本信息进行前向计算，输出第一语音训练数据对应的预测声学特征。其中，所述通用转换模型对所述文本信息进行前向计算的过程中，可以将模型参数与所述第一语音训练数据的用户标识和语种标识均进行关联。然后再将所述预测声学特征和所述第一语音训练数据对应的参考声学特征进行比对，对所述通用转换模型的与所述第一语音训练数据的用户标识和语种标识均对应的模型参数进行调整。其中，可以不断的采用X条第一语音训练数据对所述通用转换模型进行训练，直到满足结束条件为止；进而可以得到训练后的通用转换模型。

本发明的一个实施例中，在得到训练后的通用转换模型后，可以采用目标用户的单语种语音数据对训练后的通用转换模型进行自适应训练，得到能够预测目标用户多语种声学特征的目标转换模型；可以如下：

参照图3，示出了本发明的一种模型自适应训练方法实施例的步骤流程图。

步骤302、获取所述目标用户的Y条第二语音训练数据，所述Y条第二语音训练数据对应的语种相同。

本发明实施例中，Y为正整数，具体可以按照需求设置，本发明实施例对此不作限制。在确定Y后，可以从目标用户采用同一语种发音的语音数据中，选取Y条语音数据作为第二语音训练数据；然后采用所述Y条第二语音训练数据对训练后的通用转换模型进行自适应训练，可以参照步骤304-步骤308。

步骤304、分别提取各条第二语音训练数据的参考声学特征，并分别为各条第二语音训练数据和对应的参考声学特征均标注目标用户的用户标识和语种标识。

步骤306、针对每一条第二语音训练数据，对所第二语音训练数据进行语音识别确定对应的文本信息。

步骤308、依据所述第二训练语音数据对应的文本信息、参考声学特征、用户标识和语种标识，对训练后的通用转换模型进行自适应训练，得到目标转换模型。

其中，步骤304-步骤308与上述步骤204-步骤208类似，在此不再赘述。

以下对如何将文本信息转换为目标语音数据进行说明。

参照图4，示出了本发明的一种语音处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤402、获取源用户的源语音数据，其中，所述源用户与目标用户为相同用户或不同用户。

步骤404、对所述源语音数据进行语音识别，确定对应待转换的文本信息。

本发明实施例中，获取待转换的文本信息的一种方式可以是，获取源用户的源语音数据；然后通过对源语音数据进行语音识别，确定对应待转换的文本信息。其中，所述源用户与目标用户可以是同一个用户，也可以是不同的用户，本发明实施例对此不作限制。

本发明实施例中，对所述源语音数据进行语音识别，确定对应待转换的文本信息的方式包括多种；其中，一种示例中，一种对所述源语音数据进行语音识别，确定对应待转换的文本信息的方式可以参照如下子步骤：

子步骤62、将所述源语音数据分别输入至N个语音识别器，得到对应的N个语音识别结果，其中，一个语音识别器对应一种语种；

子步骤64、将所述N个语音识别结果进行拼接，得到待转换的文本信息。

本子步骤62-子步骤64与上述子步骤22-子步骤24类似，在此不再赘述。

本发明的另一种示例中，对所述源语音数据进行语音识别，确定对应待转换的文本信息的另一种方式可以包括如下子步骤：

子步骤82、将所述源语音数据输入至一个语音识别器，得到对应的语音识别结果，其中，所述语音识别器对应N种语种。

子步骤84、将所述语音识别结果确定为待转换的文本信息。

本子步骤82-子步骤84与上述子步骤42-子步骤44类似，在此不再赘述。

当然，用户也可以直接输入需要转换为语音数据的文本信息；进而本发明实施例可以获取用户输入的文本信息，并将用户输入的文本信息确定为待转换的文本信息。

步骤406、确定所述文本信息对应的源语种和待转换的目标用户。

本发明的一个示例中，源用户在输入源语音数据(或输入文本信息)时，可以配置源语音数据(或输入文本信息)对应的语种和待转换的目标用户。因此在获取源语音数据后，可以获取所述源语音数据的配置信息，依据所述配置信息确定所述待转换的文本信息对应的源语种和待转换的目标用户。

本发明的另一个示例中，当源用户在输入源语音数据(或输入文本信息)时，未对源语音数据(或输入文本信息)对应的语种进行配置。此时，一种确定所述待转换的文本信息对应的源语种的方式可以是，直接对待转换的文本信息进行语种识别，确定待转换的文本信息对应的源语种。

此外，若用户输入的是源语音数据，则可以对源语音数据进行语种识别，确定源语音数据对应的语种；然后将源语音数据对应的语种，确定为待转换的文本信息对应的源语种。其中，一种确定所述源语音数据对应的语种的方式可以是，将所述源语音数据输入至语种判断模块；由语种判断模块对所述源语音数据的语种进行判断，确定所述源语音数据对应的语种。另一种确定所述源语音数据对应的语种的方式可以是，由语音识别器确定所述源语音数据对应的源语种，进而在将所述源语音数据输入至语音识别中进行语音识别的同时进行语种识别。其中，当将所述源语音数据输入至N个语音识别器中语音识别时，每个语音识别器除了可以输出对应的语音识别结果外，还可以输出语种是该语音识别器对应语种的概率信息；然后可以将输出的概率信息最大语音识别器对应的语种，确定为所述源语音数据对应的语种。当将所述源语音数据输入至一个语音识别器中语音识别时，每个语音识别器除了可以输出对应的语音识别结果外，还可以输出所述源语音数据对应的语种。

本发明实施例中，由于目标转换模型输出的是声学特征，因此在采用目标转换模型将所述源语音数据对应的文本信息，转换为目标用户对应的声学特征后，可以采用合成器将所述声学特征合成目标语音数据。其中，上述步骤106中依据所述文本信息和所述目标用户对应的目标转换模型，将所述文本信息转换为目标用户采用源语种发音的目标语音数据，可以参照步骤408-步骤410。

步骤408、采用所述目标转换模型对所述文本信息进行转换，输出所述目标用户采用所述源语种发音的声学特征。

本发明实施例中，可以采用上述得到的目标转换模型进行语音转换，输出所述目标用户采用所述源语种发音的声学特征；可以参照如下子步骤：

子步骤S2、将所述文本信息、源语种对应的语种标识和目标用户对应的用户标识输入至所述目标转换模型中。

子步骤S4、所述目标转换模型查找与所述语种标识匹配和用户标识均匹配的目标模型参数。

子步骤S6、所述目标转换模型采用所述目标模型参数对所述文本信息进行转换，输出所述目标用户采用所述源语种发音的声学特征。

本发明实施例中，可以确定所述源语种对应的语种标识，以及所述目标用户对应的用户标识；然后将所述文本信息、源语种对应的语种标识和目标用户对应的用户标识输入至所述目标转换模型中。目标转换模型可以查找与所述源语种对应的语种标识和目标用户对应的用户标识，均匹配的目标模型参数；再采用所述目标模型参数对所述文本信息进行转换，输出所述目标用户采用所述源语种发音的声学特征。

步骤410、采用合成器对所述声学特征进行合成，得到所述目标用户采用所述源语种发音的目标语音数据。

作为本发明的一个示例，可参照图5a，示出了本发明的一种语音处理方法的过程示意图。其中，图5a是通过将所述源语音数据分别输入至N个语音识别器，得到对应的N个语音识别结果；再将所述N个语音识别结果进行拼接，实现识别所述源语音数据对应的文本信息的。

作为本发明的另一个示例，可参照图5b，示出了本发明的又一种语音处理方法的过程示意图。其中，图5b是通过将所述源语音数据输入至一个语音识别器，实现识别所述源语音数据对应的文本信息的。

本发明实施例的一个应用中，可以获取张三输入的源语音数据，并对张三输入的源语音数据进行语音识别，确定对应待转换的文本信息K。然后可以确定该待转换的文本信息K对应的语种为语种A，目标用户的李四。再采用所述目标转换模型对所述文本信息K进行转换，输出李四采用所述源语种对文本信息K发音的声学特征；然后采用合成器对李四的声学特征进行合成，得到李四采用语种A对文本信息K发音的目标语音数据。进而实现了将张三(源用户)采用语种A输入的语音数据，转换转为李四(目标用户)采用语种A针对通用发音的目标语音数据。

综上，本发明实施例中，可以获取源用户的源语音数据，并识别对所述源语音数据进行语音识别，确定对应待转换的文本信息；以及确定所述源语音数据对应的源语种和待转换的目标用户；然后采用所述目标转换模型对所述文本信息进行转换，输出所述目标用户采用所述源语种对所述文本信息进行发音的声学特征；再采用合成器对所述声学特征信息进行合成，得到所述目标用户采用所述源语种发音的目标语音数据；进而能够在只有目标用户单一语种的语音数据情况下，将多语种的源语音数据转为对应语种的目标用户的目标语音数据，实现多语种的语音转换。

其次，本发明实施例中，在识别所述源语音数据对应的文本信息的过程中，可以将所述源语音数据分别输入至N个语音识别器，得到对应的N个语音识别结果，其中，一个语音识别器对应一种语种；然后将所述N个语音识别结果进行拼接，得到对应的文本信息；或者可以将所述源语音数据输入至一个语音识别器，得到对应的语音识别结果，其中，所述语音识别器对应N种语种；再将所述语音识别结果确定为文本信息。进而能够提高确定的文本信息的准确性，从而进一步提高多语种转换的准确性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6，示出了本发明的一种语音处理装置实施例的结构框图，具体可以包括如下模块：

获取模块602，用于获取待转换的文本信息；

信息确定模块604，用于确定所述文本信息对应的源语种和待转换的目标用户；

语音转换模块606，用于依据所述文本信息和所述目标用户对应的目标转换模型，将所述文本信息转换为目标用户采用源语种发音的目标语音数据；其中，所述目标转换模型依据目标用户的单语种语音数据对训练后的通用转换模型进行自适应训练，所述通用转换模型依据包含N种语种的语音数据进行训练；所述源语种为所述N种语种中的一种，N为大于1的整数。

参照图7，示出了本发明的一种语音处理装置可选实施例的结构框图。

本发明一个可选的实施例中，所述获取模块602，包括：

语音获取子模块6022，用于获取源用户的源语音数据，其中，所述源用户与目标用户为相同用户或不同用户；

识别子模块6024，用于对所述源语音数据进行语音识别，确定对应待转换的文本信息。

本发明一个可选的实施例中，所述识别子模块6024，包括：

第一语音识别单元60242，用于将所述源语音数据分别输入至N个语音识别器，得到对应的N个语音识别结果，其中，一个语音识别器对应一种语种；将所述N个语音识别结果进行拼接，得到待转换的文本信息。

本发明一个可选的实施例中，所述识别子模块6024，包括：

第二语音识别单元60244，用于将所述源语音数据输入至一个语音识别器，得到对应的语音识别结果，其中，所述语音识别器对应N种语种；将所述语音识别结果确定为待转换的文本信息。

本发明一个可选的实施例中，所述语音转换模块606，包括：

特征生成子模块6062，用于采用所述目标转换模型对所述文本信息进行转换，输出所述目标用户采用所述源语种发音的声学特征；

语音合成子模块6064，用于采用合成器对所述声学特征进行合成，得到所述目标用户采用所述源语种发音的目标语音数据。

本发明一个可选的实施例中，所述特征生成子模块6062，用于将所述文本信息、源语种对应的语种标识和目标用户对应的用户标识，输入至所述目标转换模型中；所述目标转换模型查找与所述语种标识匹配和用户标识均匹配的目标模型参数；所述目标转换模型采用所述目标模型参数对所述文本信息进行转换，输出所述目标用户采用所述源语种发音的声学特征。

本发明一个可选的实施例中，还包括：

第一训练模块608，用于对所述通用转换模型进行训练；所述第一训练模块，具体用于收集M个用户的X条第一语音训练数据，其中，一条第一语音训练数据对应一种语种，X条第一语音训练数据对应N种语种；分别提取各条第一语音训练数据的参考声学特征，并分别为各条第一语音训练数据和对应的参考声学特征均标注对应的用户标识和语种标识；针对每一条第一语音训练数据，识别所述第一语音训练数据对应的文本信息；依据所述第一语音训练数据对应的文本信息、参考声学特征、用户标识和语种标识，对所述通用转换模型进行训练。

本发明一个可选的实施例中，还包括：

第二训练模块610，用于依据目标用户的单语种语音数据对训练后的通用转换模型进行自适应训练，生成目标转换模型；所述第二训练模块，具体用于获取所述目标用户的Y条第二语音训练数据，所述Y条第二语音训练数据对应的语种相同；分别提取各条第二语音训练数据的参考声学特征，并分别为各条第二语音训练数据和对应的参考声学特征均标注目标用户的用户标识和语种标识；针对每一条第二语音训练数据，识别所述第二语音训练数据对应的文本信息；依据所述第二训练语音数据对应的文本信息、参考声学特征、用户标识和语种标识，对训练后的通用转换模型进行自适应训练，得到目标转换模型。

综上，本发明实施例中，可以获取待转换的文本信息，并确定所述文本信息对应的源语种和待转换的目标用户；然后据所述文本信息和所述目标用户对应的目标转换模型，将所述文本信息转换为目标用户采用源语种发音的目标语音数据；其中，所述目标转换模型依据目标用户发音的单语种语音数据对训练后的通用转换模型进行自适应训练，所述通用转换模型依据包含N种语种的语音数据进行训练；所述源语种为所述N种语种中的一种，N为大于1的整数；进而能够在只有目标用户单一语种的语音数据情况下，将多语种的文本转为对应语种的目标用户的目标语音数据，实现多语种的语音转换。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图8是根据一示例性实施例示出的一种用于语音处理的电子设备800的结构框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为电子设备800的各种组件提供电力。电力组件806可以包括电源管理***，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件814经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件814还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种语音处理方法，所述方法包括：获取待转换的文本信息，以及确定所述文本信息对应的源语种和待转换的目标用户；依据所述文本信息和所述目标用户对应的目标转换模型，将所述文本信息转换为目标用户采用源语种发音的目标语音数据；其中，所述目标转换模型依据目标用户的单语种语音数据对训练后的通用转换模型进行自适应训练，所述通用转换模型依据包含N种语种的语音数据进行训练；所述源语种为所述N种语种中的一种，N为大于1的整数。

图9是本发明根据另一示例性实施例示出的一种用于语音处理的电子设备900的结构示意图。该电子设备900可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)922(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质930通信，在服务器上执行存储介质930中的一系列指令操作。

服务器还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，一个或一个以上键盘956，和/或，一个或一个以上操作***941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取待转换的文本信息，以及确定所述文本信息对应的源语种和待转换的目标用户；依据所述文本信息和所述目标用户对应的目标转换模型，将所述文本信息转换为目标用户采用源语种发音的目标语音数据；其中，所述目标转换模型依据目标用户的单语种语音数据对训练后的通用转换模型进行自适应训练，所述通用转换模型依据包含N种语种的语音数据进行训练；所述源语种为所述N种语种中的一种，N为大于1的整数。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音处理方法、一种语音处理装置和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音处理方法，其特征在于，包括：

获取待转换的文本信息，以及确定所述文本信息对应的源语种和待转换的目标用户；

依据所述文本信息和所述目标用户对应的目标转换模型，将所述文本信息转换为目标用户采用源语种发音的目标语音数据；

其中，所述目标转换模型依据目标用户的单语种语音数据对训练后的通用转换模型进行自适应训练，所述通用转换模型依据包含N种语种的语音数据进行训练；所述源语种为所述N种语种中的一种，N为大于1的整数。

2.根据权利要求1所述的方法，其特征在于，所述获取待转换的文本信息，包括：

获取源用户的源语音数据，其中，所述源用户与目标用户为相同用户或不同用户；

对所述源语音数据进行语音识别，确定对应待转换的文本信息。

3.根据权利要求2所述的方法，其特征在于，所述对所述源语音数据进行语音识别，确定对应待转换的文本信息，包括：

将所述源语音数据分别输入至N个语音识别器，得到对应的N个语音识别结果，其中，一个语音识别器对应一种语种；

将所述N个语音识别结果进行拼接，得到待转换的文本信息。

4.根据权利要求2所述的方法，其特征在于，所述对所述源语音数据进行语音识别，确定对应待转换的文本信息，包括：

将所述源语音数据输入至一个语音识别器，得到对应的语音识别结果，其中，所述语音识别器对应N种语种；

将所述语音识别结果确定为待转换的文本信息。

5.根据权利要求1所述的方法，其特征在于，所述依据所述文本信息和所述目标用户对应的目标转换模型，将所述文本信息转换为目标用户采用源语种发音的目标语音数据，包括：

采用所述目标转换模型对所述文本信息进行转换，输出所述目标用户采用所述源语种发音的声学特征；

采用合成器对所述声学特征进行合成，得到所述目标用户采用所述源语种发音的目标语音数据。

6.根据权利要求5所述的方法，其特征在于，所述采用所述目标转换模型对所述文本信息进行转换，输出所述目标用户采用所述源语种对所述文本信息进行发音的声学特征，包括：

将所述文本信息、源语种对应的语种标识和目标用户对应的用户标识，输入至所述目标转换模型中；

所述目标转换模型查找与所述语种标识匹配和用户标识均匹配的目标模型参数；

所述目标转换模型采用所述目标模型参数对所述文本信息进行转换，输出所述目标用户采用所述源语种发音的声学特征。

7.根据权利要求1所述的方法，其特征在于，还包括对所述通用转换模型进行训练的步骤：

收集M个用户的X条第一语音训练数据，其中，一条第一语音训练数据对应一种语种，X条第一语音训练数据对应N种语种；

分别提取各条第一语音训练数据的参考声学特征，并分别为各条第一语音训练数据和对应的参考声学特征均标注对应的用户标识和语种标识；

针对每一条第一语音训练数据，识别所述第一语音训练数据对应的文本信息；

依据所述第一语音训练数据对应的文本信息、参考声学特征、用户标识和语种标识，对所述通用转换模型进行训练。

8.一种语音处理装置，其特征在于，包括：

获取模块，用于获取待转换的文本信息；

信息确定模块，用于确定所述文本信息对应的源语种和待转换的目标用户；

语音转换模块，用于依据所述文本信息和所述目标用户对应的目标转换模型，将所述文本信息转换为目标用户采用源语种发音的目标语音数据；其中，所述目标转换模型依据目标用户的单语种语音数据对训练后的通用转换模型进行自适应训练，所述通用转换模型依据包含N种语种的语音数据进行训练；所述源语种为所述N种语种中的一种，N为大于1的整数。

9.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

10.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-7任一所述的语音处理方法。