CN113223513A

CN113223513A - 语音转换方法、装置、设备和存储介质

Info

Publication number: CN113223513A
Application number: CN202010080249.3A
Authority: CN
Inventors: 张颖; 雷鸣
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-02-05
Filing date: 2020-02-05
Publication date: 2021-08-06

Abstract

本发明实施例提供一种语音转换方法、装置、设备和存储介质，该方法包括：响应于用户触发的语音交互行为，获取与语音交互行为对应的第一语音信号和目标用户的标识信息；确定第一语音信号对应的音素序列；将音素序列和目标用户的标识信息输入到语音转换模型中，以通过语音转换模型获得目标用户与所述音素序列对应的声学特征；根据获得的声学特征，生成与目标用户对应的第二语音信号，以输出第二语音信号。在本方案中，基于上述具有学习某用户在某音素序列下对应的声学特征的能力的语音转换模型，可以高效地将某语音信号转换为具有目标用户的声学特征的语音信号，可以提高用户的互动体验。

Description

语音转换方法、装置、设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音转换方法、装置、设备和存储介质。

背景技术

随着人工智能技术的发展，各种支持语音交互的应用程序层出不穷，比如各种问答机器人、智能音箱，等等。

以问答机器人为例，响应于用户的问题语音，问答机器人可以向用户输出应答语音。目前，问答机器人输出的各种应答语音往往都是具有统一的声学特征的，互动性较差。

发明内容

本发明实施例提供一种语音转换方法、装置、设备和存储介质，可以实现高效地将某语音信号转换为具有特定用户的声学特征的语音信号。

第一方面，本发明实施例提供一种语音转换方法，该方法包括：

响应于用户触发的语音交互行为，获取与所述语音交互行为对应的第一语音信号和目标用户的标识信息；

确定所述第一语音信号对应的音素序列；

将所述音素序列和所述目标用户的标识信息输入到语音转换模型中，以通过所述语音转换模型获得所述目标用户与所述音素序列对应的声学特征；

根据所述声学特征，生成与所述目标用户对应的第二语音信号，以输出所述第二语音信号。

第二方面，本发明实施例提供一种语音转换装置，该装置包括：

第一获取模块，用于响应于用户触发的语音交互行为，获取与所述语音交互行为对应的第一语音信号和目标用户的标识信息；

确定模块，用于确定所述第一语音信号对应的音素序列；

第二获取模块，用于将所述音素序列和所述目标用户的标识信息输入到语音转换模型中，以通过所述语音转换模型获得所述目标用户与所述音素序列对应的声学特征；

生成模块，用于根据所述声学特征，生成与所述目标用户对应的第二语音信号，以输出所述第二语音信号。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现如第一方面所述的语音转换方法。

本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如第一方面所述的语音转换方法。

在本发明实施例中，假设针对某用户A来说，当前需要向该用户输出第一语音信号，但是如果该用户A触发了想要以目标用户B的声音为其输出该第一语音信号对应的内容的需求，那么为了满足该需求，需要先确定第一语音信号对应的音素序列，该音素序列是与说话人无关的，仅与说出的文本内容相关。进而，将该音素序列和目标用户B的标识信息输入到语音转换模型中，以通过语音转换模型获得目标用户B在该音素序列下对应的声学特征。其中，语音转换模型具有学习某用户发音若干音素的声学特征的能力。最后，通过语音合成的方式，根据得到的目标用户B在该音素序列下对应的声学特征生成与目标用户B对应的第二语音信号，该第二语音信号即为以目标用户B的声学特征说出第一语音信号中包含的文本内容的语音信号。由此可见，通过上述具有学习某用户在某音素序列下对应的声学特征的能力的语音转换模型，可以高效地将某语音信号转换为具有目标用户的声学特征的语音信号，可以提高用户的互动体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音转换方法的流程图；

图2为本发明实施例提供的一种语音转换模型的工作过程示意图；

图3为本发明实施例提供的一种语音转换方法的使用场景的示意图；

图4为本发明实施例提供的一种语音转换模型的训练流程示意图；

图5为本发明实施例提供的一种语音转换模型的训练原理示意图；

图6为本发明实施例提供的一种语音转换装置的结构示意图；

图7为与图6所示实施例提供的语音转换装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

本发明实施例提供的语音转换方法可以由一电子设备来执行，该电子设备可以是诸如PC机、笔记本电脑、智能手机、智能机器人等终端设备，也可以是服务器。该服务器可以是包含一独立主机的物理服务器，或者也可以为虚拟服务器，或者也可以为云服务器。

图1为本发明实施例提供的一种语音转换方法的流程图，如图1所示，该方法包括如下步骤：

101、响应于用户触发的语音交互行为，获取与该语音交互行为对应的第一语音信号和目标用户的标识信息。

102、确定第一语音信号对应的音素序列。

103、将第一语音信号对应的音素序列和目标用户的标识信息输入到语音转换模型中，以通过语音转换模型获得目标用户与所述音素序列对应的声学特征。

104、根据所述声学特征，生成与目标用户对应的第二语音信号，以输出第二语音信号。

本发明实施例提供的语音转换方法可以适用于任何需要向用户输出语音信号的场景中，比如用户使用智能机器人进行人机对话的场景中，再比如用户使用音乐APP收听歌曲的场景中，再比如用户与好友进行语音通话的场景中，等等。

概括来说，本发明实施例提供的语音转换方法的目的是：将原本以某种声音效果向某用户输出的对应于某文本内容的语音信号转换为以另一种声音效果向该用户输出。

实际应用中，上述步骤101中所述的用户触发的语音交互行为，可以理解为用户在使用支持语音交互功能的APP或智能设备的过程中向该APP或智能设备输入语音指令等行为。

举例来说，假设用户A向智能机器人说出“明天北京天气怎么样”的询问语句，并假设智能机器人当前需要向用户A输出“你好，明天北京天气晴朗”的第一语音信号。假设该第一语音信号原本以智能机器人被默认配置的声学特征来输出的，但是，如果用户A触发了想要以用户B的声学特征来与其进行语音交互的需求时，即以用户B说话的方式来输出该第一语音信号时，此时，需要将该第一语音信号转换为与用户B的声学特征相对应的第二语音信号。

基于此，可以理解的是，上述步骤中的第一语音信号可以理解为是当前需要为某用户(如用户A)输出的语音信号，第二语音信号是以目标用户(如用户B)的声学特征来说出第一语音信号对应的文本内容的语音信号。

实际应用中，以用户A在与智能机器人进行语音交互的场景为例，用户A可以向智能机器人输入上述目标用户，比如，智能机器人的相关界面上可以提供多个可选的用户，用户A从中选择自己所需的目标用户(如用户B)。

下面以目标用户为用户B为例，为实现将第一语音信号转换为具有用户B的声学特征的第二语音信号的目的，首先，从第一语音信号中提取出与说话人无关的声学后验概率信息，即确定第一语音信号对应的音素序列；进而，将该音素序列和用户B的标识信息输入到预先训练得到的语音转换模型中，以通过该语音转换模型获得用户B在该音素序列下对应的声学特征；最终，通过语音合成的方式，根据该声学特征生成上述第二语音信号，从而完成第一语音信号向第二语音信号的转换。

下面先对上述处理过程中涉及到的几个概念进行说明：

第一，第一语音信号对应的音素序列与说话人无关，而仅与说话内容有关。也就是说，假设第一语音信号对应的内容为：你好，那么可以认为，无论是哪个人说的对应于“你好”的语音信号，都能够得到同样的音素序列{n,i,h,a,o}。音素是最小的语音单位，一般来说，一个发音动作形成一个音素。如[ma]包含[m][a]两个发音动作，是两个音素。

第二，声学特征可以是反映人的语速、音色等声学特点的特征，比如可以是梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients，简称MFCC)、线性预测倒谱系数(Linear Predictive Cepstral Coefficient,简称LPCC)、短时平均能量、振幅平均变化率，等等。

第三，本发明实施例提供的语音转换模型是一个序列到序列的模型，负责学习音素序列到用户的声学特征之间的映射关系。基于对该语音转换模型的训练，可以使得该语音转换模型能够预测出某用户(如目标用户B)在某音素序列下对应的声学特征。

在本发明实施例中，可以通过如下方式确定第一语音信号对应的音素序列：

对第一语音信号进行分帧处理，以得到多帧语音信号；

提取该多帧语音信号各自对应的声学特征；

将该多帧语音信号各自对应的声学特征输入到声学模型中，以通过该声学模型预测出第一语音信号对应的音素序列。

该声学模型的训练得过程可以参考现有相关技术来实现，本文中不展开介绍，仅概述如下：收集大量的语音样本，针对每个语音样本来说，对该语音样本进行分帧处理，得到若干帧语音。对每帧语音进行音素标注，即标注每帧语音对应的音素。以该若干帧语音各自对应的音素作为监督信息对声学模型进行训练，从而使得声学模型具有预测输入的语音信号所对应的音素序列的能力。

当然，准确地标注每帧语音对应的音素是困难的，为此，提供了一种优化的训练声学模型的方案——以连续时间分类(Connectionist Temporal Classification，简称CTC)算法作为声学模型的损失函数来对声学模型进行训练。CTC算法的具体实现过程可以参考现有相关技术来实现，本文中不展开介绍。本文中仅示例性地说明在采用CTC算法的情况下，声学模型输出的音素序列的组成情况：假设一共有N个音素，以上述多帧语音信号中的任一帧语音信号i为例，声学模型会预测输出该帧语音信号i分别对应于这N个音素和空白占位符(由CTC算法引入)的概率值。针对多帧语音信号中的每帧语音信号都进行该预测，可以得到每帧语音信号对应的N+1个概率值。从而，由预测出的与每帧语音信号对应的概率值组成上述与第一语音信号对应的音素序列。这就意味着，与第一语音信号对应的音素序列中包括所述多帧语音信号分别对应于空白占位符的概率值。

基于此，针对所述多帧语音信号中的任一帧语音信号i，若该帧语音信号i对应于空白占位符的概率值大于设定阈值，则确定该帧语音信号i对应的音素预测结果为空白占位符，从而，在所述音素序列中删除该帧语音信号i对应的空白占位符。当然，若该帧语音信号i对应于空白占位符的概率值小于设定阈值，并且假设该帧语音信号i对应于某种音素(假设表示为音素s)的概率值最大，则确定该帧语音信号i的音素预测结果为音素s。

举例来说，假设对应于文本内容为你好的第一语音信号被分割成为15帧语音信号。通过上述音素序列的预测处理可以得到如下的音素序列：

{n,n,*,*,i,i,*,h,h,h,a,a,*，o,o}。其中，*表示空白占位符。

在得到上述音素序列后，一方面，将空白占位符删除，另一方面，也将相邻的同一种音素合并。从而，经过该删除和合并处理之后可以得到音素序列：{n,i,h,a,o,}，该音素序列作为语音转换模型的输入。

仍以目标用户为用户B为例，在得到与第一语音信号对应的音素序列后，将该用户B的标识信息和该音素序列作为输入，输入到语音转换模型中，以通过语音转换模型预测出用户B与该音素序列对应的声学特征。

下面结合图2示意语音转换模型的工作过程。

如图2所示，语音转换模型包括第一编码器、第二编码器和解码器。在预测用户B与该音素序列对应的声学特征的过程中，语音转换模型的工作过程如下：

假设与第一语音信号对应的音素序列表示为音素序列X，通过第一编码器对所述音素序列X进行编码，以得到与该音素序列对应的第一编码向量a；通过第二编码器确定与用户B的标识信息(图2中表示为用户B的Id)对应的第二编码向量b；拼接第一编码向量a与第二编码向量b，以得到编码向量c；通过解码器对拼接后的编码向量c进行解码，以得到用户B与该音素序列X对应的声学特征。

其中，可选地，第一编码器和解码器可以实现为诸如循环神经网络(RecurrentNeural Network，简称RNN)模型、长短时记忆网络(Long Short Term Memory，简称LSTM)模型等神经网络模型。

其中，用户B的标识信息可以是其姓名等身份信息。第二编码器可以采用one-hot等编码方式对用户B的标识信息进行编码得到第二编码向量。

值得说明的是，在对语音转换模型进行训练的时候，用户B需要被作为语音信号样本的采集者，也就是说，语音转换模型已经学习到了用户B发音若干音素的声学特征。语音转换模型的训练过程将在后续实施例中详细说明，这里仅概括描述：通过收集用户B说过的语音信号样本，以得到这些语音信号样本对应的音素序列(为区别，假设表示为音素序列Y)，语音转换模型学习用户B在这些音素序列下对应的声学特征。由于这些音素序列包含了若干音素，也就是语音转换模型可以学习到用户B发音不同音素所对应的声学特征。基于此，语音转换模型可以预测用户B在第一语音信号对应的音素序列(为区别，假设表示为音素序列X)下对应的声学特征。

可以理解的是，用户B与音素序列X对应的声学特征，其实反映了用户B来说第一语音信号对应的文本内容(如“你好”)的发音特点。

从而，在通过语音转换模型得到用户B与音素序列X对应的声学特征后，进而可以通过语音合成的方式，如采用某种声码器(vocoder)来根据用户B与音素序列X对应的声学特征生成与用户B对应的第二语音信号，即得到以用户B的声学特征发音“你好”的语音信号。从而，完成了将第一语音信号转换为以用户B的发音说出的第二语音信号的任务。

值得说明的是，以用户A在使用某APP的人机对话场景为例，假设用户A设置的目标用户为用户B，并且，假设该APP中已经预先存储有以用户B的声音输出各种文本内容的语音信号，而这些文本内容恰好是人机对话过程中，APP能够回复用户的文本内容(即可以认为是回复模板)。也就是说，在APP中可以预先存储有多个特定的用户分别说出多个文本内容的语音信号。基于此假设，当用户A说出某句咨询语句后，该APP在确定出需要应答的目标文本内容后，基于用户A对目标用户B的选择结果，该APP可以查询到用户B说出该目标文本内容的语音信号以输出。但是，当上述多个特定的用户中并没有满足当前的用户A的需求的目标用户时，此时，可以执行图1所示实施例提供的语音转换方案。

在上述本发明实施例提供的语音转换方案中，实现语音信号转换的目的的核心在于，训练出一个能够学习不同用户在不同音素序列下对应的声学特征的语音转换模型。该语音转换模型结构简单。基于该语音转换模型，可以高效地完成语音转换任务。

为便于理解，下面结合图3来示例性说明上述语音转换方法在实际应用中的执行过程。

图3为本发明实施例提供的一种语音转换方法的使用场景的示意图，在图3中，假设某用户A的手机中安装有支持语音交互功能的某种应用程序(APP)，如常见的语音助手应用。假设该用户A预先已经对该APP进行了如下配置操作：模拟用户B与本人进行语音交互。假设已经通过收集用户B的语音信号样本使得上述语音转换模型学习到了用户B发音若干音素的声学特征。

基于此，假设用户A当前对该APP说出了“请问明天北京天气怎么样”的语音信号，假设该APP当前需要回复的内容为：天气晴朗，温度二十度。若用户A未进行上述用户B的配置，则默认情形下，APP输出的与该回复内容对应的第一语音信号的波形假设为如图3中所示。但是，若用户A已经配置了想要APP模拟用户B来与其交互，则如图3中所示，APP会先将第一语音信号输入到声学模型中，以通过声学模型得到与该第一语音信号对应的音素序列T。假设构成该音素序列T的即为上述回复内容对应的拼音。进而，将音素序列T以及用户B的标识信息输入到语音转换模型中，以通过语音转换模型预测出用户B在该音素序列T下对应的声学特征，如LPCC。最终，将得到的声学特征输入到声码器中，以语音合成与该声学特征对应的第二语音信号，第二语音信号的波形如图3中所示，其与第一语音信号的波形不同，以反映这两个语音信号的声学特征是不同的。

当然，实际应用中，本文提供的语音转换方案不仅可以适用于图3所示的应用场景中，还可以适用于其他与用户进行语音交互的场景中，比如视频配音场景、直播场景，等等。

在视频配音场景中，以某一段视频片段为例，假设该视频片段中包含人物角色W，假设原本该人物角色W的台词都是以用户X的声音进行配音的，现在想要以用户Y的声音为该人物角色W配音。此时，以用户X的声音进行配音的原始语音信号即对应于前述实施例中的第一语音信号，目标用户为用户Y。基于上文提到的语音转换模型的训练过程，可以训练使得该语音转换模型学习到用户Y在各种音素序列下对应的声学特征，从而，基于该语音转换模型可以预测出用户Y在第一语音信号对应的音素序列下所对应的声学特征，从而，根据预测出的声学特征可以合成用户Y说出同样的台词的第二语音信号，实现用户Y的声音为人物角色W配音的效果。

在直播场景中，基于本发明实施例提供的语音转换方案，可以实现一个主播以多种不同的声音进行直播的效果。举例来说，假设某主播在直播间向广大观看者推荐多种商品，该主播想要以不同的声音推荐不同的商品，此时，该主播可以配置多个目标用户与多个商品的对应关系，即配置以哪个目标用户的声音推荐哪个商品。假设主播配置的结果是：以用户C的声音推荐商品S，以用户D的声音推荐商品T，以自己的声音推荐商品R。基于此，在实际的直播过程中，主播侧的音视频采集设备采集该主播直播这三个商品的音视频数据，并上传至服务端。服务端基于该主播的配置结果，可以从上传的音视频数据中截取出每个商品对应的音视频片段。其中，该主播推荐商品R的音视频片段可以认为是无更改地直接提供给观看者。其中，该主播推荐商品S和商品T的音频片段将被视为是前述实施例中的第一语音信号，通过对第一语音信号进行转换，以转换为由用户C的声音推荐商品S的第二语音信号，以及以用户D的声音推荐商品T的第二语音信号。转换的过程可以参见前述实施例中的说明，在此不赘述。

下面对上文提到的语音转换模型的训练过程进行说明。

图4为本发明实施例提供的一种语音转换模型的训练流程示意图，如图4所示，该训练过程可以包括如下步骤：

401、获取多个用户的标识信息和语音信号样本。

402、从多个用户对应的语音信号样本中获取目标用户的语音信号样本。

403、确定与目标用户的语音信号样本对应的音素序列和声学特征。

404、以与目标用户的语音信号样本对应的声学特征作为监督信息，将与目标用户的语音信号样本对应的音素序列和目标用户的标识信息输入到语音转换模型中，以训练语音转换模型。

本实施例中的上述目标用户是多个用户中的任一用户，同时，该目标用户与图1所示实施例中的目标用户相同。这就意味着，若希望能够以某目标用户(如用户B)的声学特征输出某语音信号，那么语音转换模型的训练样本中必然需要包括该用户的语音信号样本。

但是，值得说明的是，假设当前某用户A希望以用户B的声学特征与其进行语音交互，并且假设当前需要向用户A输出的语音信号所对应的文本内容为：你好。在语音转换模型训练阶段，并不要求收集的用户B的语音信号样本与该文本内容对应，即不需要一定收集到用户B说出“你好”的语音信号样本。

另外，实际应用中，为了保证对任一用户的声学特征进行充分地学习，可以收集多个该用户的语音信号样本，或者收集该用户说过的较长的一段话作为其语音信号样本，旨在让收集到的该用户的语音信号样本尽量多地包含各种音素。

为了便于更加直观地理解上述训练过程，结合图5来示例性说明上述训练过程的原理。

假设多个用户分别为用户1、用户2、用户3，在图5中，以上述目标用户为这三个用户中的任一用户(如用户1)为例，仅以该用户1的语音信号样本为例，示意对语音转换模型的训练过程。

如图5中所示，假设用户1的语音信号样本表示为语音M1，可以通过声学模型得到与该语音M1对应的音素序列K。假设用户1的标识信息为其姓名，表示为QWE。此时，将音素序列K以及用户1的标识信息QWE输入到语音转换模型中。语音转换模型可以由图5中示意的第一编码器、第二编码器和解码器组成。其中，音素序列K被输入到第一编码器，以通过第一编码器的编码处理得到编码向量C1。用户1的标识信息QWE被输入到第二编码器，以通过第二编码器的编码处理得到编码向量C2。进而，编码向量C1和编码向量C2拼接得到编码向量C3，编码向量C3输入到解码器中，以通过解码器的解码处理，得到用户1与音素序列K对应的声学特征V1。假设从语音M1中提取到的声学特征为V2，则在声学特征V2的监督下，基于声学特征V1与声学特征V2的差异情况，调整语音转换模型的参数，以降低声学特征V1与声学特征V2的差异。基于此，通过大量语音信号样本重复该训练过程，最终可以得到能够准确预测出语音信号样本对应的上述多个用户在任一输入的音素序列下所对应的声学特征的语音转换模型。

其中，基于图1所示实施例中的说明，可以理解的是，获得与语音M1对应的音素序列K和声学特征V2的过程可以实现为：对语音M1进行分帧处理，以得到多帧语音信号；提取多帧语音信号各自对应的声学特征(即对应于声学特征V2)；将多帧语音信号各自对应的声学特征输入到声学模型中，以通过声学模型预测出语音M1对应的音素序列K。详细的实施过程参见前述实施例中的说明，在此不赘述。

以下将详细描述本发明的一个或多个实施例的语音转换装置。本领域技术人员可以理解，这些语音转换装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图6为本发明实施例提供的一种语音转换装置的结构示意图，如图6所示，该装置包括：第一获取模块11、确定模块12、第二获取模块13、生成模块14。

第一获取模块11，用于响应于用户触发的语音交互行为，获取与所述语音交互行为对应的第一语音信号和目标用户的标识信息。

确定模块12，用于确定所述第一语音信号对应的音素序列。

第二获取模块13，用于将所述音素序列和所述目标用户的标识信息输入到语音转换模型中，以通过所述语音转换模型获得所述目标用户与所述音素序列对应的声学特征。

生成模块14，用于根据所述声学特征，生成与所述目标用户对应的第二语音信号，以输出所述第二语音信号。

可选地，所述确定模块12具体可以用于：对第一语音信号进行分帧处理，以得到多帧语音信号；提取所述多帧语音信号各自对应的声学特征；将所述多帧语音信号各自对应的声学特征输入到声学模型中，以通过所述声学模型预测出所述第一语音信号对应的音素序列。

可选地，所述声学模型的损失函数采用连续时间分类算法，所述音素序列中包括所述多帧语音信号分别对应于空白占位符的概率值。从而，所述确定模块12还用于：针对所述多帧语音信号中的任一帧语音信号，若所述任一帧语音信号对应于空白占位符的概率值大于设定阈值，则确定所述任一帧语音信号对应的音素预测结果为空白占位符；在所述音素序列中删除所述任一帧语音信号对应的空白占位符。

可选地，所述语音转换模型包括：第一编码器、第二编码器和解码器。从而，所述第二获取模块13具体可以用于：通过所述第一编码器对所述音素序列进行编码，以得到与所述音素序列对应的第一编码向量；通过所述第二编码器确定与所述目标用户的标识信息对应的第二编码向量；拼接所述第一编码向量与所述第二编码向量；通过所述解码器对拼接后的编码向量进行解码，以得到所述声学特征。

可选地，所述装置还包括：训练模块。

所述训练模块，用于获取与所述目标用户对应的语音信号样本；确定所述语音信号样本对应的音素序列和声学特征；以所述语音信号样本对应的声学特征作为监督信息，将所述语音信号样本对应的音素序列和所述目标用户的标识信息输入到语音转换模型中，以训练所述语音转换模型。

可选地，所述训练模块具体用于：获取多个用户对应的标识信息和语音信号样本，所述多个用户中包括所述目标用户，所述多个用户的语音信号样本用于训练所述语音转换模型；从所述多个用户对应的语音信号样本中获取所述目标用户对应的语音信号样本。

可选地，所述训练模块具体用于：对所述语音信号样本进行分帧处理，以得到多帧语音信号；提取所述多帧语音信号各自对应的声学特征；将所述多帧语音信号各自对应的声学特征输入到声学模型中，以通过所述声学模型预测出所述语音信号样本对应的音素序列，其中，所述多帧语音信号各自对应的声学特征作为所述监督信息。

图6所示装置可以执行前述图1至图5所示实施例中提供的语音转换方法，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

在一个可能的设计中，上述图6所示语音转换装置的结构可实现为一电子设备，如图7所示，该电子设备可以包括：处理器21、存储器22。其中，所述存储器22上存储有可执行代码，当所述可执行代码被所述处理器21执行时，使所述处理器21至少可以实现如前述图1至图5所示实施例中提供的语音转换方法。

可选地，该电子设备中还可以包括通信接口23，用于与其他设备进行通信。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如前述图1至图5所示实施例中提供的语音转换方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例提供的语音转换方法可以由某种程序/软件来执行，该程序/软件可以由网络侧提供，前述实施例中提及的电子设备可以将该程序/软件下载到本地的非易失性存储介质中，并在其需要执行前述语音转换方法时，通过CPU将该程序/软件读取到内存中，进而由CPU执行该程序/软件以实现前述实施例中所提供的语音转换方法，执行过程可以参见前述图1至图5中的示意。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音转换方法，其特征在于，包括：

确定所述第一语音信号对应的音素序列；

2.根据权利要求1所述的方法，其特征在于，所述确定所述第一语音信号对应的音素序列，包括：

对第一语音信号进行分帧处理，以得到多帧语音信号；

提取所述多帧语音信号各自对应的声学特征；

将所述多帧语音信号各自对应的声学特征输入到声学模型中，以通过所述声学模型预测出所述第一语音信号对应的音素序列。

3.根据权利要求2所述的方法，其特征在于，所述声学模型的损失函数采用连续时间分类算法，所述音素序列中包括所述多帧语音信号分别对应于空白占位符的概率值；

所述方法还包括：

针对所述多帧语音信号中的任一帧语音信号，若所述任一帧语音信号对应于空白占位符的概率值大于设定阈值，则确定所述任一帧语音信号对应的音素预测结果为空白占位符；

在所述音素序列中删除所述任一帧语音信号对应的空白占位符。

4.根据权利要求1所述的方法，其特征在于，所述语音转换模型包括：第一编码器、第二编码器和解码器；

所述通过所述语音转换模型获得所述目标用户与所述音素序列对应的声学特征，包括：

通过所述第一编码器对所述音素序列进行编码，以得到与所述音素序列对应的第一编码向量；

通过所述第二编码器确定与所述目标用户的标识信息对应的第二编码向量；

拼接所述第一编码向量与所述第二编码向量；

通过所述解码器对拼接后的编码向量进行解码，以得到所述声学特征。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取与所述目标用户对应的语音信号样本；

确定所述语音信号样本对应的音素序列和声学特征；

以所述语音信号样本对应的声学特征作为监督信息，将所述语音信号样本对应的音素序列和所述目标用户的标识信息输入到语音转换模型中，以训练所述语音转换模型。

6.根据权利要求5所述的方法，其特征在于，所述获取与所述目标用户对应的语音信号样本，包括：

获取多个用户对应的标识信息和语音信号样本，所述多个用户中包括所述目标用户，所述多个用户的语音信号样本用于训练所述语音转换模型；

从所述多个用户对应的语音信号样本中获取所述目标用户对应的语音信号样本。

7.根据权利要求5所述的方法，其特征在于，所述确定所述语音信号样本对应的音素序列和声学特征，包括：

对所述语音信号样本进行分帧处理，以得到多帧语音信号；

提取所述多帧语音信号各自对应的声学特征；

将所述多帧语音信号各自对应的声学特征输入到声学模型中，以通过所述声学模型预测出所述语音信号样本对应的音素序列，其中，所述多帧语音信号各自对应的声学特征作为所述监督信息。

8.一种语音转换装置，其特征在于，包括：

确定模块，用于确定所述第一语音信号对应的音素序列；

9.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至7中任一项所述的语音转换方法。

10.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至7中任一项所述的语音转换方法。