CN115910083A

CN115910083A - 一种实时语音转换方法、装置、电子设备及介质

Info

Publication number: CN115910083A
Application number: CN202211329075.5A
Authority: CN
Inventors: 朱鹏程; 宁子谦; 薛鹤洋; 郭帅; 张晴; 毕梦霄; 吕唐杰; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2023-04-04

Abstract

本申请提供了一种实时语音转换方法、装置、电子设备及介质，方法包括以下步骤：从实时录制的源说话对象的语音数据中，截取出满足语音分段条件的第一语音数据；处理所述第一语音数据提取出第一语义信息；将第一语义信息输入到预先训练好的语音转换模型中，并通过所述语音转换模型对第一语义信息和第一语音数据之前历史语音数据的有效信息进行转换处理，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息；将目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据，从而实现低延迟的流式推理，实现低延迟、高性能的实时语音转化。

Description

一种实时语音转换方法、装置、电子设备及介质

技术领域

本申请涉及语音转换领域，具体而言，涉及一种实时语音转换方法、装置、电子设备及介质。

背景技术

语音转换(Voice Conversion)是一种保持语音内容不变的前提下，使说话人音色变为另一个人的技术。即在保持语音原始语义不变的基础上，改变其中的某些特征，具体包括说话人的音色、风格、口音等。

在现实生活中，语音转换技术已经有了众多实际的应用，如***、影视配音、语音助手、个性化转换以及帮助有发声障碍的残疾人恢复受损语音等，具有广阔的发展前景。然而，在实际应用中语音转换仍受到数据量、计算资源、实时率与转换效果等的限制。具体来说，现有技术方案以基于非平行语料的整段转换为主。传统的语音转换模型要求获取到全部输入语音后才能进行转换，无法满足实时应用中低延迟、高性能的实时性要求。

发明内容

有鉴于此，本申请的目的在于提供一种实时语音转换方法、装置、电子设备及介质，能够实现低延迟的流式推理，从而实现低延迟、高性能的实时语音转化。

本申请实施例提供的一种实时语音转换方法，包括以下步骤：

从实时录制的源说话对象的语音数据中，截取出满足语音分段条件的第一语音数据；

处理所述第一语音数据，提取出所述第一语音数据的第一语义信息；

将所述第一语义信息输入到预先训练好的语音转换模型中，并通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息；其中，所述有效信息为影响所述第一语义信息语音转换的信息；

将所述目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据。

在一些实施例中，还提供一种实时语音转换装置，所述装置包括：

截取模块，用于从实时录制的源说话对象的语音数据中，截取出满足语音分段条件的第一语音数据；

提取模块，用于处理所述第一语音数据，提取出所述第一语音数据的第一语义信息；

转换模块，用于将所述第一语义信息输入到预先训练好的语音转换模型中，并通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息；其中，所述有效信息为影响所述第一语义信息语音转换的信息；

重构模块，用于将所述目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据。

在一些实施例中，还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行所述的实时语音转换方法的步骤。

在一些实施例中，还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行所述的实时语音转换方法的步骤。

基于此，本申请实施例提供一种实时语音转换方法、装置、电子设备及介质，将实时录制的语音以分段的方式输入语音转换模型中，而非整段输入，从而降低实时应用中的延迟问题；然后识别出分段语音的第一语音信息，通过预先训练好的语音转换模型转换处理所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息，最后将所述目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据，历史语音数据的有效信息的使用，降低了语音分段对整段语音连续性的影响，使得语音转换模型能以连续、流式的方式进行推理，满足实时应用中的高性能要求。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所述实时语音转换方法的方法流程图；

图2示出了本申请实施例所述处理所述第一语音数据，提取出所述第一语音数据的第一语义信息的方法流程图；

图3示出了本申请实施例所述训练方法流程图；

图4示出了本申请实施例所述训练方法的训练阶段示意图；

图5示出了本申请实施例所述通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理的方法流程图；

图6示出了本申请实施例所述语音转换模型的结构示意图；

图7示出了本申请实施例所述通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息的方法流程图；

图8示出了本申请实施例所述通过语音转换模型的编码器根据所述目标语音因素向量和第一语义信息、第一语音数据之前历史语音数据的第二有效信息，生成对应第一语义信息和目标语音因素向量的目标语音向量特征的方法流程图；

图9示出了本申请实施例所述通过所述解码器处理所述目标语音向量特征、第一语音数据之前历史语音数据的第三有效信息，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息的方法流程图；

图10示出了本申请实施例所述实时语音转换装置的结构示意图；

图11示出了电子设备所述电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

语音作为语言的外部表达方式，是我们日常生活中最自然的沟通形式。语音不仅包含了语言的内容信息，同时也传递了说话人的音色、情感和风格等多维度信息。语音转换(Voice Conversion)是一种保持语音内容不变的前提下，使说话人音色变为另一个人的技术。即在保持语音原始语义不变的基础上，改变其中的某些特征，具体包括说话人的音色、风格、口音等。

随着深度学***。

在现实生活中，语音转换技术已经有了众多实际的应用，如***、影视配音、语音助手、个性化转换以及帮助有发声障碍的残疾人恢复受损语音等，具有广阔的发展前景。然而，在实际应用中语音转换仍受到数据量、计算资源、实时率与转换效果等的限制。本申请通过对模型实时推理与优化的改进，使语音转换模型具备流式推理能力，提高了模型推理效率，能够用于实时的通话变声与隐私保护等场景中。

现有的语音转换技术中，语音转换的流程主要分三步:特征分析提取、特征转换与语音合成。特征分析提取，是从源说话对象的语音数据中，提取出表征该语音数据特征的特征信息，例如该语音数据的梅尔谱等。所述特征转换即将该语音数据特征的特征信息转换为对应目标说话对象语音因素的特征信息，例如对应目标说话对象语音因素的梅尔谱。所述语音合成是将转换后的特征信息重新合称为声学上的音频特征。

根据训练数据的特点，语音转换可以分为基于平行语料数据的方法以及非平行语料方法。其中平行语料方法使用的数据中包含源说话人和目标说话人讲述相同语义内容的录音，与之相反的是，非平行数据中不包含内容相同、说话人不同的数据。从平行语料方法到非平行语料方法的改进解决了平行语料数据获取难度大、数据量少的问题。

基于平行语料的语音转换方法使用文本相同的同时包含源说话人与目标说话人的平行录音进行训练，其主要方法是使用动态时间调整(Dynamic Time Warping,DTW)对源与目标说话人的语音进行帧级对齐得到训练集，随后在此训练集的基础上训练一个语音转换模型，建模源说话人与目标说话人之间的特征映射关系。目前常用的方法包括传统的高斯混合模型(Gaussian Mixture Model,GMM)、矢量量化、实例化单元选择、非负矩阵分解、偏最小二乘回归等方法。在2014年注意力机制被提出后，其被广泛利用于图像、自然语言处理等领域中。2019年，谷歌提出了Parrotron模型，基于注意力机制对平行语料进行对齐。由于平行语料方法基本皆为一对一语音转换，实用性较低；并需要同时包含两个或以上说话人的平行数据，成本过高，目前使用较少。

非平行语音转换指的是不需要平行语料数据进行转换的方法。该方法有两种常见的思路，一是将非平行语料中的源说话人与目标说话人的音频进行音素级的对齐，将问题转化为平行语料的语音转换；二是使用只含目标说话人的音频数据。目前，非平行语音转换的主流方法包括使用语音识别特征的方法、VAE(Variational Auto-Encoder)、GAN(Generative Adversarial Network)等，各个方法等框架差异较大。其中使用较多的是基于语音识别中后验概率图谱(Phonetic PosteriorGrams，PPG)特征的方法，其核心思想为使用语音识别相关技术从音频中提取每个字、词与三音素集的后验概率。此后验概率为帧级，保留了源语音中的时长信息，同时一定程度上去除了说话人相关的信息，实现了音频语义内容与说话人音色等的解藕。语音转换模型学***行语料的语音转换相较于平行语料的方法，不需要难以获取的平行录音，可以广泛使用各类数据集，能够实现各种场景的转换需求。

传统的语音转换模型要求获取到全部输入语音后才能进行转换，无法满足实时应用中低延迟、高性能的要求。基于此，本申请实施例提供一种实时语音转换方法、装置、电子设备及介质，将实时录制的语音以分段的方式输入语音转换模型中，而非整段输入，从而降低实时应用中的延迟问题；然后识别出分段的第一语音数据的第一语义信息，通过预先训练好的语音转换模型转换处理所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息，最后将所述目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据，历史语音数据的有效信息的使用，降低了语音分段对整段语音连续性的影响，使得语音转换模型能以连续、流式的方式进行推理，满足实时应用中的高性能要求。

需要说明的是，本申请实施例提供的实时语音转换方法和虚拟形象驱动方法都可基于人工智能来实现。人工智能(Artificial Intelligence，AI)是一门综合学科，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能技术包括语音识别ASR(AutomaticSpeech Recognition)、语音转换VC(Voice Conversion)等方向。

本申请实施例提供的语音转换可以应用于处理设备上，该处理设备可以是终端设备，也可以是服务器。处理设备可以具有实施语音识别和语音转换的能力。在本申请实施例中，处理设备通过实施上述语音转换技术，可以将实时录制的语音以分段的方式输入语音转换模型中，实现识别出分段语音的第一语义信息、得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息、处理目标语音特征信息得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息、处理目标语音特征信息得到转换后的第二语音数据以用于播放等功能。

处理设备可以是终端设备，例如智能终端、计算机、个人数字助理(PersonalDigital Assistant，简称PDA)、平板电脑等。

处理设备还可以是服务器，例如独立服务器或集群服务器。当服务器实施该基于实时语音转换时，服务器识别出分段的第一语音数据的第一语音信息，通过预先训练好的语音转换模型转换处理所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息，最后将所述目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据，并且存储所述第二语音数据或者将所述第二语音数据发放至终端设备进行播放。

本申请实施例提供的实时语音转换方法可以应用到各种适用语音转换的应用场景，例如直播、实时通话、视频录制等，增加语音通话时的趣味性。在这些场景下，利用本申请实施例提供的方法可以将实时录制的源说话对象的语音数据高质量、低延迟的转换为目标说话对象的语音数据。

下面对本申请实施例提供的一种实时语音转换方法、装置、设备及介质进行详细介绍。

参照图1所示，图1示出了本申请实施例所述实时语音转换方法的方法流程图，所述实时语音转换方法包括以下步骤S101-S104；

S101、从实时录制的源说话对象的语音数据中，截取出满足语音分段条件的第一语音数据；

S102、处理所述第一语音数据，提取出所述第一语音数据的第一语义信息；

S103、将所述第一语义信息输入到预先训练好的语音转换模型中，并通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息；其中，所述有效信息为影响所述第一语义信息语音转换的信息；

S104、将所述目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据。

本申请实施例提供一种实时语音转换方法，将实时录制的语音以分段的方式输入语音转换模型中，而非整段输入，从而降低实时应用中的延迟问题；然后识别出分段的第一语音数据的第一语义信息，通过预先训练好的语音转换模型转换处理所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息，最后将所述目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据，历史语音数据的有效信息的使用，降低了语音分段对整段语音连续性的影响，语音转换模型能以连续、流式的方式进行推理，得到的转换后的分段的第二语音包数据能够连续、流畅、高质量的播放，满足实时应用中的高性能要求。

具体的，在所述步骤S101中，从实时录制的源说话对象的语音数据中，截取出满足语音分段条件的第一语音数据；所述满足语音分段条件的第一语音数据，至少包括以下之一：

实时录制时长达到预设分段时长的第一语音数据；

实时录制帧数达到预设帧数阈值的第一语音数据；

接收到预设分段指令时截取的第一语音数据；

录制完成时截取的第一语音数据。

所述步骤S101将实时录制的源说话对象的语音数据进行分段，具体的，语音分段条件可以为一个，或者多个；例如，语音分段条件可以为一种，或者多种。

示例性的，在截取实时录制的源说话对象的第一语音数据时，可以仅仅设置为当录制时长达到5s时，截取出一段5s长的第一语音数据。

或者，在一些实施例中，可以设置一组录制时长5s、8s、10；当录制时长达到5s时，截取出一段5s长的第一语音数据；重新开始计时，当录制时长达到8s时，截取出一段8s长的第一语音数据；重新开始计时，当录制时长达到10s时，截取出一段10s长的第一语音数据，依次循环。

或者，在一些实施例中，可以设置为：当录制时长达到5s时，截取出一段5s长的第一语音数据；当录制完成时，不管录制时长为多长，截取出从上一次截取时间点至录制结束时间点之间的第一语音数据。

或者，在一些实施例中，可以设置为：当录制帧数达到5帧时，截取出一段5帧的第一语音数据；当录制完成时，不管录制帧数为多少，截取出从上一次截取时间点至录制结束时间点之间的第一语音数据。

或者，在一些实施例中，可以通过用户的截取操作，生成一分段指令，并在在实时接收到预设分段指令时截取出第一语音数据。用户的截取操作可以为针对源说话对象的录制设备的截取操作，具体的，所述截取操作可以为点击、触摸、快捷键等。

在所述步骤S102中，处理所述第一语音数据，提取出所述第一语音数据的第一语义信息。

本申请实施例中，参照图2所示，处理所述第一语音数据，提取出所述第一语音数据的第一语义信息，包括以下步骤S201-S202；

S201、获取预先训练好的语音识别模型；

S202、将所述第一语音数据输入到所述语音识别模型中，并通过所述语音识别模型对所述第一语音数据进行音色解耦，并去除所述第一语音数据中的噪音，提取出第一语音数据的语义信息。

所述语音识别模型，用于识别出第一语音数据的语义信息。

本申请实施例中，所述语音识别模型，又称ASR(Automatic Speech Recognition)模型。

本申请实施例中，在语音识别模型的训练阶段，使用多说话人数据训练一个说话人无关语音识别模型(Speaker Independent Automatic Speech Recognition,SI-ASR)。

也就是说，本申请实施例所述语音识别模型基于非平行语料的语音转换方案，采用ASR模型提取语义信息。ASR模型的输出特征只包含语义信息，相当于源音频的语义和其他信息(包括说话人音色)进行了解藕，提高了转换结果的相似度。因此语音转换使用语音识别模型输出的语义识别结果作为其输入，不仅降低了对数据的要求，在转换效果上也有极大的提升。

需要理解的是，本申请实施例所述第一语义信息并非是文本信息，而是一种瓶颈特征，以向量的形式表征。因为本申请实施例所述语音转换方法最重要的是“实时”，需尽量简化步骤，以提高语音转换的实时性，降低延时，因此，在ASR部分，主要步骤就是从第一语音数据中提取Fbank特征，然后走语音识别模型推理，拿到倒数第二层的瓶颈特征，并不需要将第一语音数据转换为文本信息。

语音识别模型还能够去除所述第一语音数据中的噪音，示例性的，在语音识别模型的训练阶段，通过使用携带噪声的多说话人数据训练所述语音识别模型，使得所述语音识别模型具有去噪能力，从而能够去除所述第一语音数据中的噪音，提取出更加精确的第一语音数据的语义信息，提升转换效果。

在所述步骤S103中，将所述第一语义信息输入到预先训练好的语音转换模型中，并通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息；其中，所述有效信息为影响所述第一语义信息语音转换的信息。

本申请实施例中，参照图3，图3示出了本申请实施例的训练方法流程图；具体的，所述语音转换模型是通过步骤S301-S304训练的：

S301、获取预先训练好的语音识别模型；

S302、获取目标说话对象的第三语音数据，并提取出第三语音数据的目标语音特征信息；

S303、通过所述预先训练好的语音识别模型，提取出第三语音数据语义信息；

S304、将第三语音数据的语义信息和目标语音特征信息输入至预先建立的语音转换模型，并训练所述语音转换模型，直至所述语音转换模型满足训练完成条件。

这里，所述训练完成条件包括训练次数达到预设训练次数，语音转换模型的、语音转换模型的检测值达到预设检测值等。所述语音转换模型的检测值由损失函数确定。

当所述语音转换模型满足训练完成条件时，停止训练，得到训练好的语音转换模型。

本申请实施例中，所述目标语音特征信息为梅尔谱。

也就是说，参照图4，能够执行本申请实施所述语音转换方法的语音转换***需要分两个阶段训练：

第一个阶段：语音识别模型训练:该阶段使用多说话人数据训练一个说话人无关语音识别模型(Speaker Independent Automatic Speech Recognition,SI-ASR)。

第二个阶段：语音转换模型训练:使用第一个阶段中训练好的SI-ASR模型提取训练集中音频的BNFs(即音频的语义信息)，并提取对应的梅尔谱特征，训练语音转换模型学习BNFs与梅尔谱之间的关系。

参照图4，通过第一个阶段和第二个阶段，得到训练好的语音识别模型和训练好的语音转换模型后，进入转换阶段，在转换阶段，首先将需要转换的第一语音数据输入ASR型得到BNFs，再将BNFs输入语音转换模型获得梅尔谱，最终通过声码器重建音频，得到转换后的语音。

为了实现本申请实施例所述语音转换模型的流式推理，首先对于深度学习神经网络中常见结构的流式能力的分析如下:

线性层：线性层的推理过程比较简单，即为一个矩阵乘法加上一个可选的偏置。而输入的特征维度不变，时间维度虽然随输入数据的分段长度而变化，但并不会影响推理结果。也即将数据分段进行推理后拼接的结果与整段推理的结果不会有任何差距。因此模型中的线性层在本申请实施所述语音转换模型中不需要进行任何修改，即可实现流式推理。

卷积层：卷积层由于其padding与感受野的设置，对于流式影响较大。在常见的卷积层中，为了保证输入输出时间维度的相同，往往会在头尾加上相同长度的padding。流式推理时若仍保留此策略，则在两个连续截取出的第一语音数据之间相当于被额外***了一段空白，造成了数据不连续的问题。不连续的位置在频谱图上表现为出现亮线，在测听中则具体表现为不同的第一语音数据转化之后的第二语音数据音频拼接处出现卡顿。

同时，在整段合成中，所有数据都是可见的，而在流式推理时，未来的数据显然是无法获取的，因此必须采用因果卷积。

本申请实施例中，具体的策略即为在训练时将所有的padding全部置于数据的头部，而推理时只在第一段的头部加入padding，后续的分段全部不加入padding，而是加入所述第一语音数据之前历史语音数据的有效信息，如此即可达到流式和整段推理相同效果的目的。

转置卷积：转置卷积的特点类似，同样是将前后的padding全部移动到头部，但是因卷积的方法不同，在padding的计算上需要做出一些修改。

RNN：RNN自回归的结构使其天然适于流式推理，然而类似BGRU、Bi-LSTM等双向RNN需要一个从输入数据尾部到头部的反向推理的过程，也就是需要未来的信息来进行推理，显然是无法流式的，需要将其改为单向，仅仅通过历史语音数据的有效信息进行推理。

Transformer随着注意力机制的提出，Transformer被广泛应用于各类模型。为了实现流式推理，需要使用基于分段的attention，本质上是去限制attention的作用范围，需要通过attention mask来实现。不同于整段的attention，分段attention通过mask的方式，掩蔽了未来信息，只看当前分段内、当前分段与前一分段、或是所有历史分段。

基于此，本申请实施例中，请参照图5，图5示出了本申请实施例所述通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理的方法流程图，包括以下步骤S501-S502:

S501、获取所述语音转换模型转换处理所述第一语音数据前一段历史语音数据的第二语义信息，得到对应第二语义信息的和目标说话对象语音因素的目标语音特征信息时，每一卷积层输出的第一有效信息；其中，所述第二语义信息是从第一语音数据的前一段历史语音数据中提取的；

S502、将所述第一语义信息依次输入到所述语音转换模型的每一卷积层，并在每一卷积层的输入数据的头部添加该卷积层对应的第一有效信息，以通过语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理。

也就是说，本申请实施例中，所述历史语音数据，为第一语音数据的前一段历史语音数据，也即截取时间在第一语音数据之前，且最接近第一语音数据的一段历史语音数据。

这里，所述第二语义信息是从第一语音数据的前一段历史语音数据中提取的；所述第一语义信息是从第一语音数据中提取的。或者说，所述第二语义信息对应第一语音数据的前一段历史语音数据；所述第一语义信息对应第一语音数据。

这里，有效信息包括至少一种类型的有效信息，即第一有效信息。

需要理解的是，每一卷积层输出的第一有效信息，是该卷积层处理下一段第一语音数据的第一语义信息时需要的数据，并非是第一卷积层处理第一语音信息的处理结果。

示例性的，所述第一有效信息可以是每一卷积层的输入数据的预设帧数的尾部数据。

这里，需要说明的是，而推理时只在第一段第一语音数据，由于不存在前一段历史语音数据，因此，在第一段第一语音数据的第一语义信息依次输入到所述语音转换模型的每一卷积层，在每一卷积层输入数据的头部加入0，以保证卷积层的输入输出维度相同。

而本申请实施例中，在将所述第一语义信息依次输入到所述语音转换模型的每一卷积层，并在每一卷积层的输入数据的头部添加该卷积层对应的第一有效信息，从而通过添加历史语音数据的有效信息的方式，保证卷积层的输入输出维度相同，同时由于没有在两个第一语音数据分段之间相当于被额外***了一段空白，不会造成两段第一语音数据的数据不连续的问题，频谱图上不存在亮线，在测听中则具体表现为音频拼接处不出现卡顿。

在一些实施例中，所述语音转换模型仅仅能够将第一语音数据转换为特定说话对象的目标语音特征信息。

在一些实施例中，所述语音转换模型能够将第一语音数据转换为多个不同说话对象的目标语音特征信息；通过选择操作，所述语音转换模型确定一目标说话对象，并将所述第一语义信息转换为对应目标说话对象语音因素的目标语音特征信息。

具体的，将所述第一语义信息输入到预先训练好的语音转换模型中，并通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息，包括：

确定出目标说话对象的目标语音因素向量；

将所述第一语义信息、所述目标说话对象的目标语音因素向量输入到预先训练好的语音转换模型中，以使所述语音转换模型基于所述目标说话对象的目标语音因素向量对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息。

具体的，所述确定出目标说话对象的目标语音因素向量，包括：

获取目标说话对象的标识信息；

根据目标说话对象的标识信息，从预先训练好的语音转换模型的关联关系表中，确定出目标说话对象的目标语音因素向量；其中，所述关联关系表表征了说话对象和语音因素向量的关联关系。

通过输入目标说话对象的标识信息选择操作，所述语音转换模型确定一目标说话对象，增加了语音转化模型的灵活性，便于语音转化模型适用于多种场合，开发多种应用。

所述目标说话对象的标识信息，可以为目标说话对象的编号、ID、关键字、名称、属性等等。示例性的，例如多个说话对象分别为：歌神张学友(ID为001)、郭德纲(ID为002)、宋小宝(ID为003)、王菲(ID为004)。

输入001，则确定歌神张学友为目标说话对象；或者，输入学友，也可以确定歌神张学友为目标说话对象；或者，输入歌神，也可以确定歌神张学友为目标说话对象。

请参照图6，图6示出了所述语音转换模型的结构示意图；其中，CBHG作为模型的编码器，包括一个一维卷积滤波器组(ConvolutionBank)、公路网络(Highway network)与双向门控循环单元(GRU)构成，CBHG模块对于序列信息上具有很强的建模能力，适用于语音转换任务。

AR部分作为解码器(decoder)，包括Prenet、GRU、线性层和Postnet四个模块。在每次解码过程中，GRU过去的输出的隐状态信息经过Prenet与CBHG的结果拼接，拼接结果送入GRU，再经过线性层得到新的结果。

为实现流式推理，应将普通卷积全部替换为因果卷积，padding全部添加到输入数据的左侧，也即头部，不看任何未来信息。同时，语音模型除了生成推理结果，还应返回模型中每个卷积层的缓存以供下次推理使用。其中缓存截取当前层输入的最后N帧，N即为当前层的感受野大小。

同时，由于CBHG中使用的是双向GRU，必须将其改为单向，也就是说仅仅依靠历史语音数据进行推理，不依靠未来语音数据进行推理。这里，而为了尽量保证其效果，将RNN单元数提高到了两倍，即修改后的单向GRU与此前的双向GRU参数量保持不变。

在训练阶段，送入语音转换模型的数据不必进行任何改变，与普通模型的训练方式相同。在推理时，需要对第一个chunk进行padding，以保证输入输出长度的相同，并将模型返回的缓存进行保存。在对之后的chunk进行推理时将上一步产生的缓存与输入数据同时输入模型，以得到新的输出。在使用历史语音数据的有效信息的情况下，分段推理和整段推理结果基本完全一致，不同分段转换后的第二语音数据播放时能够连续，不存在卡顿。

为了减小流式模型相比于非流式模型的效果下降问题，采用查看未来信息的策略。由于语音转换模型中最后一层Postnet的作用为对生成的梅尔谱进行一些微调，提升梅尔谱的质量，可以考虑在这一层中看一些未来信息。因果卷积完全不依赖未来信息，其实现方式本质上就是在真实输入数据的左侧补足够多的0，保证有一帧输入即可产生一帧输出。在这里如果需要看n帧未来信息，则就将输入数据左侧的n个0移到右侧，也就是输入长度为n+1的输入数据才能生成一帧结果，从实际意义来看就是看了n帧的未来信息。在本申请实施例中，示例性的，n的取值为1。

基于上述分析，请参照图7，通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息；包括以下步骤S701-S704；

S701、获取目标说话对象的目标语音因素向量；

S702、通过语音转换模型的编码器处理所述目标语音因素向量和第一语义信息、第一语音数据之前历史语音数据的第二有效信息，生成对应第一语义信息和目标语音因素向量的目标语音向量特征；

S703、将目标语音向量特征输出至语音转换模型的解码器；

S704、通过所述解码器处理所述目标语音向量特征、第一语音数据之前历史语音数据的第三有效信息，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息。

这里，所述目标语音因素向量表征了目标说话对象的语音因素，也即表征了目标说话对象的语音特点，例如目标说话对象说话时的音色特点、语气特点。

所述第二有效信息，为语音转换模型的编码器处理历史语音数据过程时生成的隐状态信息；所述第三有效信息，为语音转换模型的解码器处理历史语音数据过程时生成的隐状态信息。

所述编码器和解码器的隐状态信息是其在过去的处理过程中输出的；用于实现推理语音转换模型的推理。例如，“我渴了，想喝水”这句话中，仅仅根据“想”，难以推理出“喝水”；但是如果结合“我渴了，想”，推理出“喝水”的概率即可大大增加。

基于此，将所述第一语义信息输入到预先训练好的语音转换模型中，并通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息时，所述有效信息包括多种类型的有效信息；本申请实施例中，具体包括第一有效信息、第二有效信息和第三有效信息；其中，第一有效信息是每一卷积层在处理前一段历史语音数据时输出的，用于作为padding添加在当前每一卷积层输入数据的头部，从而避免在每一卷积层输入数据的头部添加0，解决分段的实时语音转换后的卡顿问题；第二有效信息是语音转换模型的编码器在处理历史语音数据的隐状态信息；第三有效信息是语音转换模型的解码器在处理历史语音数据的隐状态信息，这里的历史语音数据不仅仅是前一个历史语音数据。语音转换模型是一种流式推理模型，第二有效信息用于提高编码器的推理结果的准确度，第三有效信息用于提高解码器的推理结果的准确度。

基于此，所述语音转换模型从多个方面，提高了实时语音转换的效果。

在一些实施例中，请参照图8，通过语音转换模型的编码器根据所述目标语音因素向量和第一语义信息、第一语音数据之前历史语音数据的第二有效信息，生成对应第一语义信息和目标语音因素向量的目标语音向量特征，包括以下步骤S801-S802；

S801、获取语音转换模型的编码器处理历史语音数据过程时生成的隐状态信息作为第二有效信息；

S802、通过语音转换模型的编码器处理所述目标语音因素向量、第二有效信息和第一语义信息，生成对应第一语义信息和目标语音因素向量的目标语音向量特征。

也就是说，历史语音数据除了在卷积层中发挥作用外，在进行推理时也发挥作用，使得编码器能够参考历史语音数据进行推理，从而使得推理结果更加准确，进而提高语音转换质量。

在一些实施例中，请参照图9，通过所述解码器处理所述目标语音向量特征、第一语音数据之前历史语音数据的第三有效信息，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息，包括以下步骤S901-S902；

S901、获取语音转换模型的解码器处理历史语音数据过程时生成的隐状态信息作为第三有效信息；

S902、通过所述语音转换模型的解码器处理所述目标语音向量特征、第三有效信息，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息。

也就是说，历史语音数据在进行推理时发挥作用，不仅仅单独通过编码器参考历史语音数据进行推理，还通过解码器参考历史语音数据进行推理，从而使得推理结果更加准确，进而提高语音转换质量。

因此，所述通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理，具体包括：

通过所述语音转换模型的卷积层、和/或编码器、和/或解码器对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理。

在一些实施例中，通过所述语音转换模型的解码器处理所述目标语音向量特征、第三有效信息，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息，包括：

通过所述语音转换模型的解码器处理所述目标语音向量特征、第三有效信息，得到对应第一语义信息和语音因素向量的第一语音特征信息；

在所述第一语音特征信息尾部添加预设数据帧的0，并将添加0后的第一语音特征信息输入解码器的输出卷积层，以通过所述解码器处理所述添加0后的第一语音特征信息，得到目标语音特征信息。

这里，通过在解码器处理所述目标语音向量特征时，在解码器的真实输入的左侧补0，采用查看未来信息的策略，减小流式模型相比于非流式模型的效果下降问题，进一步提高实时语音转换的质量。

在所述步骤S104中，将所述目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据，包括：

通过声码器将所述目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据。

也就是说，通过声码器将对应第一语义信息和目标说话对象语音因素的梅尔谱，合成为用声学特征表征的第二语音数据作为所述第一语音数据转换后的音频。

将所述目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据之后，所述语音转换方法还包括：

根据所述第二语音数据转换前的第一语音数据的截取时间，确定第二语音数据的播放顺序；

按照确定的所述播放顺序，播放所述第二语音数据。

也就是说，在实时录制的过程中依次截取的多个第一语音数据，转换后得到多个第二语音数据，所述多个第二语音数据按照转换前的第一语音数据的截取时间依次进行播放，从而实现整段转换、整段播放的效果。且由于前一段第一语音数据的有效信息参与了前一段第一语音数据的转换过程，解决了不同分段连续播放时的卡顿问题。

这里，对于多个第二语音数据，可以按照播放顺序存储在服务器中，并排列好的多个第二语音数据按照预设发送规则发送至终端设备进行播放；或者，转换得到第二语音数据后实时发送至终端设备，终端设备按照确定的所述播放顺序依次进行播放。

所述按照确定的所述播放顺序，播放所述第二语音数据，即，播放完前一个第二语音数据，立即播放后一个第二语音数据，以实现将实时录制的源说话对象的语音数据实时、不延迟的转换为目标说话对象的第二语音数据的效果。

基于本申请实施例所述的实时语音转换方法，可以在小于0.5的RTF下实现流式推理，并且转换效果下降不明显。

具体的，本申请的实验结果请参照表一。

表一

RTF	10700	m1
			VC	0.033	0.049

这里，RTF即Real Time Factor，实时率；所述VC保证本申请实施例所述语音转换方法，或者本申请实施例中的实时转换模型(包括语音识别模型和语音转换模型)；所述表格保证了本申请实施例所述语音转换方法在两种cpu(m1和i7-10700)上的实时率；分析表一，本申请实施例所述的实时语音转换方法，可以在小于0.5的RTF下实现流式推理，保证了语音转换的实时性。

基于同一发明构思，本申请实施例中还提供了与上述实施例中实时语音转换方法对应的实时语音转换装置，由于本申请实施例中的实时语音转换装置解决问题的原理与本申请上述实施例中的实时语音转换方法相似，因此，实时语音转换装置的实施可以参见前述实时语音转换方法的实施，重复之处不再赘述。

参照图10所示，图10示出了本申请实施例提供的实时语音转换装置的结构示意图；所述装置包括：

截取模块1001，用于从实时录制的源说话对象的语音数据中，截取出满足语音分段条件的第一语音数据；

提取模块1002，用于处理所述第一语音数据，提取出所述第一语音数据的第一语义信息；

转换模块1003，用于将所述第一语义信息输入到预先训练好的语音转换模型中，并通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息；其中，所述有效信息为影响所述第一语义信息语音转换的信息；

重构模块1004，用于将所述目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据。

本申请实施例提供一种实时语音转换装置，将实时录制的语音以分段的方式输入语音转换模型中，而非整段输入，从而降低实时应用中的延迟问题；然后通过预先训练好的语音转换模型转换处理所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息，最后将所述目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据，历史语音数据的有效信息的使用，降低了语音分段对整段语音连续性的影响，语音转换模型能以连续、流式的方式进行推理，得到的转换后的分段的第二语音包数据能够连续、流畅、高质量的播放，满足实时应用中的高性能要求。

在一些实施例中，所述实时语音转换装置，还包括：

确定模块，用于在将所述目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据之后，根据所述第二语音数据转换前的第一语音数据的截取时间，确定第二语音数据的播放顺序；

播放模块，用于按照确定的所述播放顺序，播放所述第二语音数据。

在一些实施例中，所述实时语音转换装置中，所述转换模块，在通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理时，具体用于：

获取所述语音转换模型转换处理所述第一语音数据前一段历史语音数据的第二语义信息，得到对应第二语义信息的和目标说话对象语音因素的目标语音特征信息时，每一卷积层输出的第一有效信息；其中，所述第二语义信息是从第一语音数据的前一段历史语音数据中提取的；

将所述第一语义信息依次输入到所述语音转换模型的每一卷积层，并在每一卷积层的输入数据的头部添加该卷积层对应的第一有效信息，以通过语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理。

在一些实施例中，所述实时语音转换装置中，所述历史语音数据，为第一语音数据的前一段历史语音数据。

在一些实施例中，所述实时语音转换装置中，所述转换模块，在将所述第一语义信息输入到预先训练好的语音转换模型中，并通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息时，具体用于：

确定出目标说话对象的目标语音因素向量；

在一些实施例中，所述实时语音转换装置中，所述转换模块，在确定出目标说话对象的目标语音因素向量时，具体用于：

获取目标说话对象的标识信息；

在一些实施例中，所述实时语音转换装置中，所述转换模块，在通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息时，具体用于：

获取目标说话对象的目标语音因素向量；

通过语音转换模型的编码器处理所述目标语音因素向量和第一语义信息、第一语音数据之前历史语音数据的第二有效信息，生成对应第一语义信息和目标语音因素向量的目标语音向量特征；

将目标语音向量特征输出至语音转换模型的解码器；

通过所述解码器处理所述目标语音向量特征、第一语音数据之前历史语音数据的第三有效信息，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息。

在一些实施例中，所述实时语音转换装置中，所述转换模块，在通过语音转换模型的编码器根据所述目标语音因素向量和第一语义信息、第一语音数据之前历史语音数据的第二有效信息，生成对应第一语义信息和目标语音因素向量的目标语音向量特征时，具体用于：

获取语音转换模型的编码器处理历史语音数据过程时生成的隐状态信息作为第二有效信息；

通过语音转换模型的编码器处理所述目标语音因素向量、第二有效信息和第一语义信息，生成对应第一语义信息和目标语音因素向量的目标语音向量特征。

在一些实施例中，所述实时语音转换装置中，所述转换模块，在通过所述解码器处理所述目标语音向量特征、第一语音数据之前历史语音数据的第三有效信息，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息时，具体用于：

获取语音转换模型的解码器处理历史语音数据过程时生成的隐状态信息作为第三有效信息；

通过所述语音转换模型的解码器处理所述目标语音向量特征、第三有效信息，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息。

在一些实施例中，所述实时语音转换装置中，所述转换模块，在通过所述语音转换模型的解码器处理所述目标语音向量特征、第三有效信息，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息时，具体用于：

在一些实施例中，所述实时语音转换装置中，所述满足语音分段条件的第一语音数据，至少包括以下之一：

实时录制时长达到预设分段时长的第一语音数据；

实时录制帧数达到预设帧数阈值的第一语音数据；

接收到预设分段指令时截取的第一语音数据；

录制完成时截取的第一语音数据。

在一些实施例中，所述实时语音转换装置中，所述提取模块，在处理所述第一语音数据，提取出所述第一语音数据的第一语义信息时，具体用于：

获取预先训练好的语音识别模型；

将所述第一语音数据输入到所述语音识别模型中，并通过所述语音识别模型对所述第一语音数据进行音色解耦，并去除所述第一语音数据中的噪音，提取出第一语音数据的语义信息。

在一些实施例中，所述实时语音转换装置中，还包括训练模块，用于获取预先训练好的语音识别模型；

获取目标说话对象的第三语音数据，并提取出第三语音数据的目标语音特征信息；

通过所述预先训练好的语音识别模型，提取出第三语音数据语义信息；

将第三语音数据的语义信息和目标语音特征信息输入至预先建立的语音转换模型，并训练所述语音转换模型，直至所述语音转换模型满足训练完成条件。

在一些实施例中，所述实时语音转换装置中的重构模块，在将所述目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据时，具体用于：

基于同一发明构思，本申请实施例中还提供了与上述实施例中实时语音转换方法对应的电子设备，由于本申请实施例中的电子设备解决问题的原理与本申请上述实施例中的实时语音转换方法相似，因此，电子设备的实施可以参见前述实时语音转换方法的实施，重复之处不再赘述。

参照图11所示，一种电子设备1100，包括：处理器1102、存储器1101和总线，所述存储器1101存储有所述处理器1102可执行的机器可读指令，当电子设备运行时，所述处理器1102与所述存储器1101之间通过总线通信，所述机器可读指令被所述处理器1102执行时执行以下实时语音转换方法的步骤，具体的：

在一些实施例中，所述机器可读指令被所述处理器执行时还执行以下实时语音转换方法的步骤：

在将所述目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据之后，根据所述第二语音数据转换前的第一语音数据的截取时间，确定第二语音数据的播放顺序；

按照确定的所述播放顺序，播放所述第二语音数据。

在一些实施例中，所述实时语音转换装置中，所述转换模块，在通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理时，所述处理器具体用于执行以下步骤：

在一些实施例中，所述历史语音数据，为第一语音数据的前一段历史语音数据。

在一些实施例中，在将所述第一语义信息输入到预先训练好的语音转换模型中，并通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息时，所述处理器具体用于执行以下步骤：

确定出目标说话对象的目标语音因素向量；

在一些实施例中，在确定出目标说话对象的目标语音因素向量时，所述处理器具体用于执行以下步骤：

获取目标说话对象的标识信息；

在一些实施例中，所述在通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息时，所述处理器具体用于执行以下步骤：

获取目标说话对象的目标语音因素向量；

将目标语音向量特征输出至语音转换模型的解码器；

在一些实施例中，在通过语音转换模型的编码器根据所述目标语音因素向量和第一语义信息、第一语音数据之前历史语音数据的第二有效信息，生成对应第一语义信息和目标语音因素向量的目标语音向量特征时，所述处理器具体用于执行以下步骤：

在一些实施例中，在通过所述解码器处理所述目标语音向量特征、第一语音数据之前历史语音数据的第三有效信息，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息时，所述处理器具体用于执行以下步骤：

在一些实施例中，在通过所述语音转换模型的解码器处理所述目标语音向量特征、第三有效信息，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息时，所述处理器具体用于执行以下步骤：

在一些实施例中，所述满足语音分段条件的第一语音数据，至少包括以下之一：

实时录制时长达到预设分段时长的第一语音数据；

实时录制帧数达到预设帧数阈值的第一语音数据；

接收到预设分段指令时截取的第一语音数据；

录制完成时截取的第一语音数据。

在一些实施例中，在处理所述第一语音数据，提取出所述第一语音数据的第一语义信息时，所述处理器具体用于执行以下步骤：

获取预先训练好的语音识别模型；

在将所述目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据时，具体用于：

基于同一发明构思，本申请实施例中还提供了与上述实施例中实时语音转换方法对应的存储介质，由于本申请实施例中的存储介质解决问题的原理与本申请上述实施例中的实时语音转换方法相似，因此，存储介质的实施可以参见前述实时语音转换方法的实施，重复之处不再赘述。

一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行，所述处理器执行以下步骤：

按照确定的所述播放顺序，播放所述第二语音数据。

确定出目标说话对象的目标语音因素向量；

获取目标说话对象的标识信息；

获取目标说话对象的目标语音因素向量；

将目标语音向量特征输出至语音转换模型的解码器；

实时录制时长达到预设分段时长的第一语音数据；

实时录制帧数达到预设帧数阈值的第一语音数据；

接收到预设分段指令时截取的第一语音数据；

录制完成时截取的第一语音数据。

获取预先训练好的语音识别模型；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，平台服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种实时语音转换方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的实时语音转换方法，其特征在于，将所述目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据之后，所述方法还包括：

按照确定的所述播放顺序，播放所述第二语音数据。

3.根据权利要求1所述的实时语音转换方法，其特征在于，通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理，包括：

4.根据权利要求1所述的实时语音转换方法，其特征在于：

所述历史语音数据，为第一语音数据的前一段历史语音数据。

5.根据权利要求1所述的实时语音转换方法，其特征在于，将所述第一语义信息输入到预先训练好的语音转换模型中，并通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息，包括：

确定出目标说话对象的目标语音因素向量；

6.根据权利要求5所述的方法，其特征在于，所述确定出目标说话对象的目标语音因素向量，包括：

获取目标说话对象的标识信息；

7.根据权利要求1所述的实时语音转换方法，其特征在于，通过所述语音转换模型对所述第一语义信息和所述第一语音数据之前历史语音数据的有效信息进行转换处理，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息；包括：

获取目标说话对象的目标语音因素向量；

将目标语音向量特征输出至语音转换模型的解码器；

8.根据权利要求7所述的实时语音转换方法，其特征在于，通过语音转换模型的编码器根据所述目标语音因素向量和第一语义信息、第一语音数据之前历史语音数据的第二有效信息，生成对应第一语义信息和目标语音因素向量的目标语音向量特征，包括：

9.根据权利要求7所述的实时语音转换方法，其特征在于，通过所述解码器处理所述目标语音向量特征、第一语音数据之前历史语音数据的第三有效信息，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息，包括：

10.根据权利要求9所述的实时语音转换方法，其特征在于，通过所述语音转换模型的解码器处理所述目标语音向量特征、第三有效信息，得到对应第一语义信息和目标说话对象语音因素的目标语音特征信息，包括：

11.根据权利要求1所述的实时语音转换方法，其特征在于，所述满足语音分段条件的第一语音数据，至少包括以下之一：

实时录制时长达到预设分段时长的第一语音数据；

实时录制帧数达到预设帧数阈值的第一语音数据；

接收到预设分段指令时截取的第一语音数据；

录制完成时截取的第一语音数据。

12.根据权利要求1所述的实时语音转换方法，其特征在于，处理所述第一语音数据，提取出所述第一语音数据的第一语义信息，包括：

获取预先训练好的语音识别模型；

13.根据权利要求1所述的实时语音转换方法，其特征在于，所述语音转换模型是通过以下方式训练的：

获取预先训练好的语音识别模型；

14.根据权利要求1所述的实时语音转换方法，其特征在于，将所述目标语音特征信息进行重构，得到所述第一语音数据转换后的第二语音数据，包括：

15.一种实时语音转换装置，其特征在于，包括：

16.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至14任意一项所述的实时语音转换方法的步骤。

17.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至14任意一项所述的实时语音转换方法的步骤。