CN114299989A

CN114299989A - 一种语音过滤方法、装置、电子设备及存储介质

Info

Publication number: CN114299989A
Application number: CN202111665116.3A
Authority: CN
Inventors: 甘文东; 文博龙; 闫影; 陈海涛; 郭凯旋; 李海; 黄心驰
Original assignee: Chengdu iQIYI Intelligent Innovation Technology Co Ltd
Current assignee: Chengdu iQIYI Intelligent Innovation Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-08

Abstract

本申请涉及一种语音过滤方法、装置、电子设备及存储介质，该方法包括：根据语音对齐序列对目标语音的韵律向量执行对齐操作，以得到多组对齐向量，所述语音对齐序列为对所述目标语音进行音素划分得到的序列；获取每组所述对齐向量的隐藏状态，并对所述隐藏状态进行降采样得到降采样向量；对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量，所述过滤韵律向量用于对所述目标语音进行语音转换。引入语音对齐序列对韵律向量进行对齐，同时，使用携带多个向量的隐藏信息进行重建，以得到对过滤韵律向量，克服了随机向量进行重建的选择的不足，在对目标语音的韵律向量进行过滤的同时，保留了足够的韵律信息。

Description

一种语音过滤方法、装置、电子设备及存储介质

技术领域

本申请涉及语音转换技术领域，尤其涉及一种语音过滤方法、装置、电子设备及存储介质。

背景技术

随着深度学习技术的不断发展，基于神经网络的语音转换(Voice Conversion，VC)技术也愈加成熟。语音转换是指通过改变与源说话人个性特征有关的声学特征参数,使之听起来像是目标说话人的语音,而其中的语义是不发生变化的，但是，目前语音转换技术存在一个重要缺陷，无法对原语音的表现力的进行保留，但是表现力在语音转换技术中又是特别重要的。相关技术中，在语音转换技术中通过直接将原始语音的梅尔谱作为韵律模块，用于提升模型的表现力，相关技术存在一个较大的缺陷，从原始语音提取的韵律向量中包含了冗余信息，例如，噪音信息、内容信息和说话人信息，导致根据该韵律向量进行语音转换时，影响语音转换的效果。

发明内容

本申请提供了一种语音过滤方法、装置、电子设备及存储介质，以解决相关技术中，韵律向量中含有冗余信息，导致在进行语音转换时，语音转换效果差的问题。

第一方面，本申请提供了一种语音过滤方法，所述韵律参数获取方法，包括：根据语音对齐序列对目标语音的韵律向量执行对齐操作，以得到多组对齐向量，所述语音对齐序列为对所述目标语音进行音素划分得到的序列；获取每组所述对齐向量的状态向量，并对所述状态向量进行降采样得到降采样向量；对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量，所述过滤韵律向量用于对所述目标语音进行语音转换。

可选的，所述根据语音对齐序列对目标语音的韵律向量执行对齐操作，以得到多组对齐向量，包括：获取所述语音对齐序列中划分的音素划分值；根据所述音素划分值对所述韵律向量进行划分，以得到多组所述对齐向量。

可选的，所述获取所述语音对齐序列中划分的音素划分值之前，所述方法还包括：将所述目标语音输入到预训练音素获取模型中，所述预训练音素获取模型通过语音训练集进行训练得到，所述语音训练集中包含了对语音进行标注的音素，所述预训练音素获取模型用于获取所述目标语音的音素；获取所述预训练音素获取模型输出的音素；根据所述预训练音素获取模型输出的音素、所述目标语音，对所述预训练音素获取模型输出的音素进行划分，以得到所述语音对齐序列，所述语音对齐序列中包括对所述音素进行划分得到的所述音素划分值。

可选的，所述获取每组所述对齐向量的状态向量，包括：将多组所述对齐向量依次输入用于获取隐藏状态的门控循环单元模型中，以依次获取多组所述对齐向量中各个向量对应的所述隐藏状态，并将所述隐藏状态作为所述状态向量，所述对齐向量中后一向量对应的隐藏状态包括前一向量的信息。

可选的，所述对所述状态向量进行降采样得到降采样向量，包括：获取每组所述对齐向量中尾部向量对应的所述状态向量；将获取的所述状态向量作为所述降采样向量，所述降采样向量用于重建得到所述过滤韵律向量。

可选的，所述对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量，包括：获取所述降采样向量对应的对齐向量中包含的向量数；根据所述向量数对所述降采样向量进行复制，以得到与所述韵律向量长度一致的过滤韵律向量。

可选的，所述对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量之后，所述方法还包括：根据所述过滤韵律向量、所述目标语音对应的目标音色以及所述目标语音对应的内容向量，生成梅尔普特征；将所述梅尔普特征输入声学模型中，以使得所述声学模型根据所述梅尔普特征生成语音，以将所述目标语音的音色转换为所述目标音色。

第二方面，本申请提供了一种语音过滤装置，所述语音过滤装置，包括：对齐模块，所述对齐模块用于根据语音对齐序列对目标语音的韵律向量执行对齐操作，以得到多组对齐向量，所述语音对齐序列为对所述目标语音进行音素划分得到的序列；采样模块，所述采样模块用于获取每组所述对齐向量的状态向量，并对所述状态向量进行降采样得到降采样向量；重建模块，所述重建模块用于对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量。

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例所述的语音过滤方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的语音过滤方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，包括：根据语音对齐序列对目标语音的韵律向量执行对齐操作，以得到多组对齐向量，所述语音对齐序列为对所述目标语音进行音素划分得到的序列；获取每组所述对齐向量的状态向量，并对所述状态向量进行降采样得到降采样向量；对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量，所述过滤韵律向量用于对所述目标语音进行语音转换。其中，引入语音对齐序列对韵律向量进行对齐，使得后续可以按照音素对目标语音的韵律向量进行过滤，同时，在对状态向量进行上采样重建得到过滤韵律向量时，得到了多个向量的信息，克服了随机向量进行重建的选择的不足，在对目标语音的韵律向量进行过滤的同时，保留了足够的韵律信息，进而在后续进行语音转换时提升了语音转换的效果，通过对韵律向量进行过滤，进而解决了相关技术中，韵律向量携带噪音，导致语音转换效果差的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音过滤方法的流程示意图；

图2为本申请实施例提供的一种根据韵律向量得到对齐向量的基本示意图；

图3为本申请实施例提供的一种根据对齐向量得到状态向量的基本示意图；

图4为本申请实施例提供的一种根据隐藏状态得到上采样向量的基本示意图；

图5为本申请实施例提供的一种根据上采样向量得到过滤韵律向量的基本示意图；

图6为本申请实施例提供的一种语音转换***的基本框架示意图；

图7为本申请实施例提供的一种语音过滤方法的基本示意图；

图8为本申请实施例提供的一种对韵律向量进行过滤得到过滤韵律向量的基本示意图；

图9为本申请实施例提供的一种语音过滤装置的基本结构示意图；

图10为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种语音过滤方法的流程示意图，如图1所示，所述语音过滤方法，包括：

S101、根据语音对齐序列对目标语音的韵律向量执行对齐操作，以得到多组对齐向量；

应当理解的是，其中，所述语音对齐序列为对所述目标语音进行音素划分得到的序列；音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素，所述韵律向量用于表征所述目标语音的韵律特征，例如，声调、语调、重音、节奏等。

S102、获取每组所述对齐向量的状态向量，并对所述状态向量进行降采样得到降采样向量；

应当理解的是，其中状态向量的维度与所述对齐向量的维度一致，且状态向量的向量长度与韵律向量的长度一致，具体的，所述状态向量在时间轴上包含的时间信息与所述韵律向量在时间轴上包含的时间信息一致。

S103、对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量，所述过滤韵律向量用于对所述目标语音进行语音转换。

可以理解的是，本实施例提供的语音过滤方法可以应用在终端和/或服务器，也即，该语音过滤方法中的各个步骤可以是由终端或是服务器单独执行，也可以是由终端和服务器组合完成；其中，终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(Personal DigitalAssistant，PDA)、便捷式媒体播放器(Portable Media Player，PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端，以及诸如数字TV、台式计算机等固定终端。后续描述中将以移动终端为例进行说明。

应当理解的是，上述目标语音也即原始语音，在需要对原始语音进行语音转换时，该原始语音即作为了目标语音；应当理解的是，根据语音对齐序列对目标语音的韵律向量执行对齐操作，以得到多组对齐向量之前，语音过滤方法还包括：获取目标语音；具体的，可以从视频文件中或音频文件获取到完整的音频、或是某一段音频后，通过端点检测技术(VAD)对获取的音频进行分句，得到各个分句音频，将分句音频作为所述目标语音；其中视频文件或音频文件可以是存储在服务器的文件，也可以是终端本地的文件。

应当理解的是，其中，对降采样向量进行重建得到的过滤韵律向量的数量，与目标语音的韵律向量数量一致，也即，若目标语音的韵律向量的数量为N，则重建后的过滤向量的数量也为N,后面会对此进行详细说明，在此不再赘述。

应当理解的是，将所述目标语音输入到预训练音素获取模型中，所述预训练音素获取模型通过语音训练集进行训练得到，所述语音训练集中包含了对语音进行标注的音素，所述预训练音素获取模型用于获取所述目标语音的音素；获取所述预训练音素获取模型输出的音素；根据所述预训练音素获取模型输出的音素、所述目标语音，对所述预训练音素获取模型输出的音素进行划分，以得到所述语音对齐序列，所述语音对齐序列中包括对所述音素进行划分得到的所述音素划分值；其中，首先通过预训练音素获取模型获取目标语音的音素，然后将该音素以及目标语音输入到该预训练音素获取模型中，以使得该预训练音素获取模型将输入的音素与目标语音的各帧进行对应，然后将该预训练音素获取模型输出的对应的结果作为该音素划分值，如，该目标语音的第一个音素对应两帧，第二个音素对应一帧，则此时，输出的则为音素划分值为2、1。

具体的，首先，对所述目标语音进行音素识别，以获取所述目标语音的音素，应当理解的是，对目标语音进行音素识别，以获取目标语音音素的预训练音素获取模型本实施例并不做限制，例如，可以预训练音素获取模型可以为隐马尔可夫模型(Hidden MarkovModel，HMM)，能够通过该预训练音素获取模型来对目标语音进行音素识别，进而获取该目标语的音素即可。然后根据所述预训练音素获取模型输出的音素、所述目标语音，对所述预训练音素获取模型输出的音素进行划分，以得到所述语音对齐序列。可以理解的是，其中语音对齐序列为一个数组，语音对齐序列中各个数即代表音素划分值，该音素划分值用于表征对音素进行分组，例如，语音对齐序列为[2、1、3]，也即，音素划分值为2、1、3时，即表明当前存在三个音素，第一个音素对应两个韵律向量、第二个音素对应一个韵律向量、第三个音素对应三个韵律向量。

在本实施例的一些示例中，所述根据语音对齐序列对目标语音的韵律向量执行对齐操作，以得到多组对齐向量，包括：获取所述语音对齐序列中划分的音素划分值；根据所述音素划分值对所述韵律向量进行划分，以得到多组对齐向量；其中，音素划分值的总数与韵律向量的总数对应，根据该音素划分值对韵律向量进行划分，以将韵律向量与音素进行对齐操作，例如，语音对齐序列中的音素划分值分别为[2、1、3]，则韵律向量的数量也为6，且需要根据2、1、3对该韵律向量进行划分，进而使得划分后的韵律向量的分组为两个向量一组、一个向量一组、三个向量一组，实现与音素进行对齐；在一些示例中，可以通过韵律提取模型来获取所述目标语音的韵律向量，应当理解的是，本实施例并不限制获取韵律向量的方式，可以由相关人员灵活选择获取韵律向量的方式，例如，通过Hi lbert-Huang模型获取目标语音的韵律向量；应当理解的是，目标语音的音素至少对应一个韵律向量，例如，一个音素，持续500ms，韵律向量是每10ms有一个值，所以这个音素对应有50个韵律向量。

承接上例，在一些实力中，获取该语音对齐序列中划分的音素划分值，也即，获取目标语音中音素的分组，然后根据音素的分组对目标语音的韵律向量进行划分，以得到多组对齐向量；具体的，例如，如图2所示，其中HH、UW2、AA2分别为从目标语音中沿着时间轴(Along Time Axis)获取的因素，且此时获取的语音对齐序列为[2、1、3]，则按照2、1、3对目标语音的韵律向量进行划分，将第1个、第2个韵律向量划分为一组，将第3个韵律向量作为一组，将后3个韵律向量作为一组，进而将韵律向量划分为多组向量，得到多组对齐向量。

在本实施例的一些示例中，所述获取每组所述对齐向量的状态向量，包括：将多组所述对齐向量依次输入用于获取隐藏状态的门控循环单元模型(gated recurrent unit,GRU)中，以依次获取多组所述对齐向量中各个向量对应的所述隐藏状态，并将获取的隐藏状态作为状态向量，所述对齐向量中后一向量对应的隐藏状态包括前一向量的信息；其中，隐藏状态的向量长度和对齐向量的向量长度一致。应当理解的是，GRU是循环神经网络(Recurrent Neural Network,RNN)的一种，用于解决长期记忆和反向传播中的梯度等问题，且GRU的输入输出结构与普通的RNN是一样的，GRU能够获取帧级别的相应的隐藏状态，通过GRU模型获取对齐向量的隐藏状态，进而使得同一组对齐向量内，后一个向量的隐藏状态包括了前一个向量对应的隐藏状态的信息。其中，通过将多组对齐向量依次输入GRU中后，然后获取多组对齐向量中各个向量的隐藏状态，同时，基于GRU模型的特性，对齐向量中后一个向量的状态向量包括了前一个向量的信息；例如，如图3所示，当包括三组对齐向量，第一组对齐向量的包括向量1、2，第二组对齐包括向量3，第三组对齐向量包括4、5、6向量时，通过将上述多组向量依次输入GRU模型，获得向量1-6对应的状态向量h1-h6，通过GRU模型对对齐向量进行处理，对对齐向量进行了一次过滤，应当理解的是，基于GRU的原理，向量2对应的状态向量h2里面包括了向量1对应的状态向量h2与向量2的信息，向量6对应的状态向量h6里面包括了向量4、向量5对应的状态向量h4、5以及向量6的信息，进而对根据目标语音获得的韵律向量进行了一次过滤，减少了目标语音的韵律向量中携带的噪音。

在本实施例的一些示例中，所述对所述状态向量进行降采样得到降采样向量，包括：获取每组所述对齐向量中尾部向量对应的所述状态向量；将获取的所述隐藏向量作为所述降采样向量，所述降采样向量用于重建得到所述过滤韵律向量，进而对韵律向量进行进一步的过滤，去除所述韵律向量中携带的内容信息和说话人信息。具体的，例如，如图4所示，第一组对齐向量的包括向量1、2，第一组对齐向量的尾部向量为向量2，第二组对齐包括向量3，第二组对齐向量的尾部向量为向量3，第三组对齐向量包括4、5、6向量，第三组对齐向量的尾部向量为向量6，此时，则将向量2对应的状态向量h2，作为第一组对齐向量对应的降采样向量，则将向量3对应的状态向量h3，作为第二组对齐向量对应的降采样向量，同理，将向量6对应的状态向量h6，作为第三组对齐向量对应的降采样向量h6，由于状态向量中通过上述方式获取对齐向量的状态向量，然后对状态向量进行进一步的过滤，进而达到了对对齐向量进行过滤的作用，应当理解的是，基于GRU的原理，状态向量h2里面包括了状态向量h1、h2的信息，状态向量h6里面包括了状态向量h4、h5、h6的信息。

在本实施例的一些示例中，所述对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量，包括：获取所述降采样向量对应的对齐向量中包含的向量数；根据所述向量数对所述降采样向量进行复制，以得到与所述韵律向量长度一致的过滤韵律向量。具体的，例如，如图5所示，HH音素的降采样向量对应的对齐向量为第一组对齐向量，第一组对其向量中包含了向量1与向量2，因此，此时将该降采样向量复制两个，以得到两个过滤韵律向量，UW2音素的降采样向量对应的对其向量为第二组对齐向量，第二组对齐向量中包含了向量3，因此，此时将该降采样向量复制一个，以得到一个过滤韵律向量，AA2音素的降采样向量对应的对齐向量为第三组对齐向量，第三组对齐向量中包含了向量4、5、6，因此，此时将该降采样向量复制三个，以得到三个过滤韵律向量，且复制的各个过滤韵律向量的向量长度与目标语音的韵律向量的长度一致，进而得到与目标语音的韵律向量对应的过滤韵律向量。

在本实施例的一些示例中，所述对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量之后，所述方法还包括：根据所述过滤韵律向量、所述目标语音对应的目标音色以及所述目标语音对应的内容向量，生成梅尔普特征；将所述梅尔普特征输入声学模型中，以使得所述声学模型根据所述梅尔普特征生成语音，以将所述目标语音的音色转换为所述目标音色。具体的，上述声学模型对梅尔谱特征进行解析，以得到其中包含的韵律信息、音色信息、内容信息，并根据上述解析出的信息生成语音，生成的语音则为目标音色的语音，进而将所述目标语音的音色转换为所述目标音色；应当理解的是，其中，目标语音对应的内容向量为通过语音识别模型对目标语音进行处理，得到内容特征，然后通过内容编码模块对该内容特征进行编码，得到内容向量，其中预设音色为需要将目标语音转换而成的目标音色，其中，目标音色为通过确认目标语音的发音人的人物身份，根据该人物身份确定目标语音对应的音色，得到目标音色。

本实施例提供的语音过滤方法，包括：根据语音对齐序列对目标语音的韵律向量执行对齐操作，以得到多组对齐向量，所述语音对齐序列为对所述目标语音进行音素划分得到的序列；获取每组所述对齐向量的状态向量，并对所述状态向量进行降采样得到降采样向量；对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量，所述过滤韵律向量用于对所述目标语音进行语音转换。其中，引入语音对齐序列对韵律向量进行对齐，使得后续可以按照音素对目标语音的韵律向量进行过滤，同时，在对状态向量进行上采样重建得到过滤韵律向量时，得到了多个向量的信息，克服了随机向量进行重建的选择的不足，在对目标语音的韵律向量进行过滤的同时，保留了足够的韵律信息，进而在后续根据该韵律向量进行语音转换时，提升了语音转换的效果，通过对韵律向量进行过滤，进而解决了相关技术中，韵律向量携带噪音，导致语音转换效果差的问题。

为了更好的理解本发明，本实施例提供一种更为具体的示例对发明的语音过滤方法进行说明，应当理解的是，本示例提供的语音过滤方法应用在语音转换***上，如图6所示，该语音转换***中，通过将Source Audio目标语音输入到语音转文本模型中，得到语音特征，并通过Prosody Encoder韵律编码模型对该韵律向量语音特征进行编码得到ProsodyVector韵律向量，然后通过韵律对齐模块执行上述语音过滤方法对该Prosody Vector韵律向量进行过滤，得到Fi ltered Prosody Vector过滤韵律向量；需要理解的是，该语音转换***还需要通过语音识别模型对Source Audio进行处理，得到BN内容特征，然后通过内容编码模块对该BN内容特征进行编码，得到Content Vector内容向量，然后根据该目标语音的Speaker ID来获取其对应的音色进行编码，得到Speaker Encoder身份音色编码，并通过上述Speaker Encoder、Content Vector以及Fi ltered Prosody Vector进行解码得到mel梅尔普特征，并通过该梅尔谱特征生成语音，进而实现对目标语音的音色转换，得到目标音频Target Audio。

应当理解的是，其中如图7所示，所述语音过滤方法包括：

S201、对韵律向量进行强制对齐，得到对齐向量；

其中，如图8所示，通过使用预训练好的“音素-语音”对齐工具，去将目标语音的韵律向量prosody vector进行强制对齐，得到多组对齐向量al igned vector。

S202、获取对齐向量的隐藏状态；

应当理解的是，通过将al igned vector被送入GRU模型，可以得到各个韵律向量帧级别的相应的隐藏状态。隐藏状态的长度和prosody vector的长度是一样的。

S203、对所述隐藏状态进行降采样得到降采样向量；

应当理解的是，本实施提供的语音过滤方法将每个音素的最后一个隐藏状态记为降采样向量downsampled vector，进而使得该降采样向量包括了因素所有隐藏状态的信息。

S204、对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量。

应当理解的是，通过对downsampled vector进行上采样，去重建得到过滤韵律向量fi ltered prosody vector。重建后的fi ltered prosody vector与prosody vector长度保持一致。

本实施例提供的语音过滤方法，包括：对韵律向量进行强制对齐，得到对齐向量，获取对齐向量的隐藏状态，对所述隐藏状态进行降采样得到降采样向量，对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量，进而实现了对prosodyvector提出了一种有效的过滤方案，在保留足够韵律信息的情况下，去除掉了内容和说话人信息，可提升语音转换的说话人相似度，以及语音质量；其中，引入语音对齐序列对韵律向量进行对齐，使得后续可以按照音素对目标语音的韵律向量进行过滤，同时，在对隐藏状态进行上采样重建得到过滤韵律向量时，得到了多个向量的信息，克服了随机向量进行重建的选择的不足，同时，由于获得的每一个降采样向量中都包含了一组对齐向量中所有向量的信息，进而避免了仅随机抽取对齐向量中一个向量进行计算，也即downsampledvector为prosody vector多向量计算的结果，非随机抽取一个向量，保留了更多有效信息，保留了足够的韵律信息，进而提升了语音转换的效果，同时，根据每个音素来对韵律向量进行划分，得到对齐向量，克服以固定值对韵律向量进行划分的不足，提升了语音转化的效果。

基于相同的构思，本实施例还提供一种语音过滤装置，如图9所示，本实施例提供的语音过滤装置包括：

对齐模块1，所述对齐模块用于根据语音对齐序列对目标语音的韵律向量执行对齐操作，以得到多组对齐向量，所述语音对齐序列为对所述目标语音进行音素划分得到的序列；

采样模块2，所述采样模块用于获取每组所述对齐向量的隐藏状态，并对所述隐藏状态进行降采样得到降采样向量；

重建模块3，所述重建模块用于对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量。

本实施例提供的语音过滤装置，包括：对齐模块，所述对齐模块用于根据语音对齐序列对目标语音的韵律向量执行对齐操作，以得到多组对齐向量，所述语音对齐序列为对所述目标语音进行音素划分得到的序列；采样模块，所述采样模块用于获取每组所述对齐向量的隐藏状态，并对所述隐藏状态进行降采样得到降采样向量；重建模块，所述重建模块用于对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量。

在本实施例的一些示例中，所述语音过滤装置还包括：转换模块，所述转换模块用于根据所述过滤韵律向量、与所述目标语音对应的目标音色，生成梅尔普特征；将所述梅尔普特征输入声学模型中，以使得所述声学模型根据所述梅尔普特征生成语音，以将所述目标语音的音色转换为所述目标音色。

本实施例提供的语音过滤装置，其中通过各个模块执行了以下步骤：根据语音对齐序列对目标语音的韵律向量执行对齐操作，以得到多组对齐向量，所述语音对齐序列为对所述目标语音进行音素划分得到的序列；获取每组所述对齐向量的隐藏状态，并对所述隐藏状态进行降采样得到降采样向量；对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量，所述过滤韵律向量用于对所述目标语音进行语音转换。其中，引入语音对齐序列对韵律向量进行对齐，使得后续可以按照音素对目标语音的韵律向量进行过滤，同时，在对隐藏状态进行上采样重建得到过滤韵律向量时，得到了多个向量的信息，克服了随机向量进行重建的选择的不足，在对目标语音的韵律向量进行过滤的同时，保留了足够的韵律信息，进而提升了语音转换的效果。

应当理解的是，本实施例提供的语音过滤装置的各个模块之间的组合能够实现上述语音过滤方法的各个步骤，达到与上述语音过滤方法的各个步骤相同的技术效果，在此不再赘述。

如图10所示，本申请实施例提供了一种电子设备，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111，通信接口112，存储器113通过通信总线114完成相互间的通信，

存储器113，用于存放计算机程序；

在本申请一个实施例中，处理器111，用于执行存储器113上所存放的程序时，实现前述任意一个方法实施例提供的语音过滤方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的语音过滤方法的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音过滤方法，其特征在于，所述语音过滤方法，包括：

根据语音对齐序列对目标语音的韵律向量执行对齐操作，以得到多组对齐向量，所述语音对齐序列为对所述目标语音进行音素划分得到的序列；

获取每组所述对齐向量的状态向量，并对所述状态向量进行降采样得到降采样向量；

对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量，所述过滤韵律向量用于对所述目标语音进行语音转换。

2.根据权利要求1所述的方法，其特征在于，所述根据语音对齐序列对目标语音的韵律向量执行对齐操作，以得到多组对齐向量，包括：

获取所述语音对齐序列中划分的音素划分值；

根据所述音素划分值对所述韵律向量进行划分，以得到多组对齐向量。

3.根据权利要求2所述的方法，其特征在于，所述获取所述语音对齐序列中划分的音素划分值之前，所述方法还包括：

将所述目标语音输入到预训练音素获取模型中，所述预训练音素获取模型通过语音训练集进行训练得到，所述语音训练集中包含了对语音进行标注的音素，所述预训练音素获取模型用于获取所述目标语音的音素；

获取所述预训练音素获取模型输出的音素；

根据所述预训练音素获取模型输出的音素、所述目标语音，对所述预训练音素获取模型输出的音素进行划分，以得到所述语音对齐序列，所述语音对齐序列中包括对所述音素进行划分得到的所述音素划分值。

4.根据权利要求1所述的方法，其特征在于，所述获取每组所述对齐向量的状态向量，包括：

将多组所述对齐向量依次输入用于获取隐藏状态的门控循环单元模型中，以依次获取多组所述对齐向量中各个向量对应的所述隐藏状态，并将所述隐藏状态作为所述状态向量，所述对齐向量中后一向量对应的隐藏状态包括前一向量的信息。

5.根据权利要求1所述的方法，其特征在于，所述对所述状态向量进行降采样得到降采样向量，包括：

获取每组所述对齐向量中尾部向量对应的所述状态向量；

将获取的所述状态向量作为所述降采样向量，所述降采样向量用于重建得到所述过滤韵律向量。

6.根据权利要求1所述的方法，其特征在于，所述对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量，包括：

获取所述降采样向量对应的对齐向量中包含的向量数；

根据所述向量数对所述降采样向量进行复制，以得到与所述韵律向量长度一致的过滤韵律向量。

7.根据权利要求1所述的方法，其特征在于，所述对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量之后，所述方法还包括：

根据所述过滤韵律向量、所述目标语音对应的目标音色以及所述目标语音对应的内容向量，生成梅尔普特征；

将所述梅尔普特征输入声学模型中，以使得所述声学模型根据所述梅尔普特征生成语音，以将所述目标语音的音色转换为所述目标音色。

8.一种语音过滤装置，其特征在于，所述语音过滤装置，包括：

对齐模块，所述对齐模块用于根据语音对齐序列对目标语音的韵律向量执行对齐操作，以得到多组对齐向量，所述语音对齐序列为对所述目标语音进行音素划分得到的序列；

采样模块，所述采样模块用于获取每组所述对齐向量的状态向量，并对所述状态向量进行降采样得到降采样向量；

重建模块，所述重建模块用于对所述降采样向量进行重建，以得到与所述韵律向量长度一致的过滤韵律向量。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一项所述的语音过滤方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的语音过滤方法的步骤。