CN115132204B

CN115132204B - 一种语音处理方法、设备、存储介质及计算机程序产品

Info

Publication number: CN115132204B
Application number: CN202210656103.8A
Authority: CN
Inventors: 阳珊; 苏丹
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2024-03-22
Anticipated expiration: 2042-06-10
Also published as: CN115132204A

Abstract

本申请提供了一种语音处理方法、设备、存储介质及计算机程序产品，应用于云技术、人工智能、智慧交通和车载等各种语音处理场景；该语音处理方法包括：对目标对象的待处理语音进行信息扰动，得到待提取语义语音，其中，信息扰动用于对待处理语音中与语义内容无关的信息进行扰动；从待提取语义语音中，提取语音语义信息，其中，语音语义信息表示待处理语音中的语义内容；基于语音语义信息与指定音色信息的结合结果，得到目标语音，其中，指定音色信息表示指定对象的音色信息，目标语音表示由目标对象向指定对象进行语音转换得到的语音。通过本申请，能够提升语音转换的准确度和质量。

Description

一种语音处理方法、设备、存储介质及计算机程序产品

技术领域

本申请涉及人工智能领域中的语音处理技术，尤其涉及一种语音处理方法、设备、存储介质及计算机程序产品。

背景技术

语音处理过程中，常常涉及语音转换(Voice Conversion，VC)；语音转换是指保持源语音内容的同时，将源说话者的语音转换为目标说话者对应的语音。

一般来说，为了实现语音转换，通常通过声学模型提取音频特征，然而提取出的音频特征常常存在语音识别错误的情况；从而，当基于提取出的音频特征获得转换语音时，所获得的转换语音也存在错误，导致语音转换的准确度较低。

发明内容

本申请实施例提供一种语音处理方法、装置、设备、计算机可读存储介质及计算机程序产品，能够提升语音转换的准确度和质量。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种语音处理方法，包括：

对目标对象的待处理语音进行信息扰动，得到待提取语义语音，其中，所述信息扰动用于对所述待处理语音中与语义内容无关的信息进行扰动；

从所述待提取语义语音中，提取语音语义信息，其中，所述语音语义信息表示所述待处理语音中的语义内容；

基于所述语音语义信息与指定音色信息的结合结果，得到目标语音，其中，所述指定音色信息表示指定对象的音色信息，所述目标语音表示由所述目标对象向所述指定对象进行语音转换得到的语音。

本申请实施例提供一种语音处理装置，包括：

信息扰动模块，用于对目标对象的待处理语音进行信息扰动，得到待提取语义语音，其中，所述信息扰动用于对所述待处理语音中与语义内容无关的信息进行扰动；

语义提取模块，用于从所述待提取语义语音中，提取语音语义信息，其中，所述语音语义信息表示所述待处理语音中的语义内容；

语音转换模块，用于基于所述语音语义信息与指定音色信息的结合结果，得到目标语音，其中，所述指定音色信息表示指定对象的音色信息，所述目标语音表示由所述目标对象向所述指定对象进行语音转换得到的语音。

在本申请实施例中，所述信息扰动包括共振峰扰动、基频扰动和频率扰动中的至少一种；其中，所述共振峰扰动用于对所述待处理语音中的声道信息进行扰动，所述基频扰动用于对所述待处理语音中的声调信息进行扰动，所述频率扰动用于对所述待处理语音中的音质信息进行扰动。

在本申请实施例中，当所述信息扰动包括共振峰扰动时，所述信息扰动模块，还用于对所述目标对象的所述待处理语音中的目标共振峰进行多次所述共振峰扰动，得到多种共振峰扰动语音，其中，每次所述共振峰扰动对应一种所述共振峰扰动语音，所述目标共振峰表示所述待处理语音中的声道信息；将所述多种共振峰扰动语音，确定为所述待提取语义语音。

在本申请实施例中，当所述信息扰动包括基频扰动时，所述信息扰动模块，还用于对所述目标对象的所述待处理语音中的目标基频进行多次所述基频扰动，得到多种基频扰动语音，其中，每次所述基频扰动对应一种所述基频扰动语音，所述目标基频表示所述待处理语音中的声调信息；将所述多种基频扰动语音，确定为所述待提取语义语音。

在本申请实施例中，当所述信息扰动包括频率扰动时，所述信息扰动模块，还用于对所述目标对象的所述待处理语音中的目标频率进行频率扰动，得到多种频率扰动语音；其中，所述目标频率表示所述待处理语音中的音质信息，所述频率扰动包括第一搁置频率扰动、峰值频率扰动和第二搁置频率扰动中的至少一种，所述第一搁置频率扰动对应的频率低于所述第二搁置频率扰动对应的频率，每次所述频率扰动对应一种所述频率扰动语音；将所述多种频率扰动语音，确定为所述待提取语义语音。

在本申请实施例中，所述语音转换模块，用于获取所述待处理语音中的待处理基频变化信息；从所述指定音色信息中，获取所述指定对象对应的指定基频范围；将所述待处理基频变化信息对应至所述指定基频范围中，得到目标基频信息；基于所述语音语义信息与所述指定音色信息的结合结果、以及所述目标基频信息，生成所述目标语音。

在本申请实施例中，所述语音转换模块，还用于对所述待处理基频变化信息进行归一化，得到目标基频变化信息；基于所述指定基频范围，对所述目标基频变化信息进行反归一化，得到所述待处理基频变化信息对应于所述指定基频范围的所述目标基频信息。

在本申请实施例中，所述目标语音通过语音转换模型实现，所述语音处理装置还包括模型训练模块，用于获取语音样本，所述语音样本用于训练待训练语音转换模型，所述待训练语音转换模型为待训练的用于进行语音转换的网络模型；基于所述待训练语音转换模型对所述语音样本进行信息扰动，得到信息扰动语音样本，并从所述信息扰动语音样本中提取语音语义样本，以及基于所述语音语义样本与所述语音样本对应的音色样本的结合结果，确定预测语音；基于所述语音样本与所述预测语音之间的损失，训练所述待训练语音转换模型，得到所述语音转换模型。

在本申请实施例中，所述模型训练模块，还用于获取所述语音样本与所述预测语音之间的生成损失；获取所述语音样本与所述预测语音之间的判别损失；将所述生成损失和所述判别损失，组合为所述语音样本与所述预测语音之间的损失。

在本申请实施例中，所述模型训练模块，还用于基于所述语音样本与所述预测语音之间的语音差异，确定初始生成损失；基于所述语音样本与所述预测语音之间的特征差异，确定特征匹配损失；基于所述语音样本与所述预测语音之间的频域差异，确定多分辨率频域损失；将所述初始生成损失、所述特征匹配损失和所述多分辨率频域损失，组合为所述生成损失。

在本申请实施例中，所述模型训练模块，还用于基于所述语音样本与所述预测语音之间的周期性差异，确定周期损失；基于所述语音样本与所述预测语音之间的多尺度差异，确定多尺度损失；基于所述语音样本与所述预测语音之间的频谱差异，得到频谱损失；将所述周期损失、所述多尺度损失和所述频谱损失，组合为所述判别损失。

在本申请实施例中，所述语音处理装置还包括语音采集模块，用于显示语音输入控件，其中，所述语音输入控件用于触发语音的采集；响应于对所述语音输入控件的语音输入操作，采集至少一个所述待处理语音。

在本申请实施例中，所述语音处理装置还包括语音播放模块，用于当至少一个所述待处理语音为一个所述待处理语音时，播放所述目标语音；当至少一个所述待处理语音为多个所述待处理语音时，拼接多个所述待处理语音对应的多个所述目标语音，得到待播放语音，并播放所述待播放语音。

本申请实施例提供一种语音处理设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的语音处理方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，所述可执行指令用于被处理器执行时，实现本申请实施例提供的语音处理方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时，实现本申请实施例提供的语音处理方法。

本申请实施例至少具有以下有益效果：通过对目标对象的待处理语音进行信息扰动，使得待处理语音中与待处理语音的语音内容无关的信息转化为了噪声信息，从而能够从待处理语音中准确地提取到语音语义信息；进而，通过将语音语义信息与指定对象对应的指定音色信息结合，就能够准确地实现由目标对象向指定对象的语音转换；所以，能够提升语音转换的准确度和质量。

附图说明

图1是本申请实施例提供的语音处理***的架构示意图；

图2是本申请实施例提供的图1中的服务器的组成结构示意图；

图3是本申请实施例提供的语音处理方法的流程示意图一；

图4是本申请实施例提供的语音处理方法的流程示意图二；

图5是本申请实施例提供的示例性的语音转换模型的训练流程图；

图6是本申请实施例提供的语音处理方法的流程示意图三；

图7是本申请实施例提供的一种示例性的模型训练示意图；

图8是本申请实施例提供的一种示例性的获取语义内容的示意图；

图9是本申请实施例提供的一种示例性的获取音色信息的示意图；

图10是本申请实施例提供的一种示例性的重建基频的示意图；

图11是本申请实施例提供的一种示例性的语音转换过程。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。本申请实施例中的语音处理可以是基于人工智能实现的。

2)机器学习(Machine Learning，ML)，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能；重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。

3)人工神经网络，是一种模仿生物神经网络结构和功能的数学模型，本申请实施例中人工神经网络的示例性结构包括生成对抗网络(Generative Adversarial Network，GAN)、深度神经网络(Deep Neural Networks，DNN)、卷积神经网络(Convolutional NeuralNetwork，CNN)和循环神经网络(Recurrent Neural Network，RNN)、神经状态机(NeuralState Machine，NSM)和相位函数神经网络(Phase-Functioned Neural Network，PFNN)等。本申请实施例中所涉及的待训练语音转换模型和语音转换模型均为人工神经网络对应的模型。

一般来说，为了实现语音转换，通常先通过声学模型提取音频特征；其中，声学模型是一种转换出音频特征的转换器，比如，自动语音识别模型(Automatic SpeechRecognition，ASR)，用于提取语音后验音频特征(Phonetic Posteri or Grams，PPG)；接着，将提取出的音频特征作为语音语义表示，来与目标说话者的音色信息结合为语音转换模型的输入，以输出转换语音；其中，语音转换模型为用于把音频特征还原为语音信号的声码器。然而，上述的语音转换过程中，声学模型提取出的音频特征常常存在语音识别错误的情况；从而，当基于提取出的音频特征获得转换语音时，所获得的转换语音也存在错误，导致语音转换的准确度较低。另外，提取出的音频特征是通过独立的声学模型提取的，独立训练声学模型将导致语音转换的复杂度和资源消耗较大。

此外，为了实现语音转换，在获取语音转换模型的输入时，还可以通过添加信息瓶颈层进行语音语义与其他信息的解耦，即通过对编码器添加信息瓶颈层，使得编码器只学习到一些语义信息，进而获得语音语义，并将语音语义表示与目标说话者的音色信息结合为语音转换模型的输入，以输出转换语音。然而，上述的语音转换过程中，通过添加信息瓶颈层进行语音语义与其他信息的解耦方式，存在音色泄露问题，这是因为语音语义与音色信息的解耦不完全，使得源说话者的音色信息不可避免地被转移到转换语音中，使转换语音听起来有点像源说话者或两个说话者之间的语音，导致语音转换的准确度较低，质量较差。

基于此，本申请实施例提供一种语音处理方法、装置、设备、计算机可读存储介质及计算机程序产品，能够提升语音转换的准确度和质量。下面说明本申请实施例提供的语音处理设备的示例性应用，本申请实施例提供的语音处理设备可以实施为智能手机、智能手表、笔记本电脑、平板电脑、台式计算机、智能家电、机顶盒、智能车载设备、便携式音乐播放器、个人数字助理、专用消息设备、智能语音交互设备、便携式游戏设备和智能音箱等各种类型的终端，也可以实施为服务器。下面，将说明设备实施为服务器时的示例性应用。

参见图1，图1是本申请实施例提供的语音处理***的架构示意图；如图1所示，为支撑一个语音处理应用，在语音处理***100中，终端200(示例性示出了终端200-1和终端200-2)通过网络300连接服务器400(称为语音处理设备)，网络300可以是广域网或者局域网，又或者是二者的组合。另外，该语音处理***100中还包括数据库500，用于向服务器400提供数据支持；并且，图1中示出的为数据库500独立于服务器400的一种情况，此外，数据库500还可以集成在服务器400中，本申请实施例对此不作限定。

终端200，用于通过网络300向服务器400发送携带目标对象的待处理语音和指定对象的语音转换请求；通过网络300接收服务器400响应于语音转换请求所发送的目标语音，在图形界面210(示例性示出了图形界面210-1和图形界面210-2)播放目标语音。

服务器400，用于通过网络300接收终端200发送的语音转换请求，响应于语音转换请求，对目标对象的待处理语音进行信息扰动，得到待提取语义语音，其中，信息扰动用于对待处理语音中与语义内容无关的信息进行扰动；从待提取语义语音中，提取语音语义信息，其中，语音语义信息表示待处理语音中的语义内容；基于语音语义信息与指定音色信息的结合结果，得到目标语音，其中，指定音色信息表示指定对象的音色信息，目标语音表示由目标对象向指定对象进行语音转换得到的语音；还用于通过网络300向终端200发送目标语音。

在一些实施例中，服务器400可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端200可以是智能手机、智能手表、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、智能车载设备、便携式音乐播放器、个人数字助理、专用消息设备、便携式游戏设备和智能音箱等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不作限制。

参见图2，图2是本申请实施例提供的图1中的服务器的组成结构示意图，图2所示的服务器400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。服务器400中的各个组件通过总线***440耦合在一起。可理解，总线***440用于实现这些组件之间的连接通信。总线***440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***451，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算机设备，示例性的网络接口420包括：蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作***设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的语音处理装置可以采用软件方式实现，图2示出了存储在存储器450中的语音处理装置455，其可以是程序和插件等形式的软件，包括以下软件模块：信息扰动模块4551、语义提取模块4552、语音转换模块4553、模型训练模块4554、语音采集模块4555和语音播放模块4556，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在一些实施例中，本申请实施例提供的语音处理装置可以采用硬件方式实现，作为示例，本申请实施例提供的语音处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的语音处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Program mable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在一些实施例中，终端或服务器可以通过运行计算机程序来实现本申请实施例提供的语音处理方法。举例来说，计算机程序可以是操作***中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作***中安装才能运行的程序，如直播APP或者即时通信APP；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

下面，将结合本申请实施例提供的语音处理设备的示例性应用和实施，说明本申请实施例提供的语音处理方法。另外，本申请实施例提供的语音处理方法应用于云技术、人工智能、智慧交通和车载等各种语音处理场景。

参见图3，图3是本申请实施例提供的语音处理方法的流程示意图一，将结合图3示出的步骤进行说明。

步骤301、对目标对象的待处理语音进行信息扰动，得到待提取语义语音。

在本申请实施例中，语音处理设备在执行语音转换时，是在获得了目标对象对应的待处理语音的条件下进行的；语音处理设备在对待处理语音进行语音转换时，先获取待处理语音中的语义内容；从而，语义处理设备对待处理语音进行信息扰动，以对待处理语音中的与语义内容无关的信息进行扰动，以将待处理语音中与语义内容无关的信息转换为噪声信息；这里，完成信息扰动后的待处理语音即为待提取语义语音。

需要说明的是，待提取语义语音中包括与待处理语音对应的多个语音，且待提取语义语音中的各个语音之间语音内容是相同的、与语义内容无关的信息是不同的；从而，在待提取语义语音中，与语义内容无关的信息为噪声信息。这里，信息扰动可以是按照指定规律对待处理语音中与语义内容无关的信息进行扰动，还可以是随机对待处理语音中与语义内容无关的信息进行扰动，又可以是两者的结合，等等，本申请实施例对此不作限定。另外，待处理语音为待进行语音转换的源语音，目标对象为待处理语音的发音对象，比如，发音用户，发音生物，发音设备等。

步骤302、从待提取语义语音中，提取语音语义信息。

在本申请实施例中，语音处理设备获得了待提取语义语音之后，由于待提取语义语音中与语义内容无关的信息均为噪声信息，从而，语音处理设备对待提取语义语音进行去燥处理，也就能够获得表示待处理语音中的语义内容的信息；这里，将待处理语音中的语义内容称为语音语义信息。

需要说明的是，语音处理设备还可以通过学习待提取语义语音中的非噪音信息，以获得语音语义信息，本申请实施例对从待提取语义语音中提取语音语义信息的方式不作限定。

步骤303、基于语音语义信息与指定音色信息的结合结果，得到目标语音。

在本申请实施例中，语音处理设备用于对目标对象的待处理语音进行语音转换，以转换为包括待处理语音的语义内容且包括指定对象的音色信息的语音；其中，指定对象的音色信息即为指定音色信息。从而，语义处理设备获得了语音语义信息之后，将语音语义信息与指定音色信息结合，以实现语音转换。这里，语音处理设备可以将语音语义信息与指定音色信息的结合结果确定为目标语音；还可以将语音语义信息与指定音色信息的结合结果，再与其他信息进行结合，来得到目标语音，其中，其他信息比如为指定对象的发音相关的信息(能量等)，目标对象的韵律信息等；等等，本申请实施例对此不作限定。

需要说明的是，指定对象为语音转换后的发音对象，比如，发音用户，发音生物，发音设备等。目标语音表示由目标对象向指定对象进行语音转换得到的语音，包括待处理语音的语义内容且包括指定对象的音色信息。

可以理解的是，通过对目标对象的待处理语音进行信息扰动，使得待处理语音中与待处理语音的语音内容无关的信息转化为了噪声信息，从而能够从待处理语音中准确地提取到语音语义信息；进而，通过将语音语义信息与指定对象对应的指定音色信息结合，就能够准确地实现由目标对象向指定对象的语音转换；所以，能够提升语音转换的准确度和质量。另外，对待处理语音进行语音转换的过程，是直接对语音本身进行处理的，能够降低对语音的特征进行处理导致的特征匹配度较低的概率，提升目标语音的转换稳定性。

在本申请实施例中，信息扰动包括共振峰扰动、基频扰动和频率扰动等中的至少一种；从而，待处理语音中与语义内容无关的信息包括目标共振峰、目标基频和目标频率等中的至少一种，其中，目标共振峰表示待处理语音的声道信息，目标基频表示待处理语音的声调信息，目标频率表示待处理语音的音质信息。这里，共振峰扰动用于对待处理语音中的声道信息进行扰动，即对目标共振峰进行扰动；基频扰动用于对待处理语音中的声调信息进行扰动，即对目标基频进行扰动；频率扰动用于对待处理语音中的音质信息进行扰动，即对目标频率进行扰动。

需要说明的是，当信息扰动包括共振峰扰动、基频扰动和频率扰动等中的至少两种时，所包括的两种扰动在执行顺序上不分先后；比如，当信息扰动包括共振峰扰动、基频扰动和频率扰动时，可以先执行频率扰动，再执行基频扰动，最后执行共振峰扰动，又可以先执行基频扰动，再执行共振峰扰动，最后执行频率扰动，等等。

在本申请实施例中，当信息扰动包括共振峰扰动时，步骤301可通过步骤3011和步骤3012(图中未示出)实现；也就是说，语音处理设备对目标对象的待处理语音进行信息扰动，得到待提取语义语音，包括步骤3011和步骤3012，下面对各步骤分别进行说明。

步骤3011、对目标对象的待处理语音中的目标共振峰进行多次共振峰扰动，得到多种共振峰扰动语音。

在本申请实施例中，当信息扰动包括共振峰扰动时，语音处理设备对待处理语音进行信息扰动，即对待处理语音中的目标共振峰进行扰动；其中，目标共振峰为待处理语音的共振峰。

需要说明的是，每次共振峰扰动通过对待处理语音中的目标共振峰进行变化，来对应生成一种共振峰扰动语音，从而，多次共振峰扰动语音能够对应生成多种共振峰扰动语音；也就是说，多次共振峰扰动与多种共振峰扰动语音一一对应；并且，多种共振峰扰动语音中，各种共振峰扰动语音之间共振峰不同，使得多种共振峰扰动语音中的共振峰为噪音信息。另外，每次共振峰扰动，可以是通过随机改变目标共振峰实现的，还可以是按照指定共振峰改变目标共振峰实现的，又可以是两者的结合，等等，本申请实施例对此不作限定。

步骤3012、将多种共振峰扰动语音，确定为待提取语义语音。

在本申请实施例中，语音处理设备可以将多种共振峰扰动语音直接确定为待提取语义语音，还可以再继续对每种共振峰扰动语音进行其他与语义内容无关的信息(比如，目标基频，目标频率)的扰动来得到待提取语义语音，等等，本申请实施例对此不作限定。

可以理解的是，语音处理设备通过对待处理语音中的目标共振峰进行扰动，使得通过信息扰动获得的待提取语义语音中的共振峰为噪音信息，实现了对共振峰的去除，也就去除了目标对象对应的音色信息；实现了语义内容与目标对象的音色信息的完全解耦，故能够提升语义内容提取的准确度和语音转换的质量。

在本申请实施例中，当信息扰动包括基频扰动时，步骤301可通过步骤3013和步骤3014(图中未示出)实现；也就是说，语音处理设备对目标对象的待处理语音进行信息扰动，得到待提取语义语音，包括步骤3013和步骤3014，下面对各步骤分别进行说明。

步骤3013、对目标对象的待处理语音中的目标基频进行多次基频扰动，得到多种基频扰动语音。

在本申请实施例中，当信息扰动包括基频扰动时，语音处理设备对待处理语音进行信息扰动，即对待处理语音中的目标基频进行扰动；其中，目标基频为待处理语音的基频。

需要说明的是，每次基频扰动通过对待处理语音中的目标基频进行变化，来对应生成一种基频扰动语音，从而，多次基频扰动语音能够对应生成多种基频扰动语音；也就是说，多次基频扰动与多种基频扰动语音一一对应；并且，多种基频扰动语音中，各种基频扰动语音之间基频不同，使得多种基频扰动语音中的基频为噪音信息。另外，每次基频扰动，可以是通过随机改变目标基频实现的，还可以是按照指定基频改变目标基频实现的，又可以是两者的结合，等等，本申请实施例对此不作限定。

步骤3014、将多种基频扰动语音，确定为待提取语义语音。

在本申请实施例中，语音处理设备可以将多种基频扰动语音直接确定为待提取语义语音，还可以再继续对每种基频扰动语音进行其他与语义内容无关的信息(比如，目标共振峰，目标频率)的扰动来得到待提取语义语音，等等，本申请实施例对此不作限定。

可以理解的是，语音处理设备通过对待处理语音中的目标基频进行扰动，使得通过信息扰动获得的待提取语义语音中的基频为噪音信息，实现了对基频的去除，也就去除了目标对象对应的声调信息，能够实现语义内容与基频范围的解耦，进而能够提升语义内容提取的准确度。

在本申请实施例中，当信息扰动包括频率扰动时，步骤301可通过步骤3015和步骤3016(图中未示出)实现；也就是说，语音处理设备对目标对象的待处理语音进行信息扰动，得到待提取语义语音，包括步骤3015和步骤3016，下面对各步骤分别进行说明。

步骤3015、对目标对象的待处理语音中的目标频率进行频率扰动，得到与多种频率扰动信息对应的多种频率扰动语音。

在本申请实施例中，当信息扰动包括频率扰动时，语音处理设备对待处理语音进行信息扰动，即对待处理语音中的目标频率进行扰动；其中，目标频率为待处理语音的音质信息。

需要说明的是，每次频率扰动通过对待处理语音中的目标频率进行变化，来对应生成一种频率扰动语音，从而，多次频率扰动语音能够对应生成多种频率扰动语音；也就是说，多次频率扰动与多种频率扰动语音一一对应；并且，多种频率扰动语音中，各种频率扰动语音之间频率不同，使得多种频率扰动语音中的频率为噪音信息。另外，每次频率扰动，可以是通过随机改变目标频率实现的，还可以是按照指定频率改变目标频率实现的，又可以是两者的结合，等等，本申请实施例对此不作限定。

还需要说明的是，频率扰动包括第一搁置频率扰动、峰值频率扰动和第二搁置频率扰动中的至少一种，第一搁置频率扰动对应的频率低于第二搁置频率扰动对应的频率；并且，当频率扰动包括第一搁置频率扰动、峰值频率扰动和第二搁置频率扰动中的至少两种时，一次频率扰动中，每种扰动分别可以为一次，也可以为多次，本申请实施例对此不作限定；比如，一次频率扰动中，包括一次第一搁置频率扰动、一次第二搁置频率扰动和八次峰值频率扰动。其中，第一搁置频率扰动可通过低搁置滤波器实现，第二搁置频率扰动可通过高搁置滤波器实现，峰值频率扰动可通过峰值滤波器实现。另外，当频率扰动包括第一搁置频率扰动、峰值频率扰动和第二搁置频率扰动中的至少两种时，可将至少两种扰动结果的整合结果作为待提取语义语音的频率。

步骤3016、将多种频率扰动语音，确定为待提取语义语音。

在本申请实施例中，语音处理设备可以将多种频率扰动语音直接确定为待提取语义语音，还可以再继续对每种频率扰动语音进行其他与语义内容无关的信息(比如，目标共振峰，目标基频)的扰动来得到待提取语义语音，等等，本申请实施例对此不作限定。

可以理解的是，语音处理设备通过对待处理语音中的目标频率进行扰动，使得通过信息扰动获得的待提取语义语音中的频率为噪音信息，实现了对频率的去除，能够实现语义内容与频率的解耦，进而能够提升语义内容提取的准确度。

参见图4，图4是本申请实施例提供的语音处理方法的流程示意图二；如图4所示，在本申请实施例中，步骤303可通过步骤3037至步骤30310实现；也就是说，语音处理设备基于语音语义信息与指定音色信息的结合结果，得到目标语音，包括步骤3037至步骤30310，下面对各步骤分别进行说明。

步骤3037、获取待处理语音中的待处理基频变化信息。

在本申请实施例中，语音处理设备还用于将待处理语音中基频的变化信息转换至目标语音中；从而，语音处理设备从待处理语音中提取基频的变化信息，也就获得了待处理基频变化信息；易知，该待处理基频变化信息表示待处理语音中的基频变化趋势，是一种韵律信息。

步骤3038、从指定音色信息中，获取指定对象对应的指定基频范围。

需要说明的是，指定音色信息中包括了指定对象的基频范围，从而，语音处理设备能够从指定音色信息中获取指定对象的基频范围；这里，将指定对象的基频范围称为指定基频范围。

步骤3039、将待处理基频变化信息对应至指定基频范围中，得到目标基频信息。

在本申请实施例中，语音处理设备基于待处理基频变化信息和指定基频范围进行语音中韵律的重建时，通过将待处理基频变化信息对应至指定基频范围中来实现。其中，所获得的目标基频信息中包括待处理基频变化信息和指定基频范围。

需要说明的是，语音处理设备将待处理基频变化信息对应至指定基频范围中，得到目标基频信息，包括：语音处理设备对待处理基频变化信息进行归一化，得到目标基频变化信息；并基于指定基频范围，对目标基频变化信息进行反归一化，得到待处理基频变化信息对应于指定基频范围的目标基频信息。

步骤30310、基于语音语义信息与指定音色信息的结合结果、以及目标基频信息，生成目标语音。

在本申请实施例中，语义处理设备获得了语音语义信息和目标基频信息之后，将语音语义信息与指定音色信息结合，并将语音语义信息与指定音色信息的结合结果、以及目标基频信息再次进行结合，以生成目标语音，以实现语音转换。这里，语音处理设备可以将语音语义信息与指定音色信息的结合结果、以及目标基频信息的整合结果确定为目标语音；还可以将语音语义信息与指定音色信息的结合结果、以及目标基频信息的整合结果，再与其他信息进行结合，来得到目标语音，其中，其他信息比如为指定对象的发音相关的信息(能量等)等；等等，本申请实施例对此不作限定。

可以理解的是，由于待处理语音中的基频变化信息能够提升语音转换的质量；从而，通过将待处理语音中的基本变化信息转换至目标语音中，使得目标语音中包括目标对象的语音风格，实现了目标对象的风格等韵律信息的传递；从而，能够语音转换出的目标语音的韵律效果，提升了目标语音的自然性，进而，提升了语音转换的质量。

在本申请实施例中，语音处理设备在结合语音语义信息与指定音色信息来获得目标语音时，还可以再结合预设语音能量来转换目标语音；也就是说，语音处理设备基于语音语义信息与指定音色信息的结合结果，得到目标语音，包括：语音处理设备将语音语义信息与指定音色信息的结合结果、以及指定语音能量，生成目标语音；其中，指定语音能量包括待处理语音的语音能量和预设语音能量中的至少一种，这里，预设语音能量可以针对指定对象设定的语音能量，语音能量表示语音音量。

需要说明的是，语音处理设备可以直接结合语音语义信息与指定音色信息来获得目标语音，还可以将语音语义信息与指定音色信息的结合结果，再结合指定语音能量和目标基频信息中的至少一种来获得目标语音，等等，本申请实施例对此不作限定。

在本申请实施例中，由待处理语音向目标语音的语音处理可通过语音转换模型实现，该语音转换模型用于将源语音转换为指定对象的语音。

参见图5，图5是本申请实施例提供的示例性的语音转换模型的训练流程图；如图5所示，语音转换模型可通过步骤304至步骤306训练获得，下面对各步骤分别进行说明。

步骤304、获取语音样本。

需要说明的是，语音处理设备获得的训练样本为语音样本，包括至少一个语音，并且语音样本用于训练待训练语音转换模型，而待训练语音转换模型为待训练的用于进行语音转换的网络模型。另外，待训练语音转换模型包括各个子模块，比如，有的子模块用于信息扰动，有的子模块用于语义内容的提取，有的子模块用于语音合成等。

步骤305、基于待训练语音转换模型对语音样本进行信息扰动，得到信息扰动语音样本，并从信息扰动语音样本中提取语音语义样本，以及基于语音语义样本与语音样本对应的音色样本的结合结果确定预测语音。

在本申请实施例中，语音处理设备先采用待训练语音转换模型对语音样本进行语音转换；在待训练语音转换模型中，先是对语音样本进行信息扰动，再进行语义内容的提取，最后进行语音合成。其中，音色样本是语音样本对应的音色信息。

需要说明的是，语音处理设备通过待训练语音转换模型对语音样本进行信息扰动的过程，与语音处理设备对待处理语音进行信息扰动的过程类似，本申请实施例在此不再重复描述；语音处理设备通过待训练语音转换模型对语音内容过程进行提取的过程，与语音处理设备从待提取语义语音中提取语音语义信息的过程类似，本申请实施例在此不再重复描述；以及，语音处理设备通过待训练语音转换模型语音合成获得预测语音的过程，与语音处理设备生成目标语音的过程类似，本申请实施例在此不再重复描述。

步骤306、基于语音样本与预测语音之间的损失，训练待训练语音转换模型，得到语音转换模型。

在本申请实施例中，语音处理设备基于语音样本与预测语音之间的差异，确定语音样本与预测语音之间的损失，并利用语音样本与预测语音之间的损失在待训练语音转换模型中进行反向传播，以对待训练语音转换模型中的参数进行调整，实现对待训练语音转换模型的一次训练；如此，对待训练语音转换模型进行迭代训练，直至满足训练结束条件时，将当前训练的待训练语音转换模型确定为语音转换模型。其中，训练结束条件可以是达到指定训练次数，还可以是到达指定训练时长，又可以是到达指定损失，也可以是到达指定指标值，以及可以是上述各个条件的结合，等等，本申请实施例对此不作限定。易知，语音转换模型为训练好的待训练语音转换模型。

在本申请实施例中，语音处理设备基于语音样本与预测语音之间的损失，训练待训练语音转换模型，得到语音转换模型之前，该语音处理方法还包括步骤307至步骤309(图中未示出)，下面对各步骤分别进行说明。

步骤307、获取语音样本与预测语音之间的生成损失。

需要说明的是，待训练语音转换模型可以包括生成对抗网络，从而语音样本与预测语音之间的损失，包括生成模块对应的损失，这里，称为语音样本与预测语音之间的生成损失。

在本申请实施例中，语音处理设备获取语音样本与预测语音之间的生成损失，包括：语音处理设备基于语音样本与预测语音之间的语音差异，确定初始生成损失；并基于语音样本与预测语音之间的特征差异，确定特征匹配损失；以及，基于语音样本与预测语音之间的频域差异，确定多分辨率频域损失；最后，将初始生成损失、，特征匹配损失和多分辨率频域损失，组合为生成损失。这里，语音处理设备还可以将初始生成损失、特征匹配损失和多分辨率频域损失中的至少一种确定为生成损失。

步骤308、获取语音样本与预测语音之间的判别损失。

需要说明的是，由于待训练语音转换模型中包括生成对抗网络，从而语义样本与预测语音之间的损失还包括判别模块对应的损失，这里，称为语音样本与预测语音之间的判别损失。

在本申请实施例中，语音处理设备获取语音样本与预测语音之间的判别损失，包括：语音处理设备基于语音样本与预测语音之间的周期性差异，确定周期损失；并基于语音样本与预测语音之间的多尺度差异，确定多尺度损失；以及基于语音样本与预测语音之间的频谱差异，得到频谱损失；最后，将周期损失、多尺度损失和频谱损失，组合为判别损失。这里，语音处理设备还可以将周期损失、多尺度损失和频谱损失中的至少一种确定为判别损失。

步骤309、将生成损失和判别损失，组合为语音样本与预测语音之间的损失。

在本申请实施例中，语音处理设备可以直接将生成损失和判别损失进行组合，也可以基于指定的权重将生成损失和判别损失进行组合，等等，本申请实施例对此不作限定。

可以理解的是，由于生成模块用于生成转换的语音，判别模块用于判断生成的转换的语音与语音样本是否为相同的语音，因此，通过不断的生成和判别，能够提升训练的效果，进而能够提升语音转换模型的准确度。

参见图6，图6是本申请实施例提供的语音处理方法的流程示意图三；如图6所示，在本申请实施例中，步骤301之前还包括步骤310和步骤311；也就是说，语音处理设备对目标对象的待处理语音进行信息扰动，得到待提取语义语音之前，该语音处理方法还包括步骤310和步骤311，下面对各步骤分别进行说明。

步骤310、显示语音输入控件。

需要说明的是，语音输入控件用于触发语音的采集；比如，输入法应用中的语音输入按键，视频通话界面上显示的用于变声的控件，包括录音功能的应用所显示的界面中的录音控件等。

步骤311、响应于对语音输入控件的语音输入操作，采集至少一个待处理语音。

在本申请实施例中，当通过语音输入控件输入目标对象的语音时，语音处理设备也就获得了对语音输入控件的语音输入操作；此时，语音处理设备响应于语音输入操作，采集语音，也就获得了至少一个待处理语音。

相应地，步骤303之后还包括步骤312或步骤313；也就是说，语音处理设备基于语音语义信息与指定音色信息的结合结果，得到目标语音之后，该语音处理方法还包括步骤312或步骤313，下面对各步骤分别进行说明。

步骤312、当至少一个待处理语音为一个待处理语音时，播放目标语音。

需要说明的是，语音处理设备对至少一个待处理语音中的每个待处理语音进行语音转换，获得每个待处理语音对应的目标语音。这里，当语音转换为实时的语音转换时，也即当至少一个待处理语音为一个待处理语音时，语音处理设备直接播放目标语音。当然，当至少一个待处理语音为一个待处理语音时，语音转换的场景也可以是非实时的，本申请实施例对此不作限定。

示例性地，比如，语音通话场景中，针对通话账号A(称为目标对象)的语音进行语音转换，以转换为通话账号A所选择的形象B(称为指定对象)的语音，并实时播放该转换出的语音，即以用户B的音色播放通话账号A(称为目标对象)的语音。又比如，虚拟主播场景中，结合虚拟主播的音色信息，将采集到的语音转换为虚拟主播的语音。

步骤313、当至少一个待处理语音为多个待处理语音时，拼接多个待处理语音对应的多个目标语音，得到待播放语音，并播放待播放语音。

在本申请实施例中，当至少一个待处理语音为一个待处理语音时，语音处理设备可以将多个待处理语音对应的多个目标语音拼接为待播放语音，并播放该待播放语音。其中，多个待处理语音对应的多个目标对象可以相同，也可以不同；当多个目标对象不同时，能够快速实现不同目标对象向同一指定对象的语音转换，提升了语音转换效率。

可以理解的是，当多个目标对象不同时，通过采集多个不同的目标对象对应的多个待处理语音，并基于指定音色信息对每个待处理语音进行转换来获得目标语音，以及将获得的多个目标语音拼接为待播放语音，实现了以一个对象的形象播放多个不同的目标对象的语音的过程，从而，能够提升语音的获取效率。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。该示例性应用描述了基于信息扰动的方式训练端到端语音转换模型，并利用语音转换模型进行语音转换的过程。

参见图7，图7是本申请实施例提供的一种示例性的模型训练示意图；如图7所示，待训练的语音转换模型7-1中包括内容编码器7-11、基频编码器7-12、说话者编码器7-13、生成器7-14和判别器7-15。首先，一方面，语音样本7-2通过信息扰动后，利用内容编码器7-11从扰动后的语音(称为信息扰动语音样本)中提取语音内容(Linguistic Information，称为语音语义样本)7-31；另一方面，利用说话者编码器7-13从语音样本7-2对应的梅尔谱图(Mel-Spec trograms)中提取音色信息(Speaker Embedding，称为音色样本)7-32；再一方面，基于音色信息7-32从语音样本7-2中提取出与说话者无关的基频变化趋势(Speaker-Independent Normallized Pich)7-33，并利用基频编码器7-12对基频变化趋势7-33和音色信息7-32的基频范围进行处理，来获得最终的基频7-34；又一方面，从语音样本7-2获取能量(Energy)7-35。然后，生成器7-14整合语音内容7-31、基频7-34、音色信息7-32和能量7-35，以获得预测语音7-4。最后，判别器7-15对语音样本7-2和预测语音7-4进行判断，以实现对抗训练，从而能够提升语音转换模型7-1的泛化能力。此时，也就完成了一次训练；如此迭代进行训练，以获得训练好的语音转换模型7-1。

下面对各个信息的获取分别进行说明。

在语音内容7-31的提取过程中，包括信息扰动和利用内容编码器7-11所进行的语音内容7-31的提取。信息扰动利用共振峰随机变换fs(称为共振峰扰动)、基频随机化pr(称为基频扰动)和频率随机整形peq(称为频率扰动)三种扰动函数实现，以去除与说话者相关的信息，用于实现无监督语义内容的提取。其中，共振峰随机变换fs可以改变源语音的共振峰，源语音的共振峰与音色高度相关；基频随机化函数，降低了与源说话者的基频范围的关联；频率随机整形peq用于进行随机频率整形，包括一系列低搁置滤波器、峰值滤波器和高搁置滤波器，如式(1)所示。

其中，H^LS是低搁置滤波器(称为第一搁置频率扰动)，H^Peak代表峰值滤波器(称为第二搁置频率扰动)，H^HS是高搁置滤波器(称为峰值频率扰动)，并且，每个滤波器都是二阶无限冲击响应滤波器(Infinite Impulse Response，IIR)，截止频率分别固定为60赫兹和10千赫兹。另外，的中心频率在对数尺度上均匀地分布在该两组频率之间。

这里，信息扰动的过程可通过式(2)实现，式(2)如下所示。基于上述扰动函数，我们通过以下方式扰动：

其中，x为源语音样本，为对源语音样本进行了扰动后的语音，其中所包含的与说话者相关的信息均已转换为了噪声信息，如此，内容编码器7-11能够准确地从/>中学习到语音语义。

参见图8，图8是本申请实施例提供的一种示例性的获取语义内容的示意图；如图8所示，通过内容编码器7-11从扰动后的语音8-1中提取语音内容7-31；其中，内容编码器7-11为全卷积神经网络，用于将扰动后的语音8-1编码成下采样的内容表示。另外，内容编码器7-11包括一个预处理卷积层8-21、以及四个由下采样模块8-221和残差模块8-222组成的模块8-22，其中，残差模块7-113的机构与生成对抗网络(比如，HiFiGAN)的结构类似，并且，所有卷积层都应用了激活(比如，LeakyRELU激活)和权重归一化；从而，扰动后的语音8-1先经过预处理卷积层8-21，再将预处理卷积层8-21的输出结果依次经过下采样模块8-221和残差模块8-222四次，来获得语音内容7-31。

下面说明基频重建的过程。在基频重建的过程中，先通过说话者编码器7-13获取音色信息7-32；参见图9，图9是本申请实施例提供的一种示例性的获取音色信息的示意图；如图9所示，通过说话者编码器7-13，从语音样本7-2对应的梅尔谱图9-1中提取音色信息7-32；其中，说话者编码器7-13包括一个感受野卷积层9-21、三个由卷积层和激活层组成的模块9-22、一个平均池化层9-23、以及三个由带有残差连接的全连接层和激活层组成的模块9-24。另外，图中箭头表示对梅尔谱图9-1进行处理的流程。

在获得了音色信息7-32之后，基于音色信息7-32获取对应的基频变化趋势7-33；其中，可以先计算每个说话者的基频均值和方差，再基于每个说话者的基频均值和方差对音色信息7-32的基频进行归一化，来获得基频变化趋势7-33。参见图10，图10是本申请实施例提供的一种示例性的重建基频的示意图；如图10所示，通过基频编码器7-12对基频变化趋势7-33和音色信息7-32进行处理，来获得最终的基频7-34；其中，基频编码器7-12依次包括一个卷积层10-1和三个条件编码块10-2，每个条件编码块10-2包括一个带有激活层的卷积层(Conv1d)和一个条件归一化层(CLN)，条件归一化层采用音色信息7-32来实现对说话者约束的基频重建。

下面说明生成器7-14和判别器7-15的生成对抗过程。生成器的架构可以由四个带有残差块的上采样模块组成。这里，还对预测语音7-4进行了对抗训练，以提高合成语音的质量；在判别过程中采用了多周期判别器(MPD)、多尺度判别器(MSD)和多尺度频谱判别器。这里，判别过程对应的损失L_D如式(3)所示。

其中，表示判别器的对抗性损失。

预测语音生成过程对应的损失L_G如式(4)所示。

其中，为生成器的对抗性损失，L_fm为特征匹配损失，L_stft为多分辨率短时傅里叶变换(Short Time Fourier Transform，STFT)损失(能够提高训练稳定性和音频质量)。

在本申请实施例中，可以通过端到端地实现语音转换；在端到端的语音转换过程中，可以提取源语音的源语音语义和源基频变化趋势，然后结合特定的特定者音色得到包括特定者音色的转换语音。参见图11，图11是本申请实施例提供的一种示例性的语音转换过程；如图11所示，在基于训练好的语音转换模型7-1进行实际应用时，一方面，对源语音11-1(称为待处理语音)进行信息扰动，得到扰动波形11-21(称为待提取语义语音)，从而利用训练好的内容编码器7-11能够从扰动波形11-21中提取到源语音语义11-22(称为语音语义信息)；另一方面，利用训练好的说话者编码器7-13从源语音11-1中获取源基频变化趋势11-23(称为待处理基频变化信息)，并利用训练好的基频编码器7-12对源基频变化趋势11-23和特定者基频范围11-24(称为指定基频范围)进行处理，得到目标基频11-25(称为目标基频信息)；此时，利用训练好的生成器7-14来将源语音语义11-22、目标基频11-25、特定者音色11-26(称为指定音色信息)和能量11-27(称为指定能量)合成转换语音11-3(称为目标语音)。

可以理解的是，利用多个扰动函数去除源语音中与源说话者相关的信息，来提取语义相关的信息，以将音色和语音内容分开，解决了音色从源语音中泄漏的问题。另外，通过保持源说话者的基频变化趋势的同时灵活地修改生成源语音的基频强度，使得源说话者的韵律转换到了转换语音中，能够保持源说话者的说话风格，提升了转换语音的韵律自然度。并且，本申请实施例能够转换语音中的音色、语音内容和基频等不同属性，从而获得可控的合成语音，能够提升语音转换的灵活度。此外，通过端到端的方式直接对语音样点进行建模，能够提升发音的稳定性、简化语音转换的流程、以及提升语音的音质。

下面继续说明本申请实施例提供的语音处理装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的语音处理装置455中的软件模块可以包括：

信息扰动模块4551，用于对目标对象的待处理语音进行信息扰动，得到待提取语义语音，其中，所述信息扰动用于对所述待处理语音中与语义内容无关的信息进行扰动；

语义提取模块4552，用于从所述待提取语义语音中，提取语音语义信息，其中，所述语音语义信息表示所述待处理语音中的语义内容；

语音转换模块4553，用于基于所述语音语义信息与指定音色信息的结合结果，得到目标语音，其中，所述指定音色信息表示指定对象的音色信息，所述目标语音表示由所述目标对象向所述指定对象进行语音转换得到的语音。

在本申请实施例中，当所述信息扰动包括共振峰扰动时，所述信息扰动模块4551，还用于对所述目标对象的所述待处理语音中的目标共振峰进行多次所述共振峰扰动，得到多种共振峰扰动语音，其中，每次所述共振峰扰动对应一种所述共振峰扰动语音，所述目标共振峰表示所述待处理语音中的声道信息；将所述多种共振峰扰动语音，确定为所述待提取语义语音。

在本申请实施例中，当所述信息扰动包括基频扰动时，所述信息扰动模块4551，还用于对所述目标对象的所述待处理语音中的目标基频进行多次所述基频扰动，得到多种基频扰动语音，其中，每次所述基频扰动对应一种所述基频扰动语音，所述目标基频表示所述待处理语音中的声调信息；将所述多种基频扰动语音，确定为所述待提取语义语音。

在本申请实施例中，当所述信息扰动包括频率扰动时，所述信息扰动模块4551，还用于对所述目标对象的所述待处理语音中的目标频率进行频率扰动，得到多种频率扰动语音；其中，所述目标频率表示所述待处理语音中的音质信息，所述频率扰动包括第一搁置频率扰动、峰值频率扰动和第二搁置频率扰动中的至少一种，所述第一搁置频率扰动对应的频率低于所述第二搁置频率扰动对应的频率，每次所述频率扰动对应一种所述频率扰动语音；将所述多种频率扰动语音，确定为所述待提取语义语音。

在本申请实施例中，所述语音转换模块4553，用于获取所述待处理语音中的待处理基频变化信息；从所述指定音色信息中，获取所述指定对象对应的指定基频范围；将所述待处理基频变化信息对应至所述指定基频范围中，得到目标基频信息；基于所述语音语义信息与所述指定音色信息的结合结果、以及所述目标基频信息，生成所述目标语音。

在本申请实施例中，所述语音转换模块4553，还用于对所述待处理基频变化信息进行归一化，得到目标基频变化信息；基于所述指定基频范围，对所述目标基频变化信息进行反归一化，得到所述待处理基频变化信息对应于所述指定基频范围的所述目标基频信息。

在本申请实施例中，所述目标语音通过语音转换模型实现，所述语音处理装置455还包括模型训练模块4554，用于获取语音样本，所述语音样本用于训练待训练语音转换模型，所述待训练语音转换模型为待训练的用于进行语音转换的网络模型；基于所述待训练语音转换模型对所述语音样本进行信息扰动，得到信息扰动语音样本，并从所述信息扰动语音样本中提取语音语义样本，以及基于所述语音语义样本与所述语音样本对应的音色样本的结合结果，确定预测语音；基于所述语音样本与所述预测语音之间的损失，训练所述待训练语音转换模型，得到所述语音转换模型。

在本申请实施例中，所述模型训练模块4554，还用于获取所述语音样本与所述预测语音之间的生成损失；获取所述语音样本与所述预测语音之间的判别损失；将所述生成损失和所述判别损失，组合为所述语音样本与所述预测语音之间的损失。

在本申请实施例中，所述模型训练模块4554，还用于基于所述语音样本与所述预测语音之间的语音差异，确定初始生成损失；基于所述语音样本与所述预测语音之间的特征差异，确定特征匹配损失；基于所述语音样本与所述预测语音之间的频域差异，确定多分辨率频域损失；将所述初始生成损失、所述特征匹配损失和所述多分辨率频域损失，组合为所述生成损失。

在本申请实施例中，所述模型训练模块4554，还用于基于所述语音样本与所述预测语音之间的周期性差异，确定周期损失；基于所述语音样本与所述预测语音之间的多尺度差异，确定多尺度损失；基于所述语音样本与所述预测语音之间的频谱差异，得到频谱损失；将所述周期损失、所述多尺度损失和所述频谱损失，组合为所述判别损失。

在本申请实施例中，所述语音处理装置455还包括语音采集模块4555，用于显示语音输入控件，其中，所述语音输入控件用于触发语音的采集；响应于对所述语音输入控件的语音输入操作，采集至少一个所述待处理语音。

在本申请实施例中，所述语音处理装置455还包括语音播放模块4556，用于当至少一个所述待处理语音为一个所述待处理语音时，播放所述目标语音；当至少一个所述待处理语音为多个所述待处理语音时，拼接多个所述待处理语音对应的多个所述目标语音，得到待播放语音，并播放所述待播放语音。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备(称为语音处理设备)的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的语音处理方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的语音处理方法，例如，如图3示出的语音处理方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算机设备上执行(此时，这一个计算机设备即语音处理设备)，或者在位于一个地点的多个计算机设备上执行(此时，位于一个地点的多个计算机设备即语音处理设备)，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行(此时，分布在多个地点且通过通信网络互连的多个计算机设备即语音处理设备)。

可以理解的是，在本申请实施例中，涉及到语音等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

综上所述，本申请实施例通过对目标对象的待处理语音进行信息扰动，使得待处理语音中与待处理语音的语音内容无关的信息转化为了噪声信息，从而能够从待处理语音中准确地提取到语音语义信息；进而，通过将语音语义信息与指定对象对应的指定音色信息结合，就能够准确地实现由目标对象向指定对象的语音转换；所以，能够提升语音转换的准确度和质量。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

对目标对象的待处理语音进行信息扰动，得到待提取语义语音，其中，所述信息扰动用于对所述待处理语音中与语义内容无关的信息进行扰动，且包括共振峰扰动、基频扰动和频率扰动中的至少一种；

其中，当所述信息扰动包括所述共振峰扰动时，所述对目标对象的待处理语音进行信息扰动，得到待提取语义语音，包括：

对所述目标对象的所述待处理语音中的目标共振峰进行多次所述共振峰扰动，得到多种共振峰扰动语音，其中，每次所述共振峰扰动对应一种所述共振峰扰动语音，所述目标共振峰表示所述待处理语音中的声道信息；

将所述多种共振峰扰动语音，确定为所述待提取语义语音；

2.根据权利要求1所述的方法，其特征在于，所述共振峰扰动用于对所述待处理语音中的声道信息进行扰动，所述基频扰动用于对所述待处理语音中的声调信息进行扰动，所述频率扰动用于对所述待处理语音中的音质信息进行扰动。

3.根据权利要求1所述的方法，其特征在于，当所述信息扰动包括所述基频扰动时，所述对目标对象的待处理语音进行信息扰动，得到待提取语义语音，还包括：

对所述目标对象的所述待处理语音中的目标基频进行多次所述基频扰动，得到多种基频扰动语音，其中，每次所述基频扰动对应一种所述基频扰动语音，所述目标基频表示所述待处理语音中的声调信息；

将所述多种基频扰动语音，确定为所述待提取语义语音。

4.根据权利要求1所述的方法，其特征在于，当所述信息扰动包括所述频率扰动时，所述对目标对象的待处理语音进行信息扰动，得到待提取语义语音，还包括：

对所述目标对象的所述待处理语音中的目标频率进行频率扰动，得到多种频率扰动语音；

其中，所述目标频率表示所述待处理语音中的音质信息，所述频率扰动包括第一搁置频率扰动、峰值频率扰动和第二搁置频率扰动中的至少一种，所述第一搁置频率扰动对应的频率低于所述第二搁置频率扰动对应的频率，每次所述频率扰动对应一种所述频率扰动语音；

将所述多种频率扰动语音，确定为所述待提取语义语音。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述基于所述语音语义信息与指定音色信息的结合结果，得到目标语音，包括：

获取所述待处理语音中的待处理基频变化信息；

从所述指定音色信息中，获取所述指定对象对应的指定基频范围；

将所述待处理基频变化信息对应至所述指定基频范围中，得到目标基频信息；

基于所述语音语义信息与所述指定音色信息的结合结果、以及所述目标基频信息，生成所述目标语音。

6.根据权利要求5所述的方法，其特征在于，所述将所述待处理基频变化信息对应至所述指定基频范围中，得到目标基频信息，包括：

对所述待处理基频变化信息进行归一化，得到目标基频变化信息；

基于所述指定基频范围，对所述目标基频变化信息进行反归一化，得到所述待处理基频变化信息对应于所述指定基频范围的所述目标基频信息。

7.根据权利要求1至4任一项所述的方法，其特征在于，所述目标语音通过语音转换模型实现，其中，所述语音转换模型通过以下步骤训练获得：

获取语音样本，所述语音样本用于训练待训练语音转换模型，所述待训练语音转换模型为待训练的用于进行语音转换的网络模型；

基于所述待训练语音转换模型对所述语音样本进行信息扰动，得到信息扰动语音样本，并从所述信息扰动语音样本中提取语音语义样本，以及基于所述语音语义样本与所述语音样本对应的音色样本的结合结果，确定预测语音；

基于所述语音样本与所述预测语音之间的损失，训练所述待训练语音转换模型，得到所述语音转换模型。

8.根据权利要求7所述的方法，其特征在于，所述基于所述语音样本与所述预测语音之间的损失，训练所述待训练语音转换模型，得到所述语音转换模型之前，所述方法还包括：

获取所述语音样本与所述预测语音之间的生成损失；

获取所述语音样本与所述预测语音之间的判别损失；

将所述生成损失和所述判别损失，组合为所述语音样本与所述预测语音之间的损失。

9.根据权利要求8所述的方法，其特征在于，所述获取所述语音样本与所述预测语音之间的生成损失，包括：

基于所述语音样本与所述预测语音之间的语音差异，确定初始生成损失；

基于所述语音样本与所述预测语音之间的特征差异，确定特征匹配损失；

基于所述语音样本与所述预测语音之间的频域差异，确定多分辨率频域损失；

将所述初始生成损失、所述特征匹配损失和所述多分辨率频域损失，组合为所述生成损失。

10.根据权利要求8所述的方法，其特征在于，所述获取所述语音样本与所述预测语音之间的判别损失，包括：

基于所述语音样本与所述预测语音之间的周期性差异，确定周期损失；

基于所述语音样本与所述预测语音之间的多尺度差异，确定多尺度损失；

基于所述语音样本与所述预测语音之间的频谱差异，得到频谱损失；

将所述周期损失、所述多尺度损失和所述频谱损失，组合为所述判别损失。

11.根据权利要求1至4任一项所述的方法，其特征在于，所述对目标对象的待处理语音进行信息扰动，得到待提取语义语音之前，所述方法还包括：

显示语音输入控件，其中，所述语音输入控件用于触发语音的采集；

响应于对所述语音输入控件的语音输入操作，采集至少一个所述待处理语音；

所述基于所述语音语义信息与指定音色信息的结合结果，得到目标语音之后，所述方法还包括：

当至少一个所述待处理语音为一个所述待处理语音时，播放所述目标语音；

当至少一个所述待处理语音为多个所述待处理语音时，拼接多个所述待处理语音对应的多个所述目标语音，得到待播放语音，并播放所述待播放语音。

12.一种语音处理装置，其特征在于，所述装置包括：

信息扰动模块，用于对目标对象的待处理语音进行信息扰动，得到待提取语义语音，其中，所述信息扰动用于对所述待处理语音中与语义内容无关的信息进行扰动，且包括共振峰扰动、基频扰动和频率扰动中的至少一种；其中，当所述信息扰动包括所述共振峰扰动时，所述对目标对象的待处理语音进行信息扰动，得到待提取语义语音，包括：对所述目标对象的所述待处理语音中的目标共振峰进行多次所述共振峰扰动，得到多种共振峰扰动语音，其中，每次所述共振峰扰动对应一种所述共振峰扰动语音，所述目标共振峰表示所述待处理语音中的声道信息；将所述多种共振峰扰动语音，确定为所述待提取语义语音；

13.一种语音处理设备，其特征在于，所述语音处理设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至11任一项所述的语音处理方法。

14.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令用于被处理器执行时，实现权利要求1至11任一项所述的语音处理方法。

15.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时，实现权利要求1至11任一项所述的语音处理方法。