CN111383646B

CN111383646B - 一种语音信号变换方法、装置、设备和存储介质

Info

Publication number: CN111383646B
Application number: CN201811628761.6A
Authority: CN
Inventors: 吴晓婕
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2020-12-08
Anticipated expiration: 2038-12-28
Also published as: CN111383646A; EP3905243A1; RU2770747C1; SG11202106539QA; US20220051685A1; EP3905243A4; WO2020134851A1

Abstract

本发明公开了一种语音信号变换方法、装置、设备和存储介质。其中，该方法包括：分别对原始语音信号和由原始语音信号变调得到的初始目标语音信号分段后进行傅里叶变换，得到分段原始频域信号和分段目标频域信号；通过原始分段窗函数对分段原始频域信号滤波，得到对应的原始共振峰包络，以及，通过目标分段窗函数对分段目标频域信号滤波，得到对应的目标共振峰包络；根据分段目标频域信号、原始共振峰包络和目标共振峰包络，确定变调语音信号。本发明实施例提供的技术方案，消除目标共振峰包络对变调的影响，使得变调前后具备相同的共振峰包络，从而保证变调前后的语音信号中声音特征的一致性，提高变调语音信号的语音质量。

Description

一种语音信号变换方法、装置、设备和存储介质

技术领域

本发明实施例涉及语音识别技术领域，尤其涉及一种语音信号变换方法、装置、设备和存储介质。

背景技术

随着互联网技术的快速发展，一种通过声音变调算法(Pitch Shift)对原始语音进行音调变化的娱乐软件开始广泛的应用到人们的日常生活中，通过播放变调后的语音为用户提供一种新型的娱乐放松方式，如对某一歌唱家的原始录音进行修音时，会对存在瑕疵的声音进行变调，使得歌曲更加完美。

在通过声音变调算法处理原始语音时，虽然达到了调节音调的目的，但是可能会使该语音用户的声音特征发生改变，使得播放的语音与该语音用户的实际声音存在较大的差别，如将一个男音信号调高4个半音时，会导致听起来像一个女生的声音，存在一定的声音误差。

目前通常采用固定长度的窗函数，直接对变调前后的语音信号的共振峰包络进行处理，由于不同语音信号中的共振峰位置和变化情况也相应不同，此时会使得求取的共振峰包络存在一定误差，导致最终得到的语音信号质量较差。

发明内容

本发明实施例提供了一种语音信号变换方法、装置、设备和存储介质，在对原始语音信号进行变调的基础上，保证变调前后的语音信号中声音特征的一致性，提高变调语音信号的质量。

第一方面，本发明实施例提供了一种语音信号变换方法，该方法包括：

分别对原始语音信号和由原始语音信号变调得到的初始目标语音信号分段后进行傅里叶变换，得到分段原始频域信号和分段目标频域信号；

通过原始分段窗函数对分段原始频域信号滤波，得到对应的原始共振峰包络，以及，通过目标分段窗函数对分段目标频域信号滤波，得到对应的目标共振峰包络，所述原始分段窗函数根据所述分段原始频域信号的基频和分段比例确定，所述目标分段窗函数根据所述分段目标频域信号的基频和分段比例确定；

根据分段目标频域信号、原始共振峰包络和目标共振峰包络，确定变调语音信号。

进一步的，所述语音信号变换方法，还包括：

获取变调幅度；

根据所述变调幅度对所述原始语音信号变调，得到初始目标语音信号。

进一步的，所述分段目标频域信号的基频为所述分段原始频域信号的基频与所述变调幅度的乘积。

进一步的，在通过原始分段窗函数对分段原始频域信号滤波之前，还包括：

如果当前分段原始频域信号中携带基频，则携带的基频作为当前分段原始频域信号的基频；

如果当前分段原始频域信号中未携带基频，则根据前一分段原始频域信号的基频和后一分段原始频域信号的基频，确定当前分段原始频域信号的基频。

进一步的，所述根据前一分段原始频域信号的基频和后一分段原始频域信号的基频，确定当前分段原始频域信号的基频，包括：

通过插值算法计算前一分段原始频域信号的基频和后一分段原始频域信号的基频，得到当前分段原始频域信号的基频。

进一步的，在通过原始分段窗函数对分段原始频域信号滤波，得到对应的原始共振峰包络之前，还包括：

根据分段原始频域信号的基频和分段比例，得到对应的原始窗长度；

根据所述原始窗长度和预设窗类型，构建对应的原始分段窗函数。

进一步的，在通过目标分段窗函数对分段目标频域信号滤波，得到对应的目标共振峰包络之前，还包括：

根据分段目标频域信号的基频和分段比例，得到对应的目标窗长度；

根据所述目标窗长度和预设窗类型，构建对应的目标分段窗函数。

进一步的，分别对原始语音信号和由原始语音信号变调得到的初始目标语音信号分段后进行傅里叶变换，得到分段原始频域信号和分段目标频域信号，包括：

根据预设分段长度和分段位移对原始语音信号和初始目标语音信号进行分段，得到分段原始语音信号和分段目标语音信号；

分别对分段原始语音信号和分段目标语音信号进行傅里叶变换，得到分段原始频域信号和分段目标频域信号。

进一步的，根据分段目标频域信号、原始共振峰包络和目标共振峰包络，确定变调语音信号，包括：

针对单个分段目标频域信号，根据对应的原始共振峰包络和目标共振峰包络，确定所述分段目标频域信号对应的变调比值；

根据所述分段目标频域信号和所述变调比值，确定对应的分段变调频域信号；

对所述分段变调频域信号进行傅里叶逆变换，得到分段变调语音信号；

根据各分段变调语音信号、预设分段长度和分段位移，确定变调语音信号。

第二方面，本发明实施例提供了一种语音信号变换转置，该装置包括：

分段变换模块，用于分别对原始语音信号和由原始语音信号变调得到的初始目标语音信号分段后进行傅里叶变换，得到分段原始频域信号和分段目标频域信号；

包络确定模块，用于通过原始分段窗函数对分段原始频域信号滤波，得到对应的原始共振峰包络，以及，通过目标分段窗函数对分段目标频域信号滤波，得到对应的目标共振峰包络，所述原始分段窗函数根据所述分段原始频域信号的基频和分段比例确定，所述目标分段窗函数根据所述分段目标频域信号的基频和分段比例确定；

变调语音确定模块，用于根据分段目标频域信号、原始共振峰包络和目标共振峰包络，确定变调语音信号。

进一步的，所述语音信号变换转置，还包括：

语音信号变调模块，用于获取变调幅度；根据所述变调幅度对所述原始语音信号变调，得到初始目标语音信号。

进一步的，所述语音信号变换装置，还包括：

基频确定模块，用于如果当前分段原始频域信号中携带基频，则携带的基频作为当前分段原始频域信号的基频；如果当前分段原始频域信号中未携带基频，则根据前一分段原始频域信号的基频和后一分段原始频域信号的基频，确定当前分段原始频域信号的基频。

进一步的，所述基频确定模块，具体用于：

进一步的，所述语音信号变换装置，还包括：

原始窗确定模块，用于根据分段原始频域信号的基频和分段比例，得到对应的原始窗长度；根据所述原始窗长度和预设窗类型，构建对应的原始分段窗函数。

进一步的，所述语音信号变换装置，还包括：

目标窗确定模块，用于根据分段目标频域信号的基频和分段比例，得到对应的目标窗长度；根据所述目标窗长度和预设窗类型，构建对应的目标分段窗函数。

进一步的，所述分段变换模块，包括：

语音信号分段单元，用于根据预设分段长度和分段位移对原始语音信号和初始目标语音信号进行分段，得到分段原始语音信号和分段目标语音信号；

傅里叶变换单元，用于分别对分段原始语音信号和分段目标语音信号进行傅里叶变换，得到分段原始频域信号和分段目标频域信号。

进一步的，所述变调语音确定模块，包括：

变调比值确定单元，用于针对单个分段目标频域信号，根据对应的原始共振峰包络和目标共振峰包络，确定所述分段目标频域信号对应的变调比值；

分段变调频域确定单元，用于根据所述分段目标频域信号和所述变调比值，确定对应的分段变调频域信号；

分段变调语音确定单元，用于对所述分段变调频域信号进行傅里叶逆变换，得到分段变调语音信号；

变调语音确定单元，用于根据各分段变调语音信号、预设分段长度和分段位移，确定变调语音信号。

第三方面，本发明实施例提供了一种设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的语音信号变换方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的语音信号变换方法。

本发明实施例提供的一种语音信号变换方法、装置、设备和存储介质，通过对原始语音信号以及对原始语音信号变调后的初始目标语音信号分段进行傅里叶变换，得到分段原始频域信号和分段目标频域信号，并根据分段原始频域信号的基频和分段比例确定原始分段窗函数，根据分段目标频域信号的基频和分段比例确定目标分段窗函数，此时不同的分段信号可以对应不同的分段窗函数，后续根据对应的原始分段窗函数和目标分段窗函数分别对分段原始频域信号和分段目标频域信号滤波，得到对应的原始共振峰包络和目标共振峰包络，降低变调前后的共振峰包络的获取误差，从而根据分段目标频域信号以及变调前后的共振峰包络，确定最终的变调语音信号，消除目标共振峰包络对变调的影响，使得变调前后具备相同的共振峰包络，从而保证变调前后的语音信号中声音特征的一致性，提高变调语音信号的语音质量。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1A为本发明实施例一提供的一种语音信号变换方法的流程图；

图1B为本发明实施例一提供的语音信号变换过程的原理示意图；

图2为本发明实施例二提供的方法中基频检测和窗函数构建过程的原始示意图；

图3为本发明实施例三提供的语音信号变换过程的原理示意图；

图4为本发明实施例四提供的一种语音信号变换装置的结构示意图；

图5为本发明实施例五提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

为了在对语音信号变调的基础上，保证变调前后的语音信号中声音特征的一致性，由于共振峰反映了语音信号在频域中的能量分布，决定了语音音质，也就是声音特征，因此本发明实施例主要针对变调前后的语音信号中共振峰包络的一致性进行处理，采用共振峰包络保持算法消除变调后的目标共振峰包络对变调的影响，使得变调前后具备相同的共振峰包络，提高变调语音信号的语音质量。

实施例一

图1A为本发明实施例一提供的一种语音信号变换方法的流程图。本实施例可应用于任一种能够对语音信号进行变调的设备中。本发明实施例中的技术方案可适用于如何实现变调前后的语音信号中声音特征的一致性的情况中。本实施例提供的一种语音信号变换方法可以由本发明实施例提供的语音信号变换装置来执行，该装置可以通过软件和/或硬件的方式来实现，并集成在执行本方法的设备中，该设备可以是配置有任一种能够对语音信号进行变调的应用程序的智能终端，如智能手机、平板和掌上电脑等。

具体的，参考图1A，该方法可以包括如下步骤：

S110，获取原始语音信号。

其中，原始语音信号是指通过语音采集器采集的语音用户初始录入的，未经过任何处理的语音信号，该原始语音信号以离散信号的形式被编码，其中包括大量语音采样点。

具体的，本实施例在需要对语音信号变调时，首先需要获取通过语音采集器采集的由语音用户初始录入的原始语音信号，后续对该原始语音信号进行变调。

S120，对原始语音信号变调，得到初始目标语音信号。

其中，变调是指对语音信号中的音调进行调节，也就是调节语音信号中的主要频率，如对某一歌唱者的原始录音中含有的一些有瑕疵的声音进行修音，也就是对语音信号进行变调。

具体的，本实施例中在得到原始语音信号，且对该原始语音信号存在变调需求时，可以通过确定具体的变调需求，并根据该变调需求在相应的语音变调软件中设定对应的变调参数，通过设定的变调参数和声音变调算法对原始语音信号进行变调，从而得到初始目标语音信号，此时由于变调时会破坏原始语音信号中的声音特征，因此初始目标语音信号中的声音特征相对于原始语音信号中的声音特征发生了改变，并不能直接输出，还需要对改变的声音特征进行还原，以保证变调后的语音信号在播放时，能够使其他用户明确该变调后的语音信号由哪一语音用户录入。

可选的，本实施例中对原始语音信号变调，得到初始目标语音信号，可以具体包括：获取变调幅度；根据变调幅度对原始语音信号变调，得到初始目标语音信号。

具体的，本实施例中可以通过声音变调(Pitch Shift)算法来处理原始语音信号，此时预先确定本次变调对应的变调幅度，从而在声音变调算法中设定该变调幅度，依据该变调幅度对原始语音信号进行变调，得到初始目标语音信号。

S130，分别对原始语音信号和初始目标语音信号分段后进行傅里叶变换，得到分段原始频域信号和分段目标频域信号。

其中，傅里叶变换是将时域信号转换为频域信号的一种变换方式，对于时域中无法明确得到的一类信息，可以转换到频域中来进行分析。

具体的，由于原始语音信号是由语音用户发出的一段时间内包含有不同频率信息的语音信号，此时若直接对整个原始语音信号进行傅里叶变换，对应得到的频域信号是针对整个时域的全部语音信息来确定的单个频率对应的频谱，此时不能反映局部时域内对应的频率特征，无法分析出不同时间段内的频域信息，因此本实施例中采用短时傅里叶变换分别对原始语音信号和初始目标语音信号进行处理，从而得到不同时间段内原始语音信号和初始目标语音信号对应的频域信息。短时傅里叶变换是指通过指定的时间窗内的一段语音信号对应的频域信号来表示某一时刻的频域特征。

可选的，本实施例在得到原始语音信号和初始目标语音信号后，为了对语音信号在某一时刻的频域信息进行准确分析，如图1B所示，首先可以分别对原始语音信号和初始目标语音信号进行分段，后续可以对处于同一时间分段内的原始语音信号和初始目标语音信号分别进行分析，对每一分段后的原始语音信号和初始目标语音信号均进行傅里叶变换，从而得到各个分段内的分段原始频域信号和分段目标频域信号。同时，由于采用同一分段方式对原始语音信号和初始目标语音信号进行分段，因此分段后进行傅里叶变换得到的分段原始频域信号和分段目标频域信号也是在各个分段内一一对应的。

S140，通过原始分段窗函数对分段原始频域信号滤波，得到对应的原始共振峰包络，以及，通过目标分段窗函数对分段目标频域信号滤波，得到对应的目标共振峰包络。

其中，原始分段窗函数根据分段原始频域信号的基频和分段比例确定，目标分段窗函数根据分段目标频域信号的基频和分段比例确定。具体的，原始分段窗函数和目标分段窗函数是一种自适应变长的窗函数，针对各个分段内的分段原始频域信号和分段目标频域信号的基频不同，得到的各个分段内的原始分段窗函数和目标分段窗函数的长度也不同。由于不同分段语音信号中频率变化情况也相应不同，此时采用固定长度的窗函数进行分析会造成一定的误差，本实施例中采用自适应变长的窗函数分别对不同分段内变调前后的语音信号进行处理，可以降低处理误差。同时，基频是指分段原始语音信号或者分段目标语音信号中所包含的基础频率，可以在分段原始频域信号或者分段目标频域信号中体现；分段比例是指对原始语音信号和目标语音信号进行分段时，每一分段内的语音信号的时长与整个语音信号的时长的比例，表示语音信号的分段程度。

进一步的，共振峰是指频域信号中声音能量相对集中的区域，决定声音的音质，可以通过信号的共振峰判断该语音信号是由哪一语音用户发出的；共振峰包络是指频域信号中将不同频率对应的振幅最高点连接围成的频域范围，能够表示语音用户的在当前分段的声音特征。

同时，为了提高信号处理速率，在确定分段原始频域信号的音频时，由于信号变调就是对信号频率进行调节，此时某一分段内的分段目标频域信号的音频可以直接由该分段内的分段原始频域信号的音频和变调幅度确定，而无需重新检测各个分段目标频域信号的基频，减少额外的检测操作，提高信号处理速率。

具体的，在得到分段原始频域信号和分段目标频域信号时，可以首先检测每一个分段原始频域信号的音频，根据该分段原始频域信号的音频与分段比例确定对应的原始分段窗函数，该原始分段窗函数仅对对应分段内的分段原始频域信号进行处理，而不对其他分段原始频域信号进行处理；不同的分段原始频域信号根据该分段原始频域信号的音频不同，对应有不同的原始分段窗函数；对于分段目标频域信号，采用相同的方式，通过各个分段目标频域信号的音频和分段比例，确定各分段目标频域信号对应的目标分段窗函数。

可选的，通过每一分段原始频域信号对应的原始分段窗函数分别对各分段原始频域信号进行滤波，从而得到各分段原始频域信号对应的原始共振峰包络；同时，通过每一分段目标频域信号对应的目标分段窗函数分别对各分段目标频域信号进行滤波，从而得到各分段目标频域信号对应的目标共振峰包络；原始共振峰包络和目标共振峰包络的数量与分段数量对应。

此外，本实施例中的窗函数在对频域信号滤波时，可以将窗函数理解为不同形式上的低通滤波器，而所使用窗函数的自适应变长可以使对应的低通滤波性能按频域信号的特性变化而变化。

S150，根据分段目标频域信号、原始共振峰包络和目标共振峰包络，确定变调语音信号。

其中，变调语音信号为对原始语音信号变调后，已经消除了变调时对声音特征产生的影响而最终可以输出与原始语音信号中的声音特征保持一致的语音信号。

具体的，在得到通过原始分段窗函数和目标分段窗函数分别对分段原始频域信号和分段目标频域信号进行滤波，得到各对应分段内的原始共振峰包络和目标共振峰包络后，为了保证变调前后的语音信号中声音特征的一致性，需要消除变调后的各分段目标频域信号生成的目标共振峰的影响，此时通过确定各个分段内的原始共振峰包络和目标共振峰包络的比值，来表示变调前的分段原始频域信号和变调后的分段目标频域信号中声音特征的变化情况，根据该分段内的分段目标频域信号和该比值，确定最终对应的该分段内的分段频域信号，后续根据各个分段内分段目标频域信号和该分段内的比值，确定最终对应的各个分段内的分段频域信号，由各个分段频域信号得到最终的变调频域信号，进而确定最终的变调语音信号。

本实施例提供的技术方案，通过对原始语音信号以及对原始语音信号变调后的初始目标语音信号分段进行傅里叶变换，得到分段原始频域信号和分段目标频域信号，并根据分段原始频域信号的基频和分段比例确定原始分段窗函数，根据分段目标频域信号的基频和分段比例确定目标分段窗函数，此时不同的分段信号可以对应不同的分段窗函数，后续根据对应的原始分段窗函数和目标分段窗函数分别对分段原始频域信号和分段目标频域信号滤波，得到对应的原始共振峰包络和目标共振峰包络，降低变调前后的共振峰包络的获取误差，从而根据分段目标频域信号以及变调前后的共振峰包络，确定最终的变调语音信号，消除目标共振峰包络对变调的影响，使得变调前后具备相同的共振峰包络，从而保证变调前后的语音信号中声音特征的一致性，提高变调语音信号的语音质量。

实施例二

图2为本发明实施例二提供的方法中基频检测和窗函数构建过程的原始示意图。本实施例是在上述实施例的基础上进行优化。具体的，本实施例中主要对原始语音信号分段后进行傅里叶变换得到的各个分段原始频域信号的基频的检测过程，以及各个分段原始频域信号对应的原始分段窗函数和分段目标频域信号对应的目标分段窗函数的具体构建过程进行详细的解释说明。

可选的，本实施例中的方法具体可以包括如下步骤：

S201，获取原始语音信号。

S202，对原始语音信号变调，得到初始目标语音信号。

S203，分别对原始语音信号和初始目标语音信号分段后进行傅里叶变换，得到分段原始频域信号和分段目标频域信号。

S204，判断当前分段原始频域信号中是否携带基频，若是，执行S205；若否，执行S206。

可选的，由于后续需要通过窗函数对分段原始频域信号和分段目标频域信号滤波，从而判断对应的共振峰包络，本实施例中为了提高变调前后不同分段内频域信号的共振峰包络准确性，需要通过自适应变长的窗函数对不同频域信号滤波，此时可以根据不同频域信号的基频和分段比例，确定各个频域信号对应采用的窗函数，因此本实施例中首选需要检测分段原始频域信号的基频，从而判断各个分段原始频域信号中是否携带基频。本实施例中为了后续对基频检测结果的有效性分析，可以对当前分段原始频域信号中是否携带基频的判断结果进行标记，若当前分段原始频域信号中携带基频，则标记该基频的实际结果，若当前分段原始频域信号中未携带基频，则采用预设标志来标记当前分段原始频域信号，从而在后续明确得到未携带基频的分段原始频域信号。

S205，携带的基频作为当前分段原始频域信号的基频。

可选的，如果当前分段原始频域信号中携带基频，则直接将该携带的基频作为当前分段原始频域信号的基频。

S206，根据前一分段原始频域信号的基频和后一分段原始频域信号的基频，确定当前分段原始频域信号的基频。

可选的，由于原始语音信号中存在轻音部分或者信号比较微弱而导致基频检测失败的情况，因此在对原始语音信号分段进行傅里叶变换后，该轻音部分或者信号微弱部分对应的分段原始频域信号中可能存在未携带基频的情况，本实施例中如果当前分段原始频域信号中未携带基频，为了使基频检测结果平滑，则根据前一分段原始频域信号的基频和后一分段原始频域信号的基频，来确定当前分段原始频域信号的基频。

可选的，本实施例中根据前一分段原始频域信号的基频和后一分段原始频域信号的基频，确定当前分段原始频域信号的基频，具体可以包括：通过插值算法计算前一分段原始频域信号的基频和后一分段原始频域信号的基频，得到当前分段原始频域信号的基频。

具体的，本实施例中可以采用插值算法对当前分段原始频域信号的前一分段原始频域信号的基频和后一分段原始频域信号的基频进行计算，从而得到当前分段原始频域信号的基频。

S207，根据当前分段原始频域信号的基频与变调幅度的乘积，确定当前分段目标频域信号的基频。

S208，根据分段原始频域信号的基频和分段比例，得到对应的原始窗长度；根据原始窗长度和预设窗类型，构建对应的原始分段窗函数。

可选的，本实施例在得到各个分段原始频域信号的基频后，可以根据各个分段原始频域信号的基频和分段比例，确定各个分段内所采用的窗函数的原始窗长度。示例性的，可以通过下述方式确定原始窗长度：Ln_s＝Pn*N/Fs；其中，Ln_s为原始窗长度，Pn为分段原始频域信号的基频，N为分段长度，也就是每个分段内的采样点数量，Fs为原始语音信号的采样率，一般为48kHz。

进一步的，预设窗类型是指窗函数的不同类型，可以为三角窗、矩形窗或者汉宁窗等，本实施例中对此不作限定。根据各个分段原始频域信号对应的原始窗长度和预设窗类型，可以构建各个分段原始频域信号对应的原始分段窗函数，后续通过各个原始分段窗函数对对应的分段原始频域信号进行滤波。

S209，根据分段目标频域信号的基频和分段比例，得到对应的目标窗长度；根据目标窗长度和预设窗类型，构建对应的目标分段窗函数。

可选的，本实施例在根据各个分段原始频域信号的基频和变调幅度得到各个分段目标频域信号的基频后，可以根据各个分段目标频域信号的基频和分段比例，确定各个分段内所采用的窗函数的目标窗长度。示例性的，可以通过下述方式确定目标窗长度：Ln_s＝Pn*Ratio*N/Fs；其中，Ln_s为原始窗长度，Pn为分段原始频域信号的基频，Ratio为变调幅度，N为分段长度，也就是每个分段内的采样点数量，Fs为初始目标语音信号的采样率，一般为48kHz。

进一步的，根据各个分段目标频域信号对应的目标窗长度和预设窗类型，可以构建各个分段目标频域信号对应的目标分段窗函数，后续通过各个目标分段窗函数对对应的分段目标频域信号进行滤波。

需要说明的是，S208和S209的执行顺序没有先后之分，也可以同时执行，本实施例中对此不作限定。

S210，通过原始分段窗函数对分段原始频域信号滤波，得到对应的原始共振峰包络，以及，通过目标分段窗函数对分段目标频域信号滤波，得到对应的目标共振峰包络。

S211根据分段目标频域信号、原始共振峰包络和目标共振峰包络，确定变调语音信号。

本实施例提供的技术方案，通过对分段原始频域信号和分段目标频域信号的基频进行确定，根据各个分段内的分段原始频域信号和分段目标频域信号的基频和分段比例确定各个分段内对应的原始窗长度和目标窗长度，构建自适应变长的窗函数分别对分段原始频域信号和分段目标频域信号滤波，得到对应的原始共振峰包络和目标共振峰包络，降低变调前后的共振峰包络的获取误差，从而根据变调前后的共振峰包络，消除目标共振峰包络对变调的影响，使得变调前后具备相同的共振峰包络，进而保证变调前后的语音信号中声音特征的一致性，提高变调语音信号的语音质量。

实施例三

图3为本发明实施例三提供的语音信号变换过程的原理示意图。本实施例是在上述实施例的基础上进行优化。具体的，本实施例主要对语音信号分段进行傅里叶变换的具体过程，以及变调语音信号的确定过程进行详细的解释说明。

可选的，本实施例中具体可以包括如下步骤：

S310，获取原始语音信号。

S320，对原始语音信号变调，得到初始目标语音信号。

S330，根据预设分段长度和分段位移对原始语音信号和初始目标语音信号进行分段，得到分段原始语音信号和分段目标语音信号。

可选的，本实施例在对原始语音信号和初始目标语音信号分段时，首先需要确定本次分段对应的预设分段长度和分段位移，预设分段长度表示每一分段内语音信号中应包含的采样点数量，一般为2ⁿ，如预设分段长度可以是1024或者2048等；分段位移表示相邻分段的起始采样点之间的距离，如预设分段长度为1024，分段位移为512时，第一分段由1-1024的采样点组成，第二分段由513-1536的采样点组成；本实施例根据预设分段长度和分段位移分别对原始语音信号和初始目标语音信号进行分段，可以得到各个分段一一对应的分段原始语音信号和分段目标语音信号。

S340，分别对分段原始语音信号和分段目标语音信号进行傅里叶变换，得到分段原始频域信号和分段目标频域信号。

可选的，在得到分段原始语音信号和分段目标语音信号时，可以分别对各个分段内的分段原始语音信号和分段目标语音信号进行傅里叶变换，得到各分段对应的分段原始频域信号和分段目标频域信号。

S350，通过原始分段窗函数对分段原始频域信号滤波，得到对应的原始共振峰包络，以及，通过目标分段窗函数对分段目标频域信号滤波，得到对应的目标共振峰包络，该原始分段窗函数根据分段原始频域信号的基频和分段比例确定，该目标分段窗函数根据分段目标频域信号的基频和分段比例确定。

S360，针对单个分段目标频域信号，根据对应的原始共振峰包络和目标共振峰包络，确定分段目标频域信号对应的变调比值。

具体的，在得到各个分段原始频域信号对应的原始共振峰包络，以及各个分段目标频域信号对应的目标共振峰包络时，针对单个分段目标频域信号，可以将该分段目标频域信号对应的分段内得到的原始共振峰包络和目标共振峰包络进行比对，确定该分段目标频域信号对应的变调比值，该变调比值表示变调后的目标共振峰包络在变调过程中对声音特征产生的影响。依据同样的方法，可以确定各个分段目标频域信号对应的变调比值。

S370，根据分段目标频域信号和变调比值，确定对应的分段变调频域信号。

本实施例中，为了消除目标共振峰包络在变调过程中对声音特征产生的影响，可以将该分段目标频域信号和变调比值相乘，得到该分段对应的消除变调影响后的分段变调频域信号，该分段变调频域信号与相同分段内的分段原始频域信号具有相同的共振峰包络。依据相同的方法，可以确定各个分段对应的消除变调影响后的分段变调频域信号。本实施例通过下述公式得到对应的分段变调频域信号：STFT_tn’＝STFT_tn*Esn/Etn；其中，STFT_tn’为分段变调频域信号，STFT_tn为分段目标频域信号，Esn为该分段内对应的原始共振峰包络，Etn为该分段内对应的目标共振峰包络。

S380，对分段变调频域信号进行傅里叶逆变换，得到分段变调语音信号。

可选的，在得到各个分段内对应的分段变调频域信号时，可以对各个分段内对应的分段变调频域信号进行傅里叶逆变换，从而得到各个分段内的分段变调语音信号，后续根据各个分段变调语音信号确定最终的变调语音信号。

S390，根据各分段变调语音信号、预设分段长度和分段位移，确定变调语音信号。

具体的，在得到各个分段变调语音信号后，可以根据对原始语音信号进行分段时的预设分段长度和分段位移，将各个分段变调语音信号组成，得到消除目标共振峰包络在变调过程中对声音特征产生的影响后最终的变调语音信号，该变调语音信号与原始语音信号中的共振峰包络相同，从而保证变调前后的语音信号中声音特征的一致性。

本实施例提供的技术方案，针对单个分段目标频域信号，根据变调前后的共振峰包络确定对应的变调比值，根据该分段内的分段目标频域信号和变调比值，确定对应的分段变调频域信号，消除该分段内的共振峰包络对变调的影响，从而得到各个分段内消除共振峰包络影响后的分段变调频域信号，并通过傅里叶逆变换得到分段变调语音信号，由各个分段变调语音信号组成对应的变调语音信号，保证变调前后的语音信号中声音特征的一致性，提高变调语音信号的语音质量。

实施例四

图4为本发明实施例四提供的一种语音信号变换装置的结构示意图，具体的，如图4所示，该装置可以包括：

原始信号获取模块410，用于获取原始语音信号；

语音信号变调模块420，用于对原始语音信号变调，得到初始目标语音信号；

分段变换模块430，用于分别对原始语音信号和初始目标语音信号分段后进行傅里叶变换，得到分段原始频域信号和分段目标频域信号；

包络确定模块440，用于通过原始分段窗函数对分段原始频域信号滤波，得到对应的原始共振峰包络，以及，通过目标分段窗函数对分段目标频域信号滤波，得到对应的目标共振峰包络，该原始分段窗函数根据分段原始频域信号的基频和分段比例确定，该目标分段窗函数根据分段目标频域信号的基频和分段比例确定；

变调语音确定模块450，用于根据分段目标频域信号、原始共振峰包络和目标共振峰包络，确定变调语音信号。

进一步的，上述语音信号变调模块420，可以包括：

幅度获取单元，用于获取变调幅度；

语音信号变调单元，用于根据变调幅度对原始语音信号变调，得到初始目标语音信号。

进一步的，上述分段目标频域信号的基频为分段原始频域信号的基频与变调幅度的乘积。

进一步的，上述语音信号变换装置，还可以包括：

进一步的，上述基频确定模块，可以具体用于：

进一步的，上述语音信号变换装置，还可以包括：

原始窗确定模块，用于根据分段原始频域信号的基频和分段比例，得到对应的原始窗长度；根据原始窗长度和预设窗类型，构建对应的原始分段窗函数。

进一步的，上述语音信号变换装置，还可以包括：

目标窗确定模块，用于根据分段目标频域信号的基频和分段比例，得到对应的目标窗长度；根据目标窗长度和预设窗类型，构建对应的目标分段窗函数。

进一步的，上述分段变换模块430，可以包括：

进一步的，上述变调语音确定模块450，可以包括：

变调比值确定单元，用于针对单个分段目标频域信号，根据对应的原始共振峰包络和目标共振峰包络，确定分段目标频域信号对应的变调比值；

分段变调频域确定单元，用于根据分段目标频域信号和变调比值，确定对应的分段变调频域信号；

分段变调语音确定单元，用于对分段变调频域信号进行傅里叶逆变换，得到分段变调语音信号；

本实施例提供的语音信号变换装置可适用于本发明任意实施例所提供的语音信号变换方法，具备相应的功能和有益效果。

实施例五

图5为本发明实施例五提供的一种设备的结构示意图，如图5所示，该设备包括处理器50、存储装置51和通信装置52；设备中处理器50的数量可以是一个或多个，图5中以一个处理器50为例；设备中的处理器50、存储装置51和通信装置52可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储装置51作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明任意实施例所述的语音信号变换方法对应的程序指令/模块。处理器50通过运行存储在存储装置51中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述语音信号变换方法。

存储装置51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置51可进一步包括相对于处理器50远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

通信装置52可用于实现设备间的网络连接或者移动数据连接。

本实施例提供的一种设备可用于执行本发明任意实施例提供的语音信号变换方法，具备相应的功能和有益效果。

实施例六

本发明实施例六还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可实现本发明任意实施例中的语音信号变换方法。

该方法具体可以包括：

获取原始语音信号；

对原始语音信号变调，得到初始目标语音信号；

分别对原始语音信号和初始目标语音信号分段后进行傅里叶变换，得到分段原始频域信号和分段目标频域信号；

通过原始分段窗函数对分段原始频域信号滤波，得到对应的原始共振峰包络，以及，通过目标分段窗函数对分段目标频域信号滤波，得到对应的目标共振峰包络，该原始分段窗函数根据分段原始频域信号的基频和分段比例确定，该目标分段窗函数根据分段目标频域信号的基频和分段比例确定；

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本发明任意实施例所提供的语音信号变换方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述语音信号变换装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音信号变换方法，其特征在于，包括：

根据分段目标频域信号以及分段目标频域信号对应的原始共振峰包络和目标共振峰包络之间的比值，确定变调语音信号；

其中，所述初始目标语音信号的变调为对语音音调的调节，所述变调语音信号的变调使变调前后的语音信号中声音特征保持一致。

2.根据权利要求1所述的方法，其特征在于，还包括：

获取变调幅度；

3.根据权利要求2所述的方法，其特征在于，所述分段目标频域信号的基频为所述分段原始频域信号的基频与所述变调幅度的乘积。

4.根据权利要求1所述的方法，其特征在于，在通过原始分段窗函数对分段原始频域信号滤波之前，还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据前一分段原始频域信号的基频和后一分段原始频域信号的基频，确定当前分段原始频域信号的基频，包括：

6.根据权利要求1所述的方法，其特征在于，在通过原始分段窗函数对分段原始频域信号滤波，得到对应的原始共振峰包络之前，还包括：

7.根据权利要求1所述的方法，其特征在于，在通过目标分段窗函数对分段目标频域信号滤波，得到对应的目标共振峰包络之前，还包括：

8.根据权利要求1所述的方法，其特征在于，分别对原始语音信号和由原始语音信号变调得到的初始目标语音信号分段后进行傅里叶变换，得到分段原始频域信号和分段目标频域信号，包括：

9.根据权利要求8所述的方法，其特征在于，根据分段目标频域信号以及分段目标频域信号对应的原始共振峰包络和目标共振峰包络之间的比值，确定变调语音信号，包括：

10.一种语音信号变换装置，其特征在于，包括：

变调语音确定模块，用于根据分段目标频域信号以及分段目标频域信号对应的原始共振峰包络和目标共振峰包络之间的比值，确定变调语音信号；

11.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的语音信号变换方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的语音信号变换方法。