CN109712634A

CN109712634A - 一种自动声音转换方法

Info

Publication number: CN109712634A
Application number: CN201811583082.1A
Authority: CN
Inventors: 栾峰; 杜中强; 张镇荣; 黄楚均; 潘步年
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-05-03

Abstract

本发明公开一种自动声音转换方法，包括以下步骤：1)运用声音中的旋律和语音特性这些共同特征将源语音和目标语音实现语音的平滑对齐；2)根据语音平滑对齐的结果，按照时间长度比例，对源语音进行时间尺度修改，使源语音和目标语音的时间对齐；3)使用音调同步重叠相加算法和简单幅度包络匹配算法以逐帧方式修改源语音的音调和音量。本发明实现了全自动语音转换，不需要手动校正，不需要额外的信息，仅在保持歌曲音色的同时修改歌唱中的表达元素，不仅在歌唱领域具有极大的用途，而且在演讲，教学，娱乐等领域具有极大的用途。

Description

一种自动声音转换方法

技术领域

本发明涉及一种语音信号处理技术，具体为一种自动声音转换方法。

背景技术

随着生活水平的不断提高，人们的精神生活也越来越丰富。唱歌(卡拉OK)是人们的娱乐方式之一。根据歌唱技巧，通过声音处理软件可以将歌曲渲染成动人的音乐或只是嘈杂的声音。歌唱声音变形，手语语音合成、语音->唱歌-唱歌->语音转换、语音音色转换中使用的以参考录音为对象，获取歌唱声音表达参数的语音转换方法比较普遍。

Autotune，VariAudio和Melodyne等商用人声矫正工具，主要侧重于改变歌声的音调，其中一些能够通过编辑转录的MIDI音符来操纵音符开始时间或其他音乐表达方式。尽管它们在某种程度上提供了自动控制，但为了获得满意的结果，校正过程通常是繁琐且重复的。

以前的一些工作试图最小化手动修改音乐表达中的音频信号。Bryan等人提出了一种变速率时间拉伸方法，允许用户轻松修改拉伸比。给定用户引导的刚度曲线，该方法通过约束优化程序自动计算与时间相关的拉伸速率。Roebel等人提出了一种去除颤音表达式的算法。完全基于光谱包络平滑操作而无需操纵各个部分参数。虽然这些方法在处理歌声信号方面提供了更多便利，但它们仍然在某种程度上需要用户指南或参数控制

发明内容

针对现有技术中语音转换存在校正过程繁琐、需要用户指南或参数控制等不足，本发明要解决的问题是提供一种不需要手动校正、可从一种语音转换为指定语音的自动声音转方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明一种语音自动转换处理方法，包括以下步骤：

1)运用声音中的旋律和语音特性这些共同特征将源语音和目标语音实现语音的平滑对齐；

2)根据语音平滑对齐的结果，按照时间长度比例，对源语音进行时间尺度修改，使源语音和目标语音的时间对齐；

3)使用音调同步重叠相加算法和简单幅度包络匹配算法以逐帧方式修改源语音的音调和音量。

步骤2)中，源语音和目标语音的时间对齐，指对源语音和目标语音进行特征提取，然后使用动态时间规整对这些特征进行对齐。

所述特征提取为最大滤波常数Q变换和从音素分类器中提取的音素分数这两个特征。

步骤2)中，时间长度比例，指使用MATLAB中的sgolayfilt函数将三阶Savitzky-Golay滤波器应用于分段线性对齐路径；将平滑后的结果与所给对齐路径进行比较，使用滤波路径的斜率计算时间拉伸率。

步骤2)中，时间尺度修改，指根据每帧变化的平滑时间拉伸比，将其应用于时间尺度修改TSM算法，以便在时间上对齐语音。

步骤3)中，音调同步重叠相加算法修改，是指通过算法对齐音调，该算法所需音调比计算如下：

其中，β(i)为音调比，f0_T(i)和f0_ST(i)分别表示目标和源语音的帧级音调序列，as_T(i)为在时间对准之后从源获得的非周期性。

步骤3)中，幅度包络匹配算法用于音量对齐，通过计算两个语音之间的帧级幅度增益并将其乘以源声音来实现，使用均方根值从每个语音中提取出包络，并从两个幅度包络的比率中获得幅度增益。

本发明具有以下有益效果及优点：

1.本发明实现了全自动语音转换，不需要手动校正，不需要额外的信息，例如符号音乐乐谱和歌词等，该方法仅在保持歌曲音色的同时修改歌唱中的表达元素。

2.本发明方法不仅在歌唱领域具有极大的用途，而且在演讲，教学，娱乐等领域具有极大的用途。

附图说明

图1为本发明方法流程图；

图2A是简单的使用两个歌声的频谱，通过DTW得到相似性矩阵和对齐路径。

图2B为使用最大滤波常数Q变换(max-filtered constant-Q transfor)，通过DTW得到的相似性矩阵和对齐路径

图2C为使用音素分类器中提取的音素分数，通过DTW得到的相似性矩阵和对齐路径

图2D为同时使用最大滤波常数Q变换(max-filtered constant-Q transfor)和音素分类器中提取的音素分数，通过DTW得到的相似性矩阵和对齐路径

图3为通过Savitzky-Golay滤波器(实线)对齐路径(虚线)和滤波路径的放大视图；图4为对该发明评估所使用的数据；

图5为时间对齐结果方柱图；

图6为转换后源声音和目标声音之间音高的平均差异；

图7为源语音和目标语音之间的音量的平均差异(以RMS表示)。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

本发明根据不同的人对同一句话的表达在节奏、音调、大小方面有较大的差异等特点，通过运用声音中的旋律和语音特性(滤波常数Q变换和从音素分类器中提取的音素分数)这些共同特征把两种声音进行对齐，然后根据平滑对齐的结果，按照一定的时间长度比例，对源语音进行时间尺度的修改，一旦两个语音对齐，该方法使用音调同步重叠相加算法和简单幅度包络匹配算法以逐帧方式修改源语音的音调和音量。

如图1所示，本发明一种自动声音转换方法，包括以下步骤：

1)运用声音中的旋律和语音特性这些共同特点将源语音和目标语音实现语音的平滑对齐；

3)使用音调同步重叠相加算法和简单幅度包络匹配算法以逐帧方式修改源声音的音调和音量。

本发明方法是将语音从源语音转换为指定的语音。

步骤1)中，语音的平滑对齐，指对源语音和目标语音进行特征提取，然后使用动态时间规整(DTW)对这些特征进行对齐。

首先对源语音和目标语音进行特征提取，主要包括两个特征，一个特征是处理旋律方面的最大滤波常数Q变换(max-filtered constant-Q transfor)，具体来说使用基于88波段滤波器组的常数Q变换(constant-Q transfor)，每个滤波器组都设计用于覆盖一个具有半色调分辨率的音符，应用最大滤波以进一步减轻音调变化，特别是对于两个歌声在音调差异中具有多于一个半音的情况，例如，通过错误的音符播放或过度的音高弯曲。图2B中的相似性矩阵和对齐路径表明，具有强烈颤音的片段中的迂回变得更加对角线。而图2A只是简单的使用两个歌声的频谱作为声音的特征，通过DTW对齐的结果，虽然从DTW算法返回的对齐路径非常成功地找到了音符的起始和偏移，但是当一个声音具有颤音和音高弯曲时，它经常无法找到正确的对准路径。

另一个特征是从音素分类器中提取的音素分数。这是为了提取声音中的语音信息，同时消除两个语音之间的音色差异。使用开源音素分类器来预测帧级音素概率分布。它使用具有delta和double-delta作为输入特征的39维梅尔频率倒谱系数(MFCC)，并使用HTK语音识别工具包训练以预测39个音素的分布作为输出。使用该输出作为时间对齐的抒情特征向量。图2C中的相似性矩阵和对齐路径表明，语音特征也有助于减轻迂回问题。图2D显示了使用旋律和歌词功能时的结果。对齐路径类似于图2C中的对齐路径，但它变得更加平滑。

将上面两个特征作为DTW的输入进行对齐。

步骤2)中，源语音和目标语音的时间对齐，指对源语音和目标语音进行特征提取，然后使用动态时间规整对这些特征进行对齐。特征提取为处理旋律方面的最大滤波常数Q变换(max-filtered constant-Q transfor)和从音素分类器中提取的音素分数这两个特征。

步骤2)中，时间尺度修改，指根据每帧变化的平滑时间拉伸比，将其应用于时间尺度修改TSM算法，以便在时间上对齐声音。

平滑时间拉伸比，使用Savitzky-Golay滤波器，这是一种近似方法，以卷积方式将序列值的子集与低阶多项式拟合。具体来说，使用MATLAB中的函数(sgolayfilt函数)将三阶Savitzky-Golay滤波器应用于分段线性对齐路径。将平滑后的结果与图3中的对齐路径进行比较。为了计算时间拉伸率α们简单地使用滤波路径的斜率。一旦获得每帧变化的时间拉伸比，将其应用于时间尺度修改(TSM)算法，以便在时间上对齐声音。具体来说，使用了来自TSM工具箱的基于相似性的OverLap和Add(WSOLA)。

其中，β(i)为音调比，f0_T(i)和f0_ST(i)分别表示目标和源的帧级音调序列，as_T(i)为在时间对准之后从源获得的非周期性。

如公式1所示，本发明方法仅对具有强周期性的段应用音调修改。使用YIN算法来提取每个语音的音调。该算法将非周期性作为副产品返回。还使用谐波-冲击源分离(HPSS)和中值滤波器[15]来分离来自每个声音的谐波信号，然后将它们应用到音调检测器。

本实施例收集了四首歌曲，各有不同的风格(共有16首来自不同歌手的录音)。四首歌曲的录音中，一个是来自专业人士或具有熟练歌唱技巧的人的目标歌唱声音，其余来自普通歌手。由于通过从目标中获取音乐表达来修改普通的歌声，本实施例选用12对歌声(每首歌3对)。歌手一边看歌，一边看着歌词的显示位置。每首歌的长度大约是10秒到20秒，是从原始歌曲的合唱部分中取出的。图4总结了评估时使用的歌曲的特点及数量等的数据集。

时间对准的评估，即为了评估时间对齐的性能，本实施例将图1中的修改后的源语音STPE与使用带有频谱图的DTW的目标语音对齐，并计算DTW路径上的局部斜率的标准偏差(当它们完全对齐时的斜率)另外，本实施例不是直接在计算标准偏差时使用局部斜率，而是使用反正切函数转换斜率θ＝arctan(s),其中s是路径的局部斜率，因此值(从0到无穷大)被映射到有限范围(从0到π/2弧度)。

图5通过不同的音频特征比较了局部斜率的标准偏差。

通常，使用音素分类器的旋律特征在所有示例中都是最可靠的。这可能是因为歌手用歌词表演歌曲，因此语音特征非常准确。使用具有最大滤波器常数Q变换(max-filtered constant-Q transfor)的旋律特征也有助于改善对准，但是对于具有低音调的歌曲(例如，歌曲2-1至2-3)有时失败。这是因为在常数Q变换(constant-Q transfor)中低音调范围中的音调分辨率不够高。结合这两个特征并不一定能改善结果。对于一半的例子，它取得了最好的结果，但它产生的结果甚至比另一半的旋律特征更差。

评估音高和音量对准，即对于音调，在音调对准之前和之后比较源和目标之间的平均音调差。用YIN算法测量音调，并仅计算具有强周期性的片段(即当非周期性小于0.2时)。图6显示了在音调对准之后，平均音调差异总计减少了78：8％。对于音量对准，本发明计算了幅度包络的差异的平均值。具体来说，使用了均方根(RMS)值。图7显示动态对准后平均动态差异减少了86：4％。

Claims

1.一种自动声音转换方法，其特征在于包括以下步骤：

2.根据权利要求1所述的语音自动转换处理方法，其特征在于：步骤2)中，源语音和目标语音的时间对齐，指对源语音和目标语音进行特征提取，然后使用动态时间规整对这些特征进行对齐。

3.根据权利要求2所述的语音自动转换处理方法，其特征在于：所述特征提取为处理旋律方面的最大滤波常数Q变换和从音素分类器中提取的音素分数这两个特征。

4.根据权利要求1所述的语音自动转换处理方法，其特征在于：步骤2)中，时间长度比例，指使用MATLAB中的sgolayfilt函数将三阶Savitzky-Golay滤波器应用于分段线性对齐路径；将平滑后的结果与所给对齐路径进行比较，使用滤波路径的斜率计算时间拉伸率。

5.根据权利要求1所述的语音自动转换处理方法，其特征在于：步骤2)中，时间尺度修改，指根据每帧变化的平滑时间拉伸比，将其应用于时间尺度修改TSM算法，以便在时间上对齐语音。

6.根据权利要求1所述的语音自动转换处理方法，其特征在于：步骤3)中，音调同步重叠相加算法修改，是指通过算法对齐音调，该算法所需音调比计算如下：

7.根据权利要求1所述的语音自动转换处理方法，其特征在于：步骤3)中，幅度包络匹配算法用于音量对齐，通过计算两个语音之间的帧级幅度增益并将其乘以源声音来实现，使用均方根值从每个语音中提取出包络，并从两个幅度包络的比率中获得幅度增益。