CN103489443A

CN103489443A - 一种声音模仿方法及装置

Info

Publication number: CN103489443A
Application number: CN201310423715.3A
Authority: CN
Inventors: 赵欢; 郑睿; 陈佐; 张希翔; 杨泽英
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2013-09-17
Filing date: 2013-09-17
Publication date: 2014-01-01
Anticipated expiration: 2033-09-17
Also published as: CN103489443B

Abstract

本发明公开了一种声音模仿方法及装置，方法步骤包括获取语音信号及模仿对象，将语音信号预处理，将语音信号的每一个语音帧根据模仿对象进行音调转换及音色转换、重新合成得到合成语音帧，将所述合成语音帧添加至模仿语音帧，最终将由所述模仿语音帧构成的模仿语音输出。声音模仿装置包括输入模块、音调转换模块、音色转换模块、语音帧合成模块、模仿语音帧添加模块、判断处理模块和模仿语音输出输出模块。本发明具有声音模拟效果好、声音模仿相似度较高、能够实现音料库自动扩展的优点。

Description

一种声音模仿方法及装置

技术领域

本发明涉及语音信号处理领域，具体涉及一种声音模仿方法及装置。

背景技术

在语音信号处理技术的快速发展和社交平台的流行推广下，声音模仿的相关研究凸显其应用优势并逐步占据重要位置。现有技术常见的声音模仿方法均为针对声道模型进行变化，其声音模仿的效果不甚理想，存在声音模拟相似度偏低的缺点。

公开号为CN102592590A的中国发明专利申请公开的技术方案记载了一种可任意调节的语音自然变声方法及装置提出将语音信号在声道中进行建模，随后求出发音的***模型，即声道的模型，之后再改变声道的模型，最后在新的声道模型中还原出语音信号。在一定程度了实现了声音的音色变化，但并没有从本质上达到声音模拟的效果；公开号为CN101567132A的中国发明专利申请公开的技术方案记载了一种变声装置提出采用读报发声装置的音频调节装置和音量调节装置，使音频调节装置和音量调节装置可以对读报发声装置进行音频和音量的自由调节，该装置在音调和音量上实现了声音的变化，但对声音模仿中主要的音色没有变化，实现的声音模拟效果不甚理想。而且，目前声音模仿***普遍采用的是预存好音料的音料库。虽然预存好的音料库可以简化采集音料的步骤，但这种方式大大局限了声音模仿对象的可选择性，缺少机动性和灵活性，并降低了基于声音模仿方面的应用的趣味性。综上所述，当前声音模仿方法普遍存在声音模拟效果不甚理想、声音模拟相似度偏低、音料库数据单一、无法增长、不可变化等问题。

发明内容

针对现有技术的上述问题，本发明要解决的技术问题是提供一种声音模拟效果好、声音模仿相似度较高、能够实现音料库自动扩展的声音模仿方法及装置。

为了解决上述技术问题，本发明采用的技术方案为：

一种声音模仿方法，其实施步骤如下：

1）获取说话人的语音信号及在音料库中指定的模仿对象，将所述语音信号进行分帧加窗预处理，从所述预处理后的语音信号中选择一个语音帧作为当前语音帧，跳转执行下一步；

2）将当前语音帧根据音料库中指定的模仿对象进行音调转换及音色转换；

3）将音调转换及音色转换后的结果重新合成得到合成语音帧；

4）将所述合成语音帧添加至模仿语音帧；

5）判断所述语音信号的所有语音帧是否已经全部处理完毕，如果尚未处理完毕则选择一个尚未处理的语音帧作为当前语音帧并跳转执行步骤2），否则跳转执行下一步；

6）将由所述模仿语音帧构成的模仿语音输出。

作为本发明声音模仿方法的进一步改进：

所述步骤2）中将当前语音帧根据音料库中指定的模仿对象进行音调转换的详细步骤如下：

2.1.1）将当前语音帧进行线性预测分析；

2.1.2）根据线性预测分析得到的结果获取当前语音帧的LPC残差信号；

2.1.3）对所述LPC残差信号进行离散傅立叶变换并计算幅度谱；

2.1.4）将离散傅立叶变换后的LPC残差信号和以及所述幅度谱通过伪谐波语音模型构建得到伪谐波语音；

2.1.5）提取所述音料库中指定的模仿对象的基音周期；

2.1.6）根据所述模仿对象的基音周期对伪谐波语音进行基音变换；

2.1.7）将基音变换后的伪谐波语音进行离散傅立叶逆变换得到的合成残差新信号作为音调转换的结果输出。

所述步骤2）中将当前语音帧根据音料库中指定的模仿对象进行音色转换的详细步骤如下：

2.2.1）将当前语音帧进行线性预测分析；

2.2.2）根据线性预测分析得到的结果获取当前语音帧的声道滤波器；

2.2.3）提取所述音料库中指定的模仿对象的声道滤波器；

2.2.4）将所述模仿对象的声道滤波器替换当前语音帧的声道滤波器作为音色转换的结果。

所述步骤1）中将所述语音信号进行分帧加窗预处理之后还包括将语音信号作为模仿对象存入音料库的步骤，所述将语音信号作为模仿对象存入音料库的详细步骤如下：

1.1）将当前语音帧进行线性预测分析；

1.2）根据线性预测分析得到的结果获取当前语音帧的LPC残差信号以及声道滤波器；

1.3）将所述LPC残差信号通过循环幅度平方和函数进行处理；

1.4）将通过循环幅度平方和函数处理后的LPC残差信号提取说话人的基音周期；

1.5）将所述说话人的基音周期及声道滤波器作为模仿对象的语音参数存入音料库。

此外，本发明还提供一种声音模仿装置，包括：

输入模块，用于获取说话人的语音信号及在音料库中指定的模仿对象，将所述语音信号进行分帧加窗预处理，从所述预处理后的语音信号中选择一个语音帧作为当前语音帧；

音调转换模块，用于将当前语音帧根据音料库中指定的模仿对象进行音调转换；

音色转换模块，用于将当前语音帧根据音料库中指定的模仿对象进行音色转换；

语音帧合成模块，用于将音调转换及音色转换后的结果重新合成得到合成语音帧；

模仿语音帧添加模块，将所述合成语音帧添加至模仿语音帧；

判断处理模块，用于判断所述语音信号的所有语音帧是否已经全部处理完毕，如果尚未处理完毕则选择一个尚未处理的语音帧作为当前语音帧并跳转执行步骤2），否则跳转执行下一步；

模仿语音输出模块，用于将由所述模仿语音帧构成的模仿语音输出。

作为本发明声音模仿装置的进一步改进：

所述音调转换模块包括：

第一线性预测分析子模块，用于将当前语音帧进行线性预测分析；

第一LPC残差信号获取子模块，用于根据线性预测分析得到的结果获取当前语音帧的LPC残差信号；

离散傅立叶变换子模块，用于对LPC残差信号进行离散傅立叶变换；

幅度谱计算子模块，用于对LPC残差信号进行计算幅度谱；

伪谐波语音生成子模块，用于将离散傅立叶变换后的LPC残差信号和以及所述幅度谱通过伪谐波语音模型构建得到伪谐波语音；

第一基音周期提取子模块，用于提取所述音料库中指定的模仿对象的基音周期；

基音变换子模块，用于根据所述模仿对象的基音周期对伪谐波语音进行基音变换；

离散傅立叶逆变换子模块，用于将基音变换后的伪谐波语音进行离散傅立叶逆变换得到的合成残差新信号作为音调转换的结果输出。

所述音色转换模块包括：

第二线性预测分析子模块，用于将当前语音帧进行线性预测分析；

待替换声道滤波器提取子模块，用于根据线性预测分析得到的结果获取当前语音帧的声道滤波器；

目标声道滤波器提取子模块，用于提取所述音料库中指定的模仿对象的声道滤波器；

目标声道滤波器替换子模块，用于将所述模仿对象的声道滤波器替换当前语音帧的声道滤波器作为音色转换的结果。

所述声音模仿装置还包括音料库扩展模块，所述音料库扩展模块包括：

第三线性预测分析子模块，用于将当前语音帧进行线性预测分析；

声道滤波器获取子模块，用于根据线性预测分析得到的结果获取当前语音帧的声道滤波器；

第二LPC残差信号获取子模块，用于根据线性预测分析得到的结果获取当前语音帧的LPC残差信号；

循环幅度平方和处理子模块，用于将所述LPC残差信号通过循环幅度平方和函数进行处理；

第二基音周期提取子模块，用于将通过循环幅度平方和函数处理后的LPC残差信号提取说话人的基音周期；

模仿对象入库子模块，用于将所述说话人的基音周期及声道滤波器作为模仿对象的语音参数存入音料库。

本发明声音模仿方法具有下述技术效果：

1、本发明针对语音信号的语音帧根据音料库中指定的模仿对象进行音调转换及音色转换，然后将音调转换及音色转换后的结果重新合成得到合成语音帧，将合成语音帧添加至模仿语音帧，从而从那个通过音色和音调两个因素将语音信号模拟为音料库中指定的模仿对象的声音并进行输出，因此具有声音模拟效果好、声音模仿相似度较高的优点。

2、本发明在将语音信号进行分帧加窗预处理之后进一步还包括将语音信号作为模仿对象存入音料库的步骤，能够克服现有技术声音模仿方法中音料库数据单一、无法增长、不可变化等问题以及声音模拟相似度偏低等不足，通过自动采集任意利用本发明方法进行模仿声音的说话人的语音提取特征保存到音料库中，实现音料库的自扩展，音料库丰富且可扩展，模仿对象丰富，极大地提高了本发明方法的灵活性和趣味性。

由于本发明声音模仿装置为本发明声音模仿方法对应的装置，因此本发明本发明声音模仿装置也具有与本发明声音模仿装置相同的技术效果，故在此不再赘述。

附图说明

图1为本发明方法实施例的实施流程示意图。

图2为本发明方法实施例的详细流程示意图。

图3为本发明方法实施例中将语音信号作为模仿对象存入音料库的方法流程示意图。

图4为本发明方法实施例中音调转换的方法流程示意图。

图5为本发明方法实施例中音色转换的方法流程示意图。

图6为本发明装置实施例的框架结构示意图。

图7为本发明装置实施例中音调转换模块的框架结构示意图。

图8为本发明装置实施例中音色转换模块的框架结构示意图。

图9为本发明装置实施例中输入模块的输出示意图。

图10为本发明装置实施例中音料库扩展模块的框架结构示意图。

图11为本发明装置实施例的工作原理示意图。

具体实施方式

如图1和图2所示，本实施例的声音模仿方法的实施步骤如下：

1）获取说话人的语音信号及在音料库中指定的模仿对象，将语音信号进行分帧加窗预处理，从预处理后的语音信号中选择一个语音帧作为当前语音帧，跳转执行步骤2）。

本实施例中采集语音信号时，具体为通过具有录音、播放功能和移动网络服务的硬件装置来进行采集，在采集语音信号后还需要预先将语音信号进行分帧加窗预处理，设置窗长为k，帧移为k’，帧数为N，第n帧语音数据为s(n)，对应的模拟得到的合成帧为S(n)。

如图3所示，本实施例中将语音信号进行分帧加窗预处理之后还包括将语音信号作为模仿对象存入音料库的步骤，将语音信号作为模仿对象存入音料库的详细步骤如下：

1.1）将当前语音帧进行线性预测分析LPC；

1.2）根据线性预测分析LPC得到的结果获取当前语音帧的LPC残差信号R(n)以及声道滤波器An；

1.3）将LPC残差信号R(n)通过循环幅度平方和函数SCMDSF进行处理；

1.5）将说话人的基音周期及声道滤波器作为模仿对象的语音参数存入音料库。

2）将当前语音帧根据音料库中指定的模仿对象进行音调转换及音色转换。

如图4所示，本实施例步骤2）中将当前语音帧根据音料库中指定的模仿对象进行音调转换的详细步骤如下：

2.1.1）将当前语音帧进行线性预测分析LPC；

2.1.2）根据线性预测分析LPC得到的结果获取当前语音帧的LPC残差信号R(n)；

2.1.3）对LPC残差信号进行离散傅立叶变换DFT并计算幅度谱S(k)；

2.1.4）将离散傅立叶变换后的LPC残差信号DFT和以及幅度谱S(k)通过伪谐波语音模型构建得到伪谐波语音；

2.1.5）提取音料库中指定的模仿对象的基音周期；

2.1.6）根据模仿对象的基音周期对伪谐波语音进行基音变换；

如图5所示，本实施例步骤2）中将当前语音帧根据音料库中指定的模仿对象进行音色转换的详细步骤如下：

2.2.1）将当前语音帧进行线性预测分析LPC；

2.2.2）根据线性预测分析LPC得到的结果获取当前语音帧的声道滤波器An；

2.2.3）提取音料库中指定的模仿对象的声道滤波器An’；

2.2.4）将模仿对象的声道滤波器An’替换当前语音帧的声道滤波器An作为音色转换的结果。

3）将语音帧s(n)进行音调转换及音色转换后的结果（残差新信号R(n) ’和声道滤波器An’）重新合成得到合成语音帧S(n) ’。

4）将合成语音帧S(n) ’添加至模仿语音帧。

5）判断语音信号的所有语音帧是否已经全部处理完毕，如果尚未处理完毕（n不等于N）则选择一个尚未处理的语音帧作为当前语音帧并跳转执行步骤2），否则（n等于N）跳转执行下一步。

6）将由模仿语音帧构成的模仿语音输出。

如图6所示，与本实施例的声音模仿方法对应，本实施例的声音模仿装置包括：

输入模块，用于获取说话人的语音信号及在音料库中指定的模仿对象，将语音信号进行分帧加窗预处理，从预处理后的语音信号中选择一个语音帧作为当前语音帧；

模仿语音帧添加模块，将合成语音帧添加至模仿语音帧；

判断处理模块，用于判断语音信号的所有语音帧是否已经全部处理完毕，如果尚未处理完毕则选择一个尚未处理的语音帧作为当前语音帧并跳转执行步骤2），否则跳转执行下一步；

模仿语音输出模块，用于将由模仿语音帧构成的模仿语音输出。

如图7所示，音调转换模块包括：

幅度谱计算子模块，用于对LPC残差信号进行计算幅度谱；

伪谐波语音生成子模块，用于将离散傅立叶变换后的LPC残差信号和以及幅度谱通过伪谐波语音模型构建得到伪谐波语音；

第一基音周期提取子模块，用于提取音料库中指定的模仿对象的基音周期；

基音变换子模块，用于根据模仿对象的基音周期对伪谐波语音进行基音变换；

如图8所示，音色转换模块包括：

目标声道滤波器提取子模块，用于提取音料库中指定的模仿对象的声道滤波器；

目标声道滤波器替换子模块，用于将模仿对象的声道滤波器替换当前语音帧的声道滤波器作为音色转换的结果。

如图9所示，本实施例还包括音料库扩展模块。输入模块除了将语音信号输出至由音调转换模块、音色转换模块、语音帧合成模块、模仿语音帧添加模块、判断处理模块、模仿语音输出模块构成的语音模拟单元以外，还输出至音料库扩展模块，通过音料库扩展模块将说话人的语音信号作为模仿对象存入音料库。

如图10所示，音料库扩展模块包括：

循环幅度平方和处理子模块，用于将LPC残差信号通过循环幅度平方和函数进行处理；

模仿对象入库子模块，用于将说话人的基音周期及声道滤波器作为模仿对象的语音参数存入音料库。

如图11所示，本实施例输入模块利用具有录音、播放功能和移动网络服务的硬件装置采集说话人语音，并接收说话人选择音料库中的模仿对象。语音模拟单元根据上述所采集语音和变声对象进行变声处理并输出，同时音料库扩展模块提取原说话者语音参数保存到音料库，在音料库增加原说话者的模仿对象。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种声音模仿方法，其特征在于实施步骤如下：

4）将所述合成语音帧添加至模仿语音帧；

6）将由所述模仿语音帧构成的模仿语音输出。

2.根据权利要求1所述的声音模仿方法，其特征在于，所述步骤2）中将当前语音帧根据音料库中指定的模仿对象进行音调转换的详细步骤如下：

2.1.1）将当前语音帧进行线性预测分析；

2.1.5）提取所述音料库中指定的模仿对象的基音周期；

3.根据权利要求2所述的声音模仿方法，其特征在于，所述步骤2）中将当前语音帧根据音料库中指定的模仿对象进行音色转换的详细步骤如下：

2.2.1）将当前语音帧进行线性预测分析；

2.2.3）提取所述音料库中指定的模仿对象的声道滤波器；

4.根据权利要求1或2或3所述的声音模仿方法，其特征在于，所述步骤1）中将所述语音信号进行分帧加窗预处理之后还包括将语音信号作为模仿对象存入音料库的步骤，所述将语音信号作为模仿对象存入音料库的详细步骤如下：

1.1）将当前语音帧进行线性预测分析；

1.3）将所述LPC残差信号通过循环幅度平方和函数进行处理；

5.一种声音模仿装置，其特征在于包括：

6.根据权利要求5所述的声音模仿装置，其特征在于，所述音调转换模块包括：

幅度谱计算子模块，用于对LPC残差信号进行计算幅度谱；

7.根据权利要求6所述的声音模仿装置，其特征在于，所述音色转换模块包括：

8.根据权利要求5或6或7所述的声音模仿装置，其特征在于，所述声音模仿装置还包括音料库扩展模块，所述音料库扩展模块包括：