CN109616131B

CN109616131B - 一种数字实时语音变音方法

Info

Publication number: CN109616131B
Application number: CN201811342131.2A
Authority: CN
Inventors: 陈锴; 刘晓峻; 狄敏
Original assignee: Jiangsu Province Nanjing University Of Science And Technology Electronic Information Technology Co ltd; Nanjing Nanda Electronic Wisdom Service Robot Research Institute Co ltd; Nanjing University
Current assignee: Jiangsu Province Nanjing University Of Science And Technology Electronic Information Technology Co ltd; Nanjing Nanda Electronic Wisdom Service Robot Research Institute Co ltd; Nanjing University
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2023-07-07
Anticipated expiration: 2038-11-12
Also published as: CN109616131A

Abstract

本发明公开了一种数字实时语音变音方法，通过对原始语音的非清音部分进行调整和分析，并根据比较结果，提取特定人基音库中的信号替代原始基音，进一步通过合成和叠加处理获得变音信号。本发明变音效果具有自然度和可懂度高的特点，变音后的语音不容易被复原，具有较强的保密性，同时本发明兼具低时延和低复杂度的特点。

Description

一种数字实时语音变音方法

技术领域

本发明涉及一种语音变音方法，属于音频技术领域。

背景技术

变音是一种重要的语音处理技术，被广泛的应用于语音交互、保密通信、消费类电子设备特殊音效等。

传统的语音变音主要使用调频技术，该类变音技术主要存在以下技术缺陷：首先，变音后的语音自然度较低，同时降低了可懂度；其次，变音方法简单，容易被人恢复成原始语音，从而影响保密通信的效果；最后，变音的复杂度较高，处理时延较大，实时性受到限制。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种实时数字语音变音方法，该方法克服了当前主流变音方法中存在的以下三个问题：1、变音效果自然度和可懂度低，2、变音后的语音容易被恢复，3、变音处理过程时延较高，运算复杂度较高。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种数字实时语音变音方法，包括以下步骤：

步骤1，通过声韵分割将语音中的清音与非清音进行区分。

步骤2，非清音通过线性预测进行分解，将原始语音分为原基音和声道模型两个部分。

步骤3，根据实际需求调整原基音，可以是改变基音频率、改变基音频率变化速度等。

步骤4，将调整后的基音和特定人基音库中的基音信息进行比对，找出最符合要求的基音信号。

步骤5，重构和优化基音信息，获得修正后的基音信号。

步骤6，修正后基音和声道模型进行语音合成，形成变音后的非清音信号。

步骤7，将原始清音信号和非清音信号进行综合，形成调整后的语音信号。

优选的：特定人基音库主要来自于对特定人的语音进行分析和提取的内容，包括特定人在发音过程中对应的常用音节和词语的基音信号。

优选的：步骤2中通过线性预测将语音分解为声道模型和原基音两个部分，其中，声道模型参数保留，用于后期的语音合成。

优选的：将调整后的原基音与特定人基音库中的所有基音信号进行比对，通过相关性比较、模式匹配或者机器学习方法，获得最为相似的基音信号片段。

优选的：特定人基音库保存在云端***中，同时利用专用的实时检索***。

优选的：采用DSP和ARM***实现。

优选的：DSP实现声韵分割、线性预测功能，提取出非清音信号的原基音。

优选的：DSP将调整后的基音和声道模型合成非清音信号，并进一步与原始清音模型进行叠加，形成变音后的语音信号。

本发明相比现有技术，具有以下有益效果：

1、本发明的变音过程中所使用的基音信息全部来自于自然语音中所提取的基音，而不是对语音直接进行变频操作，所以语音自然度和可懂度得到了保证。

2、本发明变音后的语音基音信息完全来自于特定人的语音库，完全去除了原始语音信号中的特征信息，所以不容易被其它***还原。

3、本发明变音的运算复杂度低，处理时延小，结合云处理技术，有利于实时性***实现。

附图说明

图1为变音***原理图

图2本发明基于浮点DSP和ARM***的实现框图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种数字实时语音变音方法，如图1所示，包括以下7个部分：

1.通过声韵分割将语音中的清音与非清音(浊音、浊辅音、摩擦音)进行区分；

2.非清音(浊音、浊辅音、摩擦音)通过线性预测进行分解，将原始语音分为原基音和声道模型两个部分；

3.根据实际需求调整原基音，可以是改变基音频率、改变基音频率变化速度等；

4.将调整后的基音和特定人基音库中的基音信息进行比对，找出最符合要求的基音信号；

5.重构和优化基音信息，获得修正后的基音信号；

6.修正后基音和声道模型进行语音合成，形成变音后的非清音信号；

7.将清音信号和变音后的非清音信号进行综合，形成调整后的语音信号。

声韵分割用于区分语音中的清音和非清音部分，其中非清音部分包括浊音、浊辅音和摩擦音，在综合的过程中，***将调整后的非清音和原始清音进行叠加，形成新的变音后的语音信号。

特定人基音库主要来自于对特定人的语音进行分析和提取的内容，包括在常用音节和词语发音过程中的基音信号。对特定人的基音库建立需要特定的训练过程。

通过线性预测将语音分解为声道模型和原基音两个部分，其中，声道模型参数保留，用于后期的语音合成。

根据使用者的要求，对原基音进行调整，包括调整基音频率、调整基音频率变化速度等。

将调整后的原基音与特定人基音库中的所有基音信号进行比对，通过相关性比较、模式匹配和机器学习等方法，获得最为相似的基音信号片段，并做一定的优化，优化的目的主要是保证基音的连续性，提高语音的自然度，最终形成修正基音。

特定人基音库可以保存在云端***中，同时利用专用的检索***，提高***的效率和利用率。

修正基音和声道模型进行综合形成修正后的非清音语音段。

变音***对原始语音的非清音部分进行调整和分析，并根据比较结果，提取特定人基音库中的信号替代原始基音，进一步通过合成和叠加操作获得变音信号。对特定人基音库来自于对特定人的语音分析和提取的结果。

如图2所示，整个***基于浮点DSP和ARM***实现：

1、ARM将***的调整要求传递给浮点DSP；

2、麦克风采集数据通过ADC(模数转换器)传递给浮点DSP，作为***输入；

3、浮点DSP通过DAC(数模转换器)将信号馈给扬声器放音，作为***输出；

4、浮点DSP实现声韵分割、线性预测等功能，提取出非清音信号的原基音；

5、浮点DSP对原基音进行调整，并通过ARM将调整后的原基音传递给云端；

6、云端将调整后的原基音和特定人基音库进行比对，找出最为相似的基音信号，并将该信号回传给浮点DSP；

浮点DSP将调整后的基音和声道模型合成非清音信号，并进一步与原始清音信号进行叠加，形成变音后的语音信号。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数字实时语音变音方法，其特征在于，包括以下步骤：

步骤1，通过声韵分割将语音中的清音与非清音进行区分；

步骤2，非清音通过线性预测进行分解，将原始语音分为原基音和声道模型两个部分；

步骤3，根据实际需求调整原基音；

步骤4，将调整后的基音和特定人基音库中的基音信息进行比对，找出最符合要求的基音信号；特定人基音库主要来自于对特定人的语音进行分析和提取的内容，包括特定人在发音过程中对应的常用音节和词语的基音信号；将调整后的原基音与特定人基音库中的所有基音信号进行比对，通过相关性比较、模式匹配或者机器学习方法，获得最为相似的基音信号片段；

步骤5，重构和优化基音信息，获得修正后的基音信号；

步骤6，修正后基音和声道模型进行语音合成，形成变音后的非清音信号；

步骤7，将原始清音信号和非清音信号进行综合，形成调整后的语音信号；DSP将调整后的基音和声道模型合成非清音信号，并进一步与原始清音模型进行叠加，形成变音后的语音信号。

2.根据权利要求1所述数字实时语音变音方法，其特征在于：步骤2中通过线性预测将语音分解为声道模型和原基音两个部分，其中，声道模型参数保留，用于后期的语音合成。

3.根据权利要求2所述数字实时语音变音方法，其特征在于：特定人基音库保存在云端***中，同时利用专用的实时检索***。

4.根据权利要求3所述数字实时语音变音方法，其特征在于：采用DSP和ARM***实现。

5.根据权利要求4所述数字实时语音变音方法，其特征在于：DSP实现声韵分割、线性预测功能，提取出非清音信号的原基音。

6.根据权利要求5所述数字实时语音变音方法，其特征在于：步骤3中根据实际需求调整原基音包括改变基音频率和/或改变基音频率变化速度。