CN109616131B - 一种数字实时语音变音方法 - Google Patents
一种数字实时语音变音方法 Download PDFInfo
- Publication number
- CN109616131B CN109616131B CN201811342131.2A CN201811342131A CN109616131B CN 109616131 B CN109616131 B CN 109616131B CN 201811342131 A CN201811342131 A CN 201811342131A CN 109616131 B CN109616131 B CN 109616131B
- Authority
- CN
- China
- Prior art keywords
- fundamental tone
- voice
- original
- pitch
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000008859 change Effects 0.000 claims abstract description 14
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 8
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 8
- 230000005236 sound signal Effects 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 6
- 239000011295 pitch Substances 0.000 abstract 2
- 238000005516 engineering process Methods 0.000 description 5
- 238000007667 floating Methods 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Auxiliary Devices For Music (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种数字实时语音变音方法,通过对原始语音的非清音部分进行调整和分析,并根据比较结果,提取特定人基音库中的信号替代原始基音,进一步通过合成和叠加处理获得变音信号。本发明变音效果具有自然度和可懂度高的特点,变音后的语音不容易被复原,具有较强的保密性,同时本发明兼具低时延和低复杂度的特点。
Description
技术领域
本发明涉及一种语音变音方法,属于音频技术领域。
背景技术
变音是一种重要的语音处理技术,被广泛的应用于语音交互、保密通信、消费类电子设备特殊音效等。
传统的语音变音主要使用调频技术,该类变音技术主要存在以下技术缺陷:首先,变音后的语音自然度较低,同时降低了可懂度;其次,变音方法简单,容易被人恢复成原始语音,从而影响保密通信的效果;最后,变音的复杂度较高,处理时延较大,实时性受到限制。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种实时数字语音变音方法,该方法克服了当前主流变音方法中存在的以下三个问题:1、变音效果自然度和可懂度低,2、变音后的语音容易被恢复,3、变音处理过程时延较高,运算复杂度较高。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种数字实时语音变音方法,包括以下步骤:
步骤1,通过声韵分割将语音中的清音与非清音进行区分。
步骤2,非清音通过线性预测进行分解,将原始语音分为原基音和声道模型两个部分。
步骤3,根据实际需求调整原基音,可以是改变基音频率、改变基音频率变化速度等。
步骤4,将调整后的基音和特定人基音库中的基音信息进行比对,找出最符合要求的基音信号。
步骤5,重构和优化基音信息,获得修正后的基音信号。
步骤6,修正后基音和声道模型进行语音合成,形成变音后的非清音信号。
步骤7,将原始清音信号和非清音信号进行综合,形成调整后的语音信号。
优选的:特定人基音库主要来自于对特定人的语音进行分析和提取的内容,包括特定人在发音过程中对应的常用音节和词语的基音信号。
优选的:步骤2中通过线性预测将语音分解为声道模型和原基音两个部分,其中,声道模型参数保留,用于后期的语音合成。
优选的:将调整后的原基音与特定人基音库中的所有基音信号进行比对,通过相关性比较、模式匹配或者机器学习方法,获得最为相似的基音信号片段。
优选的:特定人基音库保存在云端***中,同时利用专用的实时检索***。
优选的:采用DSP和ARM***实现。
优选的:DSP实现声韵分割、线性预测功能,提取出非清音信号的原基音。
优选的:DSP将调整后的基音和声道模型合成非清音信号,并进一步与原始清音模型进行叠加,形成变音后的语音信号。
本发明相比现有技术,具有以下有益效果:
1、本发明的变音过程中所使用的基音信息全部来自于自然语音中所提取的基音,而不是对语音直接进行变频操作,所以语音自然度和可懂度得到了保证。
2、本发明变音后的语音基音信息完全来自于特定人的语音库,完全去除了原始语音信号中的特征信息,所以不容易被其它***还原。
3、本发明变音的运算复杂度低,处理时延小,结合云处理技术,有利于实时性***实现。
附图说明
图1为变音***原理图
图2本发明基于浮点DSP和ARM***的实现框图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种数字实时语音变音方法,如图1所示,包括以下7个部分:
1.通过声韵分割将语音中的清音与非清音(浊音、浊辅音、摩擦音)进行区分;
2.非清音(浊音、浊辅音、摩擦音)通过线性预测进行分解,将原始语音分为原基音和声道模型两个部分;
3.根据实际需求调整原基音,可以是改变基音频率、改变基音频率变化速度等;
4.将调整后的基音和特定人基音库中的基音信息进行比对,找出最符合要求的基音信号;
5.重构和优化基音信息,获得修正后的基音信号;
6.修正后基音和声道模型进行语音合成,形成变音后的非清音信号;
7.将清音信号和变音后的非清音信号进行综合,形成调整后的语音信号。
声韵分割用于区分语音中的清音和非清音部分,其中非清音部分包括浊音、浊辅音和摩擦音,在综合的过程中,***将调整后的非清音和原始清音进行叠加,形成新的变音后的语音信号。
特定人基音库主要来自于对特定人的语音进行分析和提取的内容,包括在常用音节和词语发音过程中的基音信号。对特定人的基音库建立需要特定的训练过程。
通过线性预测将语音分解为声道模型和原基音两个部分,其中,声道模型参数保留,用于后期的语音合成。
根据使用者的要求,对原基音进行调整,包括调整基音频率、调整基音频率变化速度等。
将调整后的原基音与特定人基音库中的所有基音信号进行比对,通过相关性比较、模式匹配和机器学习等方法,获得最为相似的基音信号片段,并做一定的优化,优化的目的主要是保证基音的连续性,提高语音的自然度,最终形成修正基音。
特定人基音库可以保存在云端***中,同时利用专用的检索***,提高***的效率和利用率。
修正基音和声道模型进行综合形成修正后的非清音语音段。
变音***对原始语音的非清音部分进行调整和分析,并根据比较结果,提取特定人基音库中的信号替代原始基音,进一步通过合成和叠加操作获得变音信号。对特定人基音库来自于对特定人的语音分析和提取的结果。
如图2所示,整个***基于浮点DSP和ARM***实现:
1、ARM将***的调整要求传递给浮点DSP;
2、麦克风采集数据通过ADC(模数转换器)传递给浮点DSP,作为***输入;
3、浮点DSP通过DAC(数模转换器)将信号馈给扬声器放音,作为***输出;
4、浮点DSP实现声韵分割、线性预测等功能,提取出非清音信号的原基音;
5、浮点DSP对原基音进行调整,并通过ARM将调整后的原基音传递给云端;
6、云端将调整后的原基音和特定人基音库进行比对,找出最为相似的基音信号,并将该信号回传给浮点DSP;
浮点DSP将调整后的基音和声道模型合成非清音信号,并进一步与原始清音信号进行叠加,形成变音后的语音信号。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种数字实时语音变音方法,其特征在于,包括以下步骤:
步骤1,通过声韵分割将语音中的清音与非清音进行区分;
步骤2,非清音通过线性预测进行分解,将原始语音分为原基音和声道模型两个部分;
步骤3,根据实际需求调整原基音;
步骤4,将调整后的基音和特定人基音库中的基音信息进行比对,找出最符合要求的基音信号;特定人基音库主要来自于对特定人的语音进行分析和提取的内容,包括特定人在发音过程中对应的常用音节和词语的基音信号;将调整后的原基音与特定人基音库中的所有基音信号进行比对,通过相关性比较、模式匹配或者机器学习方法,获得最为相似的基音信号片段;
步骤5,重构和优化基音信息,获得修正后的基音信号;
步骤6,修正后基音和声道模型进行语音合成,形成变音后的非清音信号;
步骤7,将原始清音信号和非清音信号进行综合,形成调整后的语音信号;DSP将调整后的基音和声道模型合成非清音信号,并进一步与原始清音模型进行叠加,形成变音后的语音信号。
2.根据权利要求1所述数字实时语音变音方法,其特征在于:步骤2中通过线性预测将语音分解为声道模型和原基音两个部分,其中,声道模型参数保留,用于后期的语音合成。
3.根据权利要求2所述数字实时语音变音方法,其特征在于:特定人基音库保存在云端***中,同时利用专用的实时检索***。
4.根据权利要求3所述数字实时语音变音方法,其特征在于:采用DSP和ARM***实现。
5.根据权利要求4所述数字实时语音变音方法,其特征在于:DSP实现声韵分割、线性预测功能,提取出非清音信号的原基音。
6.根据权利要求5所述数字实时语音变音方法,其特征在于:步骤3中根据实际需求调整原基音包括改变基音频率和/或改变基音频率变化速度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811342131.2A CN109616131B (zh) | 2018-11-12 | 2018-11-12 | 一种数字实时语音变音方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811342131.2A CN109616131B (zh) | 2018-11-12 | 2018-11-12 | 一种数字实时语音变音方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109616131A CN109616131A (zh) | 2019-04-12 |
CN109616131B true CN109616131B (zh) | 2023-07-07 |
Family
ID=66003036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811342131.2A Active CN109616131B (zh) | 2018-11-12 | 2018-11-12 | 一种数字实时语音变音方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109616131B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110364177A (zh) * | 2019-07-11 | 2019-10-22 | 努比亚技术有限公司 | 语音处理方法、移动终端及计算机可读存储介质 |
CN110942765B (zh) * | 2019-11-11 | 2022-05-27 | 珠海格力电器股份有限公司 | 一种构建语料库的方法、设备、服务器和存储介质 |
CN111739547B (zh) * | 2020-07-24 | 2020-11-24 | 深圳市声扬科技有限公司 | 语音匹配方法、装置、计算机设备和存储介质 |
CN113486964A (zh) * | 2021-07-13 | 2021-10-08 | 盛景智能科技(嘉兴)有限公司 | 语音活动检测方法、装置、电子设备和存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1152776A (zh) * | 1995-10-26 | 1997-06-25 | 索尼公司 | 复制语言信号、解码语音、合成语音的方法和装置 |
CN1567428A (zh) * | 2003-06-19 | 2005-01-19 | 北京中科信利技术有限公司 | 一种基于数字信号处理的语音变声方法 |
CN101354889A (zh) * | 2008-09-18 | 2009-01-28 | 北京中星微电子有限公司 | 一种语音变调方法及装置 |
CN101399044A (zh) * | 2007-09-29 | 2009-04-01 | 国际商业机器公司 | 语音转换方法和*** |
CN101510424A (zh) * | 2009-03-12 | 2009-08-19 | 孟智平 | 基于语音基元的语音编码与合成方法及*** |
CN102592590A (zh) * | 2012-02-21 | 2012-07-18 | 华南理工大学 | 一种可任意调节的语音自然变声方法及装置 |
CN102982809A (zh) * | 2012-12-11 | 2013-03-20 | 中国科学技术大学 | 一种说话人声音转换方法 |
CN103489443A (zh) * | 2013-09-17 | 2014-01-01 | 湖南大学 | 一种声音模仿方法及装置 |
CN203386472U (zh) * | 2013-04-26 | 2014-01-08 | 天津科技大学 | 一种个性语音变声装置 |
CN105023570A (zh) * | 2014-04-30 | 2015-11-04 | 安徽科大讯飞信息科技股份有限公司 | 一种实现声音转换的方法及*** |
CN107924678A (zh) * | 2015-09-16 | 2018-04-17 | 株式会社东芝 | 语音合成装置、语音合成方法、语音合成程序、语音合成模型学习装置、语音合成模型学习方法以及语音合成模型学习程序 |
CN108682413A (zh) * | 2018-04-24 | 2018-10-19 | 上海师范大学 | 一种基于语音转换的情感疏导*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW430778B (en) * | 1998-06-15 | 2001-04-21 | Yamaha Corp | Voice converter with extraction and modification of attribute data |
-
2018
- 2018-11-12 CN CN201811342131.2A patent/CN109616131B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1152776A (zh) * | 1995-10-26 | 1997-06-25 | 索尼公司 | 复制语言信号、解码语音、合成语音的方法和装置 |
CN1567428A (zh) * | 2003-06-19 | 2005-01-19 | 北京中科信利技术有限公司 | 一种基于数字信号处理的语音变声方法 |
CN101399044A (zh) * | 2007-09-29 | 2009-04-01 | 国际商业机器公司 | 语音转换方法和*** |
CN101354889A (zh) * | 2008-09-18 | 2009-01-28 | 北京中星微电子有限公司 | 一种语音变调方法及装置 |
CN101510424A (zh) * | 2009-03-12 | 2009-08-19 | 孟智平 | 基于语音基元的语音编码与合成方法及*** |
CN102592590A (zh) * | 2012-02-21 | 2012-07-18 | 华南理工大学 | 一种可任意调节的语音自然变声方法及装置 |
CN102982809A (zh) * | 2012-12-11 | 2013-03-20 | 中国科学技术大学 | 一种说话人声音转换方法 |
CN203386472U (zh) * | 2013-04-26 | 2014-01-08 | 天津科技大学 | 一种个性语音变声装置 |
CN103489443A (zh) * | 2013-09-17 | 2014-01-01 | 湖南大学 | 一种声音模仿方法及装置 |
CN105023570A (zh) * | 2014-04-30 | 2015-11-04 | 安徽科大讯飞信息科技股份有限公司 | 一种实现声音转换的方法及*** |
CN107924678A (zh) * | 2015-09-16 | 2018-04-17 | 株式会社东芝 | 语音合成装置、语音合成方法、语音合成程序、语音合成模型学习装置、语音合成模型学习方法以及语音合成模型学习程序 |
CN108682413A (zh) * | 2018-04-24 | 2018-10-19 | 上海师范大学 | 一种基于语音转换的情感疏导*** |
Also Published As
Publication number | Publication date |
---|---|
CN109616131A (zh) | 2019-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109616131B (zh) | 一种数字实时语音变音方法 | |
US9135923B1 (en) | Pitch synchronous speech coding based on timbre vectors | |
CN111462769B (zh) | 一种端到端的口音转换方法 | |
Qian et al. | A unified trajectory tiling approach to high quality speech rendering | |
WO2013133768A1 (en) | Method and system for template-based personalized singing synthesis | |
CN104081453A (zh) | 用于声学变换的***和方法 | |
CN101359473A (zh) | 自动进行语音转换的方法和装置 | |
CN101930747A (zh) | 一种将语音转换成口型图像的方法和装置 | |
Aryal et al. | Foreign accent conversion through voice morphing. | |
CN110570842B (zh) | 基于音素近似度和发音标准度的语音识别方法及*** | |
CN113436606B (zh) | 一种原声语音翻译方法 | |
CN112382308A (zh) | 基于深度学习与简单声学特征的零次语音转换***和方法 | |
CN111724809A (zh) | 一种基于变分自编码器的声码器实现方法及装置 | |
Toth et al. | Synthesizing speech from electromyography using voice transformation techniques | |
Zhang et al. | AccentSpeech: Learning accent from crowd-sourced data for target speaker TTS with accents | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
Eichner et al. | Voice characteristics conversion for TTS using reverse VTLN | |
Aso et al. | Speakbysinging: Converting singing voices to speaking voices while retaining voice timbre | |
Xie et al. | End-to-end voice conversion with information perturbation | |
Zheng et al. | Bandwidth extension WaveNet for bone-conducted speech enhancement | |
Lian et al. | ARVC: An Auto-Regressive Voice Conversion System Without Parallel Training Data. | |
KR101095867B1 (ko) | 음성합성장치 및 방법 | |
González-Docasal et al. | Exploring the limits of neural voice cloning: A case study on two well-known personalities | |
CN111259188A (zh) | 一种基于seq2seq网络的歌词对齐方法及*** | |
Nguyen et al. | Spectral modification for voice gender conversion using temporal decomposition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |