CN114550733A - 一种可用于芯片端的语音合成方法 - Google Patents

一种可用于芯片端的语音合成方法 Download PDF

Info

Publication number
CN114550733A
CN114550733A CN202210426046.4A CN202210426046A CN114550733A CN 114550733 A CN114550733 A CN 114550733A CN 202210426046 A CN202210426046 A CN 202210426046A CN 114550733 A CN114550733 A CN 114550733A
Authority
CN
China
Prior art keywords
excitation
pulse
dimension
signal
periodic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210426046.4A
Other languages
English (en)
Other versions
CN114550733B (zh
Inventor
曹艳艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chipintelli Technology Co Ltd
Original Assignee
Chipintelli Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chipintelli Technology Co Ltd filed Critical Chipintelli Technology Co Ltd
Priority to CN202210426046.4A priority Critical patent/CN114550733B/zh
Publication of CN114550733A publication Critical patent/CN114550733A/zh
Application granted granted Critical
Publication of CN114550733B publication Critical patent/CN114550733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Operations Research (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种可用于芯片端的语音合成方法,包括如下步骤:步骤1.计算脉冲激励种子信号和噪声激励种子信号;步骤2.由给定语音的基频F0和带状非周期比值ap求激励信号;步骤3.对给定音频的每一帧频谱包络,计算对应的音频数据,然后按帧移进行叠加得到最终的语音波形。本发明通过预先离线计算所需脉冲激励种子信号,在计算周期激励和非周期激励时只做乘加运算,不涉及傅里叶变换和傅里叶逆变换,提升了声码器在芯片端的运算速度。

Description

一种可用于芯片端的语音合成方法
技术领域
本发明属于语音技术领域,具体涉及一种可用于芯片端的语音合成方法。
背景技术
离线语音合成芯片可用于信息机,考勤机,语音导游,自动售货机,智能玩具等领域。通过通讯接口,接收待合成的文本数据,实现文本到语音(或 TTS 语音)的转换。传统的语音合成芯片采用拼接法,语音合成韵律感不强,可合成文本受拼接片段的影响,而高性能语音合成芯片价格高,大大限制了离线语音合成芯片的应用场景。一款性价比更高,效果更自然的语音合成芯片,可以推动 TTS 语音合成技术的行业应用走向更深入、更广泛。工业界最常用的语音合成声码器为WORLD(WORLD: a vocoder-based high-quality speechsynthesis system for real-time applications, IEICE transactions oninformation and systems, vol. E99-D, no. 7, pp. 1877-1884, 2016. M. Morise,F. Yokomori, and K. Ozawa)声码器,因其计算方法为纯信号学理论,既比其他传统声码器(STRAIGHT、Griffim Lim等)合成效果好,也比基于神经网络的声码器(MelGAN、LPCNet等)计算复杂度低,合成速度快。更适合用于低性能的芯片端设备。
World声码器基于source-filter模型,source指声源,即声带震动,发出一串脉冲信号(pulse train)。声带震动的越快,声音的音高越高,脉冲信号越密集。filter指声源信号经过的部位,包括声道、喉腔、口腔、嘴唇、牙齿等。在这些部位的共同作用下,能够发出不同的音色、不同的元音辅音。这些部位共同组成一个滤波器***,可以将其看作一个线性时不变***(Linear time-invariant system)。WORLD声码器输入三个声学特征:F0 contour(基频),spectral envelope(频谱包络),periodic parameter(非周期参数)。在WORLD的开源项目中(https://github.com/mmorise/World),提供了由三个声学特征得到时域信号的代码实现,在现有文献公开的方法中,先计算脉冲位置,然后计算每个脉冲位置对应的周期响应和非周期响应,最后叠加所有脉冲响应,得到最终的时域波形。在求周期响应时通过频谱包络和非周期比值得到周期信号的频谱包络,然后通过倒谱分析其最小相位频谱,通过傅里叶逆变换得到周期响应。求非周期响应时,先求白噪声的频谱,根据非周期比值得到非周期信号的频谱包络,同样做倒谱分析得到非周期激励的最小相位谱,然后在频率域域频谱包络相乘,模拟白噪声信号与频谱包络对应的线性时不变***的卷积计算,最后将相乘后的频谱进行傅里叶逆变换,得到非周期响应。在整个计算流程中反复用到傅里叶变换和傅里叶逆变换,在芯片端的耗时较多。完整的语音合成***通常包括前端文本归一化,汉字转拼音、音素转时长和声学特征、声码器等。而声码器部分的耗时通常占比较高,因此对这一部分的算法优化将大大提高WORLD算法在芯片端实现的可能性。
发明内容
为提升声码器的运算速度,增加低性能芯片上实现离线语音合成的可行性,本发明公开了一种可用于芯片端的语音合成方法。
本发明所述可用于芯片端的语音合成方法,包括如下步骤:
步骤1.计算脉冲激励种子信号和噪声激励种子信号;
步骤2.由给定语音的基频F0和带状非周期比值ap求激励信号
步骤2-1.由基频F0求脉冲个数和位置。
2-11.基频F0特征上采样至时域信号长度N,其中时域信号长度为基频F0长度乘以帧移,帧移表示时域信号求声学特征时的滑动步长,上采样结果记为ai,i=0,1... N-1,i为不同维度;
2-12.对2-11步骤得到的每一维上采样数据乘以2π,再除以采样率fs;π为圆周率,然后每个采样点依次求累积值;可表述为以下公式:
Figure 626461DEST_PATH_IMAGE001
其中ai表示步骤2-11得到的上采样结果,N为时域信号长度;bj表示第j维的累积数据值;
2-13.对2-12的各个累积数据值bj,求各个累积数据值bj与其相邻维度的累积数据值bj+1分别对2π求余数后,再求余数的差并取绝对值,公式如下:
Figure 852256DEST_PATH_IMAGE002
ck表示第k维度的差绝对值,bk为第k维度的累积数据值,%表示取余数操作,N为时域信号长度,||表示取绝对值操作;
2-14.依次对2-13的差绝对值ck进行判断,k=1,2...N-1,如果ck>π,则第k个位置即为脉冲点所在位置,统计出全部脉冲点所在位置,记为ki,i=0,1... Np,Np为脉冲点的个数总数;
步骤2-2.求非周期激励
2-21.将给定语音的带状非周期比值ap特征上采样至时域信号长度N;
2-22.将噪声激励种子信号扩充至时域信号长度N;
2-23.步骤2-21和步骤2-22的结果按维度位相乘,然后合并为长度为时域信号长度的特征,即为非周期激励;
步骤2-3.求周期激励,
具体为:对2-1步骤中所得到的每一个脉冲位置ki,i=0,1... Np做如下操作:
根据基频F0和带状非周期比值ap判断此脉冲位置是否为清音段,是则此处周期激励为0;否则将步骤1得到的脉冲激励种子信号依次乘以(1-apki), apki为对应维度上ki处的带状非周期比值,然后将Nap个维度的值相加到一个维度,得到该脉冲脉冲位置处的周期激励;
按脉冲所在位置叠加所有脉冲位置的周期激励,得到完整的周期激励;
步骤2-4.将步骤2-2得到的非周期激励和步骤2-3得到的周期激励相加,得到激励信号;
步骤3.对给定音频的每一帧频谱包络,计算对应的音频数据,然后按帧移进行叠加得到最终的语音波形。
优选的,所述步骤1具体为:
步骤1-1.自定义频程fr和最大频率U,根据采样率fs计算带状非周期比值的维数Nap;公式如下:
Figure 428731DEST_PATH_IMAGE003
---(1)
其中,Nap表示带状非周期比值的维数,
Figure 433728DEST_PATH_IMAGE004
为下取整,min表示取最小值,fs为采样率,U为最大频率,fr为频程;
步骤1-2.
采用余弦函数模拟带状非周期比值每一维度的脉冲基准频率,并求脉冲激励种子信号,公式如下:
pi=f-1(0.5+0.5*cos(2π(wp-fr*i)/2*fr)),i=1,2…Nap ----(2)
其中f-1表示傅里叶逆变换,cos为余弦计算符,wp为激励种子向量,fr为频程,pi为带状非周期比值第i维度的脉冲激励种子信号。
步骤1-3.
获取或随机生成Nap组随机白噪声信号,求噪声激励种子信号。公式如下:
ni=f-1(f(wi) * f(pi)),i=1,2…Nap---(3)
其中,f和f-1分别表示傅里叶变换和傅里叶逆变换,wi为第
Figure 44837DEST_PATH_IMAGE005
组随机白噪声,ni为第
Figure 601721DEST_PATH_IMAGE005
组噪声激励种子信号。
优选的,所述步骤3具体包括如下步骤:
步骤3-1.由频谱得到最小相位频谱,计算公式如下:
Figure 304972DEST_PATH_IMAGE006
其中
Figure 143353DEST_PATH_IMAGE007
Figure 281073DEST_PATH_IMAGE008
V(w)表示得到的最小相位频谱,w表示最小相位谱域,q表示频谱包络域,eiwq,e-iwq表示求取复变函数,sp为频谱包络特征。
步骤3-2.对步骤2得到的激励信号按帧移提取数据做窗计算,提取激励信号,其中窗长度由傅里叶频谱由步骤1中的傅里叶变换长度决定;
步骤3-3.步骤3-1得到的最小相位频谱和步骤3-2得到的激励信号傅里叶频谱相乘;
步骤3-4.步骤3-3的乘积结果进行傅里叶逆变换得到脉冲响应;
步骤3-5.按帧移位置叠加所有脉冲响应,得到语音波形。
优选的,判断是否为清音段的具体方法为设置一个清音阈值,若该脉冲点基频F0的值为0或者该脉冲点最大维度即第Nap维上的带状非周期比值ap大于清音阈值,则表示该脉冲位置处于清音段。
本发明通过预先离线计算所需脉冲激励种子信号,在计算周期激励和非周期激励时只做简单的乘法和加法运算,不涉及傅里叶变换和傅里叶逆变换,提升了WORLD声码器在芯片端的运算速度;最后对每帧数据计算脉冲响应,方便做流式语音合成。
附图说明
图1为本发明一个具体实施方式流程示意图;
图2为本发明具体实施例中利用原始音频中的声学特征计算所得到的合成音频的频谱图;
图3为本发明具体实施例中原始音频频谱图;
图2和图3中横坐标表示时域信号时间点,纵坐标表示频率域。
具体实施方式
对给定的一段音频数据的声学特征,包括了以下信息:基频F0、频谱包络特征sp,带状非周期比值ap;声学特征表示音频信号中白噪声与脉冲序列能量的比例。声源是白噪声与脉冲序列的混合,如参考论文(如D4C, a band-aperiodicity estimator for high-quality speech synthesis, Speech Communication, vol. 84, pp. 57-65, Nov.2016,M. Morise)已证明,对于清音,白噪声比例很高,带状非周期比值较高;而对于浊音,白噪声比例很低,带状非周期比值较低。带状非周期比值的具体定义可参考论文《A mixedexcitation LPC vocoder model for low bit rate speech coding》(IEEE Trans.Speech Audio Process. 3(4), 242-250,1995,McCree,V A.,Barnwell,P T.)提出这一与混合激励相关的声学参数。本发明为方便进行语音合成,对给定的一段音频数据声学特征进行时域音频信号还原,并简化了还原过程。
下面对本发明的具体实施方式作进一步的详细说明。
本发明可通过如下步骤还原给定的一段音频数据的时域音频信号。
步骤1.计算脉冲激励种子信号和噪声激励种子信号。
步骤1-1.自定义频程fr和最大频率U,根据采样率fs计算带状非周期比值的维数。公式如下:
Figure 133492DEST_PATH_IMAGE003
(1)
其中,Nap表示带状非周期比值的维数,
Figure 435291DEST_PATH_IMAGE004
为下取整,min表示取最小值,fs为采样率,U为最大频率,fr为频程。U,fr均可取经验值,可见Nap大小由采样率决定。
例如一段时长为1秒的音频,如果其采样率为16000,设帧移为经验值80,即每隔80个点取一个傅里叶变换长度的数据,可以得到基频特征为16000/80=200维的数据,ap特征为[3,200]的矩阵数据。其中频程fr和最大频率U的值根据计算精度决定初始值。
频程指两个频率间的相对尺度,频程值越小,得到的ap值维数越大,计算越精细。采样率是每秒音频所包含的采样点个数,如一个音频的采样率为16000,则该音频每秒包含16000个的采样数据,通常一个频率需要两个采样点才能确定,所以16000采样率的音频所能表述的最大频率为8000。
步骤1-2.
采用余弦函数模拟带状非周期比值每一维度的脉冲基准频率,并求脉冲激励种子信号,公式如下:
pi=f-1(0.5+0.5*cos(2π(wp-fr*i)/2*fr)),i=1,2…Nap ---(2)
其中f-1表示傅里叶逆变换,cos为余弦计算符,wp为激励种子向量,可根据采样率和傅里叶变换长度取经验值,向量长度通常设置为傅里叶变换长度的一半,fr为频程,pi为带状非周期比值第i维度的脉冲激励种子信号。
步骤1-3.
获取或随机生成Nap组随机白噪声信号,求噪声激励种子信号。公式如下:
ni=f-1(f(wi) * f(pi)),i=1,2…Nap---(3)
其中,f和f-1分别表示傅里叶变换和傅里叶逆变换,wi为第
Figure 641145DEST_PATH_IMAGE005
组随机白噪声,ni为第
Figure 23584DEST_PATH_IMAGE005
组噪声激励种子信号。
上述脉冲激励种子信号pi与噪声激励种子信号ni均只受采样率和频程影响,可以只做一次计算,作为常量。
步骤2.由给定的基频F0和带状非周期比值ap求激励信号,这两个特征所代表的激励信号,其中基频决定脉冲位置,带状非周期比值特征决定周期激励和非周期激励比值,激励信号包括非周期激励和周期激励。
步骤2-1.由基频F0求脉冲个数和位置。
2-11.基频F0特征上采样至时域信号维度N,其中时域信号长度为基频F0长度乘以帧移,帧移表示时域信号求声学特征时的滑动步长,上采样结果记为ai,i=0,1... N-1,i为不同维度。
2-12.对2-11上采样结果每一维数据乘以2π,再除以采样率fs。π为圆周率,然后每个采样点依次求累积值;可表述为以下公式:
Figure 840712DEST_PATH_IMAGE001
其中ai表示步骤2-11得到的上采样结果,N为时域信号维度;bj表示第j维的累积数据值;
2-13.对2-12的各个累积数据值bj,求各个累积数据值bj与其相邻维度bj+1分别对2π求余数后的差的绝对值,公式如下:
Figure 987397DEST_PATH_IMAGE002
ck表示第k维度的差绝对值,bk为第k维度的累积数据值,%表示取余数操作,||表示取绝对值操作;
2-14.依次对2-13的差绝对值ck进行判断,k=1,2...N-1,如果ck>π,则第k个位置即为脉冲点所在位置,将脉冲点的个数总数即为Np,各脉冲点所在位置记为ki,i=0,1... Np
步骤2-2.求非周期激励
2-21.将带状非周期比值ap特征上采样至时域信号维度N;
2-22.将噪声激励种子信号扩充至时域信号维度N;
2-23.步骤2-21和步骤2-22的结果按维度位相乘,然后合并为长度为时域信号长度的特征,即为非周期激励。
步骤2-3.求周期激励
对2-1步骤中所得到的每一个脉冲位置ki,i=0,1... Np做如下操作:
根据基频F0和带状非周期比值ap判断此脉冲位置是否为清音段,是则此处周期激励为0;否则将步骤1得到的脉冲激励种子信号依次乘以(1-apki), apki为对应维度上ki处的带状非周期比值,然后将Nap个维度的值相加到一个维度,得到该脉冲脉冲位置处的周期激励;
判断是否为清音段的具体方法通常为设置一个清音阈值,例如,若该脉冲点F0的值为0或者该脉冲点最大维度上的带状非周期比值大于清音阈值0.999,表示只有白噪声,则表示该脉冲位置处于清音段。
按脉冲所在位置叠加所有脉冲位置的周期激励,得到完整的周期激励。
步骤2-4.将步骤2-2得到的非周期激励和步骤2-3得到的周期激励相加,得到激励信号。
本发明通过预先离线计算所需脉冲激励种子信号,在计算周期激励和非周期激励时只做简单的乘法和加法运算,不涉及傅里叶变换和傅里叶逆变换,提升了WORLD声码器在芯片端的运算速度。
得到激励信号后,再通过对每帧数据计算脉冲响应,方便后续做流式语音合成。
步骤3.对每一帧频谱包络,计算对应的音频数据,然后按帧移进行叠加得到最终的语音波形即时域音频信号;本步骤本步骤具体为:
步骤3-1.由频谱得到最小相位频谱,计算公式如下:
Figure 996942DEST_PATH_IMAGE006
其中
Figure 437150DEST_PATH_IMAGE007
Figure 585366DEST_PATH_IMAGE008
V(w)表示得到的最小相位频谱,w表示最小相位谱域,q表示频谱包络域,eiwq,e-iwq表示求取复变函数,sp为频谱包络特征。
步骤3-2.对步骤2得到的激励信号按帧移提取数据做窗计算,提取激励信号,其中窗长度由傅里叶频谱由步骤1中的傅里叶变换长度决定;
步骤3-3.步骤3-1得到的最小相位频谱和步骤3-2得到的激励信号傅里叶频谱相乘;
步骤3-4.步骤3-3的乘积结果进行傅里叶逆变换得到脉冲响应;
步骤3-5.按帧移位置叠加所有脉冲响应,得到语音波形。
具体流程如图1所示。
以下给出一个具体实施例。
已知一段音频数据的声学特征:基频F0,频谱包络SP,带状非周期比值AP,设置帧移为0.005毫秒,待合成音频采样率为16000,傅里叶变换长度为1024。本发明通过如下步骤还原其时域音频信号。
1、计算脉冲激励种子信号和噪声激励种子信号。
自定义频程大小为3000,最大频率8000,由公式(1)得到带状非周期比值的维数3。由公式(2)得到每一维度的脉冲激励种子信号p0, p1, p2,每一维长度为1024。由公式(3)得到每一维度的噪声激励种子信号n0, n1,n2,,每一维度的长度为8192。
此步骤计算的脉冲激励种子信号和噪声激励种子信号只与采样率和频程和最小频率有关,因此可以离线计算作为变量保存,后续合成音频时直接调用,无须再计算。
2、由给定的基频F0和频谱包络SP,获取其激励信号,包括非周期激励和周期激励,假设F0和带状非周期比值AP特征有m帧。
2-1)由F0求脉冲个数和位置。
1a)F0特征上采样到m*80维。(*表示乘法),m*80即为对应的时域信号维度N_response。得到上采样结果,记为ai,i=0,1... N_response,i为不同维度;
1b)如步骤2-12所述,计算bj,j=0,1... N_response ;
1c)如步骤2-13所述,计算ck,k=0,1... N_response;
1d)依次判断ck的值,如果ck>π,则第k个位置即为脉冲点所在位置,记录脉冲点个数NP,和每个脉冲点所在位置ki,i=0,1... Np
2-2)求非周期激励
2a) ap信号大小[3,m]上采样至[3, m*80];
2b) 将噪声激励种子信号扩充至时域信号维度,如果时域信号维度N_response小于激励种子信号长度8192,则取噪声激励种子信号的前N_response个数据,若N_response大于激励种子信号长度8192,则从噪声激励种子信号从头选取所需数据,扩充后的噪声激励种子信号为[3,m*80];
2c) 步骤2a)和步骤2b)的结果按位相乘,然后将相乘后的[3,m*80]矩阵按行相加得到矩阵[1,m*80]即为非周期激励。
2-3)求周期激励
初始化长度为[1,m*80]的周期激励信号,对每一个脉冲位置做如下操作:
3a)根据该脉冲点的基频值和该脉冲点最大维度上的带状非周期比值判断此处是否为清音段,
如果该脉冲点的基频值小于0或者该脉冲点最大维度上的带状非周期比值大于0.999,则此处周期激励为0;均表示该脉冲点处于清音段,最大维度即该脉冲点的第Nap维。
3b)若不为清音段,则将脉冲激励种子信号按维度依次乘以该脉冲点的(1-apki),apki为对应维度上ki处的带状非周期比值,得到矩阵[3,1024],按行和并为[1,1024],得到该脉冲位置处的周期激励;
计算每一脉冲位置的周期激励按脉冲点位置进行叠加,得到完整的周期激励。
步骤2)的非周期激励和步骤3)的周期激励相加。
3、对每一帧频谱包络sp,计算对应的音频数据,然后进行叠加得到最终的时域音频信号;
3-1) 由频谱得到最小相位频谱,其中涉及傅里叶变换和傅里叶逆变换。
3-2)按帧移依次取激励信号,提取数据长度为512,乘以窗函数,本实施例采用汉明窗,然后提取傅里叶频谱;
3-3)将步骤1)最小相位频谱和和步骤2)激励信号的频谱相乘,得到时域信号的频谱信息;
3-4)步骤3)结果进行傅里叶逆变换得到脉冲响应。
按帧移叠加上述每一帧所得到的脉冲响应,得到语音波形。
在芯片上耗时对比:
采用申请人自行开发的语音识别芯片CI1103,合成时长1秒的音频耗时与传统算法对比如表1,可见本发明显著缩短了耗时。
表1
Figure 487856DEST_PATH_IMAGE009
如图3所示给出原始音频的频谱图,图2给出通过本发明由原始音频的声学特征基频F0,频谱包络SP,带状非周期比值AP计算所得到的合成音频的频谱图。图2和图3采用大小相同的坐标系;由图2和图3对比可见,图3得到的合成音频与图2相似度较高。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (4)

1.一种可用于芯片端的语音合成方法,其特征在于,包括如下步骤:
步骤1.计算脉冲激励种子信号和噪声激励种子信号;
步骤2.由给定语音的基频F0和带状非周期比值ap求激励信号
步骤2-1.由基频F0求脉冲个数和位置;
2-11.基频F0特征上采样至时域信号长度N,其中时域信号长度为基频F0长度乘以帧移,帧移表示时域信号求声学特征时的滑动步长,上采样结果记为ai,i=0,1... N-1,i为不同维度;
2-12.对2-11步骤得到的每一维上采样数据乘以2π,再除以采样率fs;π为圆周率,然后每个采样点依次求累积值;可表述为以下公式:
Figure 686706DEST_PATH_IMAGE001
其中ai表示步骤2-11得到的上采样结果,N为时域信号长度;bj表示第j维的累积数据值;
2-13.对2-12的各个累积数据值bj,求各个累积数据值bj与其相邻维度的累积数据值bj+1分别对2π求余数后,再求余数的差并取绝对值,公式如下:
Figure 596893DEST_PATH_IMAGE002
ck表示第k维度的差绝对值,bk为第k维度的累积数据值,%表示取余数操作,N为时域信号长度,||表示取绝对值操作;
2-14.依次对2-13的差绝对值ck进行判断,k=1,2...N-1,如果ck>π,则第k个位置即为脉冲点所在位置,统计出全部脉冲点所在位置,记为ki,i=0,1... Np,Np为脉冲点的个数总数;
步骤2-2.求非周期激励
2-21.将给定语音的带状非周期比值ap特征上采样至时域信号长度N;
2-22.将噪声激励种子信号扩充至时域信号长度N;
2-23.步骤2-21和步骤2-22的结果按维度位相乘,然后合并为长度为时域信号长度的特征,即为非周期激励;
步骤2-3.求周期激励
具体为:对2-1步骤中所得到的每一个脉冲位置ki,i=0,1... Np做如下操作:
根据基频F0和带状非周期比值ap判断此脉冲位置是否为清音段,是则此处周期激励为0;否则将步骤1得到的脉冲激励种子信号依次乘以(1-apki), apki为对应维度上ki处的带状非周期比值,然后将Nap个维度的值相加到一个维度,得到该脉冲脉冲位置处的周期激励;
按脉冲所在位置叠加所有脉冲位置的周期激励,得到完整的周期激励;
步骤2-4.将步骤2-2得到的非周期激励和步骤2-3得到的周期激励相加,得到激励信号;
步骤3.对给定音频的每一帧频谱包络,计算对应的音频数据,然后按帧移进行叠加得到最终的语音波形。
2.如权利要求1所述的可用于芯片端的语音合成方法,其特征在于,所述步骤1具体为:
步骤1-1.自定义频程fr和最大频率U,根据采样率fs计算带状非周期比值的维数Nap;公式如下:
Figure 990965DEST_PATH_IMAGE003
---(1)
其中,Nap表示带状非周期比值的维数,
Figure 825060DEST_PATH_IMAGE004
为下取整,min表示取最小值,fs为采样率,U为最大频率,fr为频程;
步骤1-2.
采用余弦函数模拟带状非周期比值每一维度的脉冲基准频率,并求脉冲激励种子信号,公式如下:
pi=f-1(0.5+0.5*cos(2π(wp-fr*i)/2*fr)),i=1,2…Nap ----(2)
其中f-1表示傅里叶逆变换,cos为余弦计算符,wp为激励种子向量,fr为频程,pi为带状非周期比值第i维度的脉冲激励种子信号;
步骤1-3.
获取或随机生成Nap组随机白噪声信号,求噪声激励种子信号;
公式如下:
ni=f-1(f(wi) * f(pi)),i=1,2…Nap---(3)
其中,f和f-1分别表示傅里叶变换和傅里叶逆变换,wi为第
Figure 683294DEST_PATH_IMAGE005
组随机白噪声,ni为第
Figure 702066DEST_PATH_IMAGE005
组噪声激励种子信号。
3.如权利要求2所述的可用于芯片端的语音合成方法,其特征在于,所述步骤3具体包括如下步骤:
步骤3-1.由频谱得到最小相位频谱,计算公式如下:
Figure 957336DEST_PATH_IMAGE006
其中
Figure 782072DEST_PATH_IMAGE007
Figure 698076DEST_PATH_IMAGE008
V(w)表示得到的最小相位频谱,w表示最小相位谱域,q表示频谱包络域,eiwq,e-iwq表示求取复变函数,sp为频谱包络特征;
步骤3-2.对步骤2得到的激励信号按帧移提取数据做窗计算,提取激励信号,其中窗长度由傅里叶频谱由步骤1中的傅里叶变换长度决定;
步骤3-3.步骤3-1得到的最小相位频谱和步骤3-2得到的激励信号傅里叶频谱相乘;
步骤3-4.步骤3-3的乘积结果进行傅里叶逆变换得到脉冲响应;
步骤3-5.按帧移位置叠加所有脉冲响应,得到语音波形。
4.如权利要求1所述的可用于芯片端的语音合成方法,其特征在于,
判断是否为清音段的具体方法为设置一个清音阈值,若该脉冲点基频F0的值为0或者该脉冲点最大维度即第Nap维上的带状非周期比值ap大于清音阈值,则表示该脉冲位置处于清音段。
CN202210426046.4A 2022-04-22 2022-04-22 一种可用于芯片端的语音合成方法 Active CN114550733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210426046.4A CN114550733B (zh) 2022-04-22 2022-04-22 一种可用于芯片端的语音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210426046.4A CN114550733B (zh) 2022-04-22 2022-04-22 一种可用于芯片端的语音合成方法

Publications (2)

Publication Number Publication Date
CN114550733A true CN114550733A (zh) 2022-05-27
CN114550733B CN114550733B (zh) 2022-07-01

Family

ID=81667506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210426046.4A Active CN114550733B (zh) 2022-04-22 2022-04-22 一种可用于芯片端的语音合成方法

Country Status (1)

Country Link
CN (1) CN114550733B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009144368A1 (en) * 2008-05-30 2009-12-03 Nokia Corporation Method, apparatus and computer program product for providing improved speech synthesis
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
CN102750955A (zh) * 2012-07-20 2012-10-24 中国科学院自动化研究所 基于残差信号频谱重构的声码器
US20160005392A1 (en) * 2014-07-03 2016-01-07 Google Inc. Devices and Methods for a Universal Vocoder Synthesizer
WO2018159402A1 (ja) * 2017-02-28 2018-09-07 国立研究開発法人情報通信研究機構 音声合成システム、音声合成プログラムおよび音声合成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009144368A1 (en) * 2008-05-30 2009-12-03 Nokia Corporation Method, apparatus and computer program product for providing improved speech synthesis
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
CN102750955A (zh) * 2012-07-20 2012-10-24 中国科学院自动化研究所 基于残差信号频谱重构的声码器
US20160005392A1 (en) * 2014-07-03 2016-01-07 Google Inc. Devices and Methods for a Universal Vocoder Synthesizer
WO2018159402A1 (ja) * 2017-02-28 2018-09-07 国立研究開発法人情報通信研究機構 音声合成システム、音声合成プログラムおよび音声合成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MASANORI MORISE等: "High-quality waveform generator from fundamental frequency, spectral envelope, and band aperiodicity", 《PROCEEDINGS OF APSIPA ANNUAL SUMMIT AND CONFERENCE 2019》 *
MASANORI MORISE等: "WORLD: A Vocoder-Based High-Quality Speech Synthesis System", 《THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS》 *
陈飞扬: "基于生成对抗网络的多判别歌声合成声码器的研究", 《中国优秀硕士学位论文全文数据库》 *

Also Published As

Publication number Publication date
CN114550733B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
US9135923B1 (en) Pitch synchronous speech coding based on timbre vectors
US9031834B2 (en) Speech enhancement techniques on the power spectrum
US9058807B2 (en) Speech synthesizer, speech synthesis method and computer program product
CN102496363B (zh) 一种用于汉语语音合成的音调修正方法
Le Cornu et al. Generating intelligible audio speech from visual speech
US20050131680A1 (en) Speech synthesis using complex spectral modeling
EP4295353A1 (en) Unsupervised parallel tacotron non-autoregressive and controllable text-to-speech
EP2109096B1 (en) Speech synthesis with dynamic constraints
US20230317056A1 (en) Audio generator and methods for generating an audio signal and training an audio generator
CN112489629A (zh) 语音转写模型、方法、介质及电子设备
CN102201240A (zh) 基于逆滤波的谐波噪声激励模型声码器
US20240127832A1 (en) Decoder
Wu et al. Quasi-periodic WaveNet vocoder: A pitch dependent dilated convolution model for parametric speech generation
Sung et al. Excitation modeling based on waveform interpolation for HMM-based speech synthesis.
EP2087485B1 (en) Multicodebook source -dependent coding and decoding
CN114550733B (zh) 一种可用于芯片端的语音合成方法
Song et al. Improved time-frequency trajectory excitation modeling for a statistical parametric speech synthesis system
Yoneyama et al. High-fidelity and pitch-controllable neural vocoder based on unified source-filter networks
USH2172H1 (en) Pitch-synchronous speech processing
Wu et al. Statistical voice conversion with quasi-periodic wavenet vocoder
Orphanidou et al. Voice morphing using the generative topographic mapping
Gandhi et al. Source separation using particle filters.
Ye Efficient Approaches for Voice Change and Voice Conversion Systems
Achanta et al. Significance of Maximum Spectral Amplitude in Sub-bands for Spectral Envelope Estimation and Its Application to Statistical Parametric Speech Synthesis
CN114974271A (zh) 一种基于声道滤波和声门激励的语音重构方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant