CN114550733A

CN114550733A - 一种可用于芯片端的语音合成方法

Info

Publication number: CN114550733A
Application number: CN202210426046.4A
Authority: CN
Inventors: 曹艳艳
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-05-27
Anticipated expiration: 2042-04-22
Also published as: CN114550733B

Abstract

一种可用于芯片端的语音合成方法，包括如下步骤：步骤1.计算脉冲激励种子信号和噪声激励种子信号；步骤2.由给定语音的基频F0和带状非周期比值ap求激励信号；步骤3.对给定音频的每一帧频谱包络,计算对应的音频数据，然后按帧移进行叠加得到最终的语音波形。本发明通过预先离线计算所需脉冲激励种子信号，在计算周期激励和非周期激励时只做乘加运算，不涉及傅里叶变换和傅里叶逆变换，提升了声码器在芯片端的运算速度。

Description

一种可用于芯片端的语音合成方法

技术领域

本发明属于语音技术领域，具体涉及一种可用于芯片端的语音合成方法。

背景技术

离线语音合成芯片可用于信息机，考勤机，语音导游，自动售货机，智能玩具等领域。通过通讯接口，接收待合成的文本数据，实现文本到语音（或 TTS 语音）的转换。传统的语音合成芯片采用拼接法，语音合成韵律感不强，可合成文本受拼接片段的影响，而高性能语音合成芯片价格高，大大限制了离线语音合成芯片的应用场景。一款性价比更高，效果更自然的语音合成芯片，可以推动 TTS 语音合成技术的行业应用走向更深入、更广泛。工业界最常用的语音合成声码器为WORLD（WORLD: a vocoder-based high-quality speechsynthesis system for real-time applications, IEICE transactions oninformation and systems, vol. E99-D, no. 7, pp. 1877-1884, 2016. M. Morise,F. Yokomori, and K. Ozawa）声码器，因其计算方法为纯信号学理论，既比其他传统声码器（STRAIGHT、Griffim Lim等）合成效果好，也比基于神经网络的声码器（MelGAN、LPCNet等）计算复杂度低，合成速度快。更适合用于低性能的芯片端设备。

World声码器基于source-filter模型，source指声源，即声带震动，发出一串脉冲信号（pulse train）。声带震动的越快，声音的音高越高，脉冲信号越密集。filter指声源信号经过的部位，包括声道、喉腔、口腔、嘴唇、牙齿等。在这些部位的共同作用下，能够发出不同的音色、不同的元音辅音。这些部位共同组成一个滤波器***，可以将其看作一个线性时不变***（Linear time-invariant system）。WORLD声码器输入三个声学特征：F0 contour（基频），spectral envelope(频谱包络），periodic parameter(非周期参数)。在WORLD的开源项目中（https://github.com/mmorise/World），提供了由三个声学特征得到时域信号的代码实现，在现有文献公开的方法中，先计算脉冲位置，然后计算每个脉冲位置对应的周期响应和非周期响应，最后叠加所有脉冲响应，得到最终的时域波形。在求周期响应时通过频谱包络和非周期比值得到周期信号的频谱包络，然后通过倒谱分析其最小相位频谱，通过傅里叶逆变换得到周期响应。求非周期响应时，先求白噪声的频谱，根据非周期比值得到非周期信号的频谱包络，同样做倒谱分析得到非周期激励的最小相位谱，然后在频率域域频谱包络相乘，模拟白噪声信号与频谱包络对应的线性时不变***的卷积计算，最后将相乘后的频谱进行傅里叶逆变换，得到非周期响应。在整个计算流程中反复用到傅里叶变换和傅里叶逆变换，在芯片端的耗时较多。完整的语音合成***通常包括前端文本归一化，汉字转拼音、音素转时长和声学特征、声码器等。而声码器部分的耗时通常占比较高，因此对这一部分的算法优化将大大提高WORLD算法在芯片端实现的可能性。

发明内容

为提升声码器的运算速度，增加低性能芯片上实现离线语音合成的可行性，本发明公开了一种可用于芯片端的语音合成方法。

本发明所述可用于芯片端的语音合成方法，包括如下步骤：

步骤1.计算脉冲激励种子信号和噪声激励种子信号；

步骤2.由给定语音的基频F0和带状非周期比值ap求激励信号

步骤2-1.由基频F0求脉冲个数和位置。

2-11.基频F0特征上采样至时域信号长度N，其中时域信号长度为基频F0长度乘以帧移，帧移表示时域信号求声学特征时的滑动步长，上采样结果记为a_i,i=0,1... N-1，i为不同维度；

2-12.对2-11步骤得到的每一维上采样数据乘以2π，再除以采样率fs；π为圆周率，然后每个采样点依次求累积值；可表述为以下公式：

其中a_i表示步骤2-11得到的上采样结果，N为时域信号长度；b_j表示第j维的累积数据值；

2-13.对2-12的各个累积数据值b_j，求各个累积数据值b_j与其相邻维度的累积数据值b_j+1分别对2π求余数后，再求余数的差并取绝对值，公式如下：

c_k表示第k维度的差绝对值，b_k为第k维度的累积数据值，%表示取余数操作，N为时域信号长度，||表示取绝对值操作；

2-14.依次对2-13的差绝对值c_k进行判断,k=1,2...N-1，如果c_k>π，则第k个位置即为脉冲点所在位置，统计出全部脉冲点所在位置，记为k_i,i=0,1... N_p，N_p为脉冲点的个数总数；

步骤2-2.求非周期激励

2-21.将给定语音的带状非周期比值ap特征上采样至时域信号长度N；

2-22.将噪声激励种子信号扩充至时域信号长度N；

2-23.步骤2-21和步骤2-22的结果按维度位相乘，然后合并为长度为时域信号长度的特征，即为非周期激励；

步骤2-3.求周期激励，

具体为：对2-1步骤中所得到的每一个脉冲位置k_i,i=0,1... N_p做如下操作：

根据基频F0和带状非周期比值ap判断此脉冲位置是否为清音段，是则此处周期激励为0；否则将步骤1得到的脉冲激励种子信号依次乘以（1-ap_ki), ap_ki为对应维度上k_i处的带状非周期比值，然后将N_ap个维度的值相加到一个维度，得到该脉冲脉冲位置处的周期激励；

按脉冲所在位置叠加所有脉冲位置的周期激励，得到完整的周期激励；

步骤2-4.将步骤2-2得到的非周期激励和步骤2-3得到的周期激励相加，得到激励信号；

步骤3.对给定音频的每一帧频谱包络,计算对应的音频数据，然后按帧移进行叠加得到最终的语音波形。

优选的，所述步骤1具体为：

步骤1-1.自定义频程fr和最大频率U，根据采样率fs计算带状非周期比值的维数N_ap；公式如下：

---（1）

其中，N_ap表示带状非周期比值的维数，

为下取整，min表示取最小值，fs为采样率，U为最大频率，fr为频程；

步骤1-2.

采用余弦函数模拟带状非周期比值每一维度的脉冲基准频率，并求脉冲激励种子信号，公式如下：

p_i=f^-1(0.5+0.5*cos(2π(wp-fr*i)/2*fr)),i=1,2…N_ap ----（2）

其中f^-1表示傅里叶逆变换，cos为余弦计算符，wp为激励种子向量，fr为频程，p_i为带状非周期比值第i维度的脉冲激励种子信号。

步骤1-3.

获取或随机生成N_ap组随机白噪声信号，求噪声激励种子信号。公式如下：

n_i=f^-1(f(w_i) * f(p_i)),i=1,2…N_ap---（3）

其中，f和f^-1分别表示傅里叶变换和傅里叶逆变换，w_i为第

组随机白噪声，n_i为第

组噪声激励种子信号。

优选的，所述步骤3具体包括如下步骤：

步骤3-1.由频谱得到最小相位频谱，计算公式如下：

其中

V(w)表示得到的最小相位频谱，w表示最小相位谱域，q表示频谱包络域，e^iwq，e^-iwq表示求取复变函数，sp为频谱包络特征。

步骤3-2.对步骤2得到的激励信号按帧移提取数据做窗计算，提取激励信号，其中窗长度由傅里叶频谱由步骤1中的傅里叶变换长度决定；

步骤3-3.步骤3-1得到的最小相位频谱和步骤3-2得到的激励信号傅里叶频谱相乘；

步骤3-4.步骤3-3的乘积结果进行傅里叶逆变换得到脉冲响应；

步骤3-5.按帧移位置叠加所有脉冲响应，得到语音波形。

优选的，判断是否为清音段的具体方法为设置一个清音阈值，若该脉冲点基频F0的值为0或者该脉冲点最大维度即第N_ap维上的带状非周期比值ap大于清音阈值，则表示该脉冲位置处于清音段。

本发明通过预先离线计算所需脉冲激励种子信号，在计算周期激励和非周期激励时只做简单的乘法和加法运算，不涉及傅里叶变换和傅里叶逆变换，提升了WORLD声码器在芯片端的运算速度；最后对每帧数据计算脉冲响应，方便做流式语音合成。

附图说明

图1为本发明一个具体实施方式流程示意图；

图2为本发明具体实施例中利用原始音频中的声学特征计算所得到的合成音频的频谱图；

图3为本发明具体实施例中原始音频频谱图；

图2和图3中横坐标表示时域信号时间点，纵坐标表示频率域。

具体实施方式

对给定的一段音频数据的声学特征，包括了以下信息:基频F0、频谱包络特征sp，带状非周期比值ap；声学特征表示音频信号中白噪声与脉冲序列能量的比例。声源是白噪声与脉冲序列的混合,如参考论文（如D4C, a band-aperiodicity estimator for high-quality speech synthesis, Speech Communication, vol. 84, pp. 57-65, Nov.2016，M. Morise）已证明，对于清音，白噪声比例很高，带状非周期比值较高；而对于浊音，白噪声比例很低，带状非周期比值较低。带状非周期比值的具体定义可参考论文《A mixedexcitation LPC vocoder model for low bit rate speech coding》（IEEE Trans.Speech Audio Process. 3(4), 242-250，1995，McCree,V A.，Barnwell，P T.）提出这一与混合激励相关的声学参数。本发明为方便进行语音合成，对给定的一段音频数据声学特征进行时域音频信号还原，并简化了还原过程。

下面对本发明的具体实施方式作进一步的详细说明。

本发明可通过如下步骤还原给定的一段音频数据的时域音频信号。

步骤1.计算脉冲激励种子信号和噪声激励种子信号。

步骤1-1.自定义频程fr和最大频率U，根据采样率fs计算带状非周期比值的维数。公式如下：

（1）

其中，N_ap表示带状非周期比值的维数，

为下取整，min表示取最小值，fs为采样率，U为最大频率，fr为频程。U，fr均可取经验值，可见N_ap大小由采样率决定。

例如一段时长为1秒的音频，如果其采样率为16000，设帧移为经验值80，即每隔80个点取一个傅里叶变换长度的数据，可以得到基频特征为16000/80=200维的数据，ap特征为[3,200]的矩阵数据。其中频程fr和最大频率U的值根据计算精度决定初始值。

频程指两个频率间的相对尺度，频程值越小，得到的ap值维数越大，计算越精细。采样率是每秒音频所包含的采样点个数，如一个音频的采样率为16000，则该音频每秒包含16000个的采样数据，通常一个频率需要两个采样点才能确定，所以16000采样率的音频所能表述的最大频率为8000。

步骤1-2.

p_i=f^-1(0.5+0.5*cos(2π(wp-fr*i)/2*fr)),i=1,2…N_ap ---（2）

其中f^-1表示傅里叶逆变换，cos为余弦计算符，wp为激励种子向量，可根据采样率和傅里叶变换长度取经验值，向量长度通常设置为傅里叶变换长度的一半，fr为频程，p_i为带状非周期比值第i维度的脉冲激励种子信号。

步骤1-3.

n_i=f^-1(f(w_i) * f(p_i)),i=1,2…N_ap---（3）

其中，f和f^-1分别表示傅里叶变换和傅里叶逆变换，w_i为第

组随机白噪声，n_i为第

组噪声激励种子信号。

上述脉冲激励种子信号p_i与噪声激励种子信号n_i均只受采样率和频程影响，可以只做一次计算，作为常量。

步骤2.由给定的基频F0和带状非周期比值ap求激励信号，这两个特征所代表的激励信号，其中基频决定脉冲位置，带状非周期比值特征决定周期激励和非周期激励比值，激励信号包括非周期激励和周期激励。

步骤2-1.由基频F0求脉冲个数和位置。

2-11.基频F0特征上采样至时域信号维度N，其中时域信号长度为基频F0长度乘以帧移，帧移表示时域信号求声学特征时的滑动步长，上采样结果记为a_i,i=0,1... N-1，i为不同维度。

2-12.对2-11上采样结果每一维数据乘以2π，再除以采样率fs。π为圆周率，然后每个采样点依次求累积值；可表述为以下公式：

其中a_i表示步骤2-11得到的上采样结果，N为时域信号维度；b_j表示第j维的累积数据值；

2-13.对2-12的各个累积数据值b_j，求各个累积数据值b_j与其相邻维度b_j+1分别对2π求余数后的差的绝对值，公式如下：

c_k表示第k维度的差绝对值，b_k为第k维度的累积数据值，%表示取余数操作，||表示取绝对值操作；

2-14.依次对2-13的差绝对值c_k进行判断,k=1,2...N-1，如果c_k>π，则第k个位置即为脉冲点所在位置，将脉冲点的个数总数即为N_p，各脉冲点所在位置记为k_i,i=0,1... N_p；

步骤2-2.求非周期激励

2-21.将带状非周期比值ap特征上采样至时域信号维度N；

2-22.将噪声激励种子信号扩充至时域信号维度N；

2-23.步骤2-21和步骤2-22的结果按维度位相乘，然后合并为长度为时域信号长度的特征，即为非周期激励。

步骤2-3.求周期激励

对2-1步骤中所得到的每一个脉冲位置k_i,i=0,1... N_p做如下操作：

判断是否为清音段的具体方法通常为设置一个清音阈值，例如，若该脉冲点F0的值为0或者该脉冲点最大维度上的带状非周期比值大于清音阈值0.999，表示只有白噪声，则表示该脉冲位置处于清音段。

按脉冲所在位置叠加所有脉冲位置的周期激励，得到完整的周期激励。

步骤2-4.将步骤2-2得到的非周期激励和步骤2-3得到的周期激励相加，得到激励信号。

本发明通过预先离线计算所需脉冲激励种子信号，在计算周期激励和非周期激励时只做简单的乘法和加法运算，不涉及傅里叶变换和傅里叶逆变换，提升了WORLD声码器在芯片端的运算速度。

得到激励信号后，再通过对每帧数据计算脉冲响应，方便后续做流式语音合成。

步骤3.对每一帧频谱包络,计算对应的音频数据，然后按帧移进行叠加得到最终的语音波形即时域音频信号；本步骤本步骤具体为：

步骤3-1.由频谱得到最小相位频谱，计算公式如下：

其中

步骤3-4.步骤3-3的乘积结果进行傅里叶逆变换得到脉冲响应；

步骤3-5.按帧移位置叠加所有脉冲响应，得到语音波形。

具体流程如图1所示。

以下给出一个具体实施例。

已知一段音频数据的声学特征:基频F0，频谱包络SP，带状非周期比值AP,设置帧移为0.005毫秒，待合成音频采样率为16000，傅里叶变换长度为1024。本发明通过如下步骤还原其时域音频信号。

1、计算脉冲激励种子信号和噪声激励种子信号。

自定义频程大小为3000，最大频率8000，由公式（1）得到带状非周期比值的维数3。由公式（2）得到每一维度的脉冲激励种子信号p₀, p₁, p₂，每一维长度为1024。由公式（3）得到每一维度的噪声激励种子信号n₀, n₁,n₂，，每一维度的长度为8192。

此步骤计算的脉冲激励种子信号和噪声激励种子信号只与采样率和频程和最小频率有关，因此可以离线计算作为变量保存，后续合成音频时直接调用，无须再计算。

2、由给定的基频F0和频谱包络SP，获取其激励信号，包括非周期激励和周期激励，假设F0和带状非周期比值AP特征有m帧。

2-1）由F0求脉冲个数和位置。

1a)F0特征上采样到m*80维。(*表示乘法)，m*80即为对应的时域信号维度N_response。得到上采样结果，记为a_i,i=0,1... N_response，i为不同维度；

1b)如步骤2-12所述，计算b_j,j=0,1... N_response ；

1c)如步骤2-13所述，计算c_k,k=0,1... N_response；

1d)依次判断c_k的值，如果c_k>π，则第k个位置即为脉冲点所在位置，记录脉冲点个数N_P，和每个脉冲点所在位置k_i,i=0,1... N_p。

2-2）求非周期激励

2a) ap信号大小[3,m]上采样至[3, m*80]；

2b) 将噪声激励种子信号扩充至时域信号维度，如果时域信号维度N_response小于激励种子信号长度8192，则取噪声激励种子信号的前N_response个数据，若N_response大于激励种子信号长度8192，则从噪声激励种子信号从头选取所需数据，扩充后的噪声激励种子信号为[3，m*80]；

2c) 步骤2a)和步骤2b）的结果按位相乘，然后将相乘后的[3,m*80]矩阵按行相加得到矩阵[1,m*80]即为非周期激励。

2-3）求周期激励

初始化长度为[1,m*80]的周期激励信号,对每一个脉冲位置做如下操作：

3a)根据该脉冲点的基频值和该脉冲点最大维度上的带状非周期比值判断此处是否为清音段，

如果该脉冲点的基频值小于0或者该脉冲点最大维度上的带状非周期比值大于0.999，则此处周期激励为0；均表示该脉冲点处于清音段，最大维度即该脉冲点的第N_ap维。

3b)若不为清音段，则将脉冲激励种子信号按维度依次乘以该脉冲点的（1-ap_ki),ap_ki为对应维度上k_i处的带状非周期比值，得到矩阵[3,1024]，按行和并为[1,1024]，得到该脉冲位置处的周期激励；

计算每一脉冲位置的周期激励按脉冲点位置进行叠加，得到完整的周期激励。

步骤2）的非周期激励和步骤3）的周期激励相加。

3、对每一帧频谱包络sp,计算对应的音频数据，然后进行叠加得到最终的时域音频信号；

3-1) 由频谱得到最小相位频谱，其中涉及傅里叶变换和傅里叶逆变换。

3-2）按帧移依次取激励信号，提取数据长度为512，乘以窗函数，本实施例采用汉明窗，然后提取傅里叶频谱；

3-3）将步骤1)最小相位频谱和和步骤2）激励信号的频谱相乘，得到时域信号的频谱信息；

3-4）步骤3）结果进行傅里叶逆变换得到脉冲响应。

按帧移叠加上述每一帧所得到的脉冲响应，得到语音波形。

在芯片上耗时对比：

采用申请人自行开发的语音识别芯片CI1103，合成时长1秒的音频耗时与传统算法对比如表1，可见本发明显著缩短了耗时。

表1

如图3所示给出原始音频的频谱图，图2给出通过本发明由原始音频的声学特征基频F0，频谱包络SP，带状非周期比值AP计算所得到的合成音频的频谱图。图2和图3采用大小相同的坐标系；由图2和图3对比可见，图3得到的合成音频与图2相似度较高。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。