CN112270934B - 一种nvoc低速窄带声码器的语音数据处理方法 - Google Patents
一种nvoc低速窄带声码器的语音数据处理方法 Download PDFInfo
- Publication number
- CN112270934B CN112270934B CN202011049193.1A CN202011049193A CN112270934B CN 112270934 B CN112270934 B CN 112270934B CN 202011049193 A CN202011049193 A CN 202011049193A CN 112270934 B CN112270934 B CN 112270934B
- Authority
- CN
- China
- Prior art keywords
- voice
- signal
- voice data
- value
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000013139 quantization Methods 0.000 claims abstract description 22
- 238000001228 spectrum Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 10
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 10
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims abstract description 6
- 238000011084 recovery Methods 0.000 claims abstract description 4
- 238000001914 filtration Methods 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 10
- 230000005284 excitation Effects 0.000 claims description 9
- 238000005311 autocorrelation function Methods 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000021615 conjugation Effects 0.000 claims description 3
- 238000005314 correlation function Methods 0.000 claims description 3
- 230000003111 delayed effect Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 210000005069 ears Anatomy 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000006835 compression Effects 0.000 abstract description 3
- 238000007906 compression Methods 0.000 abstract description 3
- 108090000623 proteins and genes Proteins 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000001755 vocal effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 210000000056 organ Anatomy 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 210000004704 glottis Anatomy 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种NVOC低速窄带声码器的语音数据处理方法,包括以下步骤:步骤1、编码端对原始语音数字信号的初始化配置和分析处理;步骤2、在步骤1计算得到的基音周期、清音和浊音数值参数的基础上继续对线谱对、基音值、增益参数、残差补偿增益、码本矢量等参数进行提取和量化;步骤3、提取步骤2的声音量化参数,通过该声音量化参数合成语音,经过压噪再提升语音质量,当参数恢复失败后或语音合成及后失败后进行声音重建。本发明能在低速率的情况下提供优良的语音质量。
Description
技术领域
本发明属于声码器数字语音压缩技术领域,尤其是一种NVOC低速窄带声码器的语音数据处理方法。
背景技术
随着通信技术的高速发展,频率和资源显得尤为宝贵,与模拟语音通信***相比,数字语音通信***具有抗干扰性强、保密性号、易于集成等特点,而在这其中低速声码器担当着重要角色。
目前,语音编码算法大都建立在人类发声器官的声学模型基础上。人的发声器官由声门、声道和其它辅助器官组成。实际语音的产生过程是声门产生的振动被声道滤波器调制后经口鼻等辐射所得,可以用如下公式表示为
s(n)=h(n)*e(n)
其中,s(n)表示语音信号,h(n)为声道滤波器单位冲激响应,e(n)为声门振动信号。
为了清晰地表示语音信号,可以从频谱特点上分别描述声门和声道,如何高效量化声门和声道的特征参数,这是参数编码这一类算法要达到的目标。
声码器属于参数编码一类,低速窄声码器就是压缩语音信号的数字表示,用较少的比特(bit)还原出与原是语音最为相似语音的方法。随着数字信号处理硬件的效率猛增,加上声码器的加速研究,使得声码器已经大量使用。
现有的低速窄带声码器包括两种码率:2.4kbps、2.2kbps(用于加密),信道FEC码率为1.2kbps,语音编解码和FEC都以8K采样20毫秒为一帧进行编码和解码。
但仍存在如下问题:(1)利用时域相关性提取基因参数,容易算错;(2)由于声音不经过降噪,当有噪音时提取的声音参数不准确;(3)方言声音失真;(4)由于窄带低速编码压缩比较高,当信道质量不佳存在误码时语音质量低。
发明内容
本发明的目的在于克服现有技术的不足,提出一种设计合理、语音质量高且对方言适应性强的NVOC低速窄带声码器的语音数据处理方法。
本发明解决其现实问题是采取以下技术方案实现的:
一种NVOC低速窄带声码器的语音数据处理方法,包括以下步骤:
步骤1、编码端对原始语音数字信号的初始化配置和分析处理,首先对原始语音数字信号进行去噪声处理,然后判断当前语音信号是否为话音,若当前语音信号为话音,则提取话音中的基音后计算出基音周期和各子带清音和浊音数值参数;
步骤2、在步骤1计算得到的基音周期、清音和浊音数值参数的基础上对线谱对、基音值、增益参数、残差补偿增益和码本矢量的参数进行提取和量化,得到声音量化参数;
步骤3、提取步骤2的声音量化参数后,将该声音量化参数合成语音,经过压噪再提升语音质量,并当参数恢复失败后或语音合成失败后进行声音重建。
而且,所述步骤1具体步骤包括:
(1)对原始语音数字信号S(n)进行去噪声处理,得到去噪声后的语音数据S1(n)和原始数据S(n)的0~4000Hz的声音频谱特性;
(2)采用VAD激活检测技术判断去噪声处理后的当前语音信号是否为话音,得到话音数据S2(n);
(3)提取话音数据S2(n)的基音;
(4)计算出基音周期和各子带清音和浊音数值参数。
而且,所述步骤1第(1)步的具体步骤包括:
①采用高通滤波器对语音数据去除直流成分,提高高频分量,对低频进行衰减;
②加窗信号,采用窗长为N的海明窗,通过交叠傅里叶变换以得到在频谱上的能量分布,得到去噪声后的语音数据S1(n)和原始语音数字信号S(n)的0~4000Hz的声音频谱特性。
而且,所述步骤1第(2)步的具体方法为:
根据人耳的听觉特性,对去噪声后的语音数据S1(n)进行子带滤波并计算子带信号的电平,根据下示公式估计信噪比,和预先设定的门限值比较,进而判断当前语音信号是否是话音:
式中,a是当前帧的信号电平值,b为根据前几帧估计得到的当前信号电平值;
而且,所述步骤1第(3)步的具体方法为:
使用截止频率为BHz的低通滤波器对话音数据S2(n)进行低通滤波,并采用二阶逆滤波器对低通滤波后的语音数据进行逆滤波后,根据如下公式计算二阶逆滤波的输出信号的自相函数,提取基音:
其中,N为所述步骤1所述(1)提及窗函数窗长,Sw(i)为所述步骤1第(3)步所述二阶逆滤波输出信号。
而且,所述步骤1第(4)步的具体步骤包括:
①将频域上0~4000等间隔的分为5个频段,分别为[0-500]Hz,[500-1000]Hz,[1000-2000]Hz,[2000-3000]Hz,[3000-4000]Hz,利用如下公式计算每个区间内带通信号的自相关函数:
其中,“t”为连续时间自变量,”τ”为输入信号时延“*”是卷积算符,(·)*f*()为取共轭;
②将同一时间函数在瞬时t和t+a的两个值相乘积的平均值作为时间t的函数,它是信号与延迟后信号之间相似性的度量,当延迟时间为零时,则成为信号的均方值,此时它的值最大,用该函数的最大值作为浊音强度,计算出各子带清浊音数值;
而且,所述步骤2的具体步骤包括:
(1)采用截止频率为AHz的高通滤波器对经过去噪后的语音数据滤波得到S3(n),加窗,计算自相关系数,用Levinson-Durbin递归算法求解线谱对参数,并采用三级矢量量化方案对得到线谱对参数进行参数量化;
(2)将步骤1第(3)步中计算得到的基音值量化:将包含基音值的整数区间线性映射到[0~z]内,将z个数用m1比特表示;
(3)将步骤1第(2)步中话音检测到的语音数据S2(n)经过二阶逆滤波器得到去除共振峰的影响的预测误差信号r(n),其中二阶你滤波器的系数为a1、a2≈1,增益参数用r(n)的RMS表示,量化在对数域完成;
(4)将步骤1第(4)步的计算频域分段后带通信号值的相关函数得到的最大值,量化为m2比特;
(5)计算残差补偿增益,使用量化后的LSF参数计算线性预测系数,构成预测误差滤波器对输入语音S2(n)滤波,得到残差信号,残差信号长度为160点;
(6)使用窗长为160点的哈明窗是对预测残差加窗,将加窗信号补0至512点,对其进行512点的复数FFT,再利用频谱峰点检测算法找到前x次谐波对应的傅立叶变换值;
(7)设P是量化基音,给定第i个谐波的初始位置为512i/P,峰点检测寻找以各次谐波的初始位置为中心,宽度在512/P个频率抽样内的最大峰值,该宽度被截短成一个整数;搜索的谐波次数限定为x和P/4中的较小者;谐波对应的系数随后被归一化,对此x维矢量,采用一个m3∈[0,48]比特的矢量码本进行量化,量化结果为m3∈[0,48]比特。
而且,所述步骤3的将声音量化参数合成语音,的具体方法为:
通过分成几个频带分别形成激励后相加通过合成滤波器,得到合成语音,然后再对合成语音进行后置滤波,得到解码合成语音数据,其中合成滤波器H(z)和后置滤波器Hpf(z)的z变换传递函数如下:
H(z)=1/A(z)
而且,在所述步骤1之前还包括如下步骤:
初始化配置编码端,包括速率选择、编码端所用参数、系数以及滤波器编码端算法的初始化配置。
而且,在所述步骤3之前还包括如下步骤:
初始化配置解码端,包括速率选择、以及解码端算法的参数、滤波器系数的初始化配置。
本发明的优点和有益效果:
1、本发明是通过分析语音时域上的连续性和频域上的相关性而实现的算法,能在低速率的情况下提供优良的语音质量、能在丢失300Hz以下语音频率的应用中提供良好的语音质量且对方言有很强的适应性。
2、本发明分两阶段进行实际参数的提取,更准确和更少的运算量,更准确的参数提取提高了声音质量,更少的运算量为使用者节省运算资源。
3、本发明在误码时具有声音重建功能,该功能是基于过去参数计算当前参数,提升了误码时的声音质量。
4、本发明通过噪声抑制功能抑制了噪声,提高了有噪音时提取的声音参数准确性,保证了声音质量。
5、本发明采用基于各种地方话训练的码本,对方言适应性强。
6、本发明是基于标准代码进行开发,规范可持续,易于移植到各种硬件平台。
附图说明
图1为本发明的工作原理图。
具体实施方式
以下结合附图对本发明实施例作进一步详述:
本发明的一种NVOC低速窄带声码器的语音数据处理方法的输入参数是采样率为8000Hz(每秒采集的语音信号样本数),分辨率为16比特的线性PCM语音数字信号;时域上,每20毫秒分析,频域上0~4000分多个频段进行分析。
一种NVOC低速窄带声码器的语音数据处理方法,如图1所示,包括以下步骤:
步骤1、初始化配置编码端,包括速率选择、编码端所用参数、系数以及滤波器编码端算法的初始化配置;
步骤2、编码端对原始语音数字信号的初始化配置和分析处理:首先对原始语音数字信号进行去噪声处理,然后判断当前语音信号是否为话音,若当前语音信号为话音,则提取话音中的基音后计算出基音周期和各子带清音和浊音数值参数;
所述步骤2具体步骤包括:
(1)噪声抑制:对原始语音数字信号S(n)进行去噪声处理,得到噪声抑制后的语音数据S1(n)和原始数据S(n)的0~4000Hz的声音频谱特性;
所述步骤2第(1)步的具体步骤包括:
①采用高通滤波器对语音数据去除直流成分,提高高频分量,对低频进行衰减;
②加窗信号,采用窗长为N的海明窗,通过交叠傅里叶变换以得到在频谱上的能量分布,得到去噪声后的语音数据S1(n)和原始语音数字信号S(n)的0~4000Hz的声音频谱特性。
(2)话音检测:采用VAD激活检测技术判断去噪声处理后的当前语音信号是否为话音,得到话音数据S2(n);
所述步骤2第(2)步的具体方法为:
根据人耳的听觉特性,对去噪声后的语音数据S1(n)进行子带滤波并计算子带信号的电平,根据下示公式估计信噪比,和预先设定的门限值比较,进而判断当前语音信号是否是话音:
式中,a是当前帧的信号电平值,b为根据前几帧估计得到的当前信号电平值;
(3)基因估计第一阶段:提取话音数据S2(n)的基音;
所述步骤2第(3)步的具体方法为:
使用截止频率为BHz的低通滤波器对话音数据S2(n)进行低通滤波,并采用二阶逆滤波器对低通滤波后的语音数据进行逆滤波后,根据如下公式计算二阶逆滤波的输出信号的自相函数,提取基音:
其中,N为所述步骤1所述(1)提及窗函数窗长,Sw(i)为所述步骤2第(3)步所述二阶逆滤波输出信号。
在本实施例中,在频域,语音信号具有峰值和峰值的频率是基音的倍数关系,初步计算出可能的基音值或基音范围值;在时域,语音具有短时自相关性,若当原信号具有周期性,那么它的自相关函数也具有周期性,并且周期性与原信号的周期相同。且在周期整数倍时会出现峰值。清音信号无周期性,它的自相关函数会随着帧长的增大呈衰减趋势,浊音具有周期性,它的自相关函数在基因周期整数倍上具有峰值,使用截止频率为B Hz的低通滤波器对语音数据S2(n)进行低通滤波,目的去除高频信号对基音提取的影响,其次采用二阶逆滤波器对低通滤波后的语音数据进行逆滤波,去除共振峰的影响,计算二阶逆滤波的输出信号的自相函数,提取基音:
在该帧的自相关函数中,除去第一个最大值后,该帧的基音值即为采样率/出现最大值时的帧长。
(4)多子带清浊音判决第一阶段:计算出各子带清浊音数值
所述步骤2第(4)步的具体步骤包括:
①将频域上0~4000等间隔的分为5个频段,分别为[0-500]Hz,[500-1000]Hz,[1000-2000]Hz,[2000-3000]Hz,[3000-4000]Hz,利用如下公式计算每个区间内带通信号的自相关函数:
其中,“*”是卷积算符,(·)*f*()为取共轭;
②将同一时间函数在瞬时t和t+a的两个值相乘积的平均值作为延迟时间t的函数,它是信号与延迟后信号之间相似性的度量,当延迟时间为零时,则成为信号的均方值,此时它的值最大,用该函数的最大值作为浊音强度,计算出各子带清浊音数值;
步骤3、在步骤2计算得到的基音周期、清音和浊音数值参数的基础上对线谱对、基音值、增益参数、残差补偿增益和码本矢量的参数进行提取和量化,得到声音量化参数;
所述步骤3的具体步骤包括:
(1)采用截止频率为A Hz的高通滤波器对经过去噪后的语音数据滤波得到S3(n),加窗长为N2的汉明窗,计算自相关系数,用Levinson-Durbin递归算法求解线谱对参数,并采用三级矢量量化方案对得到线谱对参数进行参数量化,得到m1比特;
(2)将步骤2第(3)步中计算得到的基音值量化:将包含基音值的整数区间线性映射到[0~z]内,将z个数用m2比特表示;
(3)将步骤2第(2)步中话音检测到的语音数据S2(n)经过二阶逆滤波器得到去除共振峰的影响的预测误差信号r(n),其中二阶你滤波器的系数为a1、a2≈1,激励增益参数用r(n)的RMS(平方的均值平凡根)表示,量化在对数域完成;
(4)将步骤2第(4)步的计算频域分段后带通信号值的相关函数得到的最大值(即清浊音状态值),量化为m3比特;
(5)计算频谱补偿增益,使用量化后的线性预测系数,构成预测误差滤波器对输入语音S2(n)滤波,得到残差信号,残差信号长度为160点;
(6)使用窗长为160点的哈明窗是对预测残差加窗,将加窗信号补0至512点,对其进行512点的复数FFT,再利用频谱峰点检测算法找到前x次谐波对应的傅立叶变换值;
(7)设P是量化基音,给定第i个谐波的初始位置为512i/P,峰点检测寻找以各次谐波的初始位置为中心,宽度在512/P个频率抽样内的最大峰值,这个宽度被截短成一个整数。要搜索的谐波次数限定为x和P/4中的较小者。这些谐波对应的系数随后被归一化,对此x维矢量,采用一个m4∈[0,48]比特的矢量码本进行量化,量化结果为m4∈[0,48]比特。
步骤4、初始化配置解码端,包括速率选择(2.2kbps还是2.4kbps)、以及解码端算法的参数、滤波器系数等的初始化配置;
步骤5、提取步骤3的声音量化参数后,将该声音量化参数合成语音,经过压噪再提升语音质量,并当参数恢复失败后或语音合成失败后进行声音重建。
所述步骤5的具体方法为:
每一帧信号编码后的结果均为含线谱对、增益、基因周期、清浊音、矢量码本等量化成bit位后组成的数值。这些参数中,基音周期及清浊音值决定解码端用来合成语音信号的激励源,而根据上述编码端步骤1第(4)步,由于清浊音涵盖5个频段,故通过分成几个频带分别形成激励后相加通过合成滤波器及后置滤波,得到解码合成语音数据。其中,如果是清音帧,即清浊音数值bit全为0,采用随机数作为激励源,如果是浊音帧,则选取一周期性脉冲序列通过一个全通滤波器来生成激励源,激励源幅度受增益参数加权,样点长度取决于基因周期大小。全通滤波器H1(z)、合成滤波器H2(z)和后置滤波器Hpf(z)的z变换传递函数如下:
其中A(z)为1-az-1,a为滤波器系数,由编码端步骤3线谱对参数经P变换得到,P变换为高等数学变换,上述所有公式中的z为复变量,具有实部和虚部,可令z=ejw,γ=0.56,β=0.75,μ由反射系数决定,μ的值取决于
可理解的,编解码的算法是对应的,解码端的输入参数格式和编码端的输出参数格式也是对应的,解码器解码一帧输出160个采样值,调用时需要和编码器速率统一。
需要强调的是,本发明所述实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。
Claims (7)
1.一种NVOC低速窄带声码器的语音数据处理方法,其特征在于:包括以下步骤:
步骤1、编码端对原始语音数字信号的初始化配置和分析处理,首先对原始语音数字信号进行去噪声处理,然后判断当前语音信号是否为话音,若当前语音信号为话音,则提取话音中的基音后计算出基音周期和各子带清音和浊音数值参数;
步骤2、在步骤1计算得到的基音周期、清音和浊音数值参数的基础上对线谱对、基音值、增益参数、残差补偿增益和码本矢量的参数进行提取和量化,得到声音量化参数;
步骤3、提取步骤2的声音量化参数后,将该声音量化参数合成语音,经过压噪再提升语音质量,并当参数恢复失败后或语音合成失败后进行声音重建;
所述步骤1具体步骤包括:
(1)对原始语音数字信号S(n)进行去噪声处理,得到去噪声后的语音数据S1(n)和原始数据S(n)的0~4000Hz的声音频谱特性;
(2)采用VAD激活检测技术判断去噪声处理后的当前语音信号是否为话音,得到话音数据S2(n);
(3)提取话音数据S2(n)的基音;
(4)计算出基音周期和各子带清音和浊音数值参数;
所述步骤2的具体步骤包括:
(1)采用截止频率为A Hz的高通滤波器对经过去噪后的语音数据滤波得到S3(n),加窗,计算自相关系数,用Levinson-Durbin递归算法求解线谱对参数,并采用三级矢量量化方案对得到线谱对参数进行参数量化;
(2)将步骤1第(3)步中计算得到的基音值量化:将包含基音值的整数区间线性映射到[0~z]内,将z个数用m1比特表示;
(3)将步骤1第(2)步中话音检测到的语音数据S2(n)经过二阶逆滤波器得到去除共振峰的影响的预测误差信号r(n),其中二阶逆滤波器的系数为a1、a2≈1,增益参数用r(n)的RMS表示,量化在对数域完成;
(4)将步骤1第(4)步的计算频域分段后带通信号值的相关函数得到的最大值,量化为m2比特;
(5)计算残差补偿增益,使用量化后的LSF参数计算线性预测系数,构成预测误差滤波器对输入语音S2(n)滤波,得到残差信号,残差信号长度为160点;
(6)使用窗长为160点的哈明窗是对预测残差加窗,将加窗信号补0至512点,对其进行512点的复数FFT,再利用频谱峰点检测算法找到前x次谐波对应的傅立叶变换值;
(7)设P是量化基音,给定第i个谐波的初始位置为512i/P,峰点检测寻找以各次谐波的初始位置为中心,宽度在512/P个频率抽样内的最大峰值,该宽度被截短成一个整数;搜索的谐波次数限定为x和P/4中的较小者;谐波对应的系数随后被归一化,对此x维矢量,采用一个m3∈[0,48]比特的矢量码本进行量化,量化结果为m3∈[0,48]比特;
所述步骤3的将声音量化参数合成语音的具体方法为:
通过分成几个频带分别形成激励后相加通过合成滤波器,得到合成语音,然后再对合成语音进行后置滤波,得到解码合成语音数据,其中合成滤波器H(z)和后置滤波器Hpf(z)的z变换传递函数如下:
H(z)=1/A(z)
2.根据权利要求1所述的一种NVOC低速窄带声码器的语音数据处理方法,其特征在于:所述步骤1第(1)步的具体步骤包括:
①采用高通滤波器对语音数据去除直流成分,提高高频分量,对低频进行衰减;
②加窗信号,采用窗长为N的海明窗,通过交叠傅里叶变换以得到在频谱上的能量分布,得到去噪声后的语音数据S1(n)和原始语音数字信号S(n)的0~4000Hz的声音频谱特性。
5.根据权利要求1所述的一种NVOC低速窄带声码器的语音数据处理方法,其特征在于:所述步骤1第(4)步的具体步骤包括:
①将频域上0~4000等间隔的分为5个频段,分别为[0-500]Hz,
[500-1000]Hz,[1000-2000]Hz,[2000-3000]Hz,[3000-4000]Hz,利用如下公式计算每个区间内带通信号的自相关函数:
其中,“t”为连续时间自变量,”τ”为输入信号时延“*”是卷积算符,(·)*f*()为取共轭;
②将同一时间函数在瞬时t和t+a的两个值相乘积的平均值作为时间t的函数,它是信号与延迟后信号之间相似性的度量,当延迟时间为零时,则成为信号的均方值,此时它的值最大,用该函数的最大值作为浊音强度,计算出各子带清浊音数值。
6.根据权利要求1所述的一种NVOC低速窄带声码器的语音数据处理方法,其特征在于:在所述步骤1之前还包括如下步骤:
初始化配置编码端,包括速率选择、编码端所用参数、系数以及滤波器编码端算法的初始化配置。
7.根据权利要求1所述的一种NVOC低速窄带声码器的语音数据处理方法,其特征在于:在所述步骤3之前还包括如下步骤:
初始化配置解码端,包括速率选择、以及解码端算法的参数、滤波器系数的初始化配置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011049193.1A CN112270934B (zh) | 2020-09-29 | 2020-09-29 | 一种nvoc低速窄带声码器的语音数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011049193.1A CN112270934B (zh) | 2020-09-29 | 2020-09-29 | 一种nvoc低速窄带声码器的语音数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112270934A CN112270934A (zh) | 2021-01-26 |
CN112270934B true CN112270934B (zh) | 2023-03-28 |
Family
ID=74349393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011049193.1A Active CN112270934B (zh) | 2020-09-29 | 2020-09-29 | 一种nvoc低速窄带声码器的语音数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270934B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113486964A (zh) * | 2021-07-13 | 2021-10-08 | 盛景智能科技(嘉兴)有限公司 | 语音活动检测方法、装置、电子设备和存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6195632B1 (en) * | 1998-11-25 | 2001-02-27 | Matsushita Electric Industrial Co., Ltd. | Extracting formant-based source-filter data for coding and synthesis employing cost function and inverse filtering |
CN1604188A (zh) * | 2004-11-12 | 2005-04-06 | 梁华伟 | 基于多峰提取的语音编码刺激方法 |
CN101556799A (zh) * | 2009-05-14 | 2009-10-14 | 华为技术有限公司 | 一种音频解码方法和音频解码器 |
CN102044243A (zh) * | 2009-10-15 | 2011-05-04 | 华为技术有限公司 | 语音激活检测方法与装置、编码器 |
CN102903365A (zh) * | 2012-10-30 | 2013-01-30 | 山东省计算中心 | 一种在解码端细化窄带声码器参数的方法 |
CN103050121A (zh) * | 2012-12-31 | 2013-04-17 | 北京迅光达通信技术有限公司 | 线性预测语音编码方法及语音合成方法 |
CN103247293A (zh) * | 2013-05-14 | 2013-08-14 | 中国科学院自动化研究所 | 一种语音数据的编码及解码方法 |
CN103325375A (zh) * | 2013-06-05 | 2013-09-25 | 上海交通大学 | 一种极低码率语音编解码设备及编解码方法 |
CN104318927A (zh) * | 2014-11-04 | 2015-01-28 | 东莞市北斗时空通信科技有限公司 | 一种抗噪声的低速率语音编码方法及解码方法 |
CN104517614A (zh) * | 2013-09-30 | 2015-04-15 | 上海爱聊信息科技有限公司 | 基于各子带特征参数值的清浊音判决装置及其判决方法 |
CN105118513A (zh) * | 2015-07-22 | 2015-12-02 | 重庆邮电大学 | 一种基于混合激励线性预测MELP的1.2kb/s低速率语音编解码方法 |
CN107564535A (zh) * | 2017-08-29 | 2018-01-09 | 中国人民解放军理工大学 | 一种分布式低速语音通话方法 |
CN109308894A (zh) * | 2018-09-26 | 2019-02-05 | 中国人民解放军陆军工程大学 | 一种基于Bloomfield’s模型的语音建模方法 |
CN109346093A (zh) * | 2018-12-17 | 2019-02-15 | 山东省计算中心(国家超级计算济南中心) | 一种低速率声码器子带清浊音参数提取与量化的融合方法 |
CN111694027A (zh) * | 2020-06-04 | 2020-09-22 | 长沙北斗产业安全技术研究院有限公司 | 超大动态扩频信号捕获方法与装置 |
-
2020
- 2020-09-29 CN CN202011049193.1A patent/CN112270934B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6195632B1 (en) * | 1998-11-25 | 2001-02-27 | Matsushita Electric Industrial Co., Ltd. | Extracting formant-based source-filter data for coding and synthesis employing cost function and inverse filtering |
CN1604188A (zh) * | 2004-11-12 | 2005-04-06 | 梁华伟 | 基于多峰提取的语音编码刺激方法 |
CN101556799A (zh) * | 2009-05-14 | 2009-10-14 | 华为技术有限公司 | 一种音频解码方法和音频解码器 |
CN102044243A (zh) * | 2009-10-15 | 2011-05-04 | 华为技术有限公司 | 语音激活检测方法与装置、编码器 |
CN102903365A (zh) * | 2012-10-30 | 2013-01-30 | 山东省计算中心 | 一种在解码端细化窄带声码器参数的方法 |
CN103050121A (zh) * | 2012-12-31 | 2013-04-17 | 北京迅光达通信技术有限公司 | 线性预测语音编码方法及语音合成方法 |
CN103247293A (zh) * | 2013-05-14 | 2013-08-14 | 中国科学院自动化研究所 | 一种语音数据的编码及解码方法 |
CN103325375A (zh) * | 2013-06-05 | 2013-09-25 | 上海交通大学 | 一种极低码率语音编解码设备及编解码方法 |
CN104517614A (zh) * | 2013-09-30 | 2015-04-15 | 上海爱聊信息科技有限公司 | 基于各子带特征参数值的清浊音判决装置及其判决方法 |
CN104318927A (zh) * | 2014-11-04 | 2015-01-28 | 东莞市北斗时空通信科技有限公司 | 一种抗噪声的低速率语音编码方法及解码方法 |
CN105118513A (zh) * | 2015-07-22 | 2015-12-02 | 重庆邮电大学 | 一种基于混合激励线性预测MELP的1.2kb/s低速率语音编解码方法 |
CN107564535A (zh) * | 2017-08-29 | 2018-01-09 | 中国人民解放军理工大学 | 一种分布式低速语音通话方法 |
CN109308894A (zh) * | 2018-09-26 | 2019-02-05 | 中国人民解放军陆军工程大学 | 一种基于Bloomfield’s模型的语音建模方法 |
CN109346093A (zh) * | 2018-12-17 | 2019-02-15 | 山东省计算中心(国家超级计算济南中心) | 一种低速率声码器子带清浊音参数提取与量化的融合方法 |
CN111694027A (zh) * | 2020-06-04 | 2020-09-22 | 长沙北斗产业安全技术研究院有限公司 | 超大动态扩频信号捕获方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112270934A (zh) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5450522A (en) | Auditory model for parametrization of speech | |
EP2491558B1 (en) | Determining an upperband signal from a narrowband signal | |
Shrawankar et al. | Techniques for feature extraction in speech recognition system: A comparative study | |
JP4308345B2 (ja) | マルチモード音声符号化装置及び復号化装置 | |
KR100348899B1 (ko) | 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법 | |
JPH05346797A (ja) | 有声音判別方法 | |
JP2002516420A (ja) | 音声コーダ | |
Kesarkar et al. | Feature extraction for speech recognition | |
JPH07271394A (ja) | 確実な電話音声認識のための信号バイアスの除去 | |
JP2002508526A (ja) | 狭帯域言語信号からの広帯域言語合成 | |
CN112270934B (zh) | 一种nvoc低速窄带声码器的语音数据处理方法 | |
BRPI0208584B1 (pt) | método para formação de parâmetros de reconhecimento de fala | |
JP2779325B2 (ja) | ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法 | |
WO2015084658A1 (en) | Systems and methods for enhancing an audio signal | |
US5812966A (en) | Pitch searching time reducing method for code excited linear prediction vocoder using line spectral pair | |
Robinson | Speech analysis | |
CN112233686B (zh) | Nvocplus高速宽带声码器的语音数据处理方法 | |
Demuynck et al. | Synthesizing speech from speech recognition parameters | |
CN114550741A (zh) | 一种语义识别的方法和*** | |
JP4954310B2 (ja) | モード判定装置及びモード判定方法 | |
Srivastava | Fundamentals of linear prediction | |
JPH0736484A (ja) | 音響信号符号化装置 | |
CN118230741A (zh) | 一种基于正弦谐波模型的低速率语音编解码方法 | |
Tan et al. | Speech feature extraction and reconstruction | |
Malah | Efficient spectral matching of the LPC residual signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |