CN111798875A - 一种基于三值量化压缩的vad实现方法 - Google Patents

一种基于三值量化压缩的vad实现方法 Download PDF

Info

Publication number
CN111798875A
CN111798875A CN202010704640.6A CN202010704640A CN111798875A CN 111798875 A CN111798875 A CN 111798875A CN 202010704640 A CN202010704640 A CN 202010704640A CN 111798875 A CN111798875 A CN 111798875A
Authority
CN
China
Prior art keywords
data
frame
audio
voice
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010704640.6A
Other languages
English (en)
Inventor
王蒙
姜黎
胡奎
付志勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Ccvui Intelligent Technology Co ltd
Original Assignee
Hangzhou Ccvui Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Ccvui Intelligent Technology Co ltd filed Critical Hangzhou Ccvui Intelligent Technology Co ltd
Priority to CN202010704640.6A priority Critical patent/CN111798875A/zh
Publication of CN111798875A publication Critical patent/CN111798875A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于三值量化压缩的VAD实现方法,主要包括数据预处理、神经网络和量化处理部分三个部分,首先对纯净人声数据与噪声数据按不同信噪比进行融合得到原始数据集,然后进行预处理使其数据符合神经网络的计算需求,预处理包括语音信号的预加重、分帧、加窗、短时快速傅里叶变换(FFT)、计算不同FFT子带的能量、梅尔滤波、dct变换、lifter变换等;然后通过神经网络进行数据训练,再对训练完成的神经网络模型进行量化压缩,减少其占用存储空间大小。本发明不仅优化了语音数据处理,而且降低了成本,使得经精确计算后能识别清晰语音信息。

Description

一种基于三值量化压缩的VAD实现方法
技术领域
本发明涉及音频处理技术领域,具体涉及一种基于三值量化压缩的VAD实现方法。
背景技术
区分人声语音与噪音是现有音频处理领域的一个重点,也是难点。
现有的技术中,在特征提取过程中采用多分辨率耳蜗谱图MRCG (Multi-Resolution Cochleagram)特征。对预先处理好的噪声与人声混合的数据集音频计算输入信号的gammatone系数g,gammatone是一组模拟人耳特性的滤波器,滤波器的个数n决定最后特征的维度。
然后采用两种不用的帧长和帧移计算g的cochleagram之后取log10得到耳蜗图谱c1,c2。然后利用get_avg函数计算c1的5*5、11*11模糊图,得到耳蜗图谱c3,c4。然后将四个耳蜗图串联[c1;c2;c3;c4]得到all_cochleas。接下来对all_cochleas求一阶导和二阶导,分别得到del和ddel。最后将三个串联得到最后特征[all_cochleas,del,ddel],特征的维度是n*4*3。
将这些MRCG特征视为神经网络的输入来训练模型;神经网络则采用深度神经网络(DNN),将上一层输入的MRCG特征通过深度神经网络(DNN)中,对音频信号的每一帧特征数据进行处理,并且将DNN的计算结果经过softmax函数来计算语音/非语音的后验概率,概率值在(0,1)之间,大于设定阈值即可认定为是语音,小于阈值则认定为非语音。
发明内容
基于此,针对上述问题,有必要提出一种基于三值量化压缩的VAD实现方法,能从带有噪声的语音中准确的定位出语音的开始和结束点,主要对麦克风中录到的音频进行处理,识别其中的语音部分,并删去非语音部分。
本发明的技术方案是:
一种基于三值量化压缩的VAD实现方法,包括以下步骤:
A、提取人声数据及噪音数据,按预设定的信噪比结合,得到训练音频数据;
B、针对每一帧训练音频数据提取MFCC特征后,经拼接得到最终特征数据;
C、拼接多帧特征数据,输入神经网络进行数据训练;
D、接收训练后的数据模型,进行三值量化处理;
E、利用相同训练数据,训练三值化bDNN后,提取并保存其权重、参数。
在本技术方案中,采用了三值量化压缩的VAD实现方法(Ternary Voice ActivityDetection),以下简称TVAD,主要包括数据预处理、神经网络(Neural Network)和量化处理部分三个部分。
数据预处理,是指对于纯净人声数据与噪声数据进行按不同信噪比进行融合得到原始数据集,然后进行预处理使其数据符合神经网络的计算需求;其中,数据预处理主要步骤包括:语音信号的预加重、分帧、加窗、短时快速傅里叶变换(FFT)、计算不同FFT子带的能量、梅尔滤波、dct变换、lifter变换等。
神经网络(Neural Network,NN)是人类基于人类大脑的神经网络设计出来的一种数学模型,用以模拟人脑的功能实现类人工智能。神经网络是一种运算模型,由大量的神经元之间相互联接构成。每个神经元代表一种特定的输出函数,称为激活函数(activationfunction)。每两个神经元间的连接都表示一个对于通过该连接信号的加权值,称之为权重。这个权重的大小会随着神经元之间连接的重要性改变而改变。在得到上一层神经元的加权和之后,加权和会经过一个激活函数,最后得到当前神经元的输出。
本方案,网络结构为输入层、三个隐层、输出层;其目前的参数数目为输入层为24*5,三个隐层是128*64*32,输出层为5维。隐藏层的维度可自由调节以便获取更好的预测结果。
量化处理部分,是指对于神经网络的进行三值量化压缩从而降低神经网络模型所需要的存储空间。
优选的,还包括以下步骤:
F、提取人声数据及噪音数据,按预设定的信噪比结合,获取测试音频数据;
G、针对每一帧测试音频数据提取MFCC特征后,经拼接得到最终特征数据;
H、拼接多帧特征数据,输入神经网络进行数据训练;
I、进行三值化bDNN,计算待预测帧的预测值,待批量预测结束后,将所有预测中包含待预测帧的结果求平均值,得到当前帧的最终预测值。
本技术方案,分为训练部分和测试部分,训练部分与测试部分中对输入神经网络的特征数据的处理方式相同,但测试部分在进行神经网络训练并经过三值化bDNN后会得到待预测帧的预测结果,等批量预测结束后将所有预测中包含待预测帧的结果求平均值即得到当前帧的最终预测结果。如图4所示,其中,每一行中虚线框中就是含有待预测帧的结果,将其取平均值,则得到待预测帧的最终预测结果。
优选的,所述步骤I还包括以下步骤:
判断最终预测值是否大于设定阈值,若是,则判定待预测帧含语音,反之,则不含语音。
比较得到的待预测帧的最终预测结果与设定阈值的大小,大于设定阈值的即可认为含语音,小于阈值则认为不含语音。
优选的,所述步骤I还包括以下步骤:
计算AUC值作为评估标准,AUC值取值为(0,1)。
计算AUC值可以解决因为正负样本不均导致的问题,能够更好地反应模型的性能,AUC值取值为(0,1),越接近于1表示预测效果越好。
优选的,所述步骤I还包括以下步骤:
将测试音频的波形与预测结果进行可视化展示。
将预测值和波形图进行可视化直观展示模型,区别语音与非语音的效果。
优选的,所述步骤A和步骤F中混合人声数据及噪音数据的步骤还包括:
P1、构造噪声数据列表与语料数据列表;
P2、设定每段音频的长度为L,从步骤S1中的噪声列表中随机选择音频进行串联,直到长度达到L;
P3、从步骤S1中的语料数据列表中随机选取一段音频,在所选取的音频首尾各添加音频总长度1/4的静音,重复选取至长度达到L;
P4、将选取的音频与噪声按预设定的信噪比结合,获取音频数据。
本方案中P3步骤可在所选取的音频首尾各添加音频总长度1/4的静音,亦可在所选取的音频首尾各添加4秒的静音,具体以添加静音时间更短的方案为最优。
优选的,所述步骤B和步骤G中提取MFCC特征的步骤还包括:
Q1、对每一帧音频数据进行预加重,其中预加重因子取0.97;
Q2、对每一帧音频数据进行分帧,设定帧长为32ms,帧移为16ms;
Q3、基于汉明窗函数进行加窗,汉明窗函数如下:
Figure RE-GDA0002641245810000041
Q4、进行快速傅里叶变换,将信号分离到不同的子带;
Q5、计算不同子带的能量;
Q6、生成相应的梅尔滤波器对子带进行滤波,梅尔滤波函数如下:
Figure RE-GDA0002641245810000051
Q7、计算每个梅尔滤波器输出的对数能量;
Q8、经离散余弦变换,得到MFCC系数;
Q9、提取一阶差分参数;
Q10、将MFCC系数与其一阶差分参数拼接,得到最终特征数据。
优选的,所述步骤C和步骤H中拼接多帧特征数据的步骤包括:
S1、获取每一帧最终特征数据;
S2、提升每一帧的上下文信息,生成每一帧上的多个基预测;
S3、拼接包括待预测帧在内的5帧特征数据,输入神经网络进行数据训练。
本方案使用待预测帧的相邻帧来联合预测待预测帧,通过提升帧的上下文信息来生成帧上的多个基预测,然后将基础预测聚合为更强的基础预测,相比于传统的DNN能实现更高的性能。
在本方案中,取包含待预测帧在内的5帧特征数据拼接起来作为一组输入数据送入神经网络中进行训练,对于第一帧数据,我们在其前面补零,如图5所示,其中:每个方框代表一帧数据,其中虚线方框表示5帧数据拼接,xn表示待预测帧,当xn是输入数据第一帧时,由于算法需要其前面帧的数据,所以在此对其做补零处理,对待预测帧前面补10帧,数据为0。最终得到5帧特征数据共5*24=120维数据,送入神经网络作训练处理。
优选的,所述步骤D中进行三值量化的步骤包括:
D1、接收训练后的数据模型,从该数据模型的矩阵中,计算得出阈值Δ和缩放因子α,计算公式如下:
Figure RE-GDA0002641245810000052
Figure RE-GDA0002641245810000061
其中,IΔ={1≤i≤n||Wi>Δ|},|IΔ|表示IΔ中的元素;
D2、将原权重转变为三值权重,三值权重公式如下:
Figure RE-GDA0002641245810000062
D3、将输入X与缩放因子α相乘作为新的输入数据,并与三值权重进行加法计算进行正向传播;
D4、使用SGD算法反向传播进行迭代训练。
将训练好的模型进行三值量化,量化操作流程图如图3所示,三值量化方法可以将权重从32bit浮点型量化为2bit定点型,即将原始浮点型权重用三值权重(-1,0,+1)与一个比例系数α相乘来近似表示。即:
Figure RE-GDA0002641245810000063
其中,阈值Δ从原权重矩阵W中产生,通过推导,其值为:
Figure RE-GDA0002641245810000064
α的值为:
Figure RE-GDA0002641245810000065
其中:IΔ={1≤i≤n||Wi>Δ|},|IΔ|表示IΔ中的元素。
这里的阈值Δ与比例系数α都是针对每一层的权重来考虑的,也就是说每一层都有独立的阈值Δ与比例系数α。
本发明的有益效果是:
1、相比较使用通用公开噪声和人声数据集来训练,本方案的训练数据集中的噪声数据部分专门定制,数据量更多,覆盖面更广,对于人声数据部分,不仅包含通用公开数据集部分,还对各种场景定制了一些干净人声,对各种环境的鲁棒性更强。
2、不同于基于DNN的VAD方法只关注当前帧信息,本方法考虑到了相邻帧的信息对当前帧VAD的判决的影响,将当前帧和前后相邻帧的特征向量连接在一起,对应的判决标记也合并成一个向量连接起来,用于神经网络训练。
3、不同于MRCG特征,本方法提取语音的MFCC特征,在计算完FFT子带的能量并做梅尔滤波之后,进行dct变换和lifter变换得到MFCC特征,并且对提取到的MFCC特征舍去其直流分量,并求其一阶差分,得到MFCC-delta特征,最后将MFCC和MFCC-delta特征拼接起来作为送入神经网络处理的特征。
4、本方法对训练完成的神经网络模型进行量化压缩,减少其占用存储空间大小。
5、本方法不仅节约了成本,提高了处理效率,同时也能精确的从带有噪声的语音中准确的定位出语音的开始和结束点,识别其中的语音部分,并删去非语音部分。
附图说明
图1是本发明实施例所述基于三值量化压缩的VAD实现方法训练流程图;
图2是本发明实施例所述基于三值量化压缩的VAD实现方法测试流程图;
图3是本发明实施例所述的三值量化操作流程图;
图4是本发明实施例所述的将所有预测中包含待预测帧的结果求平均值得到当前帧的最终预测结果的示意图;
图5是本发明实施例所述的将特征数据拼接作为输入数据的示意图。
具体实施方式
下面结合附图对本发明的实施例进行详细说明。
实施例
如图1所示,一种基于三值量化压缩的VAD实现方法,包括以下步骤:
A、提取人声数据及噪音数据,按预设定的信噪比结合,得到训练音频数据;
B、针对每一帧训练音频数据提取MFCC特征后,经拼接得到最终特征数据;
C、拼接多帧特征数据,输入神经网络进行数据训练;
D、接收训练后的数据模型,进行三值量化处理;
E、利用相同训练数据,训练三值化bDNN后,提取并保存其权重、参数。
在本实施例中,采用了三值量化压缩的VAD实现方法(Ternary Voice ActivityDetection),以下简称TVAD,主要包括数据预处理、神经网络(Neural Network)和量化处理部分三个部分。
数据预处理,是指对于纯净人声数据与噪声数据进行按不同信噪比进行融合得到原始数据集,然后进行预处理使其数据符合神经网络的计算需求;其中,数据预处理主要步骤包括:语音信号的预加重、分帧、加窗、短时快速傅里叶变换(FFT)、计算不同FFT子带的能量、梅尔滤波、dct变换、lifter变换等。
神经网络(Neural Network,NN)是人类基于人类大脑的神经网络设计出来的一种数学模型,用以模拟人脑的功能实现类人工智能。神经网络是一种运算模型,由大量的神经元之间相互联接构成。每个神经元代表一种特定的输出函数,称为激活函数(activationfunction)。每两个神经元间的连接都表示一个对于通过该连接信号的加权值,称之为权重。这个权重的大小会随着神经元之间连接的重要性改变而改变。在得到上一层神经元的加权和之后,加权和会经过一个激活函数,最后得到当前神经元的输出。
本实施例,网络结构为输入层、三个隐层、输出层;其目前的参数数目为输入层为24*5,三个隐层是128*64*32,输出层为5维。隐藏层的维度可自由调节以便获取更好的预测结果。
量化处理部分,是指对于神经网络的进行三值量化压缩从而降低神经网络模型所需要的存储空间。
在其中一个实施例中,如图2所示,还包括以下步骤:
F、提取人声数据及噪音数据,按预设定的信噪比结合,获取测试音频数据;
G、针对每一帧测试音频数据提取MFCC特征后,经拼接得到最终特征数据;
H、拼接多帧特征数据,输入神经网络进行数据训练;
I、进行三值化bDNN,计算待预测帧的预测值,待批量预测结束后,将所有预测中包含待预测帧的结果求平均值,得到当前帧的最终预测值。
本实施例,分为训练部分和测试部分,训练部分与测试部分中对输入神经网络的特征数据的处理方式相同,但测试部分在进行神经网络训练并经过三值化 bDNN后会得到待预测帧的预测结果,等批量预测结束后将所有预测中包含待预测帧的结果求平均值即得到当前帧的最终预测结果。如图4所示,其中,每一行中虚线框中就是含有待预测帧的结果,将其取平均值,则得到待预测帧的最终预测结果。
在另一个实施例中,如图2所示,所述步骤I还包括以下步骤:
判断最终预测值是否大于设定阈值,若是,则判定待预测帧含语音,反之,则不含语音。
比较得到的待预测帧的最终预测结果与设定阈值的大小,大于设定阈值的即可认为含语音,小于阈值则认为不含语音。
在另一个实施例中,如图2所示,所述步骤I还包括以下步骤:
计算AUC值作为评估标准,AUC值取值为(0,1)。
计算AUC值可以解决因为正负样本不均导致的问题,能够更好地反应模型的性能,AUC值取值为(0,1),越接近于1表示预测效果越好。
在另一个实施例中,如图2所示,所述步骤I还包括以下步骤:
将测试音频的波形与预测结果进行可视化展示。
将预测值和波形图进行可视化直观展示模型,区别语音与非语音的效果。
在另一个实施例中,所述步骤A和步骤F中混合人声数据及噪音数据的步骤还包括:
P1、构造噪声数据列表与语料数据列表;
P2、设定每段音频的长度为L,从步骤S1中的噪声列表中随机选择音频进行串联,直到长度达到L;
P3、从步骤S1中的语料数据列表中随机选取一段音频,在所选取的音频首尾各添加音频总长度1/4的静音,重复选取至长度达到L;
P4、将选取的音频与噪声按预设定的信噪比结合,获取音频数据。
本实施例中P3步骤可在所选取的音频首尾各添加音频总长度1/4的静音,亦可在所选取的音频首尾各添加4秒的静音,具体以添加静音时间更短的方案为最优。
在另一个实施例中,所述步骤B和步骤G中提取MFCC特征的步骤还包括:
Q1、对每一帧音频数据进行预加重,其中预加重因子取0.97;
Q2、对每一帧音频数据进行分帧,设定帧长为32ms,帧移为16ms;
Q3、基于汉明窗函数进行加窗,汉明窗函数如下:
Figure RE-GDA0002641245810000101
Q4、进行快速傅里叶变换,将信号分离到不同的子带;
Q5、计算不同子带的能量;
Q6、生成相应的梅尔滤波器对子带进行滤波,梅尔滤波函数如下:
Figure RE-GDA0002641245810000111
Q7、计算每个梅尔滤波器输出的对数能量;
Q8、经离散余弦变换,得到MFCC系数;
Q9、提取一阶差分参数;
Q10、将MFCC系数与其一阶差分参数拼接,得到最终特征数据。
在另一个实施例中,所述步骤C和步骤H中拼接多帧特征数据的步骤包括:
S1、获取每一帧最终特征数据;
S2、提升每一帧的上下文信息,生成每一帧上的多个基预测;
S3、拼接包括待预测帧在内的5帧特征数据,输入神经网络进行数据训练。
本实施例使用待预测帧的相邻帧来联合预测待预测帧,通过提升帧的上下文信息来生成帧上的多个基预测,然后将基础预测聚合为更强的基础预测,相比于传统的DNN能实现更高的性能。
在本实施例中,取包含待预测帧在内的5帧特征数据拼接起来作为一组输入数据送入神经网络中进行训练,对于第一帧数据,我们在其前面补零,如图5 所示,其中:每个方框代表一帧数据,其中虚线方框表示5帧数据拼接,xn表示待预测帧,当xn是输入数据第一帧时,由于算法需要其前面帧的数据,所以在此对其做补零处理,对待预测帧前面补10帧,数据为0。最终得到5帧特征数据共5*24=120维数据,送入神经网络作训练处理。
在另一个实施例中,如图3所示,所述步骤D中进行三值量化的步骤包括:
D1、接收训练后的数据模型,从该数据模型的矩阵中,计算得出阈值Δ和缩放因子α,计算公式如下:
Figure RE-GDA0002641245810000112
Figure RE-GDA0002641245810000121
其中,IΔ={1≤i≤n||Wi>Δ|},|IΔ|表示IΔ中的元素;
D2、将原权重转变为三值权重,三值权重公式如下:
Figure RE-GDA0002641245810000122
D3、将输入X与缩放因子α相乘作为新的输入数据,并与三值权重进行加法计算进行正向传播;
D4、使用SGD算法反向传播进行迭代训练。
本实施例中,三值量化方法可以将权重从32bit浮点型量化为2bit定点型,即将原始浮点型权重用三值权重(-1,0,+1)与一个比例系数α相乘来近似表示。即:
Figure RE-GDA0002641245810000123
其中,阈值Δ从原权重矩阵W中产生,通过推导,其值为:
Figure RE-GDA0002641245810000124
α的值为:
Figure RE-GDA0002641245810000125
其中:IΔ={1≤i≤n||Wi>Δ|},|IΔ|表示IΔ中的元素。
这里的阈值Δ与比例系数α都是针对每一层的权重来考虑的,也就是说每一层都有独立的阈值Δ与比例系数α。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (9)

1.一种基于三值量化压缩的VAD实现方法,其特征在于,包括以下步骤:
A、提取人声数据及噪音数据,按预设定的信噪比结合,得到训练音频数据;
B、针对每一帧训练音频数据提取MFCC特征后,经拼接得到最终特征数据;
C、拼接多帧特征数据,输入神经网络进行数据训练;
D、接收训练后的数据模型,进行三值量化处理;
E、利用相同训练数据,训练三值化bDNN后,提取并保存其权重、参数。
2.根据权利要求1所述的基于三值量化压缩的VAD实现方法,其特征在于,还包括以下步骤:
F、提取人声数据及噪音数据,按预设定的信噪比结合,获取测试音频数据;
G、针对每一帧测试音频数据提取MFCC特征后,经拼接得到最终特征数据;
H、拼接多帧特征数据,输入神经网络进行数据训练;
I、进行三值化bDNN,计算待预测帧的预测值,待批量预测结束后,将所有预测中包含待预测帧的结果求平均值,得到当前帧的最终预测值。
3.根据权利要求2所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤I还包括以下步骤:
判断最终预测值是否大于设定阈值,若是,则判定待预测帧含语音,反之,则不含语音。
4.根据权利要求3所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤I还包括以下步骤:
计算AUC值作为评估标准,AUC值取值为(0,1)。
5.根据权利要求4所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤I还包括以下步骤:
将测试音频的波形与预测结果进行可视化展示。
6.根据权利要求2所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤A和步骤F中混合人声数据及噪音数据的步骤还包括:
P1、构造噪声数据列表与语料数据列表;
P2、设定每段音频的长度为L,从步骤S1中的噪声列表中随机选择音频进行串联,直到长度达到L;
P3、从步骤S1中的语料数据列表中随机选取一段音频,在所选取的音频首尾各添加音频总长度1/4的静音,重复选取至长度达到L;
P4、将选取的音频与噪声按预设定的信噪比结合,获取音频数据。
7.根据权利要求2所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤B和步骤G中提取MFCC特征的步骤还包括:
Q1、对每一帧音频数据进行预加重,其中预加重因子取0.97;
Q2、对每一帧音频数据进行分帧,设定帧长为32ms,帧移为16ms;
Q3、基于汉明窗函数进行加窗,汉明窗函数如下:
Figure FDA0002594271010000021
Q4、进行快速傅里叶变换,将信号分离到不同的子带;
Q5、计算不同子带的能量;
Q6、生成相应的梅尔滤波器对子带进行滤波,梅尔滤波函数如下:
Figure FDA0002594271010000022
Q7、计算每个梅尔滤波器输出的对数能量;
Q8、经离散余弦变换,得到MFCC系数;
Q9、提取一阶差分参数;
Q10、将MFCC系数与其一阶差分参数拼接,得到最终特征数据。
8.根据权利要求2所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤C和步骤H中拼接多帧特征数据的步骤包括:
S1、获取每一帧最终特征数据;
S2、提升每一帧的上下文信息,生成每一帧上的多个基预测;
S3、拼接包括待预测帧在内的5帧特征数据,输入神经网络进行数据训练。
9.根据权利要求1所述的基于三值量化压缩的VAD实现方法,其特征在于,所述步骤D中进行三值量化的步骤包括:
D1、接收训练后的数据模型,从该数据模型的矩阵中,计算得出阈值Δ和缩放因子α,计算公式如下:
Figure FDA0002594271010000031
Figure FDA0002594271010000032
其中,IΔ={1≤i≤n||Wi>Δ|},|IΔ|表示IΔ中的元素;
D2、将原权重转变为三值权重,三值权重公式如下:
Figure FDA0002594271010000033
D3、将输入X与缩放因子α相乘作为新的输入数据,并与三值权重进行加法计算进行正向传播;
D4、使用SGD算法反向传播进行迭代训练。
CN202010704640.6A 2020-07-21 2020-07-21 一种基于三值量化压缩的vad实现方法 Pending CN111798875A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010704640.6A CN111798875A (zh) 2020-07-21 2020-07-21 一种基于三值量化压缩的vad实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010704640.6A CN111798875A (zh) 2020-07-21 2020-07-21 一种基于三值量化压缩的vad实现方法

Publications (1)

Publication Number Publication Date
CN111798875A true CN111798875A (zh) 2020-10-20

Family

ID=72808060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010704640.6A Pending CN111798875A (zh) 2020-07-21 2020-07-21 一种基于三值量化压缩的vad实现方法

Country Status (1)

Country Link
CN (1) CN111798875A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112669852A (zh) * 2020-12-15 2021-04-16 北京百度网讯科技有限公司 内存分配方法、装置及电子设备
CN113327589A (zh) * 2021-06-10 2021-08-31 杭州芯声智能科技有限公司 一种基于姿态传感器的语音活动检测方法
CN113345423A (zh) * 2021-06-24 2021-09-03 科大讯飞股份有限公司 语音端点检测方法、装置、电子设备和存储介质
CN113555028A (zh) * 2021-07-19 2021-10-26 首约科技(北京)有限公司 一种用于车联网语音降噪的处理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392310A (zh) * 2016-05-16 2017-11-24 北京陌上花科技有限公司 神经网络模型训练方法及装置
CN108496188A (zh) * 2017-05-31 2018-09-04 深圳市大疆创新科技有限公司 神经网络训练的方法、装置、计算机***和可移动设备
US20180314940A1 (en) * 2017-04-28 2018-11-01 Intel Corporation Incremental precision networks using residual inference and fine-grain quantization
CN109545227A (zh) * 2018-04-28 2019-03-29 华中师范大学 基于深度自编码网络的说话人性别自动识别方法及***
CN110148408A (zh) * 2019-05-29 2019-08-20 上海电力学院 一种基于深度残差的中文语音识别方法
CN110365970A (zh) * 2019-07-10 2019-10-22 广州瀚信通信科技股份有限公司 一种基于监督学习评估终端VoLTE视频通话感知方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107392310A (zh) * 2016-05-16 2017-11-24 北京陌上花科技有限公司 神经网络模型训练方法及装置
US20180314940A1 (en) * 2017-04-28 2018-11-01 Intel Corporation Incremental precision networks using residual inference and fine-grain quantization
CN108496188A (zh) * 2017-05-31 2018-09-04 深圳市大疆创新科技有限公司 神经网络训练的方法、装置、计算机***和可移动设备
CN109545227A (zh) * 2018-04-28 2019-03-29 华中师范大学 基于深度自编码网络的说话人性别自动识别方法及***
CN110148408A (zh) * 2019-05-29 2019-08-20 上海电力学院 一种基于深度残差的中文语音识别方法
CN110365970A (zh) * 2019-07-10 2019-10-22 广州瀚信通信科技股份有限公司 一种基于监督学习评估终端VoLTE视频通话感知方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112669852A (zh) * 2020-12-15 2021-04-16 北京百度网讯科技有限公司 内存分配方法、装置及电子设备
CN112669852B (zh) * 2020-12-15 2023-01-31 北京百度网讯科技有限公司 内存分配方法、装置及电子设备
CN113327589A (zh) * 2021-06-10 2021-08-31 杭州芯声智能科技有限公司 一种基于姿态传感器的语音活动检测方法
CN113345423A (zh) * 2021-06-24 2021-09-03 科大讯飞股份有限公司 语音端点检测方法、装置、电子设备和存储介质
CN113345423B (zh) * 2021-06-24 2024-02-13 中国科学技术大学 语音端点检测方法、装置、电子设备和存储介质
CN113555028A (zh) * 2021-07-19 2021-10-26 首约科技(北京)有限公司 一种用于车联网语音降噪的处理方法

Similar Documents

Publication Publication Date Title
Zhao et al. Monaural speech dereverberation using temporal convolutional networks with self attention
CN110619885B (zh) 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN111798875A (zh) 一种基于三值量化压缩的vad实现方法
CN108922513B (zh) 语音区分方法、装置、计算机设备及存储介质
CN109326299B (zh) 基于全卷积神经网络的语音增强方法、装置及存储介质
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
KR101807961B1 (ko) Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치
EP2559026A1 (en) Audio communication device, method for outputting an audio signal, and communication system
EP3899936B1 (en) Source separation using an estimation and control of sound quality
CN108877823A (zh) 语音增强方法和装置
CN111785288A (zh) 语音增强方法、装置、设备及存储介质
Braun et al. Effect of noise suppression losses on speech distortion and ASR performance
CN113744749B (zh) 一种基于心理声学域加权损失函数的语音增强方法及***
CN114338623B (zh) 音频的处理方法、装置、设备及介质
CN111312292A (zh) 基于语音的情绪识别方法、装置、电子设备及存储介质
CN111341319A (zh) 一种基于局部纹理特征的音频场景识别方法及***
Shi et al. End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network.
JP2006510060A (ja) 複数の音響源が生成した複数の音響信号を分離する方法及びシステム
CN114333865A (zh) 一种模型训练以及音色转换方法、装置、设备及介质
Geng et al. End-to-end speech enhancement based on discrete cosine transform
CN105741853A (zh) 一种基于共振峰频率的数字语音感知哈希方法
CN116959468A (zh) 一种基于dcctn网络模型的语音增强方法、***及设备
CN111091847A (zh) 基于并改进的深度聚类语音分离方法
CN111009262A (zh) 语音性别识别的方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination