CN114548221A - 小样本不均衡语音数据库的生成式数据增强方法及*** - Google Patents

小样本不均衡语音数据库的生成式数据增强方法及*** Download PDF

Info

Publication number
CN114548221A
CN114548221A CN202210050846.0A CN202210050846A CN114548221A CN 114548221 A CN114548221 A CN 114548221A CN 202210050846 A CN202210050846 A CN 202210050846A CN 114548221 A CN114548221 A CN 114548221A
Authority
CN
China
Prior art keywords
data
voice
training
neural network
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210050846.0A
Other languages
English (en)
Other versions
CN114548221B (zh
Inventor
陶智
钱金阳
章溢华
张晓俊
许宜申
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202210050846.0A priority Critical patent/CN114548221B/zh
Publication of CN114548221A publication Critical patent/CN114548221A/zh
Application granted granted Critical
Publication of CN114548221B publication Critical patent/CN114548221B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

本发明公开了一种小样本不均衡语音数据库的生成式数据增强方法,包括S1、对原始语音数据进行信号预处理,并对预处理后的语音数据划分训练集与测试集;S2、对训练集数据和测试集数据进行压缩;S3:对压缩后的训练集数据和测试集数据进行独热编码;S4、使用独热编码后的训练集数据训练低残差WaveNet神经网络;S5、使用独热编码后的测试集数据和训练好的低残差WaveNet神经网络生成原始数据库中不存在的语音样本。本发明小样本不均衡语音数据库的生成式数据增强方法及***可以生成准确、多样的语音样本以扩充现有小样本不均衡语音数据库,使数据库能够应用更复杂的机器学习算法。

Description

小样本不均衡语音数据库的生成式数据增强方法及***
技术领域
本发明涉及语音数据增强技术领域,特别涉及一种小样本不均衡语音数据库的生成式数据增强方法及***。
背景技术
数据增强主要用来防止模型的过拟合。随着深度学习的发展,现在用于语音识别、分类等领域的各种机器学习模型都向着高复杂度的方向发展。决定这些机器学习模型效果的因素除了机器学习算法本身外,训练模型所使用的数据库是否有充足的数据量、样本数量是否均衡也有很大影响。由于小样本数据集容易出现过拟合或者泛化能力不强的问题,不均衡数据集会导致模型出现预测偏差,因此需要对原始小样本不均衡语音数据库进行扩充与均衡。
传统的语音数据增强方法主要有:音量增强、速度增强、音调增强、移动增强、噪声增强、时域掩蔽、频域掩蔽等。用这些增强后的语音来训练机器学习模型,可以一定程度上提高机器学习算法的准确率和鲁棒性。然而,这些增强方法都是针对原始语音的某一类特性进行增强,在一些特殊的数据库中并不适用。如在元音数据库中,音量、速度等都是数据库内某一类样本的固有特征,不能直接对其进行改变。
基于深度学习的各类语音生成模型可以解决这类问题。但现阶段这类模型主要用于更精确、实时的语音生成,本身模型的训练就需要海量的数据。即使使用已经训练好的模型,在对如元音数据库等特殊数据库进行生成式数据增强时也存在生成样本单一、生成数据效果不理想等问题。
综上所述,在面对小样本不均衡语音数据库时,有必要设计一种适用的数据增强模型,该模型能够使用原始小样本不均衡数据库进行训练,且能针对不同数据库生成准确、多样的数据。
发明内容
本发明要解决的技术问题是提供一种可以生成准确、多样的语音样本以扩充现有小样本不均衡语音数据库,使数据库能够应用更复杂的机器学习算法小样本不均衡语音数据库的生成式数据增强方法。
为了解决上述问题,本发明提供了一种小样本不均衡语音数据库的生成式数据增强方法,所述小样本不均衡语音数据库的生成式数据增强方法包括:
S1、对原始语音数据进行信号预处理,并对预处理后的语音数据划分训练集与测试集;
S2、对训练集数据和测试集数据进行压缩;
S3:对压缩后的训练集数据和测试集数据进行独热编码;
S4、使用独热编码后的训练集数据训练低残差WaveNet神经网络;
S5、使用独热编码后的测试集数据和训练好的低残差WaveNet神经网络生成原始数据库中不存在的语音样本。
作为本发明的进一步改进,所述对原始语音数据进行信号预处理,包括:对原始语音数据进行预加重和归一化处理,如下:
Figure BDA0003474238710000021
其中,
Figure BDA0003474238710000022
为预加重后的语音数据,x(n)、x(n-1)为原始语音数据第n个采样点和第n-1个采样点,α为预加重系数,N为数据总长度;
Figure BDA0003474238710000023
其中,S(n)为归一化后的语音数据,
Figure BDA0003474238710000024
为预加重后的语音数据,N为语音数据总长度。
作为本发明的进一步改进,所述对训练集数据和测试集数据进行压缩,包括:
利用以下公式对训练集数据和测试集数据进行压缩:
Figure BDA0003474238710000031
其中,f(xt)为压缩后的语音数据,xt为时间点t时的语音数据,μ为压缩系数。
作为本发明的进一步改进,步骤S3中,独热编码的方法如下:将值为-1到1之间的数值区间分为n段,每一个连续值由n位的二进制数字表示,n位二进制数字中只有一位为1,其余为0,为1的那一位即该数字在n段数值区间中的位置。
作为本发明的进一步改进,步骤S4中,所述低残差WaveNet神经网络包括多个具有相同结构的残差块,每个残差块包含多个扩张率指数增加的扩张因果卷积,训练步骤如下:
S41、从训练集中随机选取k段长度为网络卷积操作的感受野个点的语音片段送入低残差WaveNet神经网络;
S42、取输入数据之后的16个点作为真实输出,计算真实输出与预测输出的误差损失函数,计算如下:
Figure BDA0003474238710000032
其中,L(X)为点x的损失值,p(xi)为点x的真实数据值,q(xi)为点x的预测数据值,n为独热编码的长度;
S43、更新神经网络权值参数;
S44、重复步骤S41-S43,直至损失函数达到设定值或完成设定的训练次数。
作为本发明的进一步改进,步骤S5包括:使用独热编码后的测试集数据和训练好的低残差WaveNet神经网络生成一个点的语音样本数据,再将生成的语音样本数据作为低残差WaveNet神经网络的输入,并生成下一个点的语音样本数据,直至生成语音样本数据长度达到设定值。
为了解决上述问题,本发明还提供了一种小样本不均衡语音数据库的生成式数据增强***,其包括:
预处理模块,用于对原始语音数据进行信号预处理,并对预处理后的语音数据划分训练集与测试集;
压缩模块,用于对训练集数据和测试集数据进行压缩;
编码模块,用于对压缩后的训练集数据和测试集数据进行独热编码;
神经网络训练模块,用于使用独热编码后的训练集数据训练低残差WaveNet神经网络;
语音样本生成模块,用于使用独热编码后的测试集数据和训练好的低残差WaveNet神经网络生成原始数据库中不存在的语音样本。
作为本发明的进一步改进,所述对原始语音数据进行信号预处理,包括:
对原始语音数据进行预加重和归一化处理,如下:
Figure BDA0003474238710000041
其中,
Figure BDA0003474238710000042
为预加重后的语音数据,x(n)、x(n-1)为原始语音数据第n个采样点和第n-1个采样点,α为预加重系数,N为数据总长度;
Figure BDA0003474238710000043
其中,S(n)为归一化后的语音数据,
Figure BDA0003474238710000044
为预加重后的语音数据,N为语音数据总长度。
作为本发明的进一步改进,所述对训练集数据和测试集数据进行压缩,包括:
利用以下公式对训练集数据和测试集数据进行压缩:
Figure BDA0003474238710000045
其中,f(xt)为压缩后的语音数据,xt为时间点t时的语音数据,μ为压缩系数。
作为本发明的进一步改进,所述低残差WaveNet神经网络包括多个具有相同结构的残差块,每个残差块包含多个扩张率指数增加的扩张因果卷积,训练步骤如下:
S41、从训练集中随机选取k段长度为网络卷积操作的感受野个点的语音片段送入低残差WaveNet神经网络;
S42、取输入数据之后的16个点作为真实输出,计算真实输出与预测输出的误差损失函数,计算如下:
Figure BDA0003474238710000051
其中,L(X)为点x的损失值,p(xi)为点x的真实数据值,q(xi)为点x的预测数据值,n为独热编码的长度;
S43、更新神经网络权值参数;
S44、重复步骤S41-S43,直至损失函数达到设定值或完成设定的训练次数。
本发明的有益效果:
本发明小样本不均衡语音数据库的生成式数据增强方法及***针对小样本的不均衡语音数据库,采用自回归建模语音的前后关系,对有限语音数据进行生成,并使用低残差WaveNet网络模型,比直接使用WaveNet网络模型的数据生成方法更易训练,生成速度也更快。
本发明小样本不均衡语音数据库的生成式数据增强方法及***可以生成准确、多样的语音样本以扩充现有小样本不均衡语音数据库,使数据库能够应用更复杂的机器学习算法。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是本发明优选实施例中小样本不均衡语音数据库的生成式数据增强方法的流程图;
图2是本发明优选实施例中低残差WaveNet神经网络的结构图;
图3是MFCC特征参数提取流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例一
如图1所示,为本实施例中的小样本不均衡语音数据库的生成式数据增强方法,所述小样本不均衡语音数据库的生成式数据增强方法包括以下步骤:
步骤S1、对原始语音数据进行信号预处理,并对预处理后的语音数据划分训练集与测试集;
具体地,所述对原始语音数据进行信号预处理,包括:对原始语音数据进行预加重和归一化处理,如下:
Figure BDA0003474238710000061
其中,
Figure BDA0003474238710000062
为预加重后的语音数据,x(n)、x(n-1)为原始语音数据第n个采样点和第n-1个采样点,α为预加重系数,N为数据总长度;
Figure BDA0003474238710000063
其中,S(n)为归一化后的语音数据,
Figure BDA0003474238710000064
为预加重后的语音数据,N为语音数据总长度。
在其中一实施例中,预加重系数α为0.97。
步骤S2、对训练集数据和测试集数据进行压缩;
具体地,利用以下公式对训练集数据和测试集数据进行压缩:
Figure BDA0003474238710000065
其中,f(xt)为压缩后的语音数据,xt为时间点t时的语音数据,μ为压缩系数。在其中一实施例中,压缩系数μ为256。
步骤S3:对压缩后的训练集数据和测试集数据进行独热编码;
具体地,独热编码的方法如下:将值为-1到1之间的数值区间分为n段,每一个连续值由n位的二进制数字表示,n位二进制数字中只有一位为1,其余为0,为1的那一位即该数字在n段数值区间中的位置。
在其中一实施例中,对压缩后的训练集数据和测试集数据进行长度为256的独热编码。
步骤S4、使用独热编码后的训练集数据训练低残差WaveNet神经网络;
具体地,所述低残差WaveNet神经网络包括多个具有相同结构的残差块,每个残差块包含多个扩张率指数增加的扩张因果卷积,训练步骤如下:
S41、从训练集中随机选取k段长度为网络卷积操作的感受野个点的语音片段送入低残差WaveNet神经网络;
S42、取输入数据之后的16个点作为真实输出,计算真实输出与预测输出的误差损失函数,计算如下:
Figure BDA0003474238710000071
其中,L(X)为点x的损失值,p(xi)为点x的真实数据值,q(xi)为点x的预测数据值,n为独热编码的长度;
S43、更新神经网络权值参数;
S44、重复步骤S41-S43,直至损失函数达到设定值或完成设定的训练次数。
如图2所示,在其中一实施例中,低残差WaveNet神经网络由两个相同结构残差块组成,每个残差块包含10个扩张因果卷积,10个扩张因果卷积的扩张系数为1、2、4、8、16、32、64、128、256、512。在两个残差块之前进行了一次因果卷积,两个残差块之后对输入与两个残差块后的输出进行了一次残差链接,再经过两次因果卷积。其训练步骤为:
S41、从训练集中随机选取16段长度为2047个点的语音片段送入低残差WaveNet神经网络;
S42、取输入数据之后的16个点作为真实输出,计算真实输出与预测输出的误差损失函数,计算如下:
Figure BDA0003474238710000072
其中,L(X)为点x的损失值,p(xi)为点x的真实数据值,q(xi)为点x的预测数据值,256为独热编码的长度。
S43、更新神经网络权重;
S44、重复步骤S4-1-S4-3,直至损失函数达到设定值或完成设定的训练次数。
步骤S5、使用独热编码后的测试集数据和训练好的低残差WaveNet神经网络生成原始数据库中不存在的语音样本。
具体地,使用独热编码后的测试集数据和训练好的低残差WaveNet神经网络生成一个点的语音样本数据,再将生成的语音样本数据作为低残差WaveNet神经网络的输入,并生成下一个点的语音样本数据,直至生成语音样本数据长度达到设定值。在其中一实施例中,设定值为0.5s。
为了验证本发明的小样本不均衡语音数据库的生成式数据增强方法的可行性,在原始小样本不均衡语音数据库中,提取传统语音特征参数MFCC,使用本发明的方法生成新的语音样本并提取其特征参数MFCC,比较分析生成样本与原始样本在特征空间的差异性。
具体地,参照图3所示,所述传统语音特征参数MFCC的提取过程包括:
预处理:对语音信号S(n)进行预加重、加窗和分帧处理,以汉明窗作为窗函数,得到每帧信号Sn(m);
快速傅里叶变换:通过短时傅里叶分析得到幅度谱Xn(k);
Mel滤波器处理:将幅度谱Xn(k)通过一组Mel尺度的三角形滤波器组(M个滤波器);
获取对数能量:计算每个滤波器组输出的对数能量;
离散余弦变换(DCT):将对数能量带入DCT,求出M阶的MFCC系数;
动态差分参数:提取MFCC的1阶和2阶导数加入特征矩阵。
采用本发明的小样本不均衡语音数据库的生成式数据增强方法生成新数据并提取传统语音特征参数MFCC,使用t-test对生成语音的新样本特征集和原始语音的特征集进行统计学检验分析。最终得到差异值P>0.05,表明生成新样本与原始样本无显著差异性,具有真实样本的信息代表价值。
实施例二
本实施例公开了小样本不均衡语音数据库的生成式数据增强***,其包括以下模块:
预处理模块,用于对原始语音数据进行信号预处理,并对预处理后的语音数据划分训练集与测试集;
具体地,所述对原始语音数据进行信号预处理,包括:对原始语音数据进行预加重和归一化处理,如下:
Figure BDA0003474238710000091
其中,
Figure BDA0003474238710000092
为预加重后的语音数据,x(n)、x(n-1)为原始语音数据第n个采样点和第n-1个采样点,α为预加重系数,N为数据总长度;
Figure BDA0003474238710000093
其中,S(n)为归一化后的语音数据,
Figure BDA0003474238710000094
为预加重后的语音数据,N为语音数据总长度。
压缩模块,用于对训练集数据和测试集数据进行压缩;
具体地,利用以下公式对训练集数据和测试集数据进行压缩:
Figure BDA0003474238710000095
其中,f(xt)为压缩后的语音数据,xt为时间点t时的语音数据,μ为压缩系数。
编码模块,用于对压缩后的训练集数据和测试集数据进行独热编码;
具体地,独热编码的方法如下:将值为-1到1之间的数值区间分为n段,每一个连续值由n位的二进制数字表示,n位二进制数字中只有一位为1,其余为0,为1的那一位即该数字在n段数值区间中的位置。
神经网络训练模块,用于使用独热编码后的训练集数据训练低残差WaveNet神经网络;
具体地,所述低残差WaveNet神经网络包括多个具有相同结构的残差块,每个残差块包含多个扩张率指数增加的扩张因果卷积,训练步骤如下:
S41、从训练集中随机选取k段长度为网络卷积操作的感受野个点的语音片段送入低残差WaveNet神经网络;
S42、取输入数据之后的16个点作为真实输出,计算真实输出与预测输出的误差损失函数,计算如下:
Figure BDA0003474238710000101
其中,L(X)为点x的损失值,p(xi)为点x的真实数据值,q(xi)为点x的预测数据值,n为独热编码的长度;
S43、更新神经网络权值参数;
S44、重复步骤S41-S43,直至损失函数达到设定值或完成设定的训练次数。
语音样本生成模块,用于使用独热编码后的测试集数据和训练好的低残差WaveNet神经网络生成原始数据库中不存在的语音样本。
具体地,使用独热编码后的测试集数据和训练好的低残差WaveNet神经网络生成一个点的语音样本数据,再将生成的语音样本数据作为低残差WaveNet神经网络的输入,并生成下一个点的语音样本数据,直至生成语音样本数据长度达到设定值。在其中一实施例中,设定值为0.5s。
下面,将本发明的小样本不均衡语音数据库的生成式数据增强方法用于小样本不均衡语音信号的模式识别。
在小样本不均衡语音数据库的条件下,将本发明的数据增强技术用于语音信号的模式识别。建模语音信号的模式识别***包括数据生成、特征提取、分类器分类。
一、数据生成与上述实施例一中的数据生成步骤相同;
二、特征提取与上述实施例一中的特征空间的差异性比较步骤中的传统语音特征参数MFCC的提取过程相同;
三、分类器分类:
使用原始语音数据的特征和经过本发明的数据增强方法后的语音数据的特征分别训练随机森林分类器(RF)。
对未经过数据增强的数据和经过本发明的方法进行数据增强的数据建模模式识别***,使用10折交叉验证法进行模式识别,实验结果如表1所示:
Figure BDA0003474238710000111
表1
从上表实验结果可知,原始小样本不均衡数据库不利于建模语音信号的模式识别***,特别是在accuracy和sensitivity两项指标上,经过本发明的数据增强方法处理后,这两项评估指标取得了明显的提升。
本发明小样本不均衡语音数据库的生成式数据增强方法及***针对小样本的不均衡语音数据库,采用自回归建模语音的前后关系,对样本有限的语音数据进行生成,并使用低残差WaveNet网络模型,比直接使用WaveNet网络模型的数据生成方法更易训练,生成速度也更快。
本发明小样本不均衡语音数据库的生成式数据增强方法及***可以生成准确、多样的语音样本以扩充现有小样本不均衡语音数据库,使数据库能够应用更复杂的机器学习算法。
以上实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (10)

1.小样本不均衡语音数据库的生成式数据增强方法,其特征在于,包括:
S1、对原始语音数据进行信号预处理,并对预处理后的语音数据划分训练集与测试集;
S2、对训练集数据和测试集数据进行压缩;
S3:对压缩后的训练集数据和测试集数据进行独热编码;
S4、使用独热编码后的训练集数据训练低残差WaveNet神经网络;
S5、使用独热编码后的测试集数据和训练好的低残差WaveNet神经网络生成原始数据库中不存在的语音样本。
2.如权利要求1所述的小样本不均衡语音数据库的生成式数据增强方法,其特征在于,所述对原始语音数据进行信号预处理,包括:对原始语音数据进行预加重和归一化处理,如下:
Figure FDA0003474238700000011
其中,
Figure FDA0003474238700000012
为预加重后的语音数据,x(n)、x(n-1)为原始语音数据第n个采样点和第n-1个采样点,α为预加重系数,N为数据总长度;
Figure FDA0003474238700000013
其中,S(n)为归一化后的语音数据,
Figure FDA0003474238700000014
为预加重后的语音数据,N为语音数据总长度。
3.如权利要求1所述的小样本不均衡语音数据库的生成式数据增强方法,其特征在于,所述对训练集数据和测试集数据进行压缩,包括:
利用以下公式对训练集数据和测试集数据进行压缩:
Figure FDA0003474238700000015
其中,f(xt)为压缩后的语音数据,xt为时间点t时的语音数据,μ为压缩系数。
4.如权利要求1所述的小样本不均衡语音数据库的生成式数据增强方法,其特征在于,步骤S3中,独热编码的方法如下:将值为-1到1之间的数值区间分为n段,每一个连续值由n位的二进制数字表示,n位二进制数字中只有一位为1,其余为0,为1的那一位即该数字在n段数值区间中的位置。
5.如权利要求1所述的小样本不均衡语音数据库的生成式数据增强方法,其特征在于,步骤S4中,所述低残差WaveNet神经网络包括多个具有相同结构的残差块,每个残差块包含多个扩张率指数增加的扩张因果卷积,训练步骤如下:
S41、从训练集中随机选取k段长度为网络卷积操作的感受野个点的语音片段送入低残差WaveNet神经网络;
S42、取输入数据之后的16个点作为真实输出,计算真实输出与预测输出的误差损失函数,计算如下:
Figure FDA0003474238700000021
其中,L(X)为点x的损失值,p(xi)为点x的真实数据值,q(xi)为点x的预测数据值,n为独热编码的长度;
S43、更新神经网络权值参数;
S44、重复步骤S41-S43,直至损失函数达到设定值或完成设定的训练次数。
6.如权利要求1所述的小样本不均衡语音数据库的生成式数据增强方法,其特征在于,步骤S5包括:使用独热编码后的测试集数据和训练好的低残差WaveNet神经网络生成一个点的语音样本数据,再将生成的语音样本数据作为低残差WaveNet神经网络的输入,并生成下一个点的语音样本数据,直至生成语音样本数据长度达到设定值。
7.小样本不均衡语音数据库的生成式数据增强***,其特征在于,包括:
预处理模块,用于对原始语音数据进行信号预处理,并对预处理后的语音数据划分训练集与测试集;
压缩模块,用于对训练集数据和测试集数据进行压缩;
编码模块,用于对压缩后的训练集数据和测试集数据进行独热编码;
神经网络训练模块,用于使用独热编码后的训练集数据训练低残差WaveNet神经网络;
语音样本生成模块,用于使用独热编码后的测试集数据和训练好的低残差WaveNet神经网络生成原始数据库中不存在的语音样本。
8.如权利要求7所述的小样本不均衡语音数据库的生成式数据增强***,其特征在于,所述对原始语音数据进行信号预处理,包括:
对原始语音数据进行预加重和归一化处理,如下:
Figure FDA0003474238700000031
其中,
Figure FDA0003474238700000032
为预加重后的语音数据,x(n)、x(n-1)为原始语音数据第n个采样点和第n-1个采样点,α为预加重系数,N为数据总长度;
Figure FDA0003474238700000033
其中,S(n)为归一化后的语音数据,
Figure FDA0003474238700000034
为预加重后的语音数据,N为语音数据总长度。
9.如权利要求7所述的小样本不均衡语音数据库的生成式数据增强***,其特征在于,所述对训练集数据和测试集数据进行压缩,包括:
利用以下公式对训练集数据和测试集数据进行压缩:
Figure FDA0003474238700000035
其中,f(xt)为压缩后的语音数据,xt为时间点t时的语音数据,μ为压缩系数。
10.如权利要求7所述的小样本不均衡语音数据库的生成式数据增强***,其特征在于,所述低残差WaveNet神经网络包括多个具有相同结构的残差块,每个残差块包含多个扩张率指数增加的扩张因果卷积,训练步骤如下:
S41、从训练集中随机选取k段长度为网络卷积操作的感受野个点的语音片段送入低残差WaveNet神经网络;
S42、取输入数据之后的16个点作为真实输出,计算真实输出与预测输出的误差损失函数,计算如下:
Figure FDA0003474238700000041
其中,L(X)为点x的损失值,p(xi)为点x的真实数据值,q(xi)为点x的预测数据值,n为独热编码的长度;
S43、更新神经网络权值参数;
S44、重复步骤S41-S43,直至损失函数达到设定值或完成设定的训练次数。
CN202210050846.0A 2022-01-17 2022-01-17 小样本不均衡语音数据库的生成式数据增强方法及*** Active CN114548221B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210050846.0A CN114548221B (zh) 2022-01-17 2022-01-17 小样本不均衡语音数据库的生成式数据增强方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210050846.0A CN114548221B (zh) 2022-01-17 2022-01-17 小样本不均衡语音数据库的生成式数据增强方法及***

Publications (2)

Publication Number Publication Date
CN114548221A true CN114548221A (zh) 2022-05-27
CN114548221B CN114548221B (zh) 2023-04-28

Family

ID=81672087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210050846.0A Active CN114548221B (zh) 2022-01-17 2022-01-17 小样本不均衡语音数据库的生成式数据增强方法及***

Country Status (1)

Country Link
CN (1) CN114548221B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108172238A (zh) * 2018-01-06 2018-06-15 广州音书科技有限公司 一种语音识别***中基于多个卷积神经网络的语音增强算法
CN109460737A (zh) * 2018-11-13 2019-03-12 四川大学 一种基于增强式残差神经网络的多模态语音情感识别方法
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN110648684A (zh) * 2019-07-02 2020-01-03 中国人民解放军陆军工程大学 一种基于WaveNet的骨导语音增强波形生成方法
CN111402929A (zh) * 2020-03-16 2020-07-10 南京工程学院 基于域不变的小样本语音情感识别方法
CN111429947A (zh) * 2020-03-26 2020-07-17 重庆邮电大学 一种基于多级残差卷积神经网络的语音情感识别方法
CN112420018A (zh) * 2020-10-26 2021-02-26 昆明理工大学 一种适用于低信噪比环境下语种识别方法
US20220013105A1 (en) * 2020-07-09 2022-01-13 Google Llc Self-Training WaveNet for Text-to-Speech

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108172238A (zh) * 2018-01-06 2018-06-15 广州音书科技有限公司 一种语音识别***中基于多个卷积神经网络的语音增强算法
CN109460737A (zh) * 2018-11-13 2019-03-12 四川大学 一种基于增强式残差神经网络的多模态语音情感识别方法
CN110136731A (zh) * 2019-05-13 2019-08-16 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN110648684A (zh) * 2019-07-02 2020-01-03 中国人民解放军陆军工程大学 一种基于WaveNet的骨导语音增强波形生成方法
CN111402929A (zh) * 2020-03-16 2020-07-10 南京工程学院 基于域不变的小样本语音情感识别方法
CN111429947A (zh) * 2020-03-26 2020-07-17 重庆邮电大学 一种基于多级残差卷积神经网络的语音情感识别方法
US20220013105A1 (en) * 2020-07-09 2022-01-13 Google Llc Self-Training WaveNet for Text-to-Speech
CN112420018A (zh) * 2020-10-26 2021-02-26 昆明理工大学 一种适用于低信噪比环境下语种识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AARON VAN DEN OORD: "WAVENET: A GENERATIVE MODEL FOR RAW AUDIO", 《ARXIV》 *

Also Published As

Publication number Publication date
CN114548221B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN110751044B (zh) 基于深度网络迁移特征与增广自编码的城市噪声识别方法
CN108831443B (zh) 一种基于堆叠自编码网络的移动录音设备源识别方法
CN109767756B (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
CN111243602A (zh) 基于性别、国籍和情感信息的声纹识别方法
Bharti et al. Real time speaker recognition system using MFCC and vector quantization technique
CN110647656B (zh) 一种利用变换域稀疏化和压缩降维的音频检索方法
Khdier et al. Deep learning algorithms based voiceprint recognition system in noisy environment
CN111583957B (zh) 基于五音阶乐律声谱图和级联神经网络的戏曲分类方法
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及***
CN111986699A (zh) 基于全卷积网络的声音事件检测方法
CN114333773A (zh) 一种基于自编码器的工业场景异常声音检测与识别方法
CN112183582A (zh) 一种多特征融合的水下目标识别方法
Benamer et al. Database for arabic speech commands recognition
CN109903749B (zh) 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法
Imran et al. An analysis of audio classification techniques using deep learning architectures
Chakravarty et al. Spoof detection using sequentially integrated image and audio features
Wani et al. Deepfakes audio detection leveraging audio spectrogram and convolutional neural networks
CN112035700B (zh) 一种基于cnn的语音深度哈希学习方法及***
CN114065809A (zh) 一种乘用车异响识别方法、装置、电子设备以及存储介质
Wu et al. A Characteristic of Speaker's Audio in the Model Space Based on Adaptive Frequency Scaling
CN116153337B (zh) 合成语音溯源取证方法及装置、电子设备及存储介质
CN111785262A (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Elhami et al. Audio feature extraction with convolutional neural autoencoders with application to voice conversion
CN114548221B (zh) 小样本不均衡语音数据库的生成式数据增强方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant