CN113241062B - 语音训练数据集的增强方法、装置、设备及存储介质 - Google Patents
语音训练数据集的增强方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113241062B CN113241062B CN202110610940.2A CN202110610940A CN113241062B CN 113241062 B CN113241062 B CN 113241062B CN 202110610940 A CN202110610940 A CN 202110610940A CN 113241062 B CN113241062 B CN 113241062B
- Authority
- CN
- China
- Prior art keywords
- training data
- mel
- voice
- spectrogram
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 185
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 230000008707 rearrangement Effects 0.000 claims abstract description 39
- 238000012545 processing Methods 0.000 claims abstract description 35
- 230000002708 enhancing effect Effects 0.000 claims abstract description 20
- 230000008569 process Effects 0.000 claims abstract description 18
- 238000001228 spectrum Methods 0.000 claims description 64
- 239000013598 vector Substances 0.000 claims description 31
- 230000001502 supplementing effect Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000010586 diagram Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000009469 supplementation Effects 0.000 abstract description 3
- 238000007726 management method Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供了一种语音训练数据集的增强方法、装置、设备及存储介质,其中,方法包括:通过提取各个语音训练数据对应的梅尔频谱图并进行像素点重排处理,得到像素点重排处理后的暂时梅尔频谱图,为每个所述暂时梅尔频谱设定擦除区域面积,设定擦除区域的形状参数,更改参数或者随机擦除系数,得到多个延伸梅尔频谱图,将各所述延伸梅尔频谱图转化为对应的目标语音训练数据,从而完成对对语音训练数据的补充。发明的有益效果:解决了语音训练数据较少,导致语音模型在训练过程中容易出现过拟合的问题,并且增加了语音模型的鲁棒性,避免语音模型陷入过拟合,大大提高了语音模型的应用范围。
Description
技术领域
本发明涉及人工智能领域,特别涉及一种语音训练数据集的增强方法、装置、设备及存储介质。
背景技术
语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连,其目标是让计算机能够“听写”出不同人所说出的连续语音,也就是俗称的“语音听写机”,是实现“声音”到“文字”转换的技术。由于语音训练数据较少,导致语音模型在训练过程中容易出现过拟合问题,当模型训练过拟合后,模型就只能在训练集上取得较好的效果而在其他数据上表现较差,缺少泛化能力。
发明内容
本发明的主要目的为提供一种语音训练数据集的增强方法、装置、设备及存储介质,旨在解决语音训练数据较少,导致语音模型在训练过程中容易出现过拟合的问题。
本发明提供了一种语音训练数据集的增强方法,包括:
获取语音训练数据集;
从所述语音训练数据集中提取各个语音训练数据,并将各个所述语音训练数据转化为对应的梅尔频谱图;
对每个所述梅尔频谱图进行像素点重排处理,得到像素点重排处理后的暂时梅尔频谱图;
根据所述暂时梅尔频谱的图片大小,为每个所述暂时梅尔频谱设定擦除区域面积;
引入随机擦除系数,并基于所述擦除区域面积和所述随机擦除系数设定擦除区域的形状参数;
更改所述擦除区域在所述暂时梅尔频谱中的位置或更改所述随机擦除系数,得到各个所述暂时梅尔频谱图对应的多个延伸梅尔频谱图;
将各所述延伸梅尔频谱图转化为对应的目标语音训练数据;
将所述目标语音训练数据补充至所述语音训练数据集中,得到增强后的语音训练数据集。
进一步地,所述对每个所述梅尔频谱图进行像素点重排处理,得到像素点重排处理后的暂时梅尔频谱图的步骤,包括:
将所述梅尔频谱图划分为多个子集频谱图;
随机选取预设数目的所述子集频谱图进行像素点随机排列,得到像素点重排处理后的暂时梅尔频谱图。
进一步地,所述擦除区域为矩形区域,所述引入随机擦除系数,并基于所述擦除区域面积和所述随机擦除系数设定擦除区域的形状参数的步骤,包括:
从预设的参数范围中任意选取随机参数re;
根据公式设定所述矩形区域的宽度,以及根据公式/>设定所述矩形区域的高度,其中Se为所述擦除区域面积,We为所述宽度,He为所述高度。
进一步地,所述引入随机擦除系数,并基于所述擦除区域面积和所述随机擦除系数设定擦除区域的形状参数的步骤之后,还包括:
基于所述形状参数判断所述暂时梅尔频谱图中是否存在有所述擦除区域的中心点,使所述擦除区域被所述暂时梅尔频谱图完全包含;
若不存在所述中心点,则将更换所述随机擦除系数,直至存在所述中心点。
进一步地,所述将所述目标语音训练数据补充至所述语音训练数据集中,得到增强后的语音训练数据集的步骤之前,还包括:
将各所述目标语音训练数据输入至预设的向量机中,得到对应固定维度的目标向量X=(x1,x2,…,xi,…,xn);
根据公式计算每个所述目标向量与原语音训练数据对应的语音向量之间的差异值;其中,Y为原语音训练数据对应的多维坐标,Y=(y1,y2,…,yi,…,yn),xi表示目标向量中第i维的数值,yi表示对应的语音向量中第i维的数值,si为第i维数据所对应的系数,p为设定的参数值;
将所述差异值小于预设差异值的目标语音训练数据删除。
进一步地,所述将所述目标语音训练数据补充至所述语音训练数据集中,得到增强后的语音训练数据集的步骤之后,还包括:
将所述增强后的语音训练数据集中的样本语音数据转换为样本梅尔频谱图;
将所述样本梅尔频谱图和预设的干扰频谱图输入至生成网络,得到中间梅尔频谱图;
将所述中间梅尔频谱图输入至判别网络,得到所述中间梅尔频谱图对应的类型概率和预测标签;
根据所述中间梅尔频谱图的类型概率和所述预测标签对所述生成网络和所述判别网络进行交替迭代训练,并将训练完成的生成网络作为语音模型。
进一步地,所述将各个所述语音训练数据转化为对应的梅尔频谱图的步骤,包括:
将各个语音训练数据中每一帧语音进行傅里叶变化,得到每一帧语音对应的语音结果;
将各所述语音结果沿其中一个维度进行堆叠,得到对应的声谱图;
将所述声谱图输入至梅尔滤波器组中,得到所述梅尔频谱图。
本发明提供了一种语音训练数据集的增强装置,包括:
获取模块,用于获取语音训练数据集;
第一转化模块,用于从所述语音训练数据集中提取各个语音训练数据,并将各个所述语音训练数据转化为对应的梅尔频谱图;
重排模块,用于对每个所述梅尔频谱图进行像素点重排处理,得到像素点重排处理后的暂时梅尔频谱图;
设定模块,用于根据所述暂时梅尔频谱的图片大小,为每个所述暂时梅尔频谱设定擦除区域面积;
引入模块,用于引入随机擦除系数,并基于所述擦除区域面积和所述随机擦除系数设定擦除区域的形状参数;
更改模块,用于更改所述擦除区域在所述暂时梅尔频谱中的位置或更改所述随机擦除系数,得到各个所述暂时梅尔频谱图对应的多个延伸梅尔频谱图;
第二转化模块,用于将各所述延伸梅尔频谱图转化为对应的目标语音训练数据;
补充模块,用于将所述目标语音训练数据补充至所述语音训练数据集中,得到增强后的语音训练数据集。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明的有益效果:通过提取各个语音训练数据对应的梅尔频谱图并进行像素点重排处理,得到像素点重排处理后的暂时梅尔频谱图,为每个所述暂时梅尔频谱设定擦除区域面积,设定擦除区域的形状参数,更改参数或者随机擦除系数,得到多个延伸梅尔频谱图,将各所述延伸梅尔频谱图转化为对应的目标语音训练数据,从而完成对对语音训练数据的补充,解决了语音训练数据较少,导致语音模型在训练过程中容易出现过拟合的问题,并且增加了语音模型的鲁棒性,避免语音模型陷入过拟合,大大提高了语音模型的应用范围。
附图说明
图1是本发明一实施例的一种语音训练数据集的增强方法的流程示意图;
图2是本发明一实施例的一种语音训练数据集的增强装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参照图1,本发明提出一种语音训练数据集的增强方法,包括:
S1:获取语音训练数据集;
S2:从所述语音训练数据集中提取各个语音训练数据,并将各个所述语音训练数据转化为对应的梅尔频谱图;
S3:对每个所述梅尔频谱图进行像素点重排处理,得到像素点重排处理后的暂时梅尔频谱图;
S4:根据所述暂时梅尔频谱的图片大小,为每个所述暂时梅尔频谱设定擦除区域面积;
S5:引入随机擦除系数,并基于所述擦除区域面积和所述随机擦除系数设定擦除区域的形状参数;
S6:更改所述擦除区域在所述暂时梅尔频谱中的位置或更改所述随机擦除系数,得到各个所述暂时梅尔频谱图对应的多个延伸梅尔频谱图;
S7:将各所述延伸梅尔频谱图转化为对应的目标语音训练数据;
S8:将所述目标语音训练数据补充至所述语音训练数据集中,得到增强后的语音训练数据集。
如上述步骤S1所述,获取语音训练数据集,其中,获取的方式可以是通过麦克风进行采集,也可以是从其他数据源处获取。需要说明的是,对于移动终端而言,一般是对用户的语音数据进行训练,因此获取到的语音训练数据集很小。
如上述步骤S2所述,从所述语音训练数据集中提取各个语音训练数据,并将各个所述语音训练数据转化为对应的梅尔频谱图。提取的方式为将各个语音训练数据进行短时傅里叶变化(STFT),即对语音训练数据中的每一帧都做傅里叶变换,把每一帧的结果沿另一个维度堆叠起来,得到了声谱图,将声谱图再输入梅尔滤波器组(mel-scale filterbanks),从而得到了梅尔频谱图。
如上述步骤S3所述,对每个所述梅尔频谱图进行像素点重排处理,得到像素点重排处理后的暂时梅尔频谱图。其中,梅尔频谱像素点重排处理是一种基于核滤波器的正则化方法,即用于对图像进行锐化和模糊处理,因此,可以按照区域将梅尔频谱图其分为多个子级频谱图,对各个子级频谱图中的像素进行重排即可。
如上述步骤S4所述,根据所述暂时梅尔频谱的图片大小,为每个所述暂时梅尔频谱设定擦除区域面积。即设定的擦除区域面积与暂时梅尔频谱的图片大小相关,从而避免擦除过多的数据而影响擦除后得到的训练数据的训练效果。其中,可以设定一个面积比率,即设置其中α为面积比率,Se为擦除面积,S为对应的暂时梅尔频谱的面积(即暂时梅尔频谱的图片大小),从而保证设定的擦除面积可控,得到的新的训练数据不会出现太多的数据缺失,保证了训练效果。
如上述步骤S5所述,引入随机擦除系数,并基于所述擦除区域面积和所述随机擦除系数设定擦除区域的形状参数。其中,随机擦除系数为决定擦除区域的形状参数,即设定了其面积大小,形状等参数。可以是矩形,多边形,圆等形状,后续对于矩形的宽度和高度的设置有详细说明,此处不再赘述。对于多边形即需要设置对应的边长,各个边之间的角度等参数,对于圆则需要设置对应的半径等。
如上述步骤S6所述,更改所述擦除区域在所述暂时梅尔频谱中的位置或更改所述随机擦除系数,得到各个所述暂时梅尔频谱图对应的多个延伸梅尔频谱图。即不断变更参数,在符合要求的情况下,可以得到多个延伸梅尔频谱图,即完成了数据的扩充。其中,符合要求的情况是指擦除区域完全包含在暂时梅尔频谱图中。若擦除区域没有完全包含在暂时梅尔频谱图中,则判定得到的延伸频谱图不符合要求,需要将其删除。
如上述步骤S7所述,将各所述延伸梅尔频谱图转化为对应的目标语音训练数据。将各个延伸梅尔频谱图还原的目的是为了将原有的语音训练数据集进行扩充,还原的方式为对应生成梅尔频谱图的方式进行逆运算得到。在一些实施例中,若对应的语音训练模型是通过梅尔频谱图进行训练的,也可以不用进行还原计算,直接输入至该语音训练模型即可。
如上述步骤S8所述,将所述目标语音训练数据补充至所述语音训练数据集中,得到增强后的语音训练数据集。从而完成对语音训练数据的补充,解决了语音训练数据较少,导致语音模型在训练过程中容易出现过拟合的问题,并且增加了语音模型的鲁棒性,避免语音模型陷入过拟合,大大提高了语音模型的应用范围。
在一个实施例中,所述对每个所述梅尔频谱图进行像素点重排处理,得到像素点重排处理后的暂时梅尔频谱图的步骤S3,包括:
S301:将所述梅尔频谱图划分为多个子集频谱图;
S302:随机选取预设数目的所述子集频谱图进行像素点随机排列,得到像素点重排处理后的暂时梅尔频谱图。
如上述步骤S301-S302所述,实现了对梅尔频谱图的像素点重排处理,即将所述梅尔频谱图划分为多个子集频谱图,假设梅尔频谱图为一张尺寸为4x4的图片,则可以设定子集频谱图的大小为2x2,将其分为4个子集频谱图,每个子集频谱图发生像素点重排处理的概率相对独立。即可以发生像素点重排处理也可以不发生像素点重排处理,像素点重排处理的方式为将子集频谱图中的像素点进行随机排列,从而可以有效进行锐化和模糊处理,使后续生成的目标语音训练数据更佳。另外,设定的各个子集频谱图的大小可以相同,也可以不同。
在一个实施例中,所述擦除区域为矩形区域,所述引入随机擦除系数,并基于所述擦除区域面积和所述随机擦除系数设定擦除区域的形状参数的步骤S5,包括:
S501:从预设的参数范围中任意选取随机参数re;
S502:根据公式设定所述矩形区域的宽度,以及根据公式/>设定所述矩形区域的高度,其中Se为所述擦除区域面积,We为所述宽度,He为所述高度。
如上述步骤S501-S502所述,实现了对擦除区域参数的设定。即选取随机参数re,其中,随机参数re不能随便选取,需要保证后续的计算的宽度We和高度He均小于暂时梅尔频谱图的宽度和高度。由于Se是确定的,故而可以对应的范围中选出随机参数re。根据公式设定矩形的宽度和高度,从而完成对擦除区域参数的设定,保证设定的矩形区可以被暂时梅尔频谱图包含。
在一个实施例中,所述引入随机擦除系数,并基于所述擦除区域面积和所述随机擦除系数设定擦除区域的形状参数的步骤S5之后,还包括:
S601:基于所述形状参数判断所述暂时梅尔频谱图中是否存在有所述擦除区域的中心点,使所述擦除区域被所述暂时梅尔频谱图完全包含;
S602:若不存在所述中心点,则将更换所述随机擦除系数,直至存在所述中心点。
如上述步骤S601-S602所述,实现了对随机擦除系数的更换,即基于所述形状参数判断所述暂时梅尔频谱图中是否存在有所述擦除区域的中心点,使所述擦除区域被所述暂时梅尔频谱图完全包含。例如,若为矩形擦除区域时,假设中心点P=(xe,ye)是暂时梅尔频谱图中任意一点,则需要满足条件xe+We≤W;ye+He≤H,其中,W为暂时梅尔频谱图的宽度,H为暂时梅尔频谱图的高度。We为矩形擦除区域的宽度,He为矩形擦除区域的高度。若存在,则可以基于随机擦除系数获取对应的延伸梅尔频谱图。
在一个实施例中,所述将所述目标语音训练数据补充至所述语音训练数据集中,得到增强后的语音训练数据集的步骤S8之前,还包括:
S701:将各所述目标语音训练数据输入至预设的向量机中,得到对应固定维度的目标向量X=(x1,x2,…,xi,…,xn);
S702:根据公式计算每个所述目标向量与原语音训练数据对应的语音向量之间的差异值;其中,Y为原语音训练数据对应的多维坐标,Y=(y1,y2,…,yi,…,yn),xi表示目标向量中第i维的数值,yi表示对应的语音向量中第i维的数值,si为第i维数据所对应的系数,p为设定的参数值;
S703:将所述差异值小于预设差异值的目标语音训练数据删除。
如上述步骤S501所述,该向量机可以是支持向量机(SVM),从而得到对应的目标向量。其中,该支持向量机为事先通过对应的多个语音训练数据以及对应的期望向量训练而成。
如上述步骤S502所述,根据公式计算每个所述目标向量与原语音训练数据对应的语音向量之间的差异值。该公式中参考了对于每个维度的计算,从而使得获取到的差异值更加精确,另外需要说明的是该语音向量也是通过上述向量机事先计算得到。
如上述步骤S503所述:将所述差异值小于预设差异值的目标语音训练数据删除。计算语音向量与目标向量之间的差异值,若差异值过大,则说明该得到的目标语音训练数据删除了重要的部分,会对增加后续语音模型的训练误差,因此需要将其删除。为了更好的训练语音模型,需要将不符合要求的目标语音训练数据删除,保证后续语音模型的训练效果。
在一个实施例中,所述将所述目标语音训练数据补充至所述语音训练数据集中,得到增强后的语音训练数据集的步骤S8之后,还包括:
S901:将所述增强后的语音训练数据集中的样本语音数据转换为样本梅尔频谱图;
S902:将所述样本梅尔频谱图和预设的干扰频谱图输入至生成网络,得到中间梅尔频谱图;
S903:将所述中间梅尔频谱图输入至判别网络,得到所述中间梅尔频谱图对应的类型概率和预测标签;
S904:根据所述中间梅尔频谱图的类型概率和所述预测标签对所述生成网络和所述判别网络进行交替迭代训练,并将训练完成的生成网络作为语音模型。
如上述步骤S901-S904所述,样本音频中包括无标签音频和有标签音频,其中,有标签音频是指具有确定的标签的音频,例如,音频所对应的标签为男人、女人、小女孩、小男孩等多种,将这类带有确定的标签的音频称为有标签音频。而无标签音频是指音频本身没有对应的标签,为这类音频本身没有对应的标签的音频设置标签为未知,也即,无标签音频是指标签为未知的音频,表示该音频没有确定的标签。可以采用多种方式获取样本音频,例如可以采用网络爬虫从网络上获取样本音频等等。对于获取到的样本音频,将样本音频利用梅尔滤波器转换为样本梅尔频谱,每个样本梅尔音频均携带有对应的标签。将所述样本梅尔频谱图和干扰频谱图输入至生成网络,得到中间梅尔频谱图。
在具体实施过程中,生成网络的结构可以包括前处理层、下采样层、瓶颈层和上采样层。前处理层由卷积层、批标准化层和非线性仿射变换层组成;下采样层由若干卷积层和批处理层组成;瓶颈层由带有残差的卷积组成;上采样层由扩张卷积和批标准化层组成。
将所述中间梅尔频谱图输入至判别网络,得到所述中间梅尔频谱图对应的类型概率和预测标签。其中,输出梅尔频谱的类型包括样本梅尔频谱和干扰梅尔频谱图,输出梅尔频谱的类型概率具体是指输出梅尔频谱为样本梅尔频谱的概率。判别网络用于判断输入的输出梅尔频谱为样本梅尔频谱的概率,以及确定输出梅尔频谱所对应的预测标签。
在具体实施过程中,判别网络的主干网络可以由若干非线性仿射变换和卷积层组成,最后一层为二分类和多分类的线性映射,判别网络的输出结果分别为输入的中间梅尔频谱图是样本梅尔频谱的概率和中间梅尔频谱图的预测标签。
将生成网络输出的中间梅尔频谱图作为判别网络的输入,得到判别网络预测的中间梅尔频谱图是样本梅尔频谱的概率和输出梅尔频谱的预测标签。
根据所述中间梅尔频谱图的类型概率和所述预测标签对所述生成网络和所述判别网络进行交替迭代训练,并将训练完成的生成网络作为语音模型,完成模型训练。
根据判别网络预测的中间梅尔频谱图是样本梅尔频谱的概率和输出梅尔频谱的预测标签,对生成网络和判别网络进行交替迭代训练,然后在生成网络和判别网络训练完成时,不再使用判别网络,而是将训练完成的生成网络作为语音模型,完成语音模型的训练。
在对生成网络和判别网络进行交替训练的过程中,先优化判别网络,在训练开始时,判别网络很容易从中间梅尔频谱图中区分出噪声梅尔频谱和样本梅尔频谱,这说明在一开始生成网络对干扰频谱图和样本梅尔频谱判别,具有很大的偏差。接着对生成网络进行优化,使生成网络的损失函数逐渐减小,在此过程中判别网络的二分类能力也逐渐提高,判别网络对于生成网络所输出的输出梅尔频谱的判别准确率也逐渐提高。生成网络尽可能的生成靠近真实数据的干扰频谱图去欺骗判别网络,而判别网络则需要尽量的把样本梅尔频谱和生成网络生成的干扰频谱图区分开,从而生成网络和判别网络形成一个动态的博弈过程。最后直至判别网络无法判断输出梅尔频谱是样本梅尔频谱还是干扰频谱图,此时表示生成网络已经训练完成,将训练完成的生成网络作为语音模型。
在一个实施例中,所述将各个所述语音训练数据转化为对应的梅尔频谱图的步骤S3,包括:
S301:将各个语音训练数据中每一帧语音进行傅里叶变化,得到每一帧语音对应的语音结果;
S302:将各所述语音结果沿其中一个维度进行堆叠,得到对应的声谱图;
S303:将所述声谱图输入至梅尔滤波器组中,得到所述梅尔频谱图。
如上述步骤S301-S303所述,实现了对梅尔频谱图的转化,由于声音信号本是一维的时域信号,直观上很难看出频率变化规律。如果通过傅里叶变换把它变到频域上,虽然可以看出信号的频率分布,但是丢失了时域信息,无法看出频率分布随时间的变化。而通过将每一帧语音都进行傅里叶变化,即对短时的信号进行傅里叶变化,然后把每一帧的结果沿另一个维度堆叠起来,得到类似于一幅图的二维信号形式。由于信号是声音信号,故得到的展开得到的二维信号就是声谱图,但是声谱图往往是很大的一张图,为了得到合适大小的声音特征,需要通过梅尔滤波器组变换为梅尔频谱,其中,梅尔滤波器组为通过多个三角滤波器组成的滤波器组,为现有技术,此处不再赘述,可以实现对声谱图的转化即可。
参照图2,本发明还提供了一种语音训练数据集的增强装置,包括:
获取模块10,用于获取语音训练数据集;
第一转化模块20,用于从所述语音训练数据集中提取各个语音训练数据,并将各个所述语音训练数据转化为对应的梅尔频谱图;
重排模块30,用于对每个所述梅尔频谱图进行像素点重排处理,得到像素点重排处理后的暂时梅尔频谱图;
设定模块40,用于根据所述暂时梅尔频谱的图片大小,为每个所述暂时梅尔频谱设定擦除区域面积;
引入模块50,用于引入随机擦除系数,并基于所述擦除区域面积和所述随机擦除系数设定擦除区域的形状参数;
更改模块60,用于更改所述擦除区域在所述暂时梅尔频谱中的位置或更改所述随机擦除系数,得到各个所述暂时梅尔频谱图对应的多个延伸梅尔频谱图;
第二转化模块70,用于将各所述延伸梅尔频谱图转化为对应的目标语音训练数据;
补充模块80,用于将所述目标语音训练数据补充至所述语音训练数据集中,得到增强后的语音训练数据集。
在一个实施例中,重排模块30,包括:
划分子模块,用于将所述梅尔频谱图划分为多个子集频谱图;
随机选取子模块,用于随机选取预设数目的所述子集频谱图进行像素点随机排列,得到像素点重排处理后的暂时梅尔频谱图。
在一个实施例中,引入模块50,包括:
随机参数选取子模块,用于从预设的参数范围中任意选取随机参数re;
宽度设定子模块,用于根据公式设定所述矩形区域的宽度,以及根据公式/>设定所述矩形区域的高度,其中Se为所述擦除区域面积,We为所述宽度,He为所述高度。
在一个实施例中,语音训练数据集的增强装置,还包括:
中心点判断模块,用于基于所述形状参数判断所述暂时梅尔频谱图中是否存在有所述擦除区域的中心点,使所述擦除区域被所述暂时梅尔频谱图完全包含;
系数更换模块,用于若不存在所述中心点,则将更换所述随机擦除系数,直至存在所述中心点。
在一个实施例中,语音训练数据集的增强装置,还包括:
输入模块,用于将各所述目标语音训练数据输入至预设的向量机中,得到对应固定维度的目标向量X=(x1,x2,…,xi,…,xn);
计算模块,用于根据公式计算每个所述目标向量与原语音训练数据对应的语音向量之间的差异值;其中,Y为原语音训练数据对应的多维坐标,Y=(y1,y2,…,yi,…,yn),xi表示目标向量中第i维的数值,yi表示对应的语音向量中第i维的数值,si为第i维数据所对应的系数,p为设定的参数值;
删除模块,用于将所述差异值小于预设差异值的目标语音训练数据删除。
在一个实施例中,语音训练数据集的增强装置,还包括:
转换模块,用于将所述增强后的语音训练数据集中的样本语音数据转换为样本梅尔频谱图;
生产网络输入模块,用于将所述样本梅尔频谱图和预设的干扰频谱图输入至生成网络,得到中间梅尔频谱图;
判别网络输入模块,用于将所述中间梅尔频谱图输入至判别网络,得到所述中间梅尔频谱图对应的类型概率和预测标签;
迭代训练模块,用于根据所述中间梅尔频谱图的类型概率和所述预测标签对所述生成网络和所述判别网络进行交替迭代训练,并将训练完成的生成网络作为语音模型。
在一个实施例中,第一转化模块20,包括:
变化子模块,用于将各个语音训练数据中每一帧语音进行傅里叶变化,得到每一帧语音对应的语音结果;
堆叠子模块,用于将各所述语音结果沿其中一个维度进行堆叠,得到对应的声谱图;
声谱图输入子模块,用于将所述声谱图输入至梅尔滤波器组中,得到所述梅尔频谱图。
本发明的有益效果:通过提取各个语音训练数据对应的梅尔频谱图并进行像素点重排处理,得到像素点重排处理后的暂时梅尔频谱图,为每个所述暂时梅尔频谱设定擦除区域面积,设定擦除区域的形状参数,更改参数或者随机擦除系数,得到多个延伸梅尔频谱图,将各所述延伸梅尔频谱图转化为对应的目标语音训练数据,从而完成对对语音训练数据的补充,解决了语音训练数据较少,导致语音模型在训练过程中容易出现过拟合的问题,并且增加了语音模型的鲁棒性,避免语音模型陷入过拟合,大大提高了语音模型的应用范围。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种语音训练数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的语音训练数据集的增强方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时可以实现上述任一实施例所述的语音训练数据集的增强方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM一多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种语音训练数据集的增强方法,其特征在于,包括:
获取语音训练数据集;
从所述语音训练数据集中提取各个语音训练数据,并将各个所述语音训练数据转化为对应的梅尔频谱图;
对每个所述梅尔频谱图进行像素点重排处理,得到像素点重排处理后的暂时梅尔频谱图;
根据所述暂时梅尔频谱的图片大小,为每个所述暂时梅尔频谱设定擦除区域面积;
引入随机擦除系数,并基于所述擦除区域面积和所述随机擦除系数设定擦除区域的形状参数;
更改所述擦除区域在所述暂时梅尔频谱中的位置或更改所述随机擦除系数,得到各个所述暂时梅尔频谱图对应的多个延伸梅尔频谱图;
将各所述延伸梅尔频谱图转化为对应的目标语音训练数据;
将所述目标语音训练数据补充至所述语音训练数据集中,得到增强后的语音训练数据集。
2.如权利要求1所述的语音训练数据集的增强方法,其特征在于,所述对每个所述梅尔频谱图进行像素点重排处理,得到像素点重排处理后的暂时梅尔频谱图的步骤,包括:
将所述梅尔频谱图划分为多个子集频谱图;
随机选取预设数目的所述子集频谱图进行像素点随机排列,得到像素点重排处理后的暂时梅尔频谱图。
3.如权利要求1所述的语音训练数据集的增强方法,其特征在于,所述擦除区域为矩形区域,所述引入随机擦除系数,并基于所述擦除区域面积和所述随机擦除系数设定擦除区域的形状参数的步骤,包括:
从预设的参数范围中任意选取随机参数re;
根据公式设定所述矩形区域的宽度,以及根据公式/>设定所述矩形区域的高度,其中Se为所述擦除区域面积,We为所述宽度,He为所述高度。
4.如权利要求3所述的语音训练数据集的增强方法,其特征在于,所述引入随机擦除系数,并基于所述擦除区域面积和所述随机擦除系数设定擦除区域的形状参数的步骤之后,还包括:
基于所述形状参数判断所述暂时梅尔频谱图中是否存在有所述擦除区域的中心点,使所述擦除区域被所述暂时梅尔频谱图完全包含;
若不存在所述中心点,则将更换所述随机擦除系数,直至存在所述中心点。
5.如权利要求1所述的语音训练数据集的增强方法,其特征在于,所述将所述目标语音训练数据补充至所述语音训练数据集中,得到增强后的语音训练数据集的步骤之前,还包括:
将各所述目标语音训练数据输入至预设的向量机中,得到对应固定维度的目标向量X=(x1,x2,…,xi,…,xn);
根据公式计算每个所述目标向量与原语音训练数据对应的语音向量之间的差异值;其中,Y为原语音训练数据对应的多维坐标,Y=(y1,y2,…,yi,…,yn),xi表示目标向量中第i维的数值,yi表示对应的语音向量中第i维的数值,si为第i维数据所对应的系数,p为设定的参数值;
将所述差异值小于预设差异值的目标语音训练数据删除。
6.如权利要求1所述的语音训练数据集的增强方法,其特征在于,所述将所述目标语音训练数据补充至所述语音训练数据集中,得到增强后的语音训练数据集的步骤之后,还包括:
将所述增强后的语音训练数据集中的样本语音数据转换为样本梅尔频谱图;
将所述样本梅尔频谱图和预设的干扰频谱图输入至生成网络,得到中间梅尔频谱图;
将所述中间梅尔频谱图输入至判别网络,得到所述中间梅尔频谱图对应的类型概率和预测标签;
根据所述中间梅尔频谱图的类型概率和所述预测标签对所述生成网络和所述判别网络进行交替迭代训练,并将训练完成的生成网络作为语音模型。
7.如权利要求1所述的语音训练数据集的增强方法,其特征在于,所述将各个所述语音训练数据转化为对应的梅尔频谱图的步骤,包括:
将各个语音训练数据中每一帧语音进行傅里叶变化,得到每一帧语音对应的语音结果;
将各所述语音结果沿其中一个维度进行堆叠,得到对应的声谱图;
将所述声谱图输入至梅尔滤波器组中,得到所述梅尔频谱图。
8.一种语音训练数据集的增强装置,其特征在于,包括:
获取模块,用于获取语音训练数据集;
第一转化模块,用于从所述语音训练数据集中提取各个语音训练数据,并将各个所述语音训练数据转化为对应的梅尔频谱图;
重排模块,用于对每个所述梅尔频谱图进行像素点重排处理,得到像素点重排处理后的暂时梅尔频谱图;
设定模块,用于根据所述暂时梅尔频谱的图片大小,为每个所述暂时梅尔频谱设定擦除区域面积;
引入模块,用于引入随机擦除系数,并基于所述擦除区域面积和所述随机擦除系数设定擦除区域的形状参数;
更改模块,用于更改所述擦除区域在所述暂时梅尔频谱中的位置或更改所述随机擦除系数,得到各个所述暂时梅尔频谱图对应的多个延伸梅尔频谱图;
第二转化模块,用于将各所述延伸梅尔频谱图转化为对应的目标语音训练数据;
补充模块,用于将所述目标语音训练数据补充至所述语音训练数据集中,得到增强后的语音训练数据集。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110610940.2A CN113241062B (zh) | 2021-06-01 | 2021-06-01 | 语音训练数据集的增强方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110610940.2A CN113241062B (zh) | 2021-06-01 | 2021-06-01 | 语音训练数据集的增强方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113241062A CN113241062A (zh) | 2021-08-10 |
CN113241062B true CN113241062B (zh) | 2023-12-26 |
Family
ID=77136176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110610940.2A Active CN113241062B (zh) | 2021-06-01 | 2021-06-01 | 语音训练数据集的增强方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113241062B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742775B (zh) * | 2021-09-08 | 2023-07-28 | 哈尔滨工业大学(深圳) | 一种图像数据安全检测方法、***和存储介质 |
CN115294960A (zh) * | 2022-07-22 | 2022-11-04 | 网易有道信息技术(北京)有限公司 | 声码器的训练方法、语音合成的方法及相关产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111081259A (zh) * | 2019-12-18 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 基于说话人扩充的语音识别模型训练方法及*** |
CN111161740A (zh) * | 2019-12-31 | 2020-05-15 | 中国建设银行股份有限公司 | 意图识别模型训练方法、意图识别方法以及相关装置 |
CN111370002A (zh) * | 2020-02-14 | 2020-07-03 | 平安科技(深圳)有限公司 | 语音训练样本的获取方法、装置、计算机设备和存储介质 |
CN112435656A (zh) * | 2020-12-11 | 2021-03-02 | 平安科技(深圳)有限公司 | 模型训练方法、语音识别方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9721559B2 (en) * | 2015-04-17 | 2017-08-01 | International Business Machines Corporation | Data augmentation method based on stochastic feature mapping for automatic speech recognition |
US20200335086A1 (en) * | 2019-04-19 | 2020-10-22 | Behavioral Signal Technologies, Inc. | Speech data augmentation |
US20210035563A1 (en) * | 2019-07-30 | 2021-02-04 | Dolby Laboratories Licensing Corporation | Per-epoch data augmentation for training acoustic models |
-
2021
- 2021-06-01 CN CN202110610940.2A patent/CN113241062B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111081259A (zh) * | 2019-12-18 | 2020-04-28 | 苏州思必驰信息科技有限公司 | 基于说话人扩充的语音识别模型训练方法及*** |
CN111161740A (zh) * | 2019-12-31 | 2020-05-15 | 中国建设银行股份有限公司 | 意图识别模型训练方法、意图识别方法以及相关装置 |
CN111370002A (zh) * | 2020-02-14 | 2020-07-03 | 平安科技(深圳)有限公司 | 语音训练样本的获取方法、装置、计算机设备和存储介质 |
CN112435656A (zh) * | 2020-12-11 | 2021-03-02 | 平安科技(深圳)有限公司 | 模型训练方法、语音识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113241062A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443692B (zh) | 企业信贷审核方法、装置、设备及计算机可读存储介质 | |
CN111506722B (zh) | 基于深度学习技术的知识图谱问答方法、装置及设备 | |
Noda et al. | Audio-visual speech recognition using deep learning | |
Huang et al. | Kernel methods match deep neural networks on timit | |
CN114913565B (zh) | 人脸图像检测方法、模型训练方法、装置及存储介质 | |
CN113241062B (zh) | 语音训练数据集的增强方法、装置、设备及存储介质 | |
CN111316352B (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
Dua et al. | LSTM and CNN based ensemble approach for spoof detection task in automatic speaker verification systems | |
CN110853656B (zh) | 基于改进神经网络的音频篡改识别方法 | |
JP7140317B2 (ja) | 原本データとマークデータとを合成してマーキング済みデータを生成するデータエンベディングネットワークを学習する方法、及びテストする方法、並びに、それを利用した学習装置 | |
CN112233698A (zh) | 人物情绪识别方法、装置、终端设备及存储介质 | |
Heidari et al. | Deepfake detection using deep learning methods: A systematic and comprehensive review | |
Kim et al. | Label-preserving data augmentation for mobile sensor data | |
CN115083435A (zh) | 音频数据处理方法、装置、计算机设备和存储介质 | |
Fong | Using hierarchical time series clustering algorithm and wavelet classifier for biometric voice classification | |
CN108615006A (zh) | 用于输出信息的方法和装置 | |
CN111933154B (zh) | 一种伪冒语音的识别方法、设备及计算机可读存储介质 | |
CN114360490A (zh) | 语音合成方法、装置、计算机设备和存储介质 | |
CN116824676A (zh) | 数字身份信息的生成方法、应用方法、装置、***及设备 | |
Usmani et al. | Efficient deepfake detection using shallow vision transformer | |
CN116977484A (zh) | 图像脱敏方法、装置、电子设备及存储介质 | |
CN115116470A (zh) | 音频处理方法、装置、计算机设备和存储介质 | |
Shao et al. | Deep semantic learning for acoustic scene classification | |
CN113178197B (zh) | 语音验证模型的训练方法、装置以及计算机设备 | |
Atkale et al. | Residual network for face progression and regression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |