CN112530407A - 一种语种识别方法及*** - Google Patents
一种语种识别方法及*** Download PDFInfo
- Publication number
- CN112530407A CN112530407A CN202011338189.7A CN202011338189A CN112530407A CN 112530407 A CN112530407 A CN 112530407A CN 202011338189 A CN202011338189 A CN 202011338189A CN 112530407 A CN112530407 A CN 112530407A
- Authority
- CN
- China
- Prior art keywords
- voice
- language
- voice data
- data
- gmm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000013598 vector Substances 0.000 claims abstract description 141
- 238000001514 detection method Methods 0.000 claims abstract description 56
- 238000007781 pre-processing Methods 0.000 claims abstract description 26
- 230000000694 effects Effects 0.000 claims abstract description 4
- 238000012952 Resampling Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明为一种语种识别方法及***,包括S0:建立背景噪音库和人声数据库;S100:基于背景噪音库对人声数据库中语音数据进行预处理;S200:对预处理后的语音数据进行VAD检测,提取活动语音数据的MFCC特征向量,建立人声GMM模型;S300:对背景噪音库中噪音数据进行VAD检测,提取所述活动噪音数据的MFCC特征向量,建立噪音GMM模型;S400:基于活动语音数据MFCC特征向量,建立GMM‑ivector语种识别模型,并生成语种特征库;S500:对待测声音数据进行VAD检测并提取MFCC特征向量,基于人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号;S600:若判断待测声音数据为人声信号,则用所述GMM‑ivector语种识别模型提取该待测声音数据的ivector特征,进行语种识别。本发明可稳定识别语种,增强鲁棒性。
Description
技术领域
本发明涉及语种识别技术领域,尤其涉及一种语种识别方法及***。
背景技术
目前,自动语种识别在语音翻译,重点人群监护,信息安全,军事安全等领域有着广泛的应用前景,现有方法无论是GMM(Adaptive background mixture models for real-time tracking)-ivector框架还是深度神经网络框架都面临解决识别鲁棒性的问题,本发明从语音样本预处理、语音特征鲁棒性处理、增加人声检测模块、语种特征匹配的鲁棒性处理等方面增强了语种识别的鲁棒性。
发明内容
本发明为一种语种识别方法及***,用于解决语种识别领域中对集外数据鲁棒性识别较难的问题。
本发明提供一种语种识别方法,包括:
S0:建立背景噪音库和人声数据库,所述人声数据库包含多个语种的语音数据;
S100:基于所述背景噪音库对所述人声数据库中的语音数据进行预处理;
S200:对预处理后的语音数据进行活动语音段检测,拼接包含活动语音段的帧以生成活动语音数据,并提取所述活动语音数据的MFCC特征向量,建立人声GMM模型;
S300:对背景噪音库中的噪音数据进行活动噪音段检测,拼接包含活动噪音段的帧以生成活动噪音数据,并提取所述活动噪音数据的MFCC特征向量,建立噪音GMM模型;
S400:基于各个语种的活动语音数据的MFCC特征向量,建立GMM-ivector语种识别模型,并生成各个语种的语种特征库;
S500:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量,基于所述人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号;
S600:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,并基于所述语种特征库进行语种识别。
更进一步的,还包括语种注册步骤:当需要增加语种时,采集该语种的语音数据,并进行所述预处理、活动语音段检测,拼接包含活动语音段的帧并提取MFCC特征向量,进而利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,生成该语种对应的语种特征库。
更进一步的,所述步骤S100包括:
S110:对人声数据库中的原始语音数据S1进行重采样,并分别进行声强归一化和语速随机重采操作,得到声强归一语音数据S1’和语速随机重采的语音数据S1”;
S120:对所述声强归一语音数据S1’叠加背景噪音库中的噪音信号,得到叠加噪音的语音数据S2;
S130:对所述语速随机重采的语音数据S1”叠加人声数据库中的其他任一语音数据,得到叠加其他人声的语音数据S3;
S140:将所述语音数据S1、S2和S3拼接得到预处理后的语音数据。
更进一步的,所述步骤S200包括:
S210:基于高低频带能量比较对预处理后的语音数据进行活动语音段检测;
S220:拼接包含活动语音段的帧以生成活动语音数据;
S230:提取所述活动语音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征,得到MFCC特征向量,并进行归一化;
S240:基于所述归一化后的MFCC特征向量建立人声GMM模型。
更进一步的,所述步骤S300包括:
S310:基于高低频带能量比较对预处理后的语音数据进行活动噪音段检测;
S320:拼接包含活动噪音段的帧以生成活动噪音数据;
S330:提取所述活动噪音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征,得到MFCC特征向量,并进行归一化;
S340:基于所述归一化后的MFCC特征向量建立噪音GMM模型。
更进一步的,所述步骤S400包括:
S410:对于每个语种活动语音数据的MFCC特征向量,按其所在帧的先后顺序拼接在一起得到顺序拼接的MFCC特征向量,再按照随机顺序拼接在一起得到随机拼接的MFCC特征向量,将所述顺序拼接的MFCC特征向量和所述随机拼接的MFCC特征向量拼接在一起并进行归一化,得到该语种的归一化MFCC特征向量;
S420:基于各个语种的归一化MFCC特征向量建立GMM-ivector语种识别模型,并将各个语种的语音数据输入该GMM-ivector语种识别模型以得到各个语种的特征矩阵,并保存到各个语种的语种特征库。
更进一步的,所述步骤S500包括:
S510:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量;
S520:将该MFCC特征向量分别输入所述人声GMM模型和噪音GMM模型,得到该待测声音数据为人声的后验概率和该待测声音数据为噪音的后验概率;
S530:通过比较两个后验概率来判断待测声音数据是否为人声信号。
更进一步的,所述步骤S600包括:
S610:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征;
S620:分别计算该待测声音数据的ivector特征与各个语种特征集的平均余弦距离;
S630:找出最大的两个平均余弦距离值,对其进行鲁棒性判断,确定该待测声音数据的语种。
更进一步的,所述鲁棒性判断采用以下判断条件:
其中,max Score1和max Score2为最大的两个平均余弦距离值;
若max Score1和max Score2满足上述条件,则确定该待测声音数据的语种为maxScore1对应的语种。
本发明的另一目的是提供一种语种识别***,包括:
人声检测模块:用于基于人声GMM模型和噪音GMM模型对待测声音数据进行检测,判断是否为人声;
语种识别模块:用于利用GMM-ivector语种识别模型获得所述将待测声音数据的ivector特征,并与各个语种特征库进行比对,确定待测声音数据的语种;
语种注册模块:用于当需要增加语种时,采集该语种的语音数据,并进行所述预处理、活动语音段检测,拼接包含活动语音段的帧并提取MFCC特征向量,进而利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,生成该语种对应的语种特征库;
其中,所述人声检测模块包括语音预处理单元、活动语音段检测单元、特征提取单元和GMM建模单元;
所述语音预处理单元用于对声音数据进行预处理;
所述活动语音段检测单元用于对所述预处理后的声音数据进行活动语音段检测;
所述特征提取单元用于对所述活动语音段检测后的声音数据进行MFCC特征提取;
所述GMM建模单元用于基于所述提取的MFCC特征建立人声GMM模型和噪音GMM模型,以判断待测声音数据是否为人声;
其中,所述语种识别模块通过分别计算该待测声音数据的ivector特征与各个语种特征集的平均余弦距离,并进行鲁棒性判断来确定该待测声音数据的语种。
本发明的有益效果在于:通过对语音样本进行预处理、对语音特征进行鲁棒性处理、增加人声检测模块和对语种特征匹配进行鲁棒性处理等方式增强了语种识别的鲁棒性,使得语音识别更加稳定准确。
附图说明
图1为本发明的语种识别方法流程示例图;
图2为本发明的语音预处理流程图;
图3为本发明的语音段检测流程图;
图4为本发明的语种识别流程图;
图5为本发明的语种注册流程图;
图6为本发明的语种识别***流程示例图。
具体实施方式
下面将结合附图和具体实施例对本发明的语种的识别方法及***做进一步地说明与叙述,需要说明的是,本发明中的所有实施例仅为解释本发明的具体技术方案而使用,本领域的技术人员结合本发明中的实施例在未进行创造性劳动的前提下对本发明中实施例做出的技术改进均属于本发明中保护的范围。
当前无论是传统学习方法还是当下流行的深度学习方法都面临着集外数据的挑战,由于声音数据有很大的随机性,所以设定的训练集很难囊括较全面的数据。但是人的声音具有一些共同的特性,符合GMM建模的要求,GMM的痛点在于样本数据过少会导致过拟合,但是本发明中对所有人声建立GMM,这样的人声无需说话人标签,也无需关注语种,因此这种人声数据容易获得。同样的,背景噪声也可以用GMM模型建模,当人声的GMM模型、背景噪音的GMM模型建好之后,就可以计算出一条语音在人声GMM模型和背景噪音GMM模型的后验概率对数似然比,若所述对数似然比不大于给定阈值时,则不认为他是一条人声数据,所以无需进行语种识别,此种方式可以在一定程度上减少运算量,同时也避免了误识别,使识别过程更加准确。
如图1所示,本发明提供一种语种识别方法,包括:
S0:建立背景噪音库和人声数据库,所述人声数据库包含多个语种的语音数据;
S100:基于所述背景噪音库对所述人声数据库中的语音数据进行预处理;
S200:对预处理后的语音数据进行活动语音段检测,拼接包含活动语音段的帧以生成活动语音数据,并提取所述活动语音数据的MFCC(Mel-scale Frenquency CepstralCoefficients)特征向量,建立人声GMM模型;
S300:对背景噪音库中的噪音数据进行活动噪音段检测,拼接包含活动噪音段的帧以生成活动噪音数据,并提取所述活动噪音数据的MFCC特征向量,建立噪音GMM模型;
S400:基于各个语种的活动语音数据的MFCC特征向量,建立GMM-ivector语种识别模型,并生成各个语种的语种特征库;
S500:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量,基于所述人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号;
S600:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,并基于所述语种特征库进行语种识别。
本发明中的语种识别方法的优点在于,通过对语音样本进行预处理、对语音特征进行鲁棒性处理、增加人声检测模块和对语种特征匹配进行鲁棒性处理等方式增强了语种识别的鲁棒性,使得语音识别更加稳定准确,增强了集外数据的鲁棒性。
下面,将结合具体实施例对上述方法的具体步骤做详细清楚的叙述与说明。
S0:建立背景噪音库和人声数据库,所述人声数据库包含多个语种的语音数据。
本发明中的人声数据库采用已有的语种数据库,所述语种数据库中的数据集中包括35个语种;所述背景噪音库为在不同环境下录制的环境噪音,如户外、室内、地铁或车站等场景的背景噪音数据。
如图2所示,为语音预处理流程图,对应步骤S100:基于所述背景噪音库对所述人声数据库中的语音数据进行预处理。具体的,所述步骤S100包括如下子步骤:
S110:对人声数据库中的原始语音数据S1进行重采样,并分别进行声强归一化和语速随机重采操作,得到声强归一语音数据S1’和语速随机重采的语音数据S1”;
S120:对所述声强归一语音数据S1’叠加背景噪音库中的噪音信号,得到叠加噪音的语音数据S2;
S130:对所述语速随机重采的语音数据S1”叠加人声数据库中的其他任一语音数据,得到叠加其他人声的语音数据S3;
S140:将所述语音数据S1、S2和S3拼接得到预处理后的语音数据。
首先从人声数据库中对每个语种数据随机抽取10个小时的语音数据分别作为一条原始语音数据,记为S1;随机提取人声数据库中任一其他人声语音数据,记为Sother;将背景噪音库中的噪音数据信号记为Snoise。
分别计算原始语音数据S1、噪音数据Snoise和其他人声语音数据Sother的语音长度,记为L1、L2和L3,将原始语音数据S1重采样到16000HZ并做声强归一化操作得到语音数据S1’,将获取的背景噪音Snoise按照一定信噪比叠加到原始语音数据S1中生成语音数据S2,S2的叠加长度为MIN(L1,L2),最终S2=S1’+Rand*0.5*Snoise;然后将原始语音数据S1重采样到语速为原始语速的0.8-1.2倍,即S1”=Resample(S1,SampleRatio),其中SampleRatio为[0.8,1.2]之间的随机值,将重采样后的语音数据S1”与其他人声数据Sother进行叠加,生成语音数据S3,S3的叠加长度为MIN(L1,L3),最终S3=S1”+Rand*0.5*Sother,其中,Rand为[0,1]之间的随机数。最后,将原始语音数据数据S1、语音数据S2和语音数据S3拼接,形成语音数据S,其中,S={S1,S2,S3}。
上述即步骤S100对语音数据进行预处理的过程。
S200:对预处理后的语音数据进行活动语音段检测,拼接包含活动语音段的帧以生成活动语音数据,并提取所述活动语音数据的MFCC特征向量,建立人声GMM模型。
如图3所示,为语音段检测流程图。所述步骤S200包括如下子步骤:
S210:基于高低频带能量比较对预处理后的语音数据进行活动语音段检测。
首先,对所述预处理后的语音数据S进行重采样并分帧。将语音数据S进行重采样处理得到Sd,将采样率从16000HZ降低到8000HZ,即Sd=Resample(S,0.5);将Sd按照每160个采样点进行分帧,记作{Sd1,Sd2,Sd3...Sdi...Sdn}。
然后,设置初始最小能量标记e_min=100,设置初始最大能量标记e_max=0.1;
对每一帧Sdi的能量记作e_full,比较e_full与e_min、e_max值的大小,将最大值更新到e_max中,最小值更新到e_min中;
对Sdi做快速傅里叶变换,记作yi=fft(Sdi,fftSize),FFT的点数为fftSize,其中fftSize=256;
令yi(1:qFftSize)=0,yi(fftSize-(qFftSize-1):fftSize)=0,其中qFftSize=64;
对yi进行傅里叶变换并取前160个数值,即:yis=ifft(yi,fftSize),yis=yis(1:160);
计算全频带能量阈值,记作thrr,则有:
计算高频带相对于低频带能量比值,记作e_r,则有:
通过全频带能量阈值和高频带与低频带能量比值判断当前帧是否为语音帧,并形成所有帧的活动语音段检测标记。通过thrr和e_r判断当前帧是否为语音帧,当前帧是否为语音帧记作ti,其中i表示帧的编号,判断方法为ti=(e_full>thrr||e_r>10),其中||表示或操作。最终ti的结果为1或0,值为1则表示该帧是活动语音段,为0则表示该帧不是活动语音段。最终,形成所有帧的VAD标记,记作T={t1,t2,t3...ti}。
S220:拼接包含活动语音段的帧以生成活动语音数据。
对所述活动语音段检测标记做中值滤波处理,将所有语音帧依次拼接形成最终的语音段检测数据SVad。具体的,对上述得到的VAD标记T做中值滤波,记作Tsmooth,则有:
Tsmooth=medfilt(T,smoothLength),其中smoothLength为滤波窗大小,其值设为5;
然后,将ti为1的对应帧依次拼接,拼接后的语音段检测数据记为SVad,由于VAD操作中进行了从16000到8000的降采样,因此SVad中单帧的起止位置应乘以2,即SVad中单帧的采样点个数为320。
S230:提取所述活动语音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征,得到MFCC特征向量,并进行归一化。
对SVad提取MFCC,MFCC一阶和MFCC二阶特征。MFCC阶数系数设为12,则有总共36维的向量(记作MFCC36)作为单帧的特征向量。
MFCC一阶特征记作MFCC1,MFCC二阶特征记作MFCC2,其中,MFCC1和MFCC2均为12*N的矩阵;具体如下:
MFCC1[i]=-2*MFCC[i-2]-MFCC[i-1]+MFCC[i+1]+2*MFCC[i+2]
其中,MFCC1[i]表示MFCC1特征的第i列。
MFCC2[i]=-2*MFCC1[i-2]-MFCC1[i-1]+MFCC1[i+1]+2*MFCC1[i+2]
其中,MFCC2[i]表示MFCC2特征的第i列。
将MFCC、MFCC1和MFCC2按行进行拼接,如下所示:
MFCC36=[MFCC;MFCC1;MFCC2]
其中,MFCC36的维度为36*N。
将MFCC36特征向量在列方向随机重排,将重排后的结果更新到MFCC36特征向量中,然后按照每500列为一组将MFCC36分组,每组记作MFCCseg,MFCCseg的维度为36*500,对MFCCseg进行MVN均值方差归一化操作,将得到的结果记为MFCCnorm。通过均值方差归一化后的MFCCnorm特征向量的识别精度更高,能够在一定程度上减少随时间变化的特征分布不匹配的程度。
S240:基于所述归一化后的MFCC特征向量建立人声GMM模型。
将步骤S230中得到的MFCCnorm特征向量使用GMM高斯混合模型进行建模,并使用EM算法估算出人声GMM模型的参数,其中高斯核的个数为256。
具体的,GMM模型可表示为:
其中,X为MFCCnorm,wi为高斯核的权重,M表示高斯核的个数,本实例中M取值为256,bi为D维的联合高斯概率分布。
所述bi(X)可表示为:
其中,D的值为36,wi,μi和∑i为需要估计的参数。
在进行GMM参数的估计时使用EM算法进行估计,所述EM算法可分为E步骤和M步骤,通过对E步骤和M步骤依次迭代直到收敛得到最终的人声GMM模型。
所述E步骤是根据wi,μi和∑i的初始值或者上一次迭代的wi,μi和∑i计算隐变量的后验概率,记作:
其中λ为隐变量,i表示高斯分量编号,t为特征向量维度编号,wi的初始值为1/M,μi的初始值为0,∑i的初始值为随机值。
所述M步骤是根据E步骤中的P(i|Xt,λ)更新wi,μi和∑i,其中:
通过上述E步骤和M步骤可生成人声GMM模型,记作GMMspeech。
上述步骤为建立人声GMM模型的具体过程,下面对建立噪音GMM模型的过程做简要叙述。
S300:对背景噪音库中的噪音数据进行活动噪音段检测,拼接包含活动噪音段的帧以生成活动噪音数据,并提取所述活动噪音数据的MFCC特征向量,建立噪音GMM模型。具体的,步骤S300还分为如下子步骤:
S310:基于高低频带能量比较对预处理后的语音数据进行活动噪音段检测;
S320:拼接包含活动噪音段的帧以生成活动噪音数据;
S330:提取所述活动噪音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征,得到MFCC特征向量,并进行归一化;
S340:基于所述归一化后的MFCC特征向量建立噪音GMM模型。
所述噪音GMM模型的建立过程与人声GMM模型的建立过程相同,故本部分具体方法过程参照步骤S200,最终得到噪音GMM模型,记作GMMnoise。
本方法的步骤S400:基于各个语种的活动语音数据的MFCC特征向量,建立GMM-ivector语种识别模型,并生成各个语种的语种特征库。具体的,所述步骤S400包括:
S410:对于每个语种活动语音数据的MFCC特征向量,按其所在帧的先后顺序拼接在一起得到顺序拼接的MFCC特征向量,再按照随机顺序拼接在一起得到随机拼接的MFCC特征向量,将所述顺序拼接的MFCC特征向量和所述随机拼接的MFCC特征向量拼接在一起并进行归一化,得到该语种的归一化MFCC特征向量;
S420:基于各个语种的归一化MFCC特征向量建立GMM-ivector语种识别模型,并将各个语种的语音数据输入该GMM-ivector语种识别模型以得到各个语种的特征矩阵,并保存到各个语种的语种特征库。
关于GMM-ivector的建模过程为现有技术,故此处不再赘述。
S500:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量,基于所述人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号。
所述步骤S500具体包括:
S510:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量。
令待测声音数据标记为Adata,根据所述步骤S100至S200对待测声音数据Adata进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量,得到对应的语音数据MFCCnorm。其中,若待测语声音数据Adata中的活动语音过短,则不进行人声判断,判断的方法为:length(find(T>0))>200,即只有语音帧的个数大于200时才进行后续操作。
S520:将该MFCC特征向量分别输入所述人声GMM模型和噪音GMM模型,得到该待测声音数据为人声的后验概率和该待测声音数据为噪音的后验概率。
使用上述步骤中得到语音数据MFCCnorm作为GMMspeech的输入数据,计算后验概率的对数形式,将结果记作llk_speech;
使用语音数据MFCCnorm作为GMMnoise的输入数据,计算后验概率的对数形式,将结果记作llk_noise。
S530:通过比较两个后验概率来判断待测声音数据是否为人声信号。
计算上述中llk_speech和llk_noise的对数似然比thr,具体的,对数似然比thr=llk_speech-llk_noise。最后,将对数似然比thr的结果设定阈值为0.5,当thr>0.5时,则判断该段语音为人声,进入后续步骤;否则判断其不是人声,终止识别过程。
S600:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,并基于所述语种特征库进行语种识别。
所述步骤S600具体包括:
S610:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征。
使用最近邻插值方法将MFCCnorm插值到36*500维度,记为feasrc;已知MFCCnorm的维度为36*N,feasrc的维度为36*500,feasrc第i列对应MFCCnorm的第floor(i×N÷500)列,其中,floor表示下取整;将feasrc通过gmm-ivector建模计算ivector特征,记为srcIvs。
S620:分别计算该待测声音数据的ivector特征与各个语种特征集的平均余弦距离。
设语种数据中已注册的语种特征数据集为{dstIvs1,dstIvs2,dstIvs3,...,dstIvsn},其中n为已注册语种数量;然后,分别计算srcIvs与{dstIvs1,dstIvs2,dstIvs3,...,dstIvsn}的平均余弦距离,将所述平均余弦距离记作{score1,score2,csore3,...,scoren};对{score1,score2,csore3,...,scoren}进行排序。
S630:找出最大的两个平均余弦距离值,对其进行鲁棒性判断,确定该待测声音数据的语种。
找出{score1,score2,csore3,...,scoren}中最大的两个平均余弦距离值,记作max Score1和max Score2。然后对上述两个平均余弦距离值进行判断,公式如下:
其中,条件1:max Score1>0.2用于对类内距离做约束,表示特征的余弦距离必须大于0.2。条件2:用于对类间距离做约束,当max Score2<0时,由于已经有了条件1的约束,max Score1和max Score2之间的距离已经足够大,因此条件满足;当max Score2>=0时,只有当时条件才满足。只有同时满足上述条件1和条件2时,max Score1对应的语种才是该语音段匹配到的语种,若不满足上述条件则表示当前待验证语音段不是已知语种,至此语种识别过程结束。通过计算并判断平均余弦距离值,对类内距离和类间距离进行约束,可进一步判断所述语音段与语种特征数据集的相似度,进而判断所述语音段的语种类别。
如图5所示,进一步的,本方法还包括语种注册步骤:当需要增加语种时,采集该语种的语音数据,并进行所述预处理、活动语音段检测,拼接包含活动语音段的帧并提取MFCC特征向量,进而利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,生成该语种对应的语种特征库。
具体的,将MFCCnorm数据通过gmm-ivector模型计算出多个400维向量的ivector特征,然后随机选取2000组ivector向量作为该类语种的语种特征,并添加保存至数据库。
上述方法的优点在于可以在一定程度上减少运算量,同时也避免了误识别,使识别过程更加准确。
如图6所示,基于上述鲁棒性语种识别方法,本发明还提供了一种语种识别***,包括:
人声检测模块:用于基于人声GMM模型和噪音GMM模型对待测声音数据进行检测,判断是否为人声;
语种识别模块:用于利用GMM-ivector语种识别模型获得所述将待测声音数据的ivector特征,并与各个语种特征库进行比对,确定待测声音数据的语种;
语种注册模块:用于当需要增加语种时,采集该语种的语音数据,并进行所述预处理、活动语音段检测,拼接包含活动语音段的帧并提取MFCC特征向量,进而利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,生成该语种对应的语种特征库;
其中,所述人声检测模块包括语音预处理单元、活动语音段检测单元、特征提取单元和GMM建模单元;
所述语音预处理单元用于对声音数据进行预处理;
所述活动语音段检测单元用于对所述预处理后的声音数据进行活动语音段检测;
所述特征提取单元用于对所述活动语音段检测后的声音数据进行MFCC特征提取;
所述GMM建模单元用于基于所述提取的MFCC特征建立人声GMM模型和噪音GMM模型,以判断待测声音数据是否为人声;
其中,所述语种识别模块通过分别计算该待测声音数据的ivector特征与各个语种特征集的平均余弦距离,并进行鲁棒性判断来确定该待测声音数据的语种。
本语种识别***的具体操作流程已在上述方法中进行了详细的叙述与说明,故在此不再赘述,本***同样可达到如上述方法中提到的有益效果。
需要说明的是,如上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。
Claims (10)
1.一种语种识别方法,其特征在于,包括:
S0:建立背景噪音库和人声数据库,所述人声数据库包含多个语种的语音数据;
S100:基于所述背景噪音库对所述人声数据库中的语音数据进行预处理;
S200:对预处理后的语音数据进行活动语音段检测,拼接包含活动语音段的帧以生成活动语音数据,并提取所述活动语音数据的MFCC特征向量,建立人声GMM模型;
S300:对背景噪音库中的噪音数据进行活动噪音段检测,拼接包含活动噪音段的帧以生成活动噪音数据,并提取所述活动噪音数据的MFCC特征向量,建立噪音GMM模型;
S400:基于各个语种的活动语音数据的MFCC特征向量,建立GMM-ivector语种识别模型,并生成各个语种的语种特征库;
S500:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量,基于所述人声GMM模型和噪音GMM模型判断待测声音数据是否为人声信号;
S600:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,并基于所述语种特征库进行语种识别。
2.根据权利要求1所述的一种语种识别方法,其特征在于,还包括语种注册步骤:当需要增加语种时,采集该语种的语音数据,并进行所述预处理、活动语音段检测,拼接包含活动语音段的帧并提取MFCC特征向量,进而利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,生成该语种对应的语种特征库。
3.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S100包括:
S110:对人声数据库中的原始语音数据S1进行重采样,并分别进行声强归一化和语速随机重采操作,得到声强归一语音数据S1’和语速随机重采的语音数据S1”;
S120:对所述声强归一语音数据S1’叠加背景噪音库中的噪音信号,得到叠加噪音的语音数据S2;
S130:对所述语速随机重采的语音数据S1”叠加人声数据库中的其他任一语音数据,得到叠加其他人声的语音数据S3;
S140:将所述语音数据S1、S2和S3拼接得到预处理后的语音数据。
4.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S200包括:
S210:基于高低频带能量比较对预处理后的语音数据进行活动语音段检测;
S220:拼接包含活动语音段的帧以生成活动语音数据;
S230:提取所述活动语音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征,得到MFCC特征向量,并进行归一化;
S240:基于所述归一化后的MFCC特征向量建立人声GMM模型。
5.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S300包括:
S310:基于高低频带能量比较对预处理后的语音数据进行活动噪音段检测;
S320:拼接包含活动噪音段的帧以生成活动噪音数据;
S330:提取所述活动噪音数据的MFCC特征、MFCC一阶特征和MFCC二阶特征,得到MFCC特征向量,并进行归一化;
S340:基于所述归一化后的MFCC特征向量建立噪音GMM模型。
6.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S400包括:
S410:对于每个语种活动语音数据的MFCC特征向量,按其所在帧的先后顺序拼接在一起得到顺序拼接的MFCC特征向量,再按照随机顺序拼接在一起得到随机拼接的MFCC特征向量,将所述顺序拼接的MFCC特征向量和所述随机拼接的MFCC特征向量拼接在一起并进行归一化,得到该语种的归一化MFCC特征向量;
S420:基于各个语种的归一化MFCC特征向量建立GMM-ivector语种识别模型,并将各个语种的语音数据输入该GMM-ivector语种识别模型以得到各个语种的特征矩阵,并保存到各个语种的语种特征库。
7.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S500包括:
S510:对待测声音数据进行活动语音段检测、拼接包含活动语音段的帧并提取MFCC特征向量;
S520:将该MFCC特征向量分别输入所述人声GMM模型和噪音GMM模型,得到该待测声音数据为人声的后验概率和该待测声音数据为噪音的后验概率;
S530:通过比较两个后验概率来判断待测声音数据是否为人声信号。
8.根据权利要求1所述的一种语种识别方法,其特征在于,所述步骤S600包括:
S610:若判断待测声音数据为人声信号,则利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征;
S620:分别计算该待测声音数据的ivector特征与各个语种特征集的平均余弦距离;
S630:找出最大的两个平均余弦距离值,对其进行鲁棒性判断,确定该待测声音数据的语种。
10.一种语种识别***,其特征在于,包括:
人声检测模块:用于基于人声GMM模型和噪音GMM模型对待测声音数据进行检测,判断是否为人声;
语种识别模块:用于利用GMM-ivector语种识别模型获得所述将待测声音数据的ivector特征,并与各个语种特征库进行比对,确定待测声音数据的语种;
语种注册模块:用于当需要增加语种时,采集该语种的语音数据,并进行所述预处理、活动语音段检测,拼接包含活动语音段的帧并提取MFCC特征向量,进而利用所述GMM-ivector语种识别模型提取该待测声音数据的ivector特征,生成该语种对应的语种特征库;
其中,所述人声检测模块包括语音预处理单元、活动语音段检测单元、特征提取单元和GMM建模单元;
所述语音预处理单元用于对声音数据进行预处理;
所述活动语音段检测单元用于对所述预处理后的声音数据进行活动语音段检测;
所述特征提取单元用于对所述活动语音段检测后的声音数据进行MFCC特征提取;
所述GMM建模单元用于基于所述提取的MFCC特征建立人声GMM模型和噪音GMM模型,以判断待测声音数据是否为人声;
其中,所述语种识别模块通过分别计算该待测声音数据的ivector特征与各个语种特征集的平均余弦距离,并进行鲁棒性判断来确定该待测声音数据的语种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011338189.7A CN112530407B (zh) | 2020-11-25 | 2020-11-25 | 一种语种识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011338189.7A CN112530407B (zh) | 2020-11-25 | 2020-11-25 | 一种语种识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112530407A true CN112530407A (zh) | 2021-03-19 |
CN112530407B CN112530407B (zh) | 2021-07-23 |
Family
ID=74994488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011338189.7A Active CN112530407B (zh) | 2020-11-25 | 2020-11-25 | 一种语种识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112530407B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113160796A (zh) * | 2021-04-28 | 2021-07-23 | 北京中科模识科技有限公司 | 一种广播音频的语种识别方法、装置、设备及存储介质 |
CN113178197A (zh) * | 2021-04-27 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音验证模型的训练方法、装置以及计算机设备 |
CN114355289A (zh) * | 2022-03-19 | 2022-04-15 | 深圳市烽火宏声科技有限公司 | 声源定位方法、装置、存储介质及计算机设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101256768A (zh) * | 2008-04-03 | 2008-09-03 | 清华大学 | 用于语种识别的时频二维倒谱特征提取方法 |
CN101496095A (zh) * | 2006-07-31 | 2009-07-29 | 高通股份有限公司 | 用于信号变化检测的***、方法及设备 |
CN101546555A (zh) * | 2009-04-14 | 2009-09-30 | 清华大学 | 用于语种识别的约束异方差线性鉴别分析方法 |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及*** |
US20170069313A1 (en) * | 2015-09-06 | 2017-03-09 | International Business Machines Corporation | Covariance matrix estimation with structural-based priors for speech processing |
CN109119069A (zh) * | 2018-07-23 | 2019-01-01 | 深圳大学 | 特定人群识别方法、电子装置及计算机可读存储介质 |
US10468019B1 (en) * | 2017-10-27 | 2019-11-05 | Kadho, Inc. | System and method for automatic speech recognition using selection of speech models based on input characteristics |
CN111462729A (zh) * | 2020-03-31 | 2020-07-28 | 因诺微科技(天津)有限公司 | 基于音素对数似然比和稀疏表征的快速语种识别方法 |
CN111599344A (zh) * | 2020-03-31 | 2020-08-28 | 因诺微科技(天津)有限公司 | 一种基于拼接特征的语种识别方法 |
-
2020
- 2020-11-25 CN CN202011338189.7A patent/CN112530407B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101496095A (zh) * | 2006-07-31 | 2009-07-29 | 高通股份有限公司 | 用于信号变化检测的***、方法及设备 |
CN101256768A (zh) * | 2008-04-03 | 2008-09-03 | 清华大学 | 用于语种识别的时频二维倒谱特征提取方法 |
CN101546555A (zh) * | 2009-04-14 | 2009-09-30 | 清华大学 | 用于语种识别的约束异方差线性鉴别分析方法 |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及*** |
US20170069313A1 (en) * | 2015-09-06 | 2017-03-09 | International Business Machines Corporation | Covariance matrix estimation with structural-based priors for speech processing |
US10468019B1 (en) * | 2017-10-27 | 2019-11-05 | Kadho, Inc. | System and method for automatic speech recognition using selection of speech models based on input characteristics |
CN109119069A (zh) * | 2018-07-23 | 2019-01-01 | 深圳大学 | 特定人群识别方法、电子装置及计算机可读存储介质 |
CN111462729A (zh) * | 2020-03-31 | 2020-07-28 | 因诺微科技(天津)有限公司 | 基于音素对数似然比和稀疏表征的快速语种识别方法 |
CN111599344A (zh) * | 2020-03-31 | 2020-08-28 | 因诺微科技(天津)有限公司 | 一种基于拼接特征的语种识别方法 |
Non-Patent Citations (1)
Title |
---|
付强 等: "《因子分析在基于GMM的自动语种识别中的应用》", 《中文信息学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113178197A (zh) * | 2021-04-27 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音验证模型的训练方法、装置以及计算机设备 |
CN113178197B (zh) * | 2021-04-27 | 2024-01-09 | 平安科技(深圳)有限公司 | 语音验证模型的训练方法、装置以及计算机设备 |
CN113160796A (zh) * | 2021-04-28 | 2021-07-23 | 北京中科模识科技有限公司 | 一种广播音频的语种识别方法、装置、设备及存储介质 |
CN113160796B (zh) * | 2021-04-28 | 2023-08-08 | 北京中科模识科技有限公司 | 一种广播音频的语种识别方法、装置、设备及存储介质 |
CN114355289A (zh) * | 2022-03-19 | 2022-04-15 | 深圳市烽火宏声科技有限公司 | 声源定位方法、装置、存储介质及计算机设备 |
CN114355289B (zh) * | 2022-03-19 | 2022-06-10 | 深圳市烽火宏声科技有限公司 | 声源定位方法、装置、存储介质及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112530407B (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112530407B (zh) | 一种语种识别方法及*** | |
US7904295B2 (en) | Method for automatic speaker recognition with hurst parameter based features and method for speaker classification based on fractional brownian motion classifiers | |
CN110853654B (zh) | 一种模型生成方法、声纹识别方法及对应装置 | |
US20070088548A1 (en) | Device, method, and computer program product for determining speech/non-speech | |
CN110310647A (zh) | 一种语音身份特征提取器、分类器训练方法及相关设备 | |
KR100307623B1 (ko) | 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치 | |
Gurbuz et al. | Application of affine-invariant Fourier descriptors to lipreading for audio-visual speech recognition | |
JP3298858B2 (ja) | 低複雑性スピーチ認識器の区分ベースの類似性方法 | |
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN111128128B (zh) | 一种基于互补模型评分融合的语音关键词检测方法 | |
CN111508505A (zh) | 一种说话人识别方法、装置、设备及存储介质 | |
Fagerlund et al. | New parametric representations of bird sounds for automatic classification | |
KR100682909B1 (ko) | 음성 인식 방법 및 장치 | |
JPH10105187A (ja) | クラスタ構成をベースとする信号セグメント化方法 | |
Markov et al. | Never-ending learning system for on-line speaker diarization | |
CN111785302B (zh) | 说话人分离方法、装置及电子设备 | |
Smolenski et al. | Usable speech processing: A filterless approach in the presence of interference | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
CN110875044B (zh) | 一种基于字相关得分计算的说话人识别方法 | |
CN116580708A (zh) | 一种智能语音处理方法和*** | |
Yavuz et al. | A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model. | |
US7454337B1 (en) | Method of modeling single data class from multi-class data | |
US7912715B2 (en) | Determining distortion measures in a pattern recognition process | |
JPH06266386A (ja) | ワードスポッティング方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |