CN111161713A - 一种语音性别识别方法、装置及计算设备 - Google Patents
一种语音性别识别方法、装置及计算设备 Download PDFInfo
- Publication number
- CN111161713A CN111161713A CN201911328136.4A CN201911328136A CN111161713A CN 111161713 A CN111161713 A CN 111161713A CN 201911328136 A CN201911328136 A CN 201911328136A CN 111161713 A CN111161713 A CN 111161713A
- Authority
- CN
- China
- Prior art keywords
- voice data
- voice
- feature
- gender
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 239000013598 vector Substances 0.000 claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 28
- 230000009467 reduction Effects 0.000 claims abstract description 26
- 238000000556 factor analysis Methods 0.000 claims abstract description 17
- 239000000203 mixture Substances 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 description 42
- 230000006854 communication Effects 0.000 description 18
- 238000004891 communication Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000007477 logistic regression Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000005315 distribution function Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种语音性别识别方法、装置及计算设备,所述方法包括:获取待识别的语音数据;对所述语音数据进行特征提取,得到所述语音数据的声学特征;将所述声学特征输入到通用背景模型,并对通用背景模型的输出进行最大后验估计处理,得到所述语音数据的高斯混合分布;基于所述高斯混合分布提取所述语音数据的均值超矢量;对所述均值超矢量进行因子分析,得到所述语音数据的降维特征;将所述降维特征输入到训练好的性别分类器进行处理,输出所述语音数据的性别估计结果。
Description
技术领域
本发明涉及语音处理领域,特别涉及一种语音性别识别方法、装置及计算设备。
背景技术
声纹识别(Voiceprint recognition,VPR)又称说话人识别(Speakerrecognition,SRE),是一项根据说话人语音信号中反映说话人生理和行为特征的语音参数(“声纹”)自动识别说话人身份的技术。说话人性别识别是声纹识别的一个重要领域,是一项基于说话人的声学特征识别说话人性别的技术。
电话咨询服务例如400电话,目前广泛用于企业售前售后,在服务客户的过程中,企业会积累大量的高价值数据来构建用户画像。通过用户画像,企业可进行针对性地广告投放,做到精准营销,提升广告转化率。其中,用户性别信息对于用户画像的构建是至关重要的,对于通话用户的性别信息进行标注往往需要投入大量的人工成本,通过声纹识别技术对用户通话语音进行自动化实时性别识别可以帮助企业提升工作效率,节约人工标注成本。
目前的电话语音性别自动化识别首先将通话录音保存下来,然后通过音频信号处理或者深度学习的方法对保存下来的录音进行性别识别。这种方法需要保存完整的通话录音,消耗大量的服务器资源,并且无法做到实时性别识别。
另外,在实际语音通信的过程中,环境噪声、通信工具等信道情况复杂,使原始语音信号发生畸变,从而导致语音性别识别精度下降。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的语音性别识别方法、装置及计算设备。
根据本发明的一个方面,提供一种语音性别识别方法,在计算设备中执行,并包括如下步骤:
获取待识别的语音数据;
对所述语音数据进行特征提取,得到所述语音数据的声学特征;
将所述声学特征输入到通用背景模型,并对通用背景模型的输出进行最大后验估计处理,得到所述语音数据的高斯混合分布;
基于所述高斯混合分布提取所述语音数据的均值超矢量;
对所述均值超矢量进行因子分析,得到所述语音数据的降维特征;
将所述降维特征输入到训练好的性别分类器进行处理,输出所述语音数据的性别估计结果。
可选地,在根据本发明的语音性别识别方法中,所述获取待识别的语音数据,包括:对语音流进行端点检测,根据端点检测结果从所述语音流中截取预定时长的连续语音,作为待识别的语音数据。
可选地,在根据本发明的语音性别识别方法中,所述对所述语音数据进行特征提取,得到所述语音数据的声学特征,包括:对所述语音数据进行预加重、分帧和加窗处理;对加窗后的每个语音帧进行离散傅里叶变换,得到各语音帧的频谱;从各语音帧的频谱中提取梅尔标度滤波器组FBANK特征,并对FBANK特征进行离散余弦变换,得到梅尔倒谱系数MFCC特征;将所有语音帧的MFCC特征构造为特征序列,并将该特征序列作为所述语音数据的声学特征。
可选地,在根据本发明的语音性别识别方法中,在将所有语音帧的MFCC特征构造为特征序列之前,还包括:计算各语音帧的能量值;将各语音帧的MFCC特征的第一个系数,替换为该语音帧的能量值。
可选地,在根据本发明的语音性别识别方法中,所述对所述均值超矢量进行因子分析,得到所述语音数据的降维特征,包括:获取通用背景模型的均值超矢量m;获取所述因子分析的总变化空间矩阵T;基于如下公式计算i-vector特征w:M=m+Tw,其中M为语音数据的均值超矢量;将计算得到的i-vector特征作为所述语音数据的降维特征。
可选地,在根据本发明的语音性别识别方法中,在将所述降维特征输入到训练好的性别分类器进行处理之前,还包括:通过线性判别分析对所述降维特征进行信道补偿。
可选地,在根据本发明的语音性别识别方法中,所述语音数据为电话语音数据。
可选地,根据本发明的语音性别识别方法,还包括:利用各种信道的语料训练出所述通用背景模型。
可选地,根据本发明的语音性别识别方法,还包括:利用电话语料,通过最大期望算法估计出用于因子分析的总变化空间矩阵。
可选地,根据本发明的语音性别识别方法,还包括:按照如下方式训练所述性别分类器:获取训练数据集,所述训练数据集中的每条训练数据包括语音数据及其性别标签;对于每条训练数据,提取该训练数据的降维特征;将提取的降维特征输入到待训练的性别分类器中;根据性别分类器的输出以及该语言数据的性别标签,调整所述待训练的性别分类器的模型参数。
可选地,在根据本发明的语音性别识别方法中,所述性别分类器采用逻辑回归分类器。
根据本发明另一个方面,提供一种语音性别识别装置,驻留在计算设备中,并包括:
获取模块,适于获取待识别的语音数据;
特征提取模块,适于对所述语音数据进行特征提取,得到所述语音数据的声学特征;
特征处理模块,适于将所述声学特征输入到通用背景模型,并对通用背景模型的输出进行最大后验估计处理,得到所述语音数据的高斯混合分布;
均值超矢量提取模块,适于基于所述高斯混合分布提取所述语音数据的均值超矢量;
因子分析模块,适于对所述均值超矢量进行因子分析,得到所述语音数据的降维特征;
分类模块,适于将所述降维特征输入到训练好的性别分类器进行处理,输出所述语音数据的性别估计结果。
根据本发明的又一个方面,提供一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行上述方法的指令。
根据本发明的又一个方面,提供一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行上述的方法。
本发明的语音性别识别方案,具有如下的一个或多个有益技术效果:
1)利用短时语音完成实时性别识别,解决了传统方法需要保留整段通话语音而占用大量服务器资源、实时性差的问题。
2)通过GMM-UBM模型和MAP自适应算法对模型参数进行估计,不必调整GMM的所有参数,只需要对各个单高斯分布的均值参数进行估计,模型参数少,收敛速度快,用少量的电话语音数据即可完成模型训练,避免了过拟合的发生。
3)通过因子分析方法从语音中提取与说话人性别相关的特征,利用判别式模型对语音性别进行分类,解决通话过程中由于不同信道信息的干扰导致识别精度下降的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的计算设备100的结构图;
图2示出了根据本发明一个实施例的语音识别方法200的流程图;
图3示出了方法200的建模和训练过程示意图;
图4示出了根据本发明一个实施例的语音性别识别装置400的结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的计算设备100的结构图。如图1所示,在基本的配置102中,计算设备100典型地包括***存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和***存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,***存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。***存储器106可以包括操作***120、一个或者多个应用122以及程序数据124。应用122实际上是多条程序指令,其用于指示处理器104执行相应的操作。在一些实施方式中,应用122可以布置为在操作***上使得处理器104利用程序数据124进行操作。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为包括桌面计算机和笔记本计算机配置的个人计算机,也可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等。当然,计算设备100也可以实现为小尺寸便携(或者移动)电子设备的一部分。在根据本发明的实施例中,计算设备100被配置为执行根据本发明的语音性别识别方法200。计算设备100的应用122中包含执行根据本发明的方法200的多条程序指令。
图2示出了根据本发明一个实施例的语音性别识别方法200的流程图,方法200在计算设备中执行,例如,在如图1所示的计算设备100中执行。
参照图2,方法200始于步骤S202。在步骤S202中,获取待识别的语音数据。在本发明实施例中,待识别的语音数据可以为电话语音数据,例如400电话的语音数据。
语音采集设备采集电话客户通话通道语音流,将语音流实时缓存至缓存区中,并对语音流进行实时端点检测(Voice Activity Detection,VAD),根据端点检测结果从语音流中截取预定时长的连续语音,作为待识别的语音数据。具体地,在检测到语音流的前端点后,若语音长度达到预定时长(例如两秒),则停止缓存,并将该段语音保存到计算设备上,否则继续进行端点检测直至截取到预定时长的连续语音。
在实际语音通信的过程中,环境噪声、通信工具等信道复杂性高,仅通过VAD切除静音部分难以有效地消除信道差异的影响,语音性别识别的精度偏低。本发明实施例在后续步骤中,还对待识别的语音数据进行预处理,并提取语音数据的声学特征,将提取的声学特征输入到训练好的模型中进行实时性别识别。
在步骤S204中,对语音数据进行特征提取,得到所述语音数据的声学特征。在进行特征提取前,还可以对截取的语音数据进行预处理,具体包括语音格式转化、采样率转化。例如,将语音数据的格式都转化为.wav格式,将各种采样率(8k、16k等)都转化为8k。
然后,进行声学特征的提取。声学特征可选择FBANK、MFCC、PLP等,这里优选MFCC(Mel-Frequency Cepstrum Coefficients,梅尔倒谱系数),其中MFCC是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。
声学特征提取的具体步骤可以包括:
1)对语音数据进行预加重。加重高频语音的能量,使得语音信号的高频信息更加凸显;
2)对语音数据进行分帧和加窗处理。帧长优选25ms,帧移优选10ms,窗函数优选海明窗;
3)对加窗后的每一个语音帧进行离散傅里叶变换,提取频域信息,得到每一个语音帧分别对应的频谱;
4)提取FBANK特征。分别从各语音帧的频谱通过梅尔标度滤波器组规划到梅尔刻度上得到梅尔频谱,其中梅尔标度滤波器的个数优选40,接着将梅尔频谱的能量数值取对数,得到多维(例如40维)的FBANK(梅尔标度滤波器组)特征;
5)对于每个语音帧的FBANK特征,对该FBANK特征进行离散余弦变换,得到该语言帧的MFCC特征,并且,还可以取例如前20维作为MFCC特征。
这样,语音数据的每个语音帧就各自对应一个MFCC特征,这些MFCC特征所构成的特征序列,就成为语音数据的声学特征。
在一种优选方式中,还可以计算语音数据的每一帧语音频的能量值,能量值为该帧下所有音频采样点取值的平方和,并可以用能量值替换MFCC特征的第一个系数。继续上面的例子,构成声学特征的特征序列中的每个特征为20维,其中包括1维能量值和19维MFCC。
在步骤S206中,将语音数据的声学特征输入到预先训练好的通用背景模型,并对通用背景模型的输出进行最大后验估计(MAP)自适应处理,得到语音数据的高斯混合分布。其中,GMM(Gaussian Mix Model,高斯混合模型),指的是多个高斯分布函数的线性组合,理论上GMM可以拟合出任意类型的分布,这里用来分别对男声和女声进行建模。UBM(Universal Background Model,通用背景模型)是利用来自不同说话人的大量语音数据建立的一个相对稳定且与说话人特性无关的高斯混合模型(GMM)。该模型描述了不同说话人在声学空间中的共享特性,被称为通用背景模型(UBM)。
在本步骤中,可以将语音数据的MFCC特征序列在UBM模型的每个高斯分量上进行MAP(Maximum A Posteriori Estimation,最大后验估计)自适应,得到该语音数据对应的GMM模型,即GMM-UBM模型。在本发明实施例中,自适应过程中只需更新GMM模型的均值矢量μi,i=1,2,…,c,其中c为GMM的分量数目,即GMM是c个高斯分布函数的线性组合。
在步骤S208中,基于所述高斯混合分布提取语音数据的均值超矢量。在一种实现方式中,将GMM中所有高斯分量的均值矢量μi按照固定的顺序拼接起来,得到GMM均值超矢量M:
假设GMM的每个声学特征矢量为F维,则M为CF×1的高维特征矢量,其中包含了对应通话用户语音的全部信息,包括说话人信息和信道信息。
在步骤S210中,对均值超矢量M进行因子分析,得到语音数据的均值超矢量的降维后的特征,本发明中称为降维特征。在一种实现方式中,降维特征为i-vector特征。
在本发明实施例中,i-vector是一个R×1维的矢量,服从高斯分布N(0,1),其中包含了说话人的身份信息和信道信息,可以充分覆盖噪声、混响、编码方式等环境因子的变化,维度通常为400-600,这里优选400维。对于语音数据的GMM均值超矢量M可以表示为如下形式:
M=m+Tw
其中,M服从高斯分布N(m,TTT),m为UBM均值超矢量,T为总变化空间矩阵,其维度为CF×R,w为i-vector特征。
在步骤S212中,将降维特征例如i-vector特征输入到训练好的性别分类器进行处理,输出语音数据的性别估计结果。
根据本发明的另一个实施例,在步骤S212之前,还通过LDA(Linear DiscriminantAnalysis,线性判别分析)对i-vector进行信道补偿,在步骤S212中,是将信道补偿后的i-vector特征输入到训练好的性别分类器进行处理,输出语音数据的性别估计结果。
LDA是模式识别领域中的降维技术,通过寻找最能区分各类数据的方向,来使得新的特征更具有区分性。通过LDA能够进一步提高i-vector对说话人性别的区分能力,减弱信道信息不同对识别精确率的影响。
LDA的训练过程如下:
提供训练数据集,训练数据集中的每条训练数据包括语音数据及其性别标签,对于每条训练数据,按照上述方式提取该训练数据的i-vector。
然后,LDA的求解过程是最大化Rayleigh系数J的过程
其中,Sb和Sw分别为类间散度矩阵和类内散度矩阵。Sb和Sw的计算方式分别如下:
其中,S是性别类别(s=0点男性,s=1代表女性),是训练数据集中性别s对应的全部语音数据的i-vector的均值,是全部语音数据的i-vector均值,ns是训练数据集中性别s对应的语音数据条数,ws,h是性别s对应的第h条语音的i-vector。Rayleigh系数反应了语音在方向a上Sb和Sw的信息比总和,最大化Rayleigh系数的过程能够最小化由信道效应产生的方差,同时最大化说话人特征之间的方差。最大化Rayleigh系数可以转化为求一个投影矩阵A,这个矩阵由如下特征值(从达到下排列)所对应的特征向量a组成
Sba=λSwa
其中,λ为特征值。
这样,经过训练,就可以得到投影矩阵A。通过LDA对i-vector进行信道补偿后的i-vector可以表示为
φ(w)=ATw
式中,w为信道补偿前的i-vector特征,φ(w)为信道补偿后的i-vector特征。
可以看出,在本发明实施例中,通过因子分析和信道补偿技术提取语音的i-vector特征,然后通过LDA对其进行信道补偿,增强了语音特征中的说话人信息,减弱了电话语音中复杂的信道信息对语音性别识别的影响,提升了性别识别精度。
以下介绍方法200中相关模型的建立和训练过程。
图3示出了方法200的建模和训练过程示意图。参照图3,该过程涉及UBM模型的训练,因子分析中总变化空间矩阵的计算,性别分类器的训练。
首先,用大量各种信道的语料训练一个与说话人信息无关的UBM模型。如前所述,UBM也是一种GMM模型,是所有说话人语音特征的共性反映以及信道信息的共性反映,固UBM的训练数据集越多、覆盖面越广,训练得到的GMM就越能接近真实分布。具体地,获取大量各种信道的语料,将语料数据按照步骤S202和步骤S204的方法进行处理,提取MFCC特征,并利用MFCC特征来训练UBM模型,UBM模型参数的训练可以采用EM(Expectation-maximizationalgorithm,期望最大化算法)。训练完成后,可以得到UBM模型的均值超矢量。
然后,获取电话语料(例如400电话语料),将一部分作为训练数据集,将另一部分作为测试数据集(可选),并将语料数据按照步骤S202和步骤S204的方法进行处理,提取MFCC特征。将训练集语料数据的MFCC特征通过步骤S206和步骤S208的处理,得到训练集中每条语音数据的均值超矢量。对训练集所有语音的均值超矢量进行因子分析,分别从中提取i-vector特征。i-vector是一个R×1维的矢量,服从高斯分布N(0,1),其中包含了说话人的身份信息和信道信息,可以充分覆盖噪声、混响、编码方式等环境因子的变化,维度通常为400-600,这里优选400维。对于每一条语音数据的GMM均值超矢量可以表示为如下形式:
M=m+Tw
其中,M为GMM的均值超矢量,服从高斯分布N(m,TTT),m为UBM均值超矢量,T为总变化空间矩阵,其维度为CF×R,w为i-vector特征。训练过程中通过EM算法对总变化空间矩阵T进行估计,在总变化空间矩阵T估计完毕后,分别对训练集和测试集通过每条语音的GMM均值超矢量提取对应的i-vector特征。
然后,利用语音数据的i-vector特征训练Logistics Regression模型对语音性别进行分类。具体步骤为:
a)将语音数据根据性别男、女分别打标签0、1;
其中,θT=[θ0θ1…θn],表示一组参数,损失函数为:
通过梯度下降法求得参数θ。
这样,在识别阶段(步骤S212),可以将参数θ带入到模型中,给定一段待识别语音x,对其提取i-vector输入到模型中,若hθ(x)<0.5则识别结果为男性,若hθ(x)>0.5则识别结果为女性。
图4示出了根据本发明一个实施例的语音性别识别装置400的结构图。
参照图4,装置400包括:
获取模块410,适于获取待识别的语音数据;
特征提取模块420,适于对所述语音数据进行特征提取,得到所述语音数据的声学特征;
特征处理模块430,适于将所述声学特征输入到通用背景模型,并对通用背景模型的输出进行最大后验估计处理,得到所述语音数据的高斯混合分布;
均值超矢量提取模块440,适于基于所述高斯混合分布提取所述语音数据的均值超矢量;
因子分析模块450,适于对所述均值超矢量进行因子分析,得到所述语音数据的降维特征;
分类模块460,适于将所述降维特征输入到训练好的性别分类器进行处理,输出所述语音数据的性别估计结果。
获取模块410、特征提取模块420、特征处理模块430、因子分析模块450和分类模块460所执行的具体处理,可参照上述的步骤S202、步骤S204、步骤S206、步骤S208、步骤S210、步骤S212,这里不做赘述。
综上所述,本发明通过实时获取电话客户通话语音流,对语音流进行实时端点检测,截取预定时长(例如2秒)通话语音,通过预定时长的语音即可完成实时性别识别,而无需保留整通电话录音,节省了大量服务器资源、实时性好。
本发明通过大量数据训练UBM模型提取语音及信道的共性特征,然后通过MAP自适应算法对模型参数进行估计,获取每条语音的GMM,不必调整GMM的所有参数,只需要对各个单高斯分布的均值参数进行估计,模型参数少,收敛速度快,用少量的电话语音数据即可完成模型训练,避免了过拟合的发生,解决了由于训练语料不充分,不能覆盖所有发音内容而带来的识别性能下降的问题。
本发明通过因子分析技术增强了语音特征中的说话人性别信息的表征能力,减弱了实际应用中复杂的电话信道信息对语音性别识别的影响,并通过判别式模型提升了性别识别精度。
8、如权利要求7所述的方法,还包括:利用各种信道的语料训练出所述通用背景模型。
9、如权利要求7或8所述的方法,还包括:利用电话语料,通过最大期望算法估计出用于因子分析的总变化空间矩阵。
10、如权利要求7至10中任一项所述的方法,还包括,按照如下方式训练所述性别分类器:
获取训练数据集,所述训练数据集中的每条训练数据包括语音数据及其性别标签;
对于每条训练数据,提取该训练数据的降维特征;
将提取的降维特征输入到待训练的性别分类器中;
根据性别分类器的输出以及该语言数据的性别标签,调整所述待训练的性别分类器的模型参数。
11、如权利要求10所述的方法,其中,所述性别分类器采用逻辑回归分类器
在此提供的算法和显示不与任何特定计算机、虚拟***或者其它设备固有相关。各种通用***也可以与基于在此的示教一起使用。根据上面的描述,构造这类***所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
Claims (10)
1.一种语音性别识别方法,在计算设备中执行,并包括如下步骤:
获取待识别的语音数据;
对所述语音数据进行特征提取,得到所述语音数据的声学特征;
将所述声学特征输入到通用背景模型,并对通用背景模型的输出进行最大后验估计处理,得到所述语音数据的高斯混合分布;
基于所述高斯混合分布提取所述语音数据的均值超矢量;
对所述均值超矢量进行因子分析,得到所述语音数据的降维特征;
将所述降维特征输入到训练好的性别分类器进行处理,输出所述语音数据的性别估计结果。
2.如权利要求1所述的方法,其中,所述获取待识别的语音数据,包括:
对语音流进行端点检测,根据端点检测结果从所述语音流中截取预定时长的连续语音,作为待识别的语音数据。
3.如权利要求1或2所述的方法,其中,所述对所述语音数据进行特征提取,得到所述语音数据的声学特征,包括:
对所述语音数据进行预加重、分帧和加窗处理;
对加窗后的每个语音帧进行离散傅里叶变换,得到各语音帧的频谱;
从各语音帧的频谱中提取梅尔标度滤波器组FBANK特征,并对FBANK特征进行离散余弦变换,得到梅尔倒谱系数MFCC特征;
将所有语音帧的MFCC特征构造为特征序列,并将该特征序列作为所述语音数据的声学特征。
4.如权利要求3所述的方法,其中,在将所有语音帧的MFCC特征构造为特征序列之前,还包括:
计算各语音帧的能量值;
将各语音帧的MFCC特征的第一个系数,替换为该语音帧的能量值。
5.如权利要求1至4中任一项所述的方法,其中,所述对所述均值超矢量进行因子分析,得到所述语音数据的降维特征,包括:
获取通用背景模型的均值超矢量m;
获取所述因子分析的总变化空间矩阵T;
基于如下公式计算i-vector特征w:M=m+Tw,其中M为语音数据的均值超矢量;
将计算得到的i-vector特征作为所述语音数据的降维特征。
6.如权利要求1至5中任一项所述的方法,其中,在将所述降维特征输入到训练好的性别分类器进行处理之前,还包括:
通过线性判别分析对所述降维特征进行信道补偿。
7.如权利要求1至6中任一项所述的方法,其中,所述语音数据为电话语音数据。
8.一种语音性别识别装置,驻留在计算设备中,并包括:
获取模块,适于获取待识别的语音数据;
特征提取模块,适于对所述语音数据进行特征提取,得到所述语音数据的声学特征;
特征处理模块,适于将所述声学特征输入到通用背景模型,并对通用背景模型的输出进行最大后验估计处理,得到所述语音数据的高斯混合分布;
均值超矢量提取模块,适于基于所述高斯混合分布提取所述语音数据的均值超矢量;
因子分析模块,适于对所述均值超矢量进行因子分析,得到所述语音数据的降维特征;
分类模块,适于将所述降维特征输入到训练好的性别分类器进行处理,输出所述语音数据的性别估计结果。
9.一种计算设备,包括:
至少一个处理器;和
存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-7中任一项所述方法的指令。
10.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911328136.4A CN111161713A (zh) | 2019-12-20 | 2019-12-20 | 一种语音性别识别方法、装置及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911328136.4A CN111161713A (zh) | 2019-12-20 | 2019-12-20 | 一种语音性别识别方法、装置及计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111161713A true CN111161713A (zh) | 2020-05-15 |
Family
ID=70557556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911328136.4A Pending CN111161713A (zh) | 2019-12-20 | 2019-12-20 | 一种语音性别识别方法、装置及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111161713A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111568400A (zh) * | 2020-05-20 | 2020-08-25 | 山东大学 | 一种人体体征信息监测方法及*** |
CN111816218A (zh) * | 2020-07-31 | 2020-10-23 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、设备及存储介质 |
CN112420018A (zh) * | 2020-10-26 | 2021-02-26 | 昆明理工大学 | 一种适用于低信噪比环境下语种识别方法 |
CN113270111A (zh) * | 2021-05-17 | 2021-08-17 | 广州国音智能科技有限公司 | 一种基于音频数据的身高预测方法、装置、设备和介质 |
CN114049881A (zh) * | 2021-11-23 | 2022-02-15 | 深圳依时货拉拉科技有限公司 | 语音性别识别方法、装置、存储介质和计算机设备 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095401A (zh) * | 2015-07-07 | 2015-11-25 | 北京嘀嘀无限科技发展有限公司 | 一种性别识别的方法及装置 |
CN106952643A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 |
CN107274905A (zh) * | 2016-04-08 | 2017-10-20 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法及*** |
CN107357782A (zh) * | 2017-06-29 | 2017-11-17 | 深圳市金立通信设备有限公司 | 一种识别用户性别的方法及终端 |
CN107369440A (zh) * | 2017-08-02 | 2017-11-21 | 北京灵伴未来科技有限公司 | 一种针对短语音的说话人识别模型的训练方法及装置 |
CN107623614A (zh) * | 2017-09-19 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN107886943A (zh) * | 2017-11-21 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种声纹识别方法及装置 |
CN108417217A (zh) * | 2018-01-11 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 说话人识别网络模型训练方法、说话人识别方法及*** |
CN108520752A (zh) * | 2018-04-25 | 2018-09-11 | 西北工业大学 | 一种声纹识别方法和装置 |
CN108694954A (zh) * | 2018-06-13 | 2018-10-23 | 广州势必可赢网络科技有限公司 | 一种性别年龄识别方法、装置、设备及可读存储介质 |
CN108806697A (zh) * | 2017-05-02 | 2018-11-13 | 申子健 | 基于ubm和svm的说话人身份识别*** |
CN108922544A (zh) * | 2018-06-11 | 2018-11-30 | 平安科技(深圳)有限公司 | 通用向量训练方法、语音聚类方法、装置、设备及介质 |
CN108922559A (zh) * | 2018-07-06 | 2018-11-30 | 华南理工大学 | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 |
CN109065022A (zh) * | 2018-06-06 | 2018-12-21 | 平安科技(深圳)有限公司 | i-vector向量提取方法、说话人识别方法、装置、设备及介质 |
CN109545227A (zh) * | 2018-04-28 | 2019-03-29 | 华中师范大学 | 基于深度自编码网络的说话人性别自动识别方法及*** |
CN110502959A (zh) * | 2018-05-17 | 2019-11-26 | Oppo广东移动通信有限公司 | 性别判断方法、装置、存储介质及电子设备 |
-
2019
- 2019-12-20 CN CN201911328136.4A patent/CN111161713A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095401A (zh) * | 2015-07-07 | 2015-11-25 | 北京嘀嘀无限科技发展有限公司 | 一种性别识别的方法及装置 |
CN107274905A (zh) * | 2016-04-08 | 2017-10-20 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法及*** |
CN106952643A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 |
CN108806697A (zh) * | 2017-05-02 | 2018-11-13 | 申子健 | 基于ubm和svm的说话人身份识别*** |
CN107357782A (zh) * | 2017-06-29 | 2017-11-17 | 深圳市金立通信设备有限公司 | 一种识别用户性别的方法及终端 |
CN107369440A (zh) * | 2017-08-02 | 2017-11-21 | 北京灵伴未来科技有限公司 | 一种针对短语音的说话人识别模型的训练方法及装置 |
CN107623614A (zh) * | 2017-09-19 | 2018-01-23 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN107886943A (zh) * | 2017-11-21 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种声纹识别方法及装置 |
CN108417217A (zh) * | 2018-01-11 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 说话人识别网络模型训练方法、说话人识别方法及*** |
CN108520752A (zh) * | 2018-04-25 | 2018-09-11 | 西北工业大学 | 一种声纹识别方法和装置 |
CN109545227A (zh) * | 2018-04-28 | 2019-03-29 | 华中师范大学 | 基于深度自编码网络的说话人性别自动识别方法及*** |
CN110502959A (zh) * | 2018-05-17 | 2019-11-26 | Oppo广东移动通信有限公司 | 性别判断方法、装置、存储介质及电子设备 |
CN109065022A (zh) * | 2018-06-06 | 2018-12-21 | 平安科技(深圳)有限公司 | i-vector向量提取方法、说话人识别方法、装置、设备及介质 |
CN108922544A (zh) * | 2018-06-11 | 2018-11-30 | 平安科技(深圳)有限公司 | 通用向量训练方法、语音聚类方法、装置、设备及介质 |
CN108694954A (zh) * | 2018-06-13 | 2018-10-23 | 广州势必可赢网络科技有限公司 | 一种性别年龄识别方法、装置、设备及可读存储介质 |
CN108922559A (zh) * | 2018-07-06 | 2018-11-30 | 华南理工大学 | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 |
Non-Patent Citations (2)
Title |
---|
JEAN-LUC GAUVAIN,CHIN-HUI LEE: ""Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains"", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》 * |
王尔玉: ""基于若干声纹信息空间的说话人识别技术研究"", 《中国优秀硕士学位文论全文数据库(信息科技辑)》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111568400A (zh) * | 2020-05-20 | 2020-08-25 | 山东大学 | 一种人体体征信息监测方法及*** |
CN111568400B (zh) * | 2020-05-20 | 2024-02-09 | 山东大学 | 一种人体体征信息监测方法及*** |
CN111816218A (zh) * | 2020-07-31 | 2020-10-23 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、设备及存储介质 |
CN111816218B (zh) * | 2020-07-31 | 2024-05-28 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、设备及存储介质 |
CN112420018A (zh) * | 2020-10-26 | 2021-02-26 | 昆明理工大学 | 一种适用于低信噪比环境下语种识别方法 |
CN113270111A (zh) * | 2021-05-17 | 2021-08-17 | 广州国音智能科技有限公司 | 一种基于音频数据的身高预测方法、装置、设备和介质 |
CN114049881A (zh) * | 2021-11-23 | 2022-02-15 | 深圳依时货拉拉科技有限公司 | 语音性别识别方法、装置、存储介质和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112259106B (zh) | 声纹识别方法、装置、存储介质及计算机设备 | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
US9940935B2 (en) | Method and device for voiceprint recognition | |
CN111161713A (zh) | 一种语音性别识别方法、装置及计算设备 | |
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
CN112562691B (zh) | 一种声纹识别的方法、装置、计算机设备及存储介质 | |
WO2018149077A1 (zh) | 声纹识别方法、装置、存储介质和后台服务器 | |
US8935167B2 (en) | Exemplar-based latent perceptual modeling for automatic speech recognition | |
US8731936B2 (en) | Energy-efficient unobtrusive identification of a speaker | |
WO2020034628A1 (zh) | 口音识别方法、装置、计算机装置及存储介质 | |
WO2014114116A1 (en) | Method and system for voiceprint recognition | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
WO2019232826A1 (zh) | i-vector向量提取方法、说话人识别方法、装置、设备及介质 | |
CN108922543A (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
CN110931023A (zh) | 性别识别方法、***、移动终端及存储介质 | |
CN113129867A (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
Chakroun et al. | Robust features for text-independent speaker recognition with short utterances | |
WO2023279691A1 (zh) | 语音分类方法、模型训练方法及装置、设备、介质和程序 | |
US10446138B2 (en) | System and method for assessing audio files for transcription services | |
Sood et al. | Speech recognition employing mfcc and dynamic time warping algorithm | |
Wu et al. | Speaker identification based on the frame linear predictive coding spectrum technique | |
CN112347788A (zh) | 语料处理方法、装置及存储介质 | |
CN108010518B (zh) | 一种语音交互设备的语音采集方法、***及存储介质 | |
Mini et al. | Feature vector selection of fusion of MFCC and SMRT coefficients for SVM classifier based speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200515 |
|
RJ01 | Rejection of invention patent application after publication |