CN113823293B - 一种基于语音增强的说话人识别方法及*** - Google Patents
一种基于语音增强的说话人识别方法及*** Download PDFInfo
- Publication number
- CN113823293B CN113823293B CN202111140239.5A CN202111140239A CN113823293B CN 113823293 B CN113823293 B CN 113823293B CN 202111140239 A CN202111140239 A CN 202111140239A CN 113823293 B CN113823293 B CN 113823293B
- Authority
- CN
- China
- Prior art keywords
- voice
- speaker
- features
- data
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000000605 extraction Methods 0.000 claims abstract description 38
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 15
- 238000001228 spectrum Methods 0.000 claims description 27
- 230000000694 effects Effects 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 description 4
- 238000009432 framing Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Filters That Use Time-Delay Elements (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种基于语音增强的说话人识别方法及***,其中的方法包括如下步骤:S1采集大量的原始语音数据;S2对原始语音数据中包含的干扰噪声和无关说话人声音进行去除;S3:提取MFCC特征和GFCC特征,融合得到语音的声学特征;S4:基于卷积神经网络构建说话人识别模型,将从大量的原始语音数据中提取的声学特征作为训练数据,对说话人识别模型进行训练;S5:收集注册语音样本进行注册,再获取待识别说话人的语音数据,采用S2和S3的方法进行语音增强和特征提取后,输入训练好的模型得到待识别说话人特征,根据待识别说话人特征与已注册的说话人特征的相似度,对待识别说话人的身份进行识别。本发明可以提高声纹识别***的识别准确率。
Description
技术领域
本发明涉及模式识别领域,尤其涉及一种基于语音增强的说话人识别方法及***。
背景技术
声纹识别,是一项提取说话人声音特征和说话内容信息,自动核验说话人身份的技术。随着人工智能在人们日常生活中的广泛应用,声纹识别技术也逐渐突显出了它的作用,比如对个人智能设备(如手机、车辆和笔记本电脑)的基于语音的认证;保证银行交易和远程支付的交易安全;以及自动身份标记。
但是由于现实生活背景噪声的复杂,用于识别的声音总是包含着各种各样的噪声,这将会导致声纹识别效果不佳,因此如何克服待识别声音的噪声问题是声纹识别技术应用到现实生活中亟待解决的问题。
发明内容
本发明提出一种基于语音增强的说话人识别方法及***,用于解决或者至少部分解决现有技术中声纹识别效果不佳的技术问题。
为了解决上述技术问题,本发明第一方面提供了一种基于语音增强的说话人识别方法,包括:
S1:采集大量的原始语音数据;
S2:对原始语音数据中包含的干扰噪声和无关说话人声音进行去除,得到增强后的语音数据;
S3:从增强后的语音数据中提取MFCC特征和基于Gammatone滤波器的倒谱系数GFCC特征,将MFCC特征和GFCC特征进行融合得到语音的声学特征;
S4:基于卷积神经网络构建说话人识别模型,将从大量的原始语音数据中提取的声学特征作为训练数据,对说话人识别模型进行训练,得到训练好的模型;
S5:收集注册语音样本,采用S2和S3的方法进行语音增强和特征提取后,输入训练好的模型得到每个注册语音样本的深度特征,作为每个说话人的说话人特征,并将其进行保存;获取待识别说话人的语音数据,采用S2和S3的方法进行语音增强和特征提取后,输入训练好的模型得到待识别说话人特征,根据待识别说话人特征与已保存的说话人特征的相似度,对待识别说话人的身份进行识别。
在一种实施方式中,步骤S1采用录音的方式进行原始语音数据的采集。
在一种实施方式中,步骤S2采用生成对抗网络对原始语音数据中包含的干扰噪声和无关说话人声音进行去除,实现端到端的语音增强。
在一种实施方式中,步骤S3包括:
S3.1:对增强后的语音数据进行语音活动端点检测,消除长时间的静音段;
S3.2:对步骤S3.1得到的语音进行预处理;
S3.3:对预处理后的语音进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱;
S3.4:将快速傅里叶变换得到的功率谱通过一组梅尔尺度的三角滤波器,得到每一帧数据在三角滤波器对应频段的能量值;
S3.5:对每一帧数据在三角滤波器对应频段的能量值取对数,计算算每个滤波器组输出的对数能量;
S3.6:将对数能量代入离散余弦变换,求出L阶的梅尔倒谱系数;
S3.7:将快速傅里叶变换得到的功率谱,通过Gammatone滤波器,再进行指数压缩和离散余弦变换得到语音信号的GFCC特征;
S3.8:将语音信号的MFCC特征和GFCC特征进行级联,得到语音信号的声学特征。
在一种实施方式中,步骤S4包括:
将收集的大量的原始语音数据通过语音增强,然后从中提取声学特征作为训练数据,输入到说话人识别模型进行训练,得到训练好的模型;
在一种实施方式中,步骤S5中注册数据包括每个说话人的h个语音样本,根据待识别说话人特征与已注册的说话人特征的相似度,对待识别说话人的身份进行识别,包括:
将注册数据中的每个语音样本进行语音增强和特征提取后,将得到的声学特征通过说话人识别模型的卷积神经网络提取每个语音样本的深度特征;
将每个说话人的h个深度特征取平均,作为每个说话人的说话人特征,保存在数据库中;
将待识别说话人的语音数据通过语音增强和特征提取后,输入训练好的模型得到待识别说话人特征;
计算待识别说话人特征和数据库中保存的所有说话人特征的余弦相似度 cos,如果最大的余弦相似度大于设定阈值,则该余弦相似度对应的数据库中的说话人即为识别到的说话人身份,否则拒绝。
基于同样的发明构思,本发明第二方面提供了一种基于语音增强的说话人识别***,包括:
语音采集模块,用于采集大量的原始语音数据;
语音增强模块,用于对原始语音数据中包含的干扰噪声和无关说话人声音进行去除,得到增强后的语音数据;
语音特征提取模块,用于从增强后的语音数据中提取MFCC特征和基于 Gammatone滤波器的倒谱系数GFCC特征,将MFCC特征和GFCC特征进行融合得到语音的声学特征;
模型训练模块,用于基于卷积神经网络构建说话人识别模型,将从大量的原始语音数据中提取的声学特征作为训练数据,对说话人识别模型进行训练,得到训练好的模型;
说话人识别模块,收集注册语音样本,采用语音增强模块和语音特征提取模块的方法进行语音增强和特征提取后,输入训练好的模型得到每个注册语音样本的深度特征,作为每个说话人的说话人特征,并将每个说话人的说话人特征进行保存;获取待识别说话人的语音数据,采用语音增强模块和语音特征提取模块的方法进行语音增强和特征提取后,输入训练好的模型得到待识别说话人特征,根据待识别说话人特征与已保存的说话人特征的相似度,对待识别说话人的身份进行识别。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供的一种基于语音增强的说话人识别方法,使用端到端的语音增强方法,去除语音中的噪声和无关说话人声音,而且在声纹识别过程中使用了更加具有噪声鲁棒性的GFCC特征,并将MFCC特征和GFCC特征进行融合得到语音的声学特征,可以提高噪声鲁棒性,再基于卷积神经网络构建说话人识别模型,利用训练数据对模型进行训练,收集注册语音样本,提取每个注册说话人的说话人特征,并将其进行保存,根据待识别说话人特征与已保存的说话人特征的相似度,对待识别说话人的身份进行识别。解决了现有技术中由于语音中包含的噪声而导致声纹识别效果不佳的问题,提高声纹识别的识别准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施提供的一种基于语音增强的说话人识别方法的流程图;
图2为本发明实施中语音特征MFCC提取流程图;
图3为本发明实施中语音特征GFCC的提取流程图;
图4为本发明实施提供的一种基于语音增强的说话人识别***的框图。
具体实施方式
本发明的目的在于,提供一种基于语音增强的说话人识别方法,解决了现有技术中待识别语音中包含噪声,无法进行准确特征提取而导致的识别效果不佳的问题。
本发明的主要构思如下:
首先采集大量的原始语音数据,然后对原始语音数据中包含的干扰噪声和无关说话人声音进行去除,得到增强后的语音数据;接着从增强后的语音数据中提取MFCC特征和基于Gammatone滤波器的倒谱系数GFCC特征,将MFCC特征和GFCC特征进行融合得到语音的声学特征;然后基于卷积神经网络构建说话人识别模型,将从大量的原始语音数据中提取的声学特征作为训练数据,对说话人识别模型进行训练,得到训练好的模型;收集注册语音样本,采用S2和S3 的方法进行语音增强和特征提取后,输入训练好的模型得到每个注册语音样本的深度特征,作为每个说话人的说话人特征,并将其进行保存;再获取待识别说话人的语音数据,采用S2和S3的方法进行语音增强和特征提取后,输入训练好的模型得到待识别说话人特征,根据待识别说话人特征与已保存的说话人特征的相似度,对待识别说话人的身份进行识别。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种基于语音增强的说话人识别方法,包括:
S1:采集大量的原始语音数据;
S2:对原始语音数据中包含的干扰噪声和无关说话人声音进行去除,得到增强后的语音数据;
S3:从增强后的语音数据中提取MFCC特征和基于Gammatone滤波器的倒谱系数GFCC特征,将MFCC特征和GFCC特征进行融合得到语音的声学特征;
S4:基于卷积神经网络构建说话人识别模型,将从大量的原始语音数据中提取的声学特征作为训练数据,对说话人识别模型进行训练,得到训练好的模型;
S5:收集注册语音样本,采用S2和S3的方法进行语音增强和特征提取后,输入训练好的模型得到每个注册语音样本的深度特征,作为每个说话人的说话人特征,并将每个说话人的说话人特征进行保存;获取待识别说话人的语音数据,采用S2和S3的方法进行语音增强和特征提取后,输入训练好的模型得到待识别说话人特征,根据待识别说话人特征与已保存的说话人特征的相似度,对待识别说话人的身份进行识别。
具体来说,说话人识别模型训练模块中,网络模型使用卷积神经网络,分类器使用softmax,训练好的模型为离线模型。注册语音数据中包括多个说话人,每个说话人包括h个语音样本。
请参见图1,为本发明实施提供的一种基于语音增强的说话人识别方法的流程图。
在一种实施方式中,步骤S1采用录音的方式进行原始语音数据的采集。
在一种实施方式中,步骤S2采用生成对抗网络对原始语音数据中包含的干扰噪声和无关说话人声音进行去除,实现端到端的语音增强。
生成对抗网络是一个编码器-解码器的完全卷积结构,用以去除语音中的噪声生成干净的语音波形;对抗网络在纯净语音波形和噪声语音波形基础上设定一个阈值,用于判断生成的语音波形是否纯净,当生成的语音波形和噪声语音波形的值达到该阈值时,则说明生成的语音波形已足够纯净。
本发明在生成对抗框架内实现一种端到端语音增强方法去除语音中的干扰噪声和无关说话人声音。
具体实施过程中,将纯净语音和生活中常见噪声以随机信噪比进行混合,得到与纯净语音相对应的噪声语音,然后使用纯净语音数据集和对应的噪声语音数据集训练得到一个实现端到端语音增强的生成对抗网络。
下面以训练一个包含1000个纯净语音的数据集的模型为例具体说明语音模型训练过程。
将纯净语音集和生活噪声数据集以随机信噪比(一般在-10dB至10dB之间) 进行混合,得到与纯净语音集相对应的噪声语音集。将噪声语音通过生成网络得到生成的纯净语音,然后将生成的纯净语音和真实的纯净语音通过判别网络判断生成的纯净语音是否是真实的纯净语音:如果得到的是生成的纯净语音,辨别器应该输出0,如果是真实的纯净语音应该输出1。然后通过损失函数得到误差梯度反向传播来更新参数,直到判别器无法准确判断生成的纯净语音和真实的纯净语音时,生成网络即为已经训练好的语音增强网络。直观上来说就是:判别器不得不告诉生成器如何调整从而使它生成的纯净语音变得更加真实。
在一种实施方式中,步骤S3包括:
S3.1:对增强后的语音数据进行语音活动端点检测和消除长时间的静音段;
S3.2:对步骤S3.1得到的语音进行预处理;
S3.3:对预处理后的语音进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱;
S3.4:将快速傅里叶变换得到的功率谱通过一组梅尔尺度的三角滤波器,得到每一帧数据在三角滤波器对应频段的能量值;
S3.5:对每一帧数据在三角滤波器对应频段的能量值取对数,计算算每个滤波器组输出的对数能量;
S3.6:将对数能量代入离散余弦变换,求出L阶的梅尔倒谱系数;
S3.7:将快速傅里叶变换得到的功率谱,通过Gammatone滤波器,再进行指数压缩和离散余弦变换得到语音信号的GFCC特征;
S3.8:将语音信号的MFCC特征和GFCC特征进行级联,得到语音信号的声学特征。
具体实施过程中,预处理包括预加重、分帧和加窗。特征提取的具体步骤如下:
S301:对增强后的语音音进行语音活动端点检测(VAD),消除长时间的静音期;
S302:将语音信号通过一个高通滤波器进行预加重:H(z)=1-μz-1,H(z) 为高通滤波器;μ预加重系数,通常取0.97;z为语音信号。
S303:语音信号的采样频率为16KHz,先将512个采样点集合成一帧,对应的时间长度是512/16000×1000=32ms。让两相邻帧之间有一段重叠区域,此重叠区域包含256个取样点,为采样点512的1/2。
S304:假设分帧后的信号为s(n),n=0,1,...,N-1,N为总帧数,将每一帧乘以汉明窗:
x(n)=s(n)×W(n),W(n)为汉明窗;N为总帧数;n=0,1,...,N-1。
S305:对分帧加窗后的各帧信号x(n)进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱。语音信号的离散傅里叶变换(语音信号以离散的形式存储)为:
x(n)为输入的语音信号,T表示傅里叶变换的点数。
S306:将快速傅里叶变换得到的功率谱|X(k)|2通过一组梅尔尺度的三角滤波器Hm(k),0≤m≤M,M为滤波器的个数:将功率谱分别跟每一个滤波器进行频率相乘累加,得到的值即为该帧数据在在该滤波器对应频段的能量值
S307:对能量值取log,计算每个滤波器组输出的对数能量为:
T表示傅里叶变换的点数;M为滤波器的个数;|X(k)|2为S4得到的功率谱;Hm(k),0≤m≤M为一组梅尔尺度的三角滤波器。
S308:将S307的对数能量代入离散余弦变换,求出L阶的梅尔倒谱系数 MFCC:
L指MFCC系数阶数,通常取12-16;M是三角滤波器个数,0≤m≤M。
S309:将快速傅里叶变换得到的功率谱,通过Gammatone滤波器,再进行指数压缩和离散余弦变换DCT得到语音信号的GFCC特征。
S310:将语音信号的MFCC特征和GFCC特征进行级联,得到语音信号的 GMCC特征。
其中,图2和图3分别为本发明实施中语音特征MFCC提取流程图和语音特征GFCC的提取流程图。
在一种实施方式中,步骤S4包括:
将收集的大量的原始语音数据通过语音增强,然后从中提取声学特征作为训练数据,输入到说话人识别模型进行训练,得到训练好的模型。
具体来说,训练模型为离线过程,说话人识别模型的训练:
采用录音的方式收集训练样本;将收集到的语音样本通过语音预处理模块(语音增强模块和语音特征提取模块)得到语音的GMCC特征;将GMCC特征作为模型的输入,采用卷积神经网络结构和softmax分类训练说话人识别模型。
下面以训练一个包含1000个说话人的模型为例具体说明说话人识别模型训练过程。
采集每个说话人的样本,每人采集100个样本;将所有的语音样本通过语音预处理模块(语音增强模块和语音特征提取模块)得到语音的GMCC特征作为卷积神经网络(说话人识别模型)的训练数据,其中,将所有训练数据随机分为 5:1,分别作为训练集和验证集;使用训练集训练卷积网络,当训练过的卷积网络在验证集上的识别精度基本保持不变时,卷积网络训练完成;否则继续训练。该训练完成的卷积网络即为说话人识别离线模型。
在一种实施方式中,步骤S5中注册数据包括每个说话人的h个语音样本,根据待识别说话人特征与已注册的说话人特征的相似度,对待识别说话人的身份进行识别,包括:
将注册数据中的每个语音样本进行语音增强和特征提取后,将得到的声学特征通过说话人识别模型的卷积神经网络提取每个语音样本的深度特征;
将每个说话人的h个深度特征取平均,作为每个说话人的说话人特征,保存在数据库中;
将待识别说话人的语音数据通过语音增强和特征提取后,输入训练好的模型得到待识别说话人特征;
计算待识别说话人特征和数据库中保存的所有说话人特征的余弦相似度 cos,如果最大的余弦相似度大于设定阈值,则该余弦相似度对应的数据库中的说话人即为识别到的说话人身份,否则拒绝。
注册模式:
采用录音的方式收集注册样本;将收集到的注册样本通过语音预处理模块得到语音的GMCC特征;将语音的GMCC特征通过说话人识别离线模型提取每个语音样本的DeepFeature(深度特征);生成注册数据(即每个说话人的说话人特征),存放在数据库中。
例如,采集10个说话人的样本(每人20个语音样本);语音预处理模块处理所有语音样本,得到语音的GMCC特征;将语音的GMCC特征通过说话人识别离线模型得到200个语音样本的Deep Feature;然后将每个说话人的20个Deep Feature取平均,作为每个说话人特征;将10个说话人特征保存在数据库中: speaker0,speaker1,......,speaker9。
识别模式:
采用录音的方式收集待识别样本;将待识别样本通过语音预处理模块得到 GMCC特征;将GMCC特征通过说话人识别离线模型得到待识别样本的Deep Feature,作为待识别说话人特征;计算待识别说话人特征和数据库中的所有说话人特征的余弦相似度cos,如果最大的余弦相似度大于某个阈值,则该余弦相似度对应的数据库中的说话人即为识别到的说话人;否则拒绝。
举例来说,采集此说话人的语音数据一条;通过语音预处理模块得到GMCC 特征;将GMCC特征通过说话人识别离线模型得到该语音数据的Deep Feature,作为此说话人特征;将此说话人特征和数据库中保存的10个说话人特征计算余弦相似度得到cos0,cos1,...,cos9,找到这10个余弦相似度中的最大值cos_max和对应说话人的编号speaker_x,如果这个最大值大于设定阈值,则接受此说话人为speaker_x,否则识别为未注册说话人。
综上所述,本发明通过语音采集、语音增强、语音特征提取、说话人模型训练、说话人注册、说话人识别实现了一种基于语音增强的说话人识别方法。
相对于现有技术,本发明的有益效果是:
本发明提出的一种基于语音增强的说话人识别方法及***,使用端到端的语音增强方法,去除语音中的噪声和无关说话人声音,而且在声纹识别过程中使用了更加具有噪声鲁棒性的GFCC特征,提高了整个***的噪声鲁棒性,可以解决由于语音中包含的噪声而导致声纹识别效果不佳的问题,提高声纹识别***的识别准确率。
实施例二
基于同样的发明构思,本实施例提供了一种基于语音增强的说话人识别***,请参见图4,该***包括:
语音采集模块201,用于采集大量的原始语音数据;
语音增强模块202,用于对原始语音数据中包含的干扰噪声和无关说话人声音进行去除,得到增强后的语音数据;
语音特征提取模块203,用于从增强后的语音数据中提取MFCC特征和基于Gammatone滤波器的倒谱系数GFCC特征,将MFCC特征和GFCC特征进行融合得到语音的声学特征;
模型训练模块204,用于基于卷积神经网络构建说话人识别模型,将从大量的原始语音数据中提取的声学特征作为训练数据,对说话人识别模型进行训练,得到训练好的模型;
说话人识别模块205,用于注册说话人和识别说话人,收集注册语音样本,采用语音增强模块和语音特征提取模块的方法进行语音增强和特征提取后,输入训练好的模型得到每个注册语音样本的深度特征,作为每个说话人的说话人特征,并将其进行保存;获取待识别说话人的语音数据,采用语音增强模块和语音特征提取模块的方法进行语音增强和特征提取后,输入训练好的模型得到待识别说话人特征,根据待识别说话人特征与已保存的说话人特征的相似度,对待识别说话人的身份进行识别。
由于本发明实施例二所介绍的***,为实施本发明实施例一种基于语音增强的说话人识别方法所采用的***,故而基于本发明实施例一所介绍的方法,本领域所属技术人员能够了解该***的具体结构及变形,故而在此不再赘述。凡是本发明实施例一的方法所采用的***都属于本发明所欲保护的范围。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种基于语音增强的说话人识别方法,其特征在于,包括:
S1:采集大量的原始语音数据;
S2:对原始语音数据中包含的干扰噪声和无关说话人声音进行去除,得到增强后的语音数据;
S3:从增强后的语音数据中提取MFCC特征和基于Gammatone滤波器的倒谱系数GFCC特征,将MFCC特征和GFCC特征进行融合得到语音的声学特征;
S4:基于卷积神经网络构建说话人识别模型,将从大量的原始语音数据中提取的声学特征作为训练数据,对说话人识别模型进行训练,得到训练好的模型;
S5:收集注册语音样本,采用S2和S3的方法进行语音增强和特征提取后,输入训练好的模型得到每个注册语音样本的深度特征,作为每个说话人的说话人特征,并将其进行保存;获取待识别说话人的语音数据,采用S2和S3的方法进行语音增强和特征提取后,输入训练好的模型得到待识别说话人特征,根据待识别说话人特征与已保存的说话人特征的相似度,对待识别说话人的身份进行识别;
其中,步骤S2采用生成对抗网络对原始语音数据中包含的干扰噪声和无关说话人声音进行去除,实现端到端的语音增强;其中,生成对抗网络的获取方式为:将纯净语音和生活中常见噪声以随机信噪比进行混合,得到与纯净语音相对应的噪声语音,然后使用纯净语音数据集和对应的噪声语音数据集训练得到;
步骤S3包括:
S3.1:对增强后的语音数据进行语音活动端点检测,消除长时间的静音段;
S3.2:对步骤S3.1得到的语音进行预处理;
S3.3:对预处理后的语音进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱;
S3.4:将快速傅里叶变换得到的功率谱通过一组梅尔尺度的三角滤波器,得到每一帧数据在三角滤波器对应频段的能量值;
S3.5:对每一帧数据在三角滤波器对应频段的能量值取对数,计算每个滤波器组输出的对数能量;
S3.6:将对数能量代入离散余弦变换,求出L阶的梅尔倒谱系数;
S3.7:将快速傅里叶变换得到的功率谱,通过Gammatone滤波器,再进行指数压缩和离散余弦变换得到语音信号的GFCC特征;
S3.8:将语音信号的MFCC特征和GFCC特征进行级联,得到语音信号的声学特征。
2.如权利要求1所述的说话人识别方法,其特征在于,步骤S1采用录音的方式进行原始语音数据的采集。
3.如权利要求1所述的说话人识别方法,其特征在于,步骤S4包括:
将大量的原始语音数据通过语音增强,然后从中提取声学特征作为训练数据,输入到说话人识别模型进行训练,得到训练好的模型。
4.如权利要求1所述的说话人识别方法,其特征在于,注册数据包括每个说话人的h个语音样本,根据待识别说话人特征与已注册的说话人特征的相似度,对待识别说话人的身份进行识别,步骤S5包括:
将注册数据中的每个语音样本进行语音增强和特征提取后,将得到的声学特征通过说话人识别模型的卷积神经网络提取每个语音样本的深度特征;
将每个说话人的h个深度特征取平均,作为每个说话人的说话人特征,保存在数据库中;
将待识别说话人的语音数据通过语音增强和特征提取后,输入训练好的模型得到待识别说话人特征;
计算待识别说话人特征和数据库中保存的所有说话人特征的余弦相似度cos,如果最大的余弦相似度大于设定阈值,则该余弦相似度对应的数据库中的说话人即为识别到的说话人身份,否则拒绝。
5.一种基于语音增强的说话人识别***,其特征在于,包括:
语音采集模块,用于采集大量的原始语音数据;
语音增强模块,用于对原始语音数据中包含的干扰噪声和无关说话人声音进行去除,得到增强后的语音数据;
语音特征提取模块,用于从增强后的语音数据中提取MFCC特征和基于Gammatone滤波器的倒谱系数GFCC特征,将MFCC特征和GFCC特征进行融合得到语音的声学特征;
模型训练模块,用于基于卷积神经网络构建说话人识别模型,将从大量的原始语音数据中提取的声学特征作为训练数据,对说话人识别模型进行训练,得到训练好的模型;
说话人识别模块,收集注册语音样本,采用语音增强模块和语音特征提取模块的方法进行语音增强和特征提取后,输入训练好的模型得到每个注册语音样本的深度特征,作为每个说话人的说话人特征,并将其进行保存;获取待识别说话人的语音数据,采用语音增强模块和语音特征提取模块的方法进行语音增强和特征提取后,输入训练好的模型得到待识别说话人特征,根据待识别说话人特征与已保存的说话人特征的相似度,对待识别说话人的身份进行识别;
其中,语音增强模块采用生成对抗网络对原始语音数据中包含的干扰噪声和无关说话人声音进行去除,实现端到端的语音增强,其中,生成对抗网络的获取方式为:将纯净语音和生活中常见噪声以随机信噪比进行混合,得到与纯净语音相对应的噪声语音,然后使用纯净语音数据集和对应的噪声语音数据集训练得到;
语音特征提取模块具体用于执行下述步骤:
S3.1:对增强后的语音数据进行语音活动端点检测,消除长时间的静音段;
S3.2:对步骤S3.1得到的语音进行预处理;
S3.3:对预处理后的语音进行快速傅里叶变换得到各帧的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱;
S3.4:将快速傅里叶变换得到的功率谱通过一组梅尔尺度的三角滤波器,得到每一帧数据在三角滤波器对应频段的能量值;
S3.5:对每一帧数据在三角滤波器对应频段的能量值取对数,计算每个滤波器组输出的对数能量;
S3.6:将对数能量代入离散余弦变换,求出L阶的梅尔倒谱系数;
S3.7:将快速傅里叶变换得到的功率谱,通过Gammatone滤波器,再进行指数压缩和离散余弦变换得到语音信号的GFCC特征;
S3.8:将语音信号的MFCC特征和GFCC特征进行级联,得到语音信号的声学特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111140239.5A CN113823293B (zh) | 2021-09-28 | 2021-09-28 | 一种基于语音增强的说话人识别方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111140239.5A CN113823293B (zh) | 2021-09-28 | 2021-09-28 | 一种基于语音增强的说话人识别方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113823293A CN113823293A (zh) | 2021-12-21 |
CN113823293B true CN113823293B (zh) | 2024-04-26 |
Family
ID=78921390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111140239.5A Active CN113823293B (zh) | 2021-09-28 | 2021-09-28 | 一种基于语音增强的说话人识别方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113823293B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116978358A (zh) * | 2022-10-21 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置、设备和介质 |
CN115631743B (zh) * | 2022-12-07 | 2023-03-21 | 中诚华隆计算机技术有限公司 | 一种基于语音芯片的高精度语音识别方法及*** |
CN116434759B (zh) * | 2023-04-11 | 2024-03-01 | 兰州交通大学 | 一种基于srs-cl网络的说话人识别方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102568472A (zh) * | 2010-12-15 | 2012-07-11 | 盛乐信息技术(上海)有限公司 | 说话人可选的语音合成***及其实现方法 |
CN104157290A (zh) * | 2014-08-19 | 2014-11-19 | 大连理工大学 | 一种基于深度学习的说话人识别方法 |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN107464568A (zh) * | 2017-09-25 | 2017-12-12 | 四川长虹电器股份有限公司 | 基于三维卷积神经网络文本无关的说话人识别方法及*** |
CA3179080A1 (en) * | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
CN109147810A (zh) * | 2018-09-30 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 建立语音增强网络的方法、装置、设备和计算机存储介质 |
CN109326302A (zh) * | 2018-11-14 | 2019-02-12 | 桂林电子科技大学 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
CN109410974A (zh) * | 2018-10-23 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 语音增强方法、装置、设备及存储介质 |
CN109524020A (zh) * | 2018-11-20 | 2019-03-26 | 上海海事大学 | 一种语音增强处理方法 |
CN109712628A (zh) * | 2019-03-15 | 2019-05-03 | 哈尔滨理工大学 | 一种基于rnn的语音降噪方法及语音识别方法 |
CN110299142A (zh) * | 2018-05-14 | 2019-10-01 | 桂林远望智能通信科技有限公司 | 一种基于网络融合的声纹识别方法及装置 |
CN110428849A (zh) * | 2019-07-30 | 2019-11-08 | 珠海亿智电子科技有限公司 | 一种基于生成对抗网络的语音增强方法 |
CN111785285A (zh) * | 2020-05-22 | 2020-10-16 | 南京邮电大学 | 面向家居多特征参数融合的声纹识别方法 |
KR20210036692A (ko) * | 2019-09-26 | 2021-04-05 | 국방과학연구소 | 적대적 학습(adversarial training) 모델을 이용한 강인한 음성 향상 훈련 방법 및 그 장치 |
CN112820301A (zh) * | 2021-03-15 | 2021-05-18 | 中国科学院声学研究所 | 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10714122B2 (en) * | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
-
2021
- 2021-09-28 CN CN202111140239.5A patent/CN113823293B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102568472A (zh) * | 2010-12-15 | 2012-07-11 | 盛乐信息技术(上海)有限公司 | 说话人可选的语音合成***及其实现方法 |
CN104157290A (zh) * | 2014-08-19 | 2014-11-19 | 大连理工大学 | 一种基于深度学习的说话人识别方法 |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CA3179080A1 (en) * | 2016-09-19 | 2018-03-22 | Pindrop Security, Inc. | Channel-compensated low-level features for speaker recognition |
CN107464568A (zh) * | 2017-09-25 | 2017-12-12 | 四川长虹电器股份有限公司 | 基于三维卷积神经网络文本无关的说话人识别方法及*** |
CN110299142A (zh) * | 2018-05-14 | 2019-10-01 | 桂林远望智能通信科技有限公司 | 一种基于网络融合的声纹识别方法及装置 |
CN109147810A (zh) * | 2018-09-30 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 建立语音增强网络的方法、装置、设备和计算机存储介质 |
CN109410974A (zh) * | 2018-10-23 | 2019-03-01 | 百度在线网络技术(北京)有限公司 | 语音增强方法、装置、设备及存储介质 |
CN109326302A (zh) * | 2018-11-14 | 2019-02-12 | 桂林电子科技大学 | 一种基于声纹比对和生成对抗网络的语音增强方法 |
CN109524020A (zh) * | 2018-11-20 | 2019-03-26 | 上海海事大学 | 一种语音增强处理方法 |
CN109712628A (zh) * | 2019-03-15 | 2019-05-03 | 哈尔滨理工大学 | 一种基于rnn的语音降噪方法及语音识别方法 |
CN110428849A (zh) * | 2019-07-30 | 2019-11-08 | 珠海亿智电子科技有限公司 | 一种基于生成对抗网络的语音增强方法 |
KR20210036692A (ko) * | 2019-09-26 | 2021-04-05 | 국방과학연구소 | 적대적 학습(adversarial training) 모델을 이용한 강인한 음성 향상 훈련 방법 및 그 장치 |
CN111785285A (zh) * | 2020-05-22 | 2020-10-16 | 南京邮电大学 | 面向家居多特征参数融合的声纹识别方法 |
CN112820301A (zh) * | 2021-03-15 | 2021-05-18 | 中国科学院声学研究所 | 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法 |
Non-Patent Citations (5)
Title |
---|
一种基于卷积神经网络的快速说话人识别方法;蔡倩等;《无线电工程》;第50卷(第6期);第447-451页 * |
单声道语音降噪与去混响研究综述;蓝天;彭川;李森;叶文政;李萌;惠国强;吕忆蓝;钱宇欣;刘峤;;计算机研究与发展(第05期);全文 * |
双微阵列语音增强算法在说话人识别中的应用;毛维;曾庆宁;龙超;;声学技术;20180615(第03期);全文 * |
基于神经网络的说话人识别实验设计;杨瑶;陈晓;;实验室研究与探索(第09期);全文 * |
基于端点检测和高斯滤波器组的MFCC说话人识别;王萌;王福龙;;计算机***应用;20161015(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113823293A (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108597496B (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
CN113823293B (zh) | 一种基于语音增强的说话人识别方法及*** | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
Wang et al. | Channel pattern noise based playback attack detection algorithm for speaker recognition | |
WO2020181824A1 (zh) | 声纹识别方法、装置、设备以及计算机可读存储介质 | |
US8731936B2 (en) | Energy-efficient unobtrusive identification of a speaker | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN101923855A (zh) | 文本无关的声纹识别*** | |
CN103065629A (zh) | 一种仿人机器人的语音识别*** | |
CN110767239A (zh) | 一种基于深度学习的声纹识别方法、装置及设备 | |
CN108564956B (zh) | 一种声纹识别方法和装置、服务器、存储介质 | |
CN112382300A (zh) | 声纹鉴定方法、模型训练方法、装置、设备及存储介质 | |
CN110570870A (zh) | 一种文本无关的声纹识别方法、装置及设备 | |
Nandyal et al. | MFCC based text-dependent speaker identification using BPNN | |
CN110570871A (zh) | 一种基于TristouNet的声纹识别方法、装置及设备 | |
Chakroun et al. | Efficient text-independent speaker recognition with short utterances in both clean and uncontrolled environments | |
Al-Karawi et al. | Using combined features to improve speaker verification in the face of limited reverberant data | |
Neelima et al. | Mimicry voice detection using convolutional neural networks | |
Maazouzi et al. | MFCC and similarity measurements for speaker identification systems | |
CN111524520A (zh) | 一种基于误差逆向传播神经网络的声纹识别方法 | |
Kaminski et al. | Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models | |
Sukor et al. | Speaker identification system using MFCC procedure and noise reduction method | |
Nagakrishnan et al. | Generic speech based person authentication system with genuine and spoofed utterances: different feature sets and models | |
Khetri et al. | Automatic speech recognition for marathi isolated words | |
Islam et al. | A Novel Approach for Text-Independent Speaker Identification Using Artificial Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |