CN112951245A - 一种融入静态分量的动态声纹特征提取方法 - Google Patents
一种融入静态分量的动态声纹特征提取方法 Download PDFInfo
- Publication number
- CN112951245A CN112951245A CN202110257723.XA CN202110257723A CN112951245A CN 112951245 A CN112951245 A CN 112951245A CN 202110257723 A CN202110257723 A CN 202110257723A CN 112951245 A CN112951245 A CN 112951245A
- Authority
- CN
- China
- Prior art keywords
- voice data
- target voice
- dynamic
- mfcc
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003068 static effect Effects 0.000 title claims abstract description 38
- 238000000605 extraction Methods 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 description 10
- 239000000203 mixture Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种融入静态分量的动态声纹特征提取方法,方法包括对目标语音数据进行预处理,获取预处理后的目标语音数据,使用傅里叶变换和Mel滤波器组对预处理后的目标语音进行处理,获取目标语音数据的MFCC系数;将目标语音数据的MFCC系数带入融入静态分量的动态声纹特征提取模型中,获取目标语音数据的MFCC动态特征差分参数矩阵,将该矩阵定义为目标语音数据的动态声纹特征;本发明提供的方法在对语音数据进行声纹特征提取时,能保证声音连续性,并降低平均等错误率,提高识别率。
Description
技术领域
本发明涉及人工智能声纹识别技术领域,具体涉及一种融入静态分量的动态声纹特征提取方法。
背景技术
目前,智能家居越来越广泛地应用到我们的生活和工作中,智能家居采用无线通信、图像处理、语音处理等技术,基于语音交互的智能家居***使用更为便捷、信息采集空间更为广泛,用户体验更为友好。
声纹识别在近年来已经取得了长足发展,在某些场合中,识别率也满足了人们对安全性的基本需求,且由于其具有经济性,便捷性等优势,应用前景十分广泛。如何能够尽可能地抑制外部噪声,从采集到的信号中提取尽可能纯净的语音特征,是各种语音处理技术走向实用化的前提。
在人们生活品质飞速提高的今天,社会大众对智能家居***的要求也不再仅仅局限于使其执行标准的、普通的控制功能,而是希望整体家居的智能化、便捷性、安全性以及舒适性都能够有更高的提升。为智能家居***添加声纹识别功能,并采用语音增强来提高***在噪声环境下的稳定性,不但可以进一步地改善智能家居的人机交互体验,提高用户对智能家居的使用效率;还可以为智能家居的控制与操作设定等级制度,针对不同权限等级的用户提供差异化的服务功能,使得***整体安全性、实用性得到进一步提高。而这样的***在未来的市场中必然有着强劲的冲击力,尤其在目前智能家居市场发展较为缓慢的大背景下,其一定会发挥越来越重要的作用,对大众的生活产生深远的影响,但现有技术中的语音识别或者说语音特征提取方法存在平均等错误率高且识别率低的问题。
为此,为了进一步降低平均等错误率、提高识别率,本发明提出了一种融入静态分量的动态声纹特征提取方法。
发明内容
本发明的目的:提供一种平均等错误率低、识别率高的动态声纹特征提取方法。
技术方案:本发明提供的融入静态分量的动态声纹特征提取方法,用于对目标语音数据进行声纹特征提取,其特征在于,方法包括如下步骤:
步骤1:对目标语音数据进行预处理,获取预处理后的目标语音数据;
步骤2:使用傅里叶变换和Mel滤波器组对预处理后的目标语音进行处理,获取目标语音数据的MFCC系数;
步骤3:将目标语音数据的MFCC系数带入融入静态分量的动态声纹特征提取模型中,获取目标语音数据的MFCC动态特征差分参数矩阵,将该矩阵定义为目标语音数据的动态声纹特征。
作为本发明的一种优选方案,在步骤1中,对目标语音数据进行预处理的方法包括:将目标语音数据分为T帧,获取多帧语音数据;
在步骤2中,使用傅里叶变换和Mel滤波器组对预处理的目标语音进行处理的方法包括如下步骤:
使用傅里叶变换分别对每帧语音数据进行处理,获取各帧语音数据的频谱;
将各帧语音数据的频谱输入Mel滤波器组中,获取各帧语音数据的MFCC系数,即目标语音数据的MFCC系数。
作为本发明的一种优选方案,在步骤3中,所述融入静态分量的动态声纹特征提取模型为:
其中,d(l,t)为第t帧语音数据的第l阶动态声纹特征提取结果,d(l,t)构成目标语音数据的MFCC动态特征差分参数矩阵中第l阶的第t个元素,C(l,t)为MFCC系数中第l阶的第t个参数,C(l,t+1)为MFCC系数中第l阶的第t+1个参数,C(l,t+k)为第l阶的第t+k个参数,C(l,t-k)为MFCC系数中为第l阶的第t-k个参数,k为对第t帧语音数据进行傅里叶变换后的频率序数,K为对第t帧语音数据进行傅里叶变换时的预设总步长。
作为本发明的一种优选方案,根据如下公式:
获取MFCC系数中第t帧语音数据的第l阶特征系数C(l,t);
其中,L为MFCC系数的阶数,m为Mel滤波器组的序号,S(m)为第m个Mel滤波器组输出的对数能量。
作为本发明的一种优选方案,根据如下公式:
获取第m个Mel滤波器组输出的对数能量S(m);
其中,M表示滤波器组的总个数,N表示第t帧语音数据的数据长度,X(k)表示与第k个频率所对应的功率,Hm(k)表示与第k个频率所对应第m个Mel滤波器组的传递函数。
有益效果:相对于现有技术,本发明提供的融入静态分量的动态声纹特征提取方法,基于融入静态分量的动态声纹特征提取模型进行声纹特征的提取,在保证声音连续性的同时,达到了降低平均等错误率、提高识别率的目的。
附图说明
图1是根据本发明实施例提供的动态声纹特征提取方法流程图;
图2是根据本发明实施例提供的等错误率随动态特征和静态特征比值变化的示意图;
图3是根据本发明实施例提供的等错误率随静态特征系数变化的示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
参照图1,本发明提供的融入静态分量的动态声纹特征提取方法包括如下步骤:
步骤1:对目标语音数据进行预处理,获取预处理后的目标语音数据。
对目标语音数据进行预处理的方法包括:将目标语音数据分为T帧,获取多帧语音数据;
步骤2:使用傅里叶变换和Mel滤波器组对预处理后的目标语音进行处理,获取目标语音数据的MFCC系数。
使用傅里叶变换和Mel滤波器组对预处理的目标语音进行处理的方法包括如下步骤:
使用傅里叶变换分别对每帧语音数据进行处理,获取各帧语音数据的频谱;
将各帧语音数据的频谱输入Mel滤波器组中,获取各帧语音数据的MFCC系数,即目标语音数据的MFCC系数。
步骤1和步骤2的方法具体包括如下步骤:
梅尔频率倒谱系数(MFCC)的提取是在已经进行过语音预处理的数据上进行的,通过对数据进行傅立叶变换、梅尔(Mel)滤波器滤波等运算得到所需的特征系数。
(1)将语音预处理后的每帧数据进行傅立叶变换,得到对应频谱并且获取每一帧的功率谱|X(j)|2,X(j)计算公式如下:
其中,N为每帧的长度,J为快速傅里叶变换长度,即总帧数,j为1~J的取值,表示第j帧,x(n)为第n帧中的语音数据。
(2)设计Mel滤波器组,通过配置的Mel滤波器组对信号的功率谱进行滤波。进行对数运算,将频率尺度转换为Mel频率。滤波器组中第m个滤波器的中心频率f(m)满足下列公式:
Mel(f(m+1))-Mel(f(m))=Mel(f(m))-Mel(f(m-1))
其中,m为滤波器组中滤波器的序号,Mel(f(m))是将频率f(m)转换为Mel频率的运算。
Mel滤波器组中的每个带通滤波器的传递函数Hm(f):
其中,f为频率。
语音数据经过Mel滤波器处理之后,求取每个滤波器组输出的对数能量S(m):
其中,m为滤波器组滤波器的序号,M为滤波器组中滤波器的总个数,一般取22~26,本发明取M=24。|X(k)|2表示第k帧的功率谱,Hm(f)表示滤波器组中第m个滤波器频率为f的传递函数。
(3)将每一帧的对数Mel功率谱进行离散余弦变换对其能量进行去相关操作,消除各维信号之间的相关性,将信号映射到低维空间,得到对应的MFCC系数C(l):
其中,L为MFCC系数总阶数,通常取12至18,本发明取L=15;l为1~L的取值,表示MFCC系数第l阶。
步骤3:将目标语音数据的MFCC系数带入融入静态分量的动态声纹特征提取模型中,获取目标语音数据的MFCC动态特征差分参数矩阵,将该矩阵定义为目标语音数据的动态声纹特征。
在步骤3中,根据如下方法构建融入静态分量的动态声纹特征提取模型:
动态特征提取实质是为MFCC系数差分方式,即在计算第t帧的MFCC系数差分参数时,使用第t-1帧与第t+1帧参数进行减采样。因此,经典动态特征提取公式如下:
其中,J表示快速傅里叶变换长度,常取1或者2,代表一阶MFCC系数差分参数和二阶MFCC系数差分参数,j为J的取值(1≤j≤J);l为梅尔倒谱系数阶数,t为帧序号,T为一段音频的总帧数,C(l,t)为语音信号的梅尔倒谱系数矩阵第l阶第t个参数,d(l,t)为MFCC动态特征参数。
将本发明提出的新的动态声纹特征征梅尔频率倒谱系数公式:
根据如下方法确定和α和δ值:
假设α=1,通过实验确定动态系数与静态系数的比值δ的最优值。
设定实验中的高斯元件个数为64,在TIMIT语料库中选择100人(其中女性50人,男性50人)的语音数据,作为此次实验的实验语音数据。选取其中60人的语音数据作为UBM模型训练的训练数据,将每个人的10段语音组合成10秒的语音进行UBM模型训练。得到UBM模型的模型参数后进行保存,再将剩下的40人中每人的5段语音组合成10秒的语音数据来训练每个特定说话人的GMM模型并且保存所得到的模型参数。最后40人的剩下的语音数据循环组成10段5秒的语音数据对***进行匹配测试。在一次完整测试过程包括400次的说话人接受测试实验和15600次说话人拒绝测试实验,并且得到等错误率作为一次实验的输出结果。
对于语音数据得到的声纹特征,每段测试语音产生数帧语音段,设定的MFCC阶数是15阶,从而一帧语音数据能够产生15个MFCC系数,经过计算之后又会生成15个动态特征系数,组合之后每帧语音段产生30个MFCC系数。实验中采样频率是16KHz,帧移为帧长的1/2。
假设α=1,通过实验确定动态系数与静态系数的比值δ的最优值。
根据实验条件,δ取5个不同的值,分别进行5次实验,得到平均等错误率数据如表1所示:
表1
根据表1所示的数据,就可得到不同动态特征与静态特征比值δ与平均等错误率曲线如图1所示。
从图2中可以看出,当δ=1时,平均等错误率最低,从而得到动态特征与静态特征比值δ的最优值为1。
据此,可将本发明提出的动态声纹特征征梅尔频率倒谱系数公式变为:
根据实验条件,α取5个不同的值,分别进行5次实验,得到平均等错误率数据如表2所示:
表2
根据表2所示的数据,就可得到不同静态特征系数α与平均等错误率曲线如图3所示。
从图3中可以看出,当α=0.5时,平均等错误率最低,从而得到静态特征系数的最优值为0.5。
据此,可将本发明提出的动态声纹特征征梅尔频率倒谱系数公式变为:
公式(5)表示动态特征参数,即为ΔMFCC,MFCC为静态特征参数,即MFCC=d(l,t),两者各取权重0.5相加,就得到融入静态分量的动态特征提取公式:
整理就得融入静态分量的动态特征提取公式:
即构建的融入静态分量的动态声纹特征提取模型为:
其中,d(l,t)为第t帧语音数据的第l阶动态声纹特征提取结果,d(l,t)构成目标语音数据的MFCC动态特征差分参数矩阵中第l阶的第t个元素,即:d(l,t)为MFCC动态特征差分参数矩阵第l阶第t个参数;C(l,t)为MFCC系数中第l阶的第t个参数,C(l,t+1)为MFCC系数中第l阶的第t+1个参数,C(l,t+k)为第l阶的第t+k个参数,C(l,t-k)为MFCC系数中为第l阶的第t-k个参数,k为对第t帧语音数据进行傅里叶变换后的频率序数,K为对第t帧语音数据进行傅里叶变换时的预设总步长。
且对于构建的融入静态分量的动态声纹特征提取模型,根据如下公式:
获取MFCC系数中第t帧语音数据的第l阶特征系数C(l,t);
其中,L为MFCC系数的阶数,m为Mel滤波器组的序号,S(m)为第m个Mel滤波器组输出的对数能量。
根据如下公式:
获取第m个Mel滤波器组输出的对数能量S(m);
其中,M表示滤波器组的总个数,N表示第t帧语音数据的数据长度,X(k)表示与第k个频率所对应的功率,Hm(k)表示与第k个频率所对应第m个Mel滤波器组的传递函数。
基于上述模型和方法,根据梅尔倒谱系数矩阵、音频时长等参数,可先计算出静态特征参数,进一步计算出融入静态分量的动态特征提参数,供声纹识别。
在声纹识别算法中,常用高斯混合模型和通用背景模型对说话人声纹特征进行模型建立,主要包括高斯混合模型训练语音输入、语音预处理、声纹特征提取、通用背景模型参数输入、高斯混合模型构建以及高斯混合模型参数保存这几部分。通常,在声纹识别算法中,在声纹特征提取这个过程,大多采用经典的动态特征提取算法,本发明对这一过程进行了改进,在计算动态特征提参数时,融入了静态分量,提高了声纹识别算法的性能。
以上所述仅是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (5)
1.一种融入静态分量的动态声纹特征提取方法,用于对目标语音数据进行声纹特征提取,其特征在于,方法包括如下步骤:
步骤1:对目标语音数据进行预处理,获取预处理后的目标语音数据;
步骤2:使用傅里叶变换和Mel滤波器组对预处理后的目标语音进行处理,获取目标语音数据的MFCC系数;
步骤3:将目标语音数据的MFCC系数带入融入静态分量的动态声纹特征提取模型中,获取目标语音数据的MFCC动态特征差分参数矩阵,将该矩阵定义为目标语音数据的动态声纹特征。
2.根据权利要求1所述的融入静态分量的动态声纹特征提取方法,其特征在于,在步骤1中,对目标语音数据进行预处理的方法包括:将目标语音数据分为T帧,获取多帧语音数据;
在步骤2中,使用傅里叶变换和Mel滤波器组对预处理的目标语音进行处理的方法包括如下步骤:
使用傅里叶变换分别对每帧语音数据进行处理,获取各帧语音数据的频谱;
将各帧语音数据的频谱输入Mel滤波器组中,获取各帧语音数据的MFCC系数,即目标语音数据的MFCC系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110257723.XA CN112951245B (zh) | 2021-03-09 | 2021-03-09 | 一种融入静态分量的动态声纹特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110257723.XA CN112951245B (zh) | 2021-03-09 | 2021-03-09 | 一种融入静态分量的动态声纹特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112951245A true CN112951245A (zh) | 2021-06-11 |
CN112951245B CN112951245B (zh) | 2023-06-16 |
Family
ID=76228612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110257723.XA Active CN112951245B (zh) | 2021-03-09 | 2021-03-09 | 一种融入静态分量的动态声纹特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112951245B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689863A (zh) * | 2021-09-24 | 2021-11-23 | 广东电网有限责任公司 | 一种声纹特征提取方法、装置、设备及存储介质 |
CN115762529A (zh) * | 2022-10-17 | 2023-03-07 | 国网青海省电力公司海北供电公司 | 一种利用声音识别感知算法预防电缆外破的方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1246745A (en) * | 1985-03-25 | 1988-12-13 | Melvyn J. Hunt | Man/machine communications system using formant based speech analysis and synthesis |
CA2158847A1 (en) * | 1993-03-25 | 1994-09-29 | Mark Pawlewski | A Method and Apparatus for Speaker Recognition |
KR100779242B1 (ko) * | 2006-09-22 | 2007-11-26 | (주)한국파워보이스 | 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법 |
CN102290048A (zh) * | 2011-09-05 | 2011-12-21 | 南京大学 | 一种基于mfcc远距离差值的鲁棒语音识别方法 |
CN102982803A (zh) * | 2012-12-11 | 2013-03-20 | 华南师范大学 | 基于hrsf及改进dtw算法的孤立词语音识别方法 |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
US20170365259A1 (en) * | 2015-02-05 | 2017-12-21 | Beijing D-Ear Technologies Co., Ltd. | Dynamic password voice based identity authentication system and method having self-learning function |
CN107610708A (zh) * | 2017-06-09 | 2018-01-19 | 平安科技(深圳)有限公司 | 识别声纹的方法及设备 |
CN107993663A (zh) * | 2017-09-11 | 2018-05-04 | 北京航空航天大学 | 一种基于Android的声纹识别方法 |
WO2018107810A1 (zh) * | 2016-12-15 | 2018-06-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、电子设备及介质 |
CN108847244A (zh) * | 2018-08-22 | 2018-11-20 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于mfcc和改进bp神经网络的声纹识别方法及*** |
CN109256138A (zh) * | 2018-08-13 | 2019-01-22 | 平安科技(深圳)有限公司 | 身份验证方法、终端设备及计算机可读存储介质 |
CN110428841A (zh) * | 2019-07-16 | 2019-11-08 | 河海大学 | 一种基于不定长均值的声纹动态特征提取方法 |
US20200135171A1 (en) * | 2017-02-28 | 2020-04-30 | National Institute Of Information And Communications Technology | Training Apparatus, Speech Synthesis System, and Speech Synthesis Method |
CN111489763A (zh) * | 2020-04-13 | 2020-08-04 | 武汉大学 | 一种基于gmm模型的复杂环境下说话人识别自适应方法 |
-
2021
- 2021-03-09 CN CN202110257723.XA patent/CN112951245B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1246745A (en) * | 1985-03-25 | 1988-12-13 | Melvyn J. Hunt | Man/machine communications system using formant based speech analysis and synthesis |
CA2158847A1 (en) * | 1993-03-25 | 1994-09-29 | Mark Pawlewski | A Method and Apparatus for Speaker Recognition |
KR100779242B1 (ko) * | 2006-09-22 | 2007-11-26 | (주)한국파워보이스 | 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법 |
CN102290048A (zh) * | 2011-09-05 | 2011-12-21 | 南京大学 | 一种基于mfcc远距离差值的鲁棒语音识别方法 |
CN102982803A (zh) * | 2012-12-11 | 2013-03-20 | 华南师范大学 | 基于hrsf及改进dtw算法的孤立词语音识别方法 |
US20170365259A1 (en) * | 2015-02-05 | 2017-12-21 | Beijing D-Ear Technologies Co., Ltd. | Dynamic password voice based identity authentication system and method having self-learning function |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
WO2018107810A1 (zh) * | 2016-12-15 | 2018-06-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、电子设备及介质 |
US20200135171A1 (en) * | 2017-02-28 | 2020-04-30 | National Institute Of Information And Communications Technology | Training Apparatus, Speech Synthesis System, and Speech Synthesis Method |
CN107610708A (zh) * | 2017-06-09 | 2018-01-19 | 平安科技(深圳)有限公司 | 识别声纹的方法及设备 |
CN107993663A (zh) * | 2017-09-11 | 2018-05-04 | 北京航空航天大学 | 一种基于Android的声纹识别方法 |
CN109256138A (zh) * | 2018-08-13 | 2019-01-22 | 平安科技(深圳)有限公司 | 身份验证方法、终端设备及计算机可读存储介质 |
CN108847244A (zh) * | 2018-08-22 | 2018-11-20 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于mfcc和改进bp神经网络的声纹识别方法及*** |
CN110428841A (zh) * | 2019-07-16 | 2019-11-08 | 河海大学 | 一种基于不定长均值的声纹动态特征提取方法 |
CN111489763A (zh) * | 2020-04-13 | 2020-08-04 | 武汉大学 | 一种基于gmm模型的复杂环境下说话人识别自适应方法 |
Non-Patent Citations (5)
Title |
---|
岳倩倩;周萍;景新幸;: "基于非线性幂函数的听觉特征提取算法研究", 微电子学与计算机, no. 06 * |
申小虎;万荣春;张新野;: "一种改进动态特征参数的话者语音识别***", 计算机仿真, no. 04 * |
赵青;成谢锋;朱冬梅;: "基于改进MFCC和短时能量的咳嗽音身份识别", 计算机技术与发展, no. 06 * |
郭春霞;: "说话人识别算法的研究", 西安邮电学院学报, no. 05 * |
魏丹芳;李应;: "基于MFCC和加权动态特征组合的环境音分类", 计算机与数字工程, no. 02 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689863A (zh) * | 2021-09-24 | 2021-11-23 | 广东电网有限责任公司 | 一种声纹特征提取方法、装置、设备及存储介质 |
CN113689863B (zh) * | 2021-09-24 | 2024-01-16 | 广东电网有限责任公司 | 一种声纹特征提取方法、装置、设备及存储介质 |
CN115762529A (zh) * | 2022-10-17 | 2023-03-07 | 国网青海省电力公司海北供电公司 | 一种利用声音识别感知算法预防电缆外破的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112951245B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102509547B (zh) | 基于矢量量化的声纹识别方法及*** | |
Sarikaya et al. | High resolution speech feature parametrization for monophone-based stressed speech recognition | |
CN111223493A (zh) | 语音信号降噪处理方法、传声器和电子设备 | |
CN110428849B (zh) | 一种基于生成对抗网络的语音增强方法 | |
CN113129897B (zh) | 一种基于注意力机制循环神经网络的声纹识别方法 | |
CN109256127B (zh) | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 | |
EP1250699B1 (en) | Speech recognition | |
CN106024010B (zh) | 一种基于共振峰曲线的语音信号动态特征提取方法 | |
CN111128209B (zh) | 一种基于混合掩蔽学习目标的语音增强方法 | |
CN102982801A (zh) | 一种用于鲁棒语音识别的语音特征提取方法 | |
CN112951245A (zh) | 一种融入静态分量的动态声纹特征提取方法 | |
CN113744749B (zh) | 一种基于心理声学域加权损失函数的语音增强方法及*** | |
CN110428841B (zh) | 一种基于不定长均值的声纹动态特征提取方法 | |
CN107274887A (zh) | 基于融合特征mgfcc的说话人二次特征提取方法 | |
CN112017658A (zh) | 一种基于智能人机交互的操作控制*** | |
Bhardwaj et al. | Deep neural network trained Punjabi children speech recognition system using Kaldi toolkit | |
CN111739562A (zh) | 一种基于数据选择性和高斯混合模型的语音活动检测方法 | |
Das et al. | Robust front-end processing for speech recognition in noisy conditions | |
Li et al. | An auditory system-based feature for robust speech recognition | |
Hurmalainen et al. | Modelling spectro-temporal dynamics in factorisation-based noise-robust automatic speech recognition | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
CN111920390A (zh) | 一种基于嵌入式终端的鼾声检测方法 | |
CN112992131A (zh) | 一种在复杂场景下提取目标人声的乒乓球指令的方法 | |
Chen et al. | Entropy-based feature parameter weighting for robust speech recognition | |
Saha et al. | Modified mel-frequency cepstral coefficient |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |