CN112951245A - 一种融入静态分量的动态声纹特征提取方法 - Google Patents

一种融入静态分量的动态声纹特征提取方法 Download PDF

Info

Publication number
CN112951245A
CN112951245A CN202110257723.XA CN202110257723A CN112951245A CN 112951245 A CN112951245 A CN 112951245A CN 202110257723 A CN202110257723 A CN 202110257723A CN 112951245 A CN112951245 A CN 112951245A
Authority
CN
China
Prior art keywords
voice data
target voice
dynamic
mfcc
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110257723.XA
Other languages
English (en)
Other versions
CN112951245B (zh
Inventor
刘涛
刘斌
黄金国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Open University of Jiangsu City Vocational College
Original Assignee
Jiangsu Open University of Jiangsu City Vocational College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Open University of Jiangsu City Vocational College filed Critical Jiangsu Open University of Jiangsu City Vocational College
Priority to CN202110257723.XA priority Critical patent/CN112951245B/zh
Publication of CN112951245A publication Critical patent/CN112951245A/zh
Application granted granted Critical
Publication of CN112951245B publication Critical patent/CN112951245B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种融入静态分量的动态声纹特征提取方法,方法包括对目标语音数据进行预处理,获取预处理后的目标语音数据,使用傅里叶变换和Mel滤波器组对预处理后的目标语音进行处理,获取目标语音数据的MFCC系数;将目标语音数据的MFCC系数带入融入静态分量的动态声纹特征提取模型中,获取目标语音数据的MFCC动态特征差分参数矩阵,将该矩阵定义为目标语音数据的动态声纹特征;本发明提供的方法在对语音数据进行声纹特征提取时,能保证声音连续性,并降低平均等错误率,提高识别率。

Description

一种融入静态分量的动态声纹特征提取方法
技术领域
本发明涉及人工智能声纹识别技术领域,具体涉及一种融入静态分量的动态声纹特征提取方法。
背景技术
目前,智能家居越来越广泛地应用到我们的生活和工作中,智能家居采用无线通信、图像处理、语音处理等技术,基于语音交互的智能家居***使用更为便捷、信息采集空间更为广泛,用户体验更为友好。
声纹识别在近年来已经取得了长足发展,在某些场合中,识别率也满足了人们对安全性的基本需求,且由于其具有经济性,便捷性等优势,应用前景十分广泛。如何能够尽可能地抑制外部噪声,从采集到的信号中提取尽可能纯净的语音特征,是各种语音处理技术走向实用化的前提。
在人们生活品质飞速提高的今天,社会大众对智能家居***的要求也不再仅仅局限于使其执行标准的、普通的控制功能,而是希望整体家居的智能化、便捷性、安全性以及舒适性都能够有更高的提升。为智能家居***添加声纹识别功能,并采用语音增强来提高***在噪声环境下的稳定性,不但可以进一步地改善智能家居的人机交互体验,提高用户对智能家居的使用效率;还可以为智能家居的控制与操作设定等级制度,针对不同权限等级的用户提供差异化的服务功能,使得***整体安全性、实用性得到进一步提高。而这样的***在未来的市场中必然有着强劲的冲击力,尤其在目前智能家居市场发展较为缓慢的大背景下,其一定会发挥越来越重要的作用,对大众的生活产生深远的影响,但现有技术中的语音识别或者说语音特征提取方法存在平均等错误率高且识别率低的问题。
为此,为了进一步降低平均等错误率、提高识别率,本发明提出了一种融入静态分量的动态声纹特征提取方法。
发明内容
本发明的目的:提供一种平均等错误率低、识别率高的动态声纹特征提取方法。
技术方案:本发明提供的融入静态分量的动态声纹特征提取方法,用于对目标语音数据进行声纹特征提取,其特征在于,方法包括如下步骤:
步骤1:对目标语音数据进行预处理,获取预处理后的目标语音数据;
步骤2:使用傅里叶变换和Mel滤波器组对预处理后的目标语音进行处理,获取目标语音数据的MFCC系数;
步骤3:将目标语音数据的MFCC系数带入融入静态分量的动态声纹特征提取模型中,获取目标语音数据的MFCC动态特征差分参数矩阵,将该矩阵定义为目标语音数据的动态声纹特征。
作为本发明的一种优选方案,在步骤1中,对目标语音数据进行预处理的方法包括:将目标语音数据分为T帧,获取多帧语音数据;
在步骤2中,使用傅里叶变换和Mel滤波器组对预处理的目标语音进行处理的方法包括如下步骤:
使用傅里叶变换分别对每帧语音数据进行处理,获取各帧语音数据的频谱;
将各帧语音数据的频谱输入Mel滤波器组中,获取各帧语音数据的MFCC系数,即目标语音数据的MFCC系数。
作为本发明的一种优选方案,在步骤3中,所述融入静态分量的动态声纹特征提取模型为:
Figure BDA0002968221760000021
其中,d(l,t)为第t帧语音数据的第l阶动态声纹特征提取结果,d(l,t)构成目标语音数据的MFCC动态特征差分参数矩阵中第l阶的第t个元素,C(l,t)为MFCC系数中第l阶的第t个参数,C(l,t+1)为MFCC系数中第l阶的第t+1个参数,C(l,t+k)为第l阶的第t+k个参数,C(l,t-k)为MFCC系数中为第l阶的第t-k个参数,k为对第t帧语音数据进行傅里叶变换后的频率序数,K为对第t帧语音数据进行傅里叶变换时的预设总步长。
作为本发明的一种优选方案,根据如下公式:
Figure BDA0002968221760000022
获取MFCC系数中第t帧语音数据的第l阶特征系数C(l,t);
其中,L为MFCC系数的阶数,m为Mel滤波器组的序号,S(m)为第m个Mel滤波器组输出的对数能量。
作为本发明的一种优选方案,根据如下公式:
Figure BDA0002968221760000023
获取第m个Mel滤波器组输出的对数能量S(m);
其中,M表示滤波器组的总个数,N表示第t帧语音数据的数据长度,X(k)表示与第k个频率所对应的功率,Hm(k)表示与第k个频率所对应第m个Mel滤波器组的传递函数。
有益效果:相对于现有技术,本发明提供的融入静态分量的动态声纹特征提取方法,基于融入静态分量的动态声纹特征提取模型进行声纹特征的提取,在保证声音连续性的同时,达到了降低平均等错误率、提高识别率的目的。
附图说明
图1是根据本发明实施例提供的动态声纹特征提取方法流程图;
图2是根据本发明实施例提供的等错误率随动态特征和静态特征比值变化的示意图;
图3是根据本发明实施例提供的等错误率随静态特征系数变化的示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
参照图1,本发明提供的融入静态分量的动态声纹特征提取方法包括如下步骤:
步骤1:对目标语音数据进行预处理,获取预处理后的目标语音数据。
对目标语音数据进行预处理的方法包括:将目标语音数据分为T帧,获取多帧语音数据;
步骤2:使用傅里叶变换和Mel滤波器组对预处理后的目标语音进行处理,获取目标语音数据的MFCC系数。
使用傅里叶变换和Mel滤波器组对预处理的目标语音进行处理的方法包括如下步骤:
使用傅里叶变换分别对每帧语音数据进行处理,获取各帧语音数据的频谱;
将各帧语音数据的频谱输入Mel滤波器组中,获取各帧语音数据的MFCC系数,即目标语音数据的MFCC系数。
步骤1和步骤2的方法具体包括如下步骤:
梅尔频率倒谱系数(MFCC)的提取是在已经进行过语音预处理的数据上进行的,通过对数据进行傅立叶变换、梅尔(Mel)滤波器滤波等运算得到所需的特征系数。
(1)将语音预处理后的每帧数据进行傅立叶变换,得到对应频谱并且获取每一帧的功率谱|X(j)|2,X(j)计算公式如下:
Figure BDA0002968221760000031
其中,N为每帧的长度,J为快速傅里叶变换长度,即总帧数,j为1~J的取值,表示第j帧,x(n)为第n帧中的语音数据。
(2)设计Mel滤波器组,通过配置的Mel滤波器组对信号的功率谱进行滤波。进行对数运算,将频率尺度转换为Mel频率。滤波器组中第m个滤波器的中心频率f(m)满足下列公式:
Mel(f(m+1))-Mel(f(m))=Mel(f(m))-Mel(f(m-1))
其中,m为滤波器组中滤波器的序号,Mel(f(m))是将频率f(m)转换为Mel频率的运算。
Mel滤波器组中的每个带通滤波器的传递函数Hm(f):
Figure BDA0002968221760000041
其中,f为频率。
语音数据经过Mel滤波器处理之后,求取每个滤波器组输出的对数能量S(m):
Figure BDA0002968221760000042
其中,m为滤波器组滤波器的序号,M为滤波器组中滤波器的总个数,一般取22~26,本发明取M=24。|X(k)|2表示第k帧的功率谱,Hm(f)表示滤波器组中第m个滤波器频率为f的传递函数。
(3)将每一帧的对数Mel功率谱进行离散余弦变换对其能量进行去相关操作,消除各维信号之间的相关性,将信号映射到低维空间,得到对应的MFCC系数C(l):
Figure BDA0002968221760000043
其中,L为MFCC系数总阶数,通常取12至18,本发明取L=15;l为1~L的取值,表示MFCC系数第l阶。
步骤3:将目标语音数据的MFCC系数带入融入静态分量的动态声纹特征提取模型中,获取目标语音数据的MFCC动态特征差分参数矩阵,将该矩阵定义为目标语音数据的动态声纹特征。
在步骤3中,根据如下方法构建融入静态分量的动态声纹特征提取模型:
动态特征提取实质是为MFCC系数差分方式,即在计算第t帧的MFCC系数差分参数时,使用第t-1帧与第t+1帧参数进行减采样。因此,经典动态特征提取公式如下:
Figure BDA0002968221760000051
其中,J表示快速傅里叶变换长度,常取1或者2,代表一阶MFCC系数差分参数和二阶MFCC系数差分参数,j为J的取值(1≤j≤J);l为梅尔倒谱系数阶数,t为帧序号,T为一段音频的总帧数,C(l,t)为语音信号的梅尔倒谱系数矩阵第l阶第t个参数,d(l,t)为MFCC动态特征参数。
将本发明提出的新的动态声纹特征征梅尔频率倒谱系数公式:
Figure BDA0002968221760000052
修改为:
Figure BDA0002968221760000053
其中,
Figure BDA0002968221760000054
为本发明提出的动态声纹特征,MFCC为静态声纹特征,ΔMFCC为经典的动态声纹特征,即差分动态参数,α为静态特征系数,β为动态特征系数,δ为动态特征系数与静态特征系数的比值。
根据如下方法确定和α和δ值:
假设α=1,通过实验确定动态系数与静态系数的比值δ的最优值。
设定实验中的高斯元件个数为64,在TIMIT语料库中选择100人(其中女性50人,男性50人)的语音数据,作为此次实验的实验语音数据。选取其中60人的语音数据作为UBM模型训练的训练数据,将每个人的10段语音组合成10秒的语音进行UBM模型训练。得到UBM模型的模型参数后进行保存,再将剩下的40人中每人的5段语音组合成10秒的语音数据来训练每个特定说话人的GMM模型并且保存所得到的模型参数。最后40人的剩下的语音数据循环组成10段5秒的语音数据对***进行匹配测试。在一次完整测试过程包括400次的说话人接受测试实验和15600次说话人拒绝测试实验,并且得到等错误率作为一次实验的输出结果。
对于语音数据得到的声纹特征,每段测试语音产生数帧语音段,设定的MFCC阶数是15阶,从而一帧语音数据能够产生15个MFCC系数,经过计算之后又会生成15个动态特征系数,组合之后每帧语音段产生30个MFCC系数。实验中采样频率是16KHz,帧移为帧长的1/2。
假设α=1,通过实验确定动态系数与静态系数的比值δ的最优值。
根据实验条件,δ取5个不同的值,分别进行5次实验,得到平均等错误率数据如表1所示:
表1
Figure BDA0002968221760000061
根据表1所示的数据,就可得到不同动态特征与静态特征比值δ与平均等错误率曲线如图1所示。
从图2中可以看出,当δ=1时,平均等错误率最低,从而得到动态特征与静态特征比值δ的最优值为1。
据此,可将本发明提出的动态声纹特征征梅尔频率倒谱系数公式变为:
Figure BDA0002968221760000062
根据实验条件,α取5个不同的值,分别进行5次实验,得到平均等错误率数据如表2所示:
表2
Figure BDA0002968221760000063
根据表2所示的数据,就可得到不同静态特征系数α与平均等错误率曲线如图3所示。
从图3中可以看出,当α=0.5时,平均等错误率最低,从而得到静态特征系数的最优值为0.5。
据此,可将本发明提出的动态声纹特征征梅尔频率倒谱系数公式变为:
Figure BDA0002968221760000064
公式(5)表示动态特征参数,即为ΔMFCC,MFCC为静态特征参数,即MFCC=d(l,t),两者各取权重0.5相加,就得到融入静态分量的动态特征提取公式:
Figure BDA0002968221760000071
整理就得融入静态分量的动态特征提取公式:
Figure BDA0002968221760000072
即构建的融入静态分量的动态声纹特征提取模型为:
Figure BDA0002968221760000073
其中,d(l,t)为第t帧语音数据的第l阶动态声纹特征提取结果,d(l,t)构成目标语音数据的MFCC动态特征差分参数矩阵中第l阶的第t个元素,即:d(l,t)为MFCC动态特征差分参数矩阵第l阶第t个参数;C(l,t)为MFCC系数中第l阶的第t个参数,C(l,t+1)为MFCC系数中第l阶的第t+1个参数,C(l,t+k)为第l阶的第t+k个参数,C(l,t-k)为MFCC系数中为第l阶的第t-k个参数,k为对第t帧语音数据进行傅里叶变换后的频率序数,K为对第t帧语音数据进行傅里叶变换时的预设总步长。
且对于构建的融入静态分量的动态声纹特征提取模型,根据如下公式:
Figure BDA0002968221760000074
获取MFCC系数中第t帧语音数据的第l阶特征系数C(l,t);
其中,L为MFCC系数的阶数,m为Mel滤波器组的序号,S(m)为第m个Mel滤波器组输出的对数能量。
根据如下公式:
Figure BDA0002968221760000075
获取第m个Mel滤波器组输出的对数能量S(m);
其中,M表示滤波器组的总个数,N表示第t帧语音数据的数据长度,X(k)表示与第k个频率所对应的功率,Hm(k)表示与第k个频率所对应第m个Mel滤波器组的传递函数。
基于上述模型和方法,根据梅尔倒谱系数矩阵、音频时长等参数,可先计算出静态特征参数,进一步计算出融入静态分量的动态特征提参数,供声纹识别。
在声纹识别算法中,常用高斯混合模型和通用背景模型对说话人声纹特征进行模型建立,主要包括高斯混合模型训练语音输入、语音预处理、声纹特征提取、通用背景模型参数输入、高斯混合模型构建以及高斯混合模型参数保存这几部分。通常,在声纹识别算法中,在声纹特征提取这个过程,大多采用经典的动态特征提取算法,本发明对这一过程进行了改进,在计算动态特征提参数时,融入了静态分量,提高了声纹识别算法的性能。
以上所述仅是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (5)

1.一种融入静态分量的动态声纹特征提取方法,用于对目标语音数据进行声纹特征提取,其特征在于,方法包括如下步骤:
步骤1:对目标语音数据进行预处理,获取预处理后的目标语音数据;
步骤2:使用傅里叶变换和Mel滤波器组对预处理后的目标语音进行处理,获取目标语音数据的MFCC系数;
步骤3:将目标语音数据的MFCC系数带入融入静态分量的动态声纹特征提取模型中,获取目标语音数据的MFCC动态特征差分参数矩阵,将该矩阵定义为目标语音数据的动态声纹特征。
2.根据权利要求1所述的融入静态分量的动态声纹特征提取方法,其特征在于,在步骤1中,对目标语音数据进行预处理的方法包括:将目标语音数据分为T帧,获取多帧语音数据;
在步骤2中,使用傅里叶变换和Mel滤波器组对预处理的目标语音进行处理的方法包括如下步骤:
使用傅里叶变换分别对每帧语音数据进行处理,获取各帧语音数据的频谱;
将各帧语音数据的频谱输入Mel滤波器组中,获取各帧语音数据的MFCC系数,即目标语音数据的MFCC系数。
3.根据权利要求2所述的融入静态分量的动态声纹特征提取方法,其特征在于,在步骤3中,所述融入静态分量的动态声纹特征提取模型为:
Figure FDA0002968221750000011
其中,d(l,t)为第t帧语音数据的第l阶动态声纹特征提取结果,d(l,t)构成目标语音数据的MFCC动态特征差分参数矩阵中第l阶的第t个元素,C(l,t)为MFCC系数中第l阶的第t个参数,C(l,t+1)为MFCC系数中第l阶的第t+1个参数,C(l,t+k)为第l阶的第t+k个参数,C(l,t-k)为MFCC系数中为第l阶的第t-k个参数,k为对第t帧语音数据进行傅里叶变换后的频率序数,K为对第t帧语音数据进行傅里叶变换时的预设总步长。
4.根据权利要求3所述的融入静态分量的动态声纹特征提取方法,其特征在于,根据如下公式:
Figure FDA0002968221750000012
获取MFCC系数中第t帧语音数据的第l阶的特征系数C(l,t);
其中,L为MFCC系数的阶数,m为Mel滤波器组的序号,S(m)为第m个Mel滤波器组输出的对数能量。
5.根据权利要求4所述的融入静态分量的动态升温特征提取方法,其特征在于,根据如下公式:
Figure FDA0002968221750000021
获取第m个Mel滤波器组输出的对数能量S(m);
其中,M表示滤波器组的总个数,N表示第t帧语音数据的数据长度,X(k)表示与第k个频率所对应的功率,Hm(k)表示与第k个频率所对应第m个Mel滤波器组的传递函数。
CN202110257723.XA 2021-03-09 2021-03-09 一种融入静态分量的动态声纹特征提取方法 Active CN112951245B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110257723.XA CN112951245B (zh) 2021-03-09 2021-03-09 一种融入静态分量的动态声纹特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110257723.XA CN112951245B (zh) 2021-03-09 2021-03-09 一种融入静态分量的动态声纹特征提取方法

Publications (2)

Publication Number Publication Date
CN112951245A true CN112951245A (zh) 2021-06-11
CN112951245B CN112951245B (zh) 2023-06-16

Family

ID=76228612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110257723.XA Active CN112951245B (zh) 2021-03-09 2021-03-09 一种融入静态分量的动态声纹特征提取方法

Country Status (1)

Country Link
CN (1) CN112951245B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689863A (zh) * 2021-09-24 2021-11-23 广东电网有限责任公司 一种声纹特征提取方法、装置、设备及存储介质
CN115762529A (zh) * 2022-10-17 2023-03-07 国网青海省电力公司海北供电公司 一种利用声音识别感知算法预防电缆外破的方法

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1246745A (en) * 1985-03-25 1988-12-13 Melvyn J. Hunt Man/machine communications system using formant based speech analysis and synthesis
CA2158847A1 (en) * 1993-03-25 1994-09-29 Mark Pawlewski A Method and Apparatus for Speaker Recognition
KR100779242B1 (ko) * 2006-09-22 2007-11-26 (주)한국파워보이스 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법
CN102290048A (zh) * 2011-09-05 2011-12-21 南京大学 一种基于mfcc远距离差值的鲁棒语音识别方法
CN102982803A (zh) * 2012-12-11 2013-03-20 华南师范大学 基于hrsf及改进dtw算法的孤立词语音识别方法
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
US20170365259A1 (en) * 2015-02-05 2017-12-21 Beijing D-Ear Technologies Co., Ltd. Dynamic password voice based identity authentication system and method having self-learning function
CN107610708A (zh) * 2017-06-09 2018-01-19 平安科技(深圳)有限公司 识别声纹的方法及设备
CN107993663A (zh) * 2017-09-11 2018-05-04 北京航空航天大学 一种基于Android的声纹识别方法
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
CN108847244A (zh) * 2018-08-22 2018-11-20 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于mfcc和改进bp神经网络的声纹识别方法及***
CN109256138A (zh) * 2018-08-13 2019-01-22 平安科技(深圳)有限公司 身份验证方法、终端设备及计算机可读存储介质
CN110428841A (zh) * 2019-07-16 2019-11-08 河海大学 一种基于不定长均值的声纹动态特征提取方法
US20200135171A1 (en) * 2017-02-28 2020-04-30 National Institute Of Information And Communications Technology Training Apparatus, Speech Synthesis System, and Speech Synthesis Method
CN111489763A (zh) * 2020-04-13 2020-08-04 武汉大学 一种基于gmm模型的复杂环境下说话人识别自适应方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1246745A (en) * 1985-03-25 1988-12-13 Melvyn J. Hunt Man/machine communications system using formant based speech analysis and synthesis
CA2158847A1 (en) * 1993-03-25 1994-09-29 Mark Pawlewski A Method and Apparatus for Speaker Recognition
KR100779242B1 (ko) * 2006-09-22 2007-11-26 (주)한국파워보이스 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법
CN102290048A (zh) * 2011-09-05 2011-12-21 南京大学 一种基于mfcc远距离差值的鲁棒语音识别方法
CN102982803A (zh) * 2012-12-11 2013-03-20 华南师范大学 基于hrsf及改进dtw算法的孤立词语音识别方法
US20170365259A1 (en) * 2015-02-05 2017-12-21 Beijing D-Ear Technologies Co., Ltd. Dynamic password voice based identity authentication system and method having self-learning function
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
US20200135171A1 (en) * 2017-02-28 2020-04-30 National Institute Of Information And Communications Technology Training Apparatus, Speech Synthesis System, and Speech Synthesis Method
CN107610708A (zh) * 2017-06-09 2018-01-19 平安科技(深圳)有限公司 识别声纹的方法及设备
CN107993663A (zh) * 2017-09-11 2018-05-04 北京航空航天大学 一种基于Android的声纹识别方法
CN109256138A (zh) * 2018-08-13 2019-01-22 平安科技(深圳)有限公司 身份验证方法、终端设备及计算机可读存储介质
CN108847244A (zh) * 2018-08-22 2018-11-20 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于mfcc和改进bp神经网络的声纹识别方法及***
CN110428841A (zh) * 2019-07-16 2019-11-08 河海大学 一种基于不定长均值的声纹动态特征提取方法
CN111489763A (zh) * 2020-04-13 2020-08-04 武汉大学 一种基于gmm模型的复杂环境下说话人识别自适应方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
岳倩倩;周萍;景新幸;: "基于非线性幂函数的听觉特征提取算法研究", 微电子学与计算机, no. 06 *
申小虎;万荣春;张新野;: "一种改进动态特征参数的话者语音识别***", 计算机仿真, no. 04 *
赵青;成谢锋;朱冬梅;: "基于改进MFCC和短时能量的咳嗽音身份识别", 计算机技术与发展, no. 06 *
郭春霞;: "说话人识别算法的研究", 西安邮电学院学报, no. 05 *
魏丹芳;李应;: "基于MFCC和加权动态特征组合的环境音分类", 计算机与数字工程, no. 02 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689863A (zh) * 2021-09-24 2021-11-23 广东电网有限责任公司 一种声纹特征提取方法、装置、设备及存储介质
CN113689863B (zh) * 2021-09-24 2024-01-16 广东电网有限责任公司 一种声纹特征提取方法、装置、设备及存储介质
CN115762529A (zh) * 2022-10-17 2023-03-07 国网青海省电力公司海北供电公司 一种利用声音识别感知算法预防电缆外破的方法

Also Published As

Publication number Publication date
CN112951245B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN102509547B (zh) 基于矢量量化的声纹识别方法及***
Sarikaya et al. High resolution speech feature parametrization for monophone-based stressed speech recognition
CN111223493A (zh) 语音信号降噪处理方法、传声器和电子设备
CN110428849B (zh) 一种基于生成对抗网络的语音增强方法
CN113129897B (zh) 一种基于注意力机制循环神经网络的声纹识别方法
CN109256127B (zh) 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法
EP1250699B1 (en) Speech recognition
CN106024010B (zh) 一种基于共振峰曲线的语音信号动态特征提取方法
CN111128209B (zh) 一种基于混合掩蔽学习目标的语音增强方法
CN102982801A (zh) 一种用于鲁棒语音识别的语音特征提取方法
CN112951245A (zh) 一种融入静态分量的动态声纹特征提取方法
CN113744749B (zh) 一种基于心理声学域加权损失函数的语音增强方法及***
CN110428841B (zh) 一种基于不定长均值的声纹动态特征提取方法
CN107274887A (zh) 基于融合特征mgfcc的说话人二次特征提取方法
CN112017658A (zh) 一种基于智能人机交互的操作控制***
Bhardwaj et al. Deep neural network trained Punjabi children speech recognition system using Kaldi toolkit
CN111739562A (zh) 一种基于数据选择性和高斯混合模型的语音活动检测方法
Das et al. Robust front-end processing for speech recognition in noisy conditions
Li et al. An auditory system-based feature for robust speech recognition
Hurmalainen et al. Modelling spectro-temporal dynamics in factorisation-based noise-robust automatic speech recognition
TWI749547B (zh) 應用深度學習的語音增強系統
CN111920390A (zh) 一种基于嵌入式终端的鼾声检测方法
CN112992131A (zh) 一种在复杂场景下提取目标人声的乒乓球指令的方法
Chen et al. Entropy-based feature parameter weighting for robust speech recognition
Saha et al. Modified mel-frequency cepstral coefficient

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant