CN111489763B - 一种基于gmm模型的复杂环境下说话人识别自适应方法 - Google Patents

一种基于gmm模型的复杂环境下说话人识别自适应方法 Download PDF

Info

Publication number
CN111489763B
CN111489763B CN202010284977.6A CN202010284977A CN111489763B CN 111489763 B CN111489763 B CN 111489763B CN 202010284977 A CN202010284977 A CN 202010284977A CN 111489763 B CN111489763 B CN 111489763B
Authority
CN
China
Prior art keywords
voice
model
mfcc
speaker
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010284977.6A
Other languages
English (en)
Other versions
CN111489763A (zh
Inventor
郭雨欣
宋雨佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202010284977.6A priority Critical patent/CN111489763B/zh
Publication of CN111489763A publication Critical patent/CN111489763A/zh
Application granted granted Critical
Publication of CN111489763B publication Critical patent/CN111489763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及信号处理技术,具体涉及一种基于GMM模型的复杂环境下说话人识别自适应方法,包括基于GMM的说话人识别模型的构建阶段,即对语音信号进行低通滤波、预加重、加窗、分帧等预处理后,通过Gammatone滤波器进行滤波去噪,提取GMFCC组合特征参数。还包括说话人识别及自适应阶段,即通过提取待识别的说话人语音特征参数并对原模型进行自适应调整,并完成说话人识别。该方法克服了因生病或环境复杂造成说话人识别准确率降低等缺点,提出一种新的组合特征参数方法,能够组合分析不同特征,有效补偿因说话人自身情况不同而造成语音变化而带来的误差,从而提高识别准确率。

Description

一种基于GMM模型的复杂环境下说话人识别自适应方法
技术领域
本发明属于信号处理技术领域,尤其涉及一种基于GMM模型的复杂环境下说话人识别自适应方法。
背景技术
说话人识别是一种通过采集到的说话人的声音信号进行特征提取,分析处理后来进行说话人的辨认或者确认的方法。随着当今互联网和信息化技术的飞速发展,越来越多的相关领域将用到说话人识别技术。说话人识别作为一项前沿技术,广泛应用于智能家居、司法刑侦、身份验证等领域。
随着说话人识别研究的深入,其关键性技术主要围绕着噪声消除、特征提取和模式匹配等问题展开。
而如何从说话人的语音信号中提取出说话人的个性特征是声纹识别的关键。语音信号中既包含了所发语音的特征,也包含说话人的个性特征,是语音特征和说话人个性特征的混合体。从说话人语音信号中提取的特征参数应满足一定准则,对外具有鲁棒性(说话人的健康状况和情绪,方言和别人模仿等),能长期保持稳定,易从语音信号中进行提取。
从声学层面来说,可把声音特征参数简单分为两类:与说话人自身生理结构相关的固有特性,主要体现在语音的频谱结构上,包含有反应声道共振的频谱包络特征信息和反映声带振动等音源激励性质的频谱的细节构造性特征信息,典型的特征参数有基音周期系数以及共振峰,它们不易被模仿,但容易收到健康状况的影响。另一类主要反映声道活动的动态特性,即发音的方式和发音习性等,体现在音频结构随时间的变化,含有特征参数的一般动态特性,这类特征相对稳定但比较容易模仿,如代表性的Mel倒谱系数。而若将二者进行客观上加权融合,便可以做到
同时,提取到的声音还会有周围噪声等的干扰,如何有效去除噪声也成为说话人识别是否具有高分辨率的重要因素。
目前,自适应技术也日益成熟。通过自适应技术,我们可以依据测试人的说话特征调整模型参数,提高识别准确率。
发明内容
本发明的目的是提供一种组合分析不同特征,有效补偿因生病或噪音而造成语音变化而带来的误差的自适应方法。
为实现上述目的,本发明采用的技术方案是,一种基于GMM模型的复杂环境下说话人识别自适应方法,包括以下步骤:
步骤1、构建基于GMM的说话人识别模型;
步骤1.1、采集一定数量的语音数据作为说话人识别的训练语音数据,对提取的语音数据进行预处理;
步骤1.2、通过倒谱法提取预处理后的语音信号的基音周期系数;
步骤1.3、对步骤1.1预处理后的语音信号进行MFCC系数提取,并通过Gammatone滤波器进行滤波;
步骤1.4、对MFCC系数进行处理得到MFCC系数的一阶与二阶差分,并加上基音周期系数,得到GMFCC组合特征矢量;
步骤1.5、利用一部分语音数据的声学谱特征训练高斯混合模型;
步骤2、说话人识别及自适应;
步骤2.1、对待识别的语音进行预处理,并从待识别的语音数据中提取基音周期系数及MFCC系数,处理后得到待识别语音的GMFCC特征;
步骤2.2、通过最大后验概率模型进行GMM模型的自适应调整;
步骤2.3、利用调整后的模型进行识别。
在上述的基于GMM模型的复杂环境下说话人识别自适应方法中,步骤1.1的实现包括以下具体步骤:
步骤1.1.1、采集一定量语音数据做成语料库,作为说话人识别的训练语音数据;
步骤1.1.2、对得到的语音信号进行低通滤波,保留1000Hz以下的频率,同时进行加窗、分帧,得到帧信号;
步骤1.1.3、对每帧信号进行最小二乘法去趋势化处理,并利用谱减法消除语音信号中的噪声。
在上述的基于GMM模型的复杂环境下说话人识别自适应方法中,步骤1.2的实现包括以下具体步骤:
步骤1.2.1、对预处理的信号进行分析,得到其线性预测模型:
Figure BDA0002448146160000031
其中,
Figure BDA0002448146160000032
代表第i帧语音的第l个LPC系数,xi(m-l)代表第m-l帧,/>
Figure BDA0002448146160000033
代表预测的第m帧;
步骤1.2.2、推导出预测误差的传递函数:
Figure BDA0002448146160000034
其中,
Figure BDA0002448146160000035
代表第i帧语音的第l个LPC系数;
步骤1.2.3、利用线性预测法消除共振峰的影响;
步骤1.2.4、利用中值滤波算法,将语音信号中毛刺点的值用临近各点的中值取代,消除语音中的毛刺对语音分析造成的影响;
步骤1.2.5、利用倒谱法对处理后的语音信号进行基音周期检测,并计算出基音周期系数。
在上述的基于GMM模型的复杂环境下说话人识别自适应方法中,步骤1.3的实现包括以下具体步骤:
步骤1.3.1、将步骤1.1预处理得到处理后的语音数据,通过配置有M个带通滤波器的三角滤波器组,使语音数据按照Mel频率分布;
步骤1.3.2、对步骤1.3.1中每个滤波器组输出的数据进行对数能量处理;
步骤1.3.3、将步骤1.3.2得到的数据经过离散余弦变换DCT后,得到MFCC参数。
在上述的基于GMM模型的复杂环境下说话人识别自适应方法中,步骤1.4的实现包括以下具体步骤:
步骤1.4.1、经步骤1.3提取到语音信号的MFCC参数后,利用以下算式进行一阶MFCC、二阶MFCC参数的提取;
Figure BDA0002448146160000041
Sm=MFCC+ΔMFCC+ΔΔMFCC
其中,dt为第个一阶差分的倒谱系数,T表示倒谱系数维数,θ是一阶导数的时间差,取1或2,ct为第t个倒谱系数;
步骤1.4.2、将前面步骤提取出的基音周期参数
Figure BDA0002448146160000051
和得到的MFCC参数Sm作为测试语音文件的后验概率值,将这两个矢量进行归一化,使/>
Figure BDA0002448146160000052
和Sm′成为0-1之间数据:
Figure BDA0002448146160000053
Figure BDA0002448146160000054
其中,
Figure BDA0002448146160000055
代表基音周期参数,max代表其最大值,/>
Figure BDA0002448146160000056
和Sm′代表归一化后的基音周期参数与MFCC参数;
步骤1.4.3、利用熵权法计算出两个参数的影响程度因子C1,C2,形成新组合参数GMFCC:
Figure BDA0002448146160000057
在上述的基于GMM模型的复杂环境下说话人识别自适应方法中,步骤1.5的实现包括以下具体步骤:
步骤1.5.1、利用EM算法求得每个样本对应的GMM模型,每个GMM模型对应有各自的均值、协方差及权值。
在上述的基于GMM模型的复杂环境下说话人识别自适应方法中,步骤2.1的实现包括以下具体步骤:
步骤2.1.1、对待识别的语音进行预处理,包括低通滤波、去趋势化、分帧、加窗及端点检测;
步骤2.1.2、利用Gammatone滤波器对语音信号进行滤波;
步骤2.1.3、通过倒谱法提取待识别语音的基音周期系数及MFCC系数,并计算出一阶MFCC及二阶MFCC参数,形成GMFCC组合参数。
在上述的基于GMM模型的复杂环境下说话人识别自适应方法中,步骤2.2的实现包括利用最大后验概率模型根据待识别的语音的参数对原始模型进行说话人的自适应变换,得到说话人相关的自适应模型。
在上述的基于GMM模型的复杂环境下说话人识别自适应方法中,步骤2.3的实现包括通过GMM公式分别计算待识别语音与原始训练的概率值P(Z|A),Z为待识别的语音数据,A为训练数据中的一个模型,选择概率值最大的模型,则标签待识别语音为该说话人。
本发明的有益效果:(1)、利用两个语音参数进行识别,既通过添加基音周期参数,避免了因生病或情感不同引起声音发生变化而引起识别率降低;又以MFCC参数为基础,反映声道活动的动态特性,具有一定的稳定性。
(2)、利用Gammatone滤波器,对原始语音数据进行滤波,去除周围复杂环境带来的噪音而引起的识别准确率下降。
(3)、利用最大后验概率模型,根据待识别的语音数据的参数特性对原始GMM模型进行修改,实现模型的自适应,有效提高了模型识别的准确率。
附图说明
图1为本发明一个实施例总流程图。
具体实施方式
下面结合附图对本发明的实施方式进行详细描述。
为了克服因生病或环境复杂造成说话人识别准确率降低等缺点,本实施例提出一种新的组合特征参数方法,能够组合分析不同特征,有效补偿因生病或噪音而造成语音变化而带来的误差,提高识别准确率。
一种基于GMM模型的复杂环境下说话人识别自适应方法,包括:基于GMM的说话人识别模型的构建阶段,即对语音信号进行低通滤波、预加重、加窗、分帧等预处理后,通过Gammatone滤波器进行滤波去噪,提取GMFCC组合特征参数。说话人识别及自适应阶段,即通过提取待识别的说话人语音特征参数并对原模型进行自适应调整,并完成说话人识别。
基于GMM的说话人识别模型的构建阶段具体包括以下步骤:
步骤S1,采集一定数量的语音数据作为说话人识别的训练语音数据,对提取的语音数据进行预处理。
步骤S2,通过倒谱法提取预处理后语音信号的基音周期系数。
步骤S3,对预处理后的语音信息进行MFCC系数提取,并通过Gammatone滤波器进行滤波。
步骤S4,对MFCC系数进行处理得到MFCC系数的一阶与二阶差分,并加上基音周期系数,得到GMFCC组合特征矢量。
步骤S5,利用一部分语音数据的声学谱特征训练高斯混合模型。
说话人识别及自适应阶段具体包括以下步骤:
步骤S6,对待识别的语音进行预处理,并从待识别的语音数据中提取基音周期系数及MFCC系数,处理后得到待识别语音的GMFCC特征。
步骤S7,通过最大后验概率模型进行GMM模型的自适应调整。
步骤S8,利用调整后的模型进行识别。
具体实施时,如图1所示,本实施例为基于GMM模型的复杂环境下说话人识别自适应方法,包括7个功能模块:数据预处理模块、Gammatone滤波模块、基音周期参数提取模块、MFCC参数提取模块、GMFCC组合参数模块、GMM模块、自适应模块。其中,数据预处理模块的主要功能是,利用信号处理,对原始的语音数据进行端点检测、预加重、分帧及加窗。Gammatone滤波模块的主要功能是对原始语音信号进行滤波去噪,突出说话人说话声音。基音周期参数提取模块的主要功能是提取原始语音的基音周期系数,作为语音的特征参数用于之后的训练及识别。MFCC参数提取模块的主要功能是提取语音的MFCC参数、一阶MFCC及二阶MFCC参数。GMFCC组合参数模块的主要功能是处理基音周期参数及MFCC,并将其连接为一个高维组合参数GMFCC。GMM模块的主要功能是对提取的特征参数进行训练,每一个说话人的训练样本都通过EM算法求得对应的GMM匹配模型。自适应模块的主要功能是通过MAP算法,根据新说话人的声学特征对原来的模型参数进行调整,实现自适应。
本实施例方法包括:基于GMM的说话人识别模型的构建阶段及说话人识别及自适应阶段。
基于GMM的说话人识别模型的构建阶段具体包括以下步骤:
步骤S1具体有以下子步骤:
步骤S11,采集一定量语音数据做成语料库,作为说话人识别的训练语音数据。
步骤S12,对得到的语音信号进行低通滤波,只保留1000Hz以下的频率,同时进行加窗、分帧,得到帧信号。
步骤S14,对每帧信号进行最小二乘法去趋势化处理,并利用谱减法消除语音信号中的噪声。
步骤S2的子步骤如下:
步骤S21,对预处理的信号进行分析,得到其线性预测模型:
Figure BDA0002448146160000081
其中,
Figure BDA0002448146160000091
代表第i帧语音的第l个LPC系数,xi(m-l)代表第m-l帧,/>
Figure BDA0002448146160000092
代表预测的第m帧。
步骤S22,推导出预测误差的传递函数:
Figure BDA0002448146160000093
其中,
Figure BDA0002448146160000094
代表第i帧语音的第l个LPC系数。
步骤S23,利用线性预测法消除共振峰的影响。
步骤S24,利用中值滤波算法,将语音信号中毛刺点的值用临近各点的中值取代,消除语音中的毛刺对语音分析造成的影响。
步骤S25,利用倒谱法对处理后的语音信号进行基音周期检测,并计算出基音周期系数,
步骤S3的子步骤如下:
步骤S31,经步骤S1步骤预处理后,得到处理后的语音数据,将其通过配置有M个带通滤波器的三角滤波器组,使语音数据按照Mel频率分布,以满足人耳听觉习惯需要。
步骤S32,对步骤S31中每个滤波器组输出的数据进行对数能量处理。
步骤S33,将步骤S32得到的数据经过离散余弦变换(DCT)后,得到MFCC参数。
步骤S4的子步骤如下:
步骤S41,经步骤S3提取到语音信号的MFCC参数后,可用以下算式进行一阶MFCC、二阶MFCC参数的提取。
Figure BDA0002448146160000101
Sm=MFCC+ΔMFCC+ΔΔMFCC
其中,dt为第个一阶差分的倒谱系数,T表示倒谱系数维数,θ是一阶导数的时间差,值取为1或者2,ct为第t个倒谱系数。
步骤S42,将前面步骤提取出的基音周期参数
Figure BDA0002448146160000102
和得到的MFCC参数Sm作为测试语音文件的后验概率值,将这两个矢量进行归一化,使/>
Figure BDA0002448146160000103
和Sm′成为0-1之间数据:
Figure BDA0002448146160000104
Figure BDA0002448146160000105
其中,
Figure BDA0002448146160000106
代表基音周期参数,max代表其最大值,/>
Figure BDA0002448146160000107
和Sm′代表归一化后的基音周期参数与MFCC参数。
步骤S43,利用熵权法计算出两个参数的影响程度因子C1,C2,形成新组合参数GMFCC:
Figure BDA0002448146160000108
步骤S5的子步骤如下:
步骤S51,利用EM算法求得每个样本对应的GMM模型每个GMM模型对应有各自的均值、协方差及权值。
说话人识别及自适应阶段具体包括以下步骤:
步骤S6的子步骤如下:
步骤S61,对需识别的语音进行预处理,包括低通滤波、去趋势化、分帧、加窗及端点检测等。
步骤S62,利用Gammatone滤波器对语音信号进行滤波。
步骤S63,通过倒谱法提取待识别语音的基音周期系数及MFCC系数,并计算出一阶MFCC及二阶MFCC参数,形成GMFCC组合参数。
步骤S7的子步骤;
步骤S71通过最大后验概率模型进行GMM模型的自适应调整,即利用MAP(最大后验概率模型)根据待识别的语音的参数对原始模型进行说话人的自适应变换,可得到说话人相关的自适应模型。
步骤S8的子步骤;
步骤S81利用调整后的模型进行识别,分别通过GMM公式分别计算待识别语音与原始训练的概率值P(Z|A)(Z为待识别的语音数据,A为训练数据中的一个模型),选择概率值最大的模型,则标签待识别语音为该说话人。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
虽然以上结合附图描述了本发明的具体实施方式,但是本领域普通技术人员应当理解,这些仅是举例说明,可以对这些实施方式做出多种变形或修改,而不背离本发明的原理和实质。本发明的范围仅由所附权利要求书限定。

Claims (1)

1.一种基于GMM模型的复杂环境下说话人识别自适应方法,其特征是,包括以下步骤:
步骤1、构建基于GMM的说话人识别模型;
步骤1.1、采集一定数量的语音数据作为说话人识别的训练语音数据,对提取的语音数据进行预处理;
步骤1.1.1、采集一定量语音数据做成语料库,作为说话人识别的训练语音数据;
步骤1.1.2、对得到的语音信号进行低通滤波,保留1000Hz以下的频率,同时进行加窗、分帧,得到帧信号;
步骤1.1.3、对每帧信号进行最小二乘法去趋势化处理,并利用谱减法消除语音信号中的噪声;
步骤1.2、通过倒谱法提取预处理后的语音信号的基音周期系数;
步骤1.2.1、对预处理的信号进行分析,得到其线性预测模型:
Figure FDA0004107504100000011
其中,
Figure FDA0004107504100000012
代表第i帧语音的第l个LPC系数,xi(m-l)代表第m-l帧,/>
Figure FDA0004107504100000013
代表预测的第m帧;
步骤1.2.2、推导出预测误差的传递函数:
Figure FDA0004107504100000014
其中,
Figure FDA0004107504100000015
代表第i帧语音的第l个LPC系数;
步骤1.2.3、利用线性预测法消除共振峰的影响;
步骤1.2.4、利用中值滤波算法,将语音信号中毛刺点的值用临近各点的中值取代,消除语音中的毛刺对语音分析造成的影响;
步骤1.2.5、利用倒谱法对处理后的语音信号进行基音周期检测,并计算出基音周期系数;
步骤1.3、对步骤1.1预处理后的语音信号进行MFCC系数提取,并通过Gammatone滤波器进行滤波;
步骤1.3.1、将步骤1.1预处理得到处理后的语音数据,通过配置有M个带通滤波器的三角滤波器组,使语音数据按照Mel频率分布;
步骤1.3.2、对步骤1.3.1中每个滤波器组输出的数据进行对数能量处理;
步骤1.3.3、将步骤1.3.2得到的数据经过离散余弦变换DCT后,得到MFCC参数;
步骤1.4、对MFCC系数进行处理得到MFCC系数的一阶与二阶差分,并加上基音周期系数,得到GMFCC组合特征矢量;
步骤1.4.1、经步骤1.3提取到语音信号的MFCC参数后,利用以下算式进行一阶MFCC、二阶MFCC参数的提取;
Figure FDA0004107504100000021
Sm=MFCC+ΔMFCC+ΔΔMFCC
其中,dt为第个一阶差分的倒谱系数,T表示倒谱系数维数,θ是一阶导数的时间差,取1或2,ct为第t个倒谱系数;
步骤1.4.2、将前面步骤提取出的基音周期参数
Figure FDA0004107504100000022
和得到的MFCC参数Sm作为测试语音文件的后验概率值,将这两个矢量进行归一化,使/>
Figure FDA0004107504100000023
和Sm′成为0-1之间数据:
Figure FDA0004107504100000024
Figure FDA0004107504100000025
其中,
Figure FDA0004107504100000026
代表基音周期参数,max代表其最大值,/>
Figure FDA0004107504100000027
和Sm′代表归一化后的基音周期参数与MFCC参数;
步骤1.4.3、利用熵权法计算出两个参数的影响程度因子C1,C2,形成新组合参数GMFCC:
Figure FDA0004107504100000028
步骤1.5、利用一部分语音数据的声学谱特征训练高斯混合模型;
步骤1.5.1、利用EM算法求得每个样本对应的GMM模型,每个GMM模型对应有各自的均值、协方差及权值;
步骤2、说话人识别及自适应;
步骤2.1、对待识别的语音进行预处理,并从待识别的语音数据中提取基音周期系数及MFCC系数,处理后得到待识别语音的GMFCC特征;
步骤2.1.1、对待识别的语音进行预处理,包括低通滤波、去趋势化、分帧、加窗及端点检测;
步骤2.1.2、利用Gammatone滤波器对语音信号进行滤波;
步骤2.1.3、通过倒谱法提取待识别语音的基音周期系数及MFCC系数,并计算出一阶MFCC及二阶MFCC参数,形成GMFCC组合参数;
步骤2.2、通过最大后验概率模型进行GMM模型的自适应调整;
步骤2.2的实现包括利用最大后验概率模型根据待识别的语音的参数对原始模型进行说话人的自适应变换,得到说话人相关的自适应模型;
步骤2.3、利用调整后的模型进行识别;步骤2.3的实现包括通过GMM公式分别计算待识别语音与原始训练的概率值P(Z|A),Z为待识别的语音数据,A为训练数据中的一个模型,选择概率值最大的模型,则标签待识别语音为该说话人。
CN202010284977.6A 2020-04-13 2020-04-13 一种基于gmm模型的复杂环境下说话人识别自适应方法 Active CN111489763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010284977.6A CN111489763B (zh) 2020-04-13 2020-04-13 一种基于gmm模型的复杂环境下说话人识别自适应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010284977.6A CN111489763B (zh) 2020-04-13 2020-04-13 一种基于gmm模型的复杂环境下说话人识别自适应方法

Publications (2)

Publication Number Publication Date
CN111489763A CN111489763A (zh) 2020-08-04
CN111489763B true CN111489763B (zh) 2023-06-20

Family

ID=71812744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010284977.6A Active CN111489763B (zh) 2020-04-13 2020-04-13 一种基于gmm模型的复杂环境下说话人识别自适应方法

Country Status (1)

Country Link
CN (1) CN111489763B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951245B (zh) * 2021-03-09 2023-06-16 江苏开放大学(江苏城市职业学院) 一种融入静态分量的动态声纹特征提取方法
WO2022205249A1 (zh) * 2021-03-31 2022-10-06 华为技术有限公司 音频特征补偿方法、音频识别方法及相关产品
CN113567969B (zh) * 2021-09-23 2021-12-17 江苏禹治流域管理技术研究院有限公司 一种基于水下声信号的非法采砂船自动监控方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及***
CN104900235A (zh) * 2015-05-25 2015-09-09 重庆大学 基于基音周期混合特征参数的声纹识别方法
CN105679312A (zh) * 2016-03-04 2016-06-15 重庆邮电大学 一种噪声环境下声纹识别的语音特征处理方法
JP2016143043A (ja) * 2015-02-05 2016-08-08 日本電信電話株式会社 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
CN106782500A (zh) * 2016-12-23 2017-05-31 电子科技大学 一种基于基音周期和mfcc的融合特征参数提取方法
CN107369440A (zh) * 2017-08-02 2017-11-21 北京灵伴未来科技有限公司 一种针对短语音的说话人识别模型的训练方法及装置
CN110400565A (zh) * 2019-08-20 2019-11-01 广州国音智能科技有限公司 说话人识别方法、***及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及***
JP2016143043A (ja) * 2015-02-05 2016-08-08 日本電信電話株式会社 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
CN104900235A (zh) * 2015-05-25 2015-09-09 重庆大学 基于基音周期混合特征参数的声纹识别方法
CN105679312A (zh) * 2016-03-04 2016-06-15 重庆邮电大学 一种噪声环境下声纹识别的语音特征处理方法
CN106782500A (zh) * 2016-12-23 2017-05-31 电子科技大学 一种基于基音周期和mfcc的融合特征参数提取方法
CN107369440A (zh) * 2017-08-02 2017-11-21 北京灵伴未来科技有限公司 一种针对短语音的说话人识别模型的训练方法及装置
CN110400565A (zh) * 2019-08-20 2019-11-01 广州国音智能科技有限公司 说话人识别方法、***及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
噪声环境下基于特征信息融合的说话人识别;叶寒生等;《计算机仿真》;20090315(第03期);第325-328页 *

Also Published As

Publication number Publication date
CN111489763A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN105513605B (zh) 手机麦克风的语音增强***和语音增强方法
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
Cai et al. Sensor network for the monitoring of ecosystem: Bird species recognition
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN102968990B (zh) 说话人识别方法和***
CN109256127B (zh) 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法
CN113012720B (zh) 谱减法降噪下多语音特征融合的抑郁症检测方法
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN112397074A (zh) 基于mfcc和向量元学习的声纹识别方法
Shahnawazuddin et al. Pitch-normalized acoustic features for robust children's speech recognition
Chiu et al. Learning-based auditory encoding for robust speech recognition
KR101236539B1 (ko) 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
CN112466276A (zh) 一种语音合成***训练方法、装置以及可读存储介质
Krobba et al. Mixture linear prediction Gammatone Cepstral features for robust speaker verification under transmission channel noise
CN112116909A (zh) 语音识别方法、装置及***
CN112652312A (zh) 声纹相似度智能识别***、方法及存储介质
CN111524520A (zh) 一种基于误差逆向传播神经网络的声纹识别方法
Praveen et al. Text dependent speaker recognition using MFCC features and BPANN
Upadhyay et al. Robust recognition of English speech in noisy environments using frequency warped signal processing
Wang et al. Robust Text-independent Speaker Identification in a Time-varying Noisy Environment.
Boril et al. Data-driven design of front-end filter bank for Lombard speech recognition
CN114724589A (zh) 语音质检的方法、装置、电子设备和存储介质
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant