CN112951245A

CN112951245A - 一种融入静态分量的动态声纹特征提取方法

Info

Publication number: CN112951245A
Application number: CN202110257723.XA
Authority: CN
Inventors: 刘涛; 刘斌; 黄金国
Original assignee: Jiangsu Open University of Jiangsu City Vocational College
Current assignee: Jiangsu Open University of Jiangsu City Vocational College
Priority date: 2021-03-09
Filing date: 2021-03-09
Publication date: 2021-06-11
Anticipated expiration: 2041-03-09
Also published as: CN112951245B

Abstract

本发明公开了一种融入静态分量的动态声纹特征提取方法，方法包括对目标语音数据进行预处理，获取预处理后的目标语音数据，使用傅里叶变换和Mel滤波器组对预处理后的目标语音进行处理，获取目标语音数据的MFCC系数；将目标语音数据的MFCC系数带入融入静态分量的动态声纹特征提取模型中，获取目标语音数据的MFCC动态特征差分参数矩阵，将该矩阵定义为目标语音数据的动态声纹特征；本发明提供的方法在对语音数据进行声纹特征提取时，能保证声音连续性，并降低平均等错误率，提高识别率。

Description

一种融入静态分量的动态声纹特征提取方法

技术领域

本发明涉及人工智能声纹识别技术领域，具体涉及一种融入静态分量的动态声纹特征提取方法。

背景技术

目前，智能家居越来越广泛地应用到我们的生活和工作中，智能家居采用无线通信、图像处理、语音处理等技术，基于语音交互的智能家居***使用更为便捷、信息采集空间更为广泛，用户体验更为友好。

声纹识别在近年来已经取得了长足发展，在某些场合中，识别率也满足了人们对安全性的基本需求，且由于其具有经济性，便捷性等优势，应用前景十分广泛。如何能够尽可能地抑制外部噪声，从采集到的信号中提取尽可能纯净的语音特征，是各种语音处理技术走向实用化的前提。

在人们生活品质飞速提高的今天，社会大众对智能家居***的要求也不再仅仅局限于使其执行标准的、普通的控制功能，而是希望整体家居的智能化、便捷性、安全性以及舒适性都能够有更高的提升。为智能家居***添加声纹识别功能，并采用语音增强来提高***在噪声环境下的稳定性，不但可以进一步地改善智能家居的人机交互体验，提高用户对智能家居的使用效率；还可以为智能家居的控制与操作设定等级制度，针对不同权限等级的用户提供差异化的服务功能，使得***整体安全性、实用性得到进一步提高。而这样的***在未来的市场中必然有着强劲的冲击力，尤其在目前智能家居市场发展较为缓慢的大背景下，其一定会发挥越来越重要的作用，对大众的生活产生深远的影响，但现有技术中的语音识别或者说语音特征提取方法存在平均等错误率高且识别率低的问题。

为此，为了进一步降低平均等错误率、提高识别率，本发明提出了一种融入静态分量的动态声纹特征提取方法。

发明内容

本发明的目的：提供一种平均等错误率低、识别率高的动态声纹特征提取方法。

技术方案：本发明提供的融入静态分量的动态声纹特征提取方法，用于对目标语音数据进行声纹特征提取，其特征在于，方法包括如下步骤：

步骤1：对目标语音数据进行预处理，获取预处理后的目标语音数据；

步骤2：使用傅里叶变换和Mel滤波器组对预处理后的目标语音进行处理，获取目标语音数据的MFCC系数；

步骤3：将目标语音数据的MFCC系数带入融入静态分量的动态声纹特征提取模型中，获取目标语音数据的MFCC动态特征差分参数矩阵，将该矩阵定义为目标语音数据的动态声纹特征。

作为本发明的一种优选方案，在步骤1中，对目标语音数据进行预处理的方法包括：将目标语音数据分为T帧，获取多帧语音数据；

在步骤2中，使用傅里叶变换和Mel滤波器组对预处理的目标语音进行处理的方法包括如下步骤：

使用傅里叶变换分别对每帧语音数据进行处理，获取各帧语音数据的频谱；

将各帧语音数据的频谱输入Mel滤波器组中，获取各帧语音数据的MFCC系数，即目标语音数据的MFCC系数。

作为本发明的一种优选方案，在步骤3中，所述融入静态分量的动态声纹特征提取模型为：

其中，d(l,t)为第t帧语音数据的第l阶动态声纹特征提取结果，d(l,t)构成目标语音数据的MFCC动态特征差分参数矩阵中第l阶的第t个元素，C(l,t)为MFCC系数中第l阶的第t个参数，C(l,t+1)为MFCC系数中第l阶的第t+1个参数，C(l,t+k)为第l阶的第t+k个参数，C(l,t-k)为MFCC系数中为第l阶的第t-k个参数，k为对第t帧语音数据进行傅里叶变换后的频率序数，K为对第t帧语音数据进行傅里叶变换时的预设总步长。

作为本发明的一种优选方案，根据如下公式：

获取MFCC系数中第t帧语音数据的第l阶特征系数C(l,t)；

其中，L为MFCC系数的阶数，m为Mel滤波器组的序号，S(m)为第m个Mel滤波器组输出的对数能量。

作为本发明的一种优选方案，根据如下公式：

获取第m个Mel滤波器组输出的对数能量S(m)；

其中，M表示滤波器组的总个数，N表示第t帧语音数据的数据长度，X(k)表示与第k个频率所对应的功率，H_m(k)表示与第k个频率所对应第m个Mel滤波器组的传递函数。

有益效果：相对于现有技术，本发明提供的融入静态分量的动态声纹特征提取方法，基于融入静态分量的动态声纹特征提取模型进行声纹特征的提取，在保证声音连续性的同时，达到了降低平均等错误率、提高识别率的目的。

附图说明

图1是根据本发明实施例提供的动态声纹特征提取方法流程图；

图2是根据本发明实施例提供的等错误率随动态特征和静态特征比值变化的示意图；

图3是根据本发明实施例提供的等错误率随静态特征系数变化的示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

参照图1，本发明提供的融入静态分量的动态声纹特征提取方法包括如下步骤：

步骤1：对目标语音数据进行预处理，获取预处理后的目标语音数据。

对目标语音数据进行预处理的方法包括：将目标语音数据分为T帧，获取多帧语音数据；

步骤2：使用傅里叶变换和Mel滤波器组对预处理后的目标语音进行处理，获取目标语音数据的MFCC系数。

使用傅里叶变换和Mel滤波器组对预处理的目标语音进行处理的方法包括如下步骤：

步骤1和步骤2的方法具体包括如下步骤：

梅尔频率倒谱系数(MFCC)的提取是在已经进行过语音预处理的数据上进行的，通过对数据进行傅立叶变换、梅尔(Mel)滤波器滤波等运算得到所需的特征系数。

(1)将语音预处理后的每帧数据进行傅立叶变换，得到对应频谱并且获取每一帧的功率谱|X(j)|²，X(j)计算公式如下：

其中，N为每帧的长度，J为快速傅里叶变换长度，即总帧数，j为1～J的取值，表示第j帧，x(n)为第n帧中的语音数据。

(2)设计Mel滤波器组，通过配置的Mel滤波器组对信号的功率谱进行滤波。进行对数运算，将频率尺度转换为Mel频率。滤波器组中第m个滤波器的中心频率f(m)满足下列公式：

Mel(f(m+1))-Mel(f(m))＝Mel(f(m))-Mel(f(m-1))

其中，m为滤波器组中滤波器的序号，Mel(f(m))是将频率f(m)转换为Mel频率的运算。

Mel滤波器组中的每个带通滤波器的传递函数H_m(f)：

其中，f为频率。

语音数据经过Mel滤波器处理之后，求取每个滤波器组输出的对数能量S(m)：

其中，m为滤波器组滤波器的序号，M为滤波器组中滤波器的总个数，一般取22～26，本发明取M＝24。|X(k)|²表示第k帧的功率谱,H_m(f)表示滤波器组中第m个滤波器频率为f的传递函数。

(3)将每一帧的对数Mel功率谱进行离散余弦变换对其能量进行去相关操作，消除各维信号之间的相关性，将信号映射到低维空间，得到对应的MFCC系数C(l)：

其中，L为MFCC系数总阶数，通常取12至18，本发明取L＝15；l为1～L的取值，表示MFCC系数第l阶。

在步骤3中，根据如下方法构建融入静态分量的动态声纹特征提取模型：

动态特征提取实质是为MFCC系数差分方式，即在计算第t帧的MFCC系数差分参数时，使用第t-1帧与第t+1帧参数进行减采样。因此，经典动态特征提取公式如下：

其中，J表示快速傅里叶变换长度，常取1或者2，代表一阶MFCC系数差分参数和二阶MFCC系数差分参数，j为J的取值(1≤j≤J)；l为梅尔倒谱系数阶数，t为帧序号，T为一段音频的总帧数，C(l,t)为语音信号的梅尔倒谱系数矩阵第l阶第t个参数，d(l,t)为MFCC动态特征参数。

将本发明提出的新的动态声纹特征征梅尔频率倒谱系数公式：

修改为:

其中，

为本发明提出的动态声纹特征，MFCC为静态声纹特征，ΔMFCC为经典的动态声纹特征，即差分动态参数，α为静态特征系数，β为动态特征系数，δ为动态特征系数与静态特征系数的比值。

根据如下方法确定和α和δ值：

假设α＝1，通过实验确定动态系数与静态系数的比值δ的最优值。

设定实验中的高斯元件个数为64，在TIMIT语料库中选择100人(其中女性50人，男性50人)的语音数据，作为此次实验的实验语音数据。选取其中60人的语音数据作为UBM模型训练的训练数据，将每个人的10段语音组合成10秒的语音进行UBM模型训练。得到UBM模型的模型参数后进行保存，再将剩下的40人中每人的5段语音组合成10秒的语音数据来训练每个特定说话人的GMM模型并且保存所得到的模型参数。最后40人的剩下的语音数据循环组成10段5秒的语音数据对***进行匹配测试。在一次完整测试过程包括400次的说话人接受测试实验和15600次说话人拒绝测试实验，并且得到等错误率作为一次实验的输出结果。

对于语音数据得到的声纹特征，每段测试语音产生数帧语音段，设定的MFCC阶数是15阶，从而一帧语音数据能够产生15个MFCC系数，经过计算之后又会生成15个动态特征系数，组合之后每帧语音段产生30个MFCC系数。实验中采样频率是16KHz，帧移为帧长的1/2。

根据实验条件，δ取5个不同的值，分别进行5次实验，得到平均等错误率数据如表1所示：

表1

根据表1所示的数据，就可得到不同动态特征与静态特征比值δ与平均等错误率曲线如图1所示。

从图2中可以看出，当δ＝1时，平均等错误率最低，从而得到动态特征与静态特征比值δ的最优值为1。

据此，可将本发明提出的动态声纹特征征梅尔频率倒谱系数公式变为：

根据实验条件，α取5个不同的值，分别进行5次实验，得到平均等错误率数据如表2所示：

表2

根据表2所示的数据，就可得到不同静态特征系数α与平均等错误率曲线如图3所示。

从图3中可以看出，当α＝0.5时，平均等错误率最低，从而得到静态特征系数的最优值为0.5。

公式(5)表示动态特征参数，即为ΔMFCC，MFCC为静态特征参数，即MFCC＝d(l,t)，两者各取权重0.5相加，就得到融入静态分量的动态特征提取公式：

整理就得融入静态分量的动态特征提取公式：

即构建的融入静态分量的动态声纹特征提取模型为：

其中，d(l,t)为第t帧语音数据的第l阶动态声纹特征提取结果，d(l,t)构成目标语音数据的MFCC动态特征差分参数矩阵中第l阶的第t个元素，即：d(l,t)为MFCC动态特征差分参数矩阵第l阶第t个参数；C(l,t)为MFCC系数中第l阶的第t个参数，C(l,t+1)为MFCC系数中第l阶的第t+1个参数，C(l,t+k)为第l阶的第t+k个参数，C(l,t-k)为MFCC系数中为第l阶的第t-k个参数，k为对第t帧语音数据进行傅里叶变换后的频率序数，K为对第t帧语音数据进行傅里叶变换时的预设总步长。

且对于构建的融入静态分量的动态声纹特征提取模型，根据如下公式：

获取MFCC系数中第t帧语音数据的第l阶特征系数C(l,t)；

根据如下公式：

获取第m个Mel滤波器组输出的对数能量S(m)；

基于上述模型和方法，根据梅尔倒谱系数矩阵、音频时长等参数，可先计算出静态特征参数，进一步计算出融入静态分量的动态特征提参数，供声纹识别。

在声纹识别算法中，常用高斯混合模型和通用背景模型对说话人声纹特征进行模型建立，主要包括高斯混合模型训练语音输入、语音预处理、声纹特征提取、通用背景模型参数输入、高斯混合模型构建以及高斯混合模型参数保存这几部分。通常，在声纹识别算法中，在声纹特征提取这个过程，大多采用经典的动态特征提取算法，本发明对这一过程进行了改进，在计算动态特征提参数时，融入了静态分量，提高了声纹识别算法的性能。

以上所述仅是本发明的优选实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种融入静态分量的动态声纹特征提取方法，用于对目标语音数据进行声纹特征提取，其特征在于，方法包括如下步骤：

2.根据权利要求1所述的融入静态分量的动态声纹特征提取方法，其特征在于，在步骤1中，对目标语音数据进行预处理的方法包括：将目标语音数据分为T帧，获取多帧语音数据；

3.根据权利要求2所述的融入静态分量的动态声纹特征提取方法，其特征在于，在步骤3中，所述融入静态分量的动态声纹特征提取模型为：

4.根据权利要求3所述的融入静态分量的动态声纹特征提取方法，其特征在于，根据如下公式：

获取MFCC系数中第t帧语音数据的第l阶的特征系数C(l,t)；

5.根据权利要求4所述的融入静态分量的动态升温特征提取方法，其特征在于，根据如下公式：

获取第m个Mel滤波器组输出的对数能量S(m)；