CN112786059A

CN112786059A - 一种基于人工智能的声纹特征提取方法及装置

Info

Publication number: CN112786059A
Application number: CN202110267332.6A
Authority: CN
Inventors: 徐琼; 程铖; 谢根; 汪贵旗; 聂亚子
Original assignee: Hefei Qingda Innovation Research Institute Co ltd
Current assignee: Hefei Qingda Innovation Research Institute Co ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-05-11

Abstract

本发明公开了一种基于人工智能的声纹特征提取方法及装置。本发明包括如下步骤：采集语音数据和非语音数据，建立样本数据库；从样本数据库中取一音频文件，进行处理得到音频帧序列；对音频帧序列中每一帧进行傅里叶变化，得到该帧对应的频谱图信息；将时域信息和频域信息进行提取，得到时域特征和频域特征；将时域特征和频域特征进行特征聚合，得到聚合后的特征；对聚合后的特征进行向量嵌入，得到声纹特征向量；将声纹特征向量输入至卷积神经网络模型进行训练，得到声纹特征模型；获取待识别语音数据进行预处理；从预处理后的语音特征数据输入声纹特征模型得到语音特征向量。本发明提高了声纹特征提取的准确率和效率。

Description

一种基于人工智能的声纹特征提取方法及装置

技术领域

本发明属于声纹特征提取技术领域，特别是涉及一种基于人工智能的声纹特征提取方法及装置。

背景技术

传统的对声信号特征提取的方法有LPCC(线性预测倒谱系数)和MFCC(梅尔倒谱系数)等。

LPCC是基于线性预测分析(LPC)的方法求取声音信号的特征参数，基本思想为，通过声音信号在某个时间点之前的P个样本预测此点的声音样本，并且可以由这P个样本的线性组合表示。由工程器械声音信号的LPCC特征图(1)可以看到，不同器械信号的分布各有特点，但仅从第一个系数来看，这几类器械的参数都有重合，没有表现出对特征信号很好的区分性。

MFCC是基于人耳对声音的感知模型特性提出的，人的听觉对声音的感知能力与其频率呈非线性关系，对不同频率声音的灵敏程度不同，总体上对低频有更好的分辨能力。从声音信号的MFCC特征分布图上可以看出不同器械特征分布整体上有所区别，由工程器械声音信号的MFCC特征分布图中可以看出，第一个系数的取值相互之间差别较大，但存在一定范围的参数重合。因此使用MFCC特征可以实现基本的描述，但是对特征的区分度不够理想。

现有的声纹识别技术大多应用于说话人识别，是一种从语音信号中提取说话人的声纹特征进行身份验证的生物识别技术，该项技术可以应用在刑事侦查、司法鉴定和电话识别等多个领域，因此，如何尽可能地提高声纹特征的提取精度一直是本领域技术人员不断探索的主要方向之一。

发明内容

本发明的目的在于提供一种基于人工智能的声纹特征提取方法及装置，通过对样本数据库中的音频文件进行处理得到音频序列，对音频序列的每一帧进行傅里叶变化处理，提取声纹特征向量，并将声纹特征向量输入至卷积神经网络模型进行训练，得到声纹特征模型，解决了现有的声纹特征提取不准确、效率低的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种基于人工智能的声纹特征提取方法，包括如下步骤：

步骤S1：采集语音数据和非语音数据，建立样本数据库；

步骤S2：从样本数据库中取一音频文件，进行处理得到音频帧序列；

步骤S3：对音频帧序列中每一帧进行傅里叶变化，得到该帧对应的频谱图信息；所述频谱图信息包括：时域信息和频域信息；

步骤S4：将时域信息和频域信息进行提取，得到时域特征和频域特征；

步骤S5：将时域特征和频域特征进行特征聚合，得到聚合后的特征；

步骤S6：对聚合后的特征进行向量嵌入，得到声纹特征向量；

步骤S7：将声纹特征向量输入至卷积神经网络模型进行训练，得到声纹特征模型；

步骤S8：获取待识别语音数据进行预处理；

步骤S9：从预处理后的语音特征数据输入声纹特征模型得到语音特征向量。

优选地，所述步骤S2中，音频帧序列获取步骤如下：

步骤S21：将音频文件按照固定采样频率转换成固定位数的音频数字信号；

步骤S22：在固定的时间窗内，对音频数字信号依次进行归一化、预加重、分帧加窗处理，得到音频帧序列。

优选地，所述步骤S22中：

所述归一化处理，用于减少不同样本之间的差异，且使得音频信号的幅值范围投影到[-1,1]之间；

所述预加重，用于提高音频信号的高频成分，使得音频信号从低频到高频变得相对平坦；采用高通滤波器提升高频分量，滤波器的响应特征如

H(z)＝1-uz^-1

其中，系数u的取值范围为[0.9，1]，u为预加重系数；

所述分帧加窗处理声音信号采样归一化后的数据x(n)进行分帧加窗处理，采用一定长度的窗函数w(n)乘以声音信号x(n)得到每帧加窗后的信号x_i(n)，常用的窗函数有汉明窗、汉宁窗和矩形窗；其公式为：

x_i(n)＝w(n)*x(n)

所述汉明窗：

所述汉宁窗：

所述矩形窗：

优选地，所述步骤S3中，对音频帧序列中每一帧进行傅里叶变化的得到每帧音频序列的频谱，并对每帧音频序列的频谱取模的平方得到音频洗了的功率谱；通过预设滤波器对音频序列的功率谱滤波，得到音频序列的对数能量；对音频序列的对数能量进行离散余弦变化，得到音频的特征向量。

优选地，所述步骤S4中，时域信息和频域信息输入到二维卷积神经网络中，能够得到声音数据的时域特征和频域特征。

优选地，所述步骤S5中，时域特征和频域特征进行特征聚合包括：将所述时域特征和频域特征输入到局部向量聚合层，以使得局部向量聚合层对时域信息或频域信息相似度大于预设相似度的时域特征和频域特征聚合在一起。

优选地，所述步骤S6中，对聚合后的特征输入到全连接层，得到声纹特征向量。

优选地，所述步骤S7中，声纹特征向量输入至卷积神经网络模型进行训练，得到用于识别声纹的声纹模型包括：

通过卷积神经网络模型的卷积层提取声纹特征向量的局部声纹信息；

通过卷积神经网络模型的全连接层将提取到的局部声纹信息进行连接，得到多维度的局部声纹信息；

通过卷积神经网络模型的池化层对多维度的局部声纹信息进行降维处理，得到声纹特征模型。

优选地，所述步骤S8中，预处理包括如下步骤：

步骤S81：待识别语音进行增强处理；

步骤S82：将增强的声音信号以语谱图的形式输出；

步骤S83：将彩色的语谱图转换成灰度图；

步骤S84：将灰度图二值化处理，转换成对应的二值图；

步骤S85：将二值图纹理分布特征提取相应特征数据。

本发明为一种基于人工智能的声纹特征提取装置，包括：

获取单元：用于获取语音数据和非语音数据；

提取单元：用于从语音数据中提取声纹特征向量；

训练单元：用于将声纹特征向量输入至卷积神经网络模型进行训练，得到得到声纹特征模型。

本发明具有以下有益效果：

本发明通过对样本数据库中的音频文件进行处理得到音频序列，对音频序列的每一帧进行傅里叶变化处理，提取声纹特征向量，并将声纹特征向量输入至卷积神经网络模型进行训练，得到声纹特征模型，将待识别语音输入声纹特征模型来进行声纹特征提取，提高了声纹特征提取的准确率和效率。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于人工智能的声纹特征提取方法步骤图；

图2为本发明的一种基于人工智能的声纹特征提取装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于人工智能的声纹特征提取方法，包括如下步骤：

步骤S1：采集语音数据和非语音数据，建立样本数据库；

步骤S3：对音频帧序列中每一帧进行傅里叶变化，得到该帧对应的频谱图信息；频谱图信息包括：时域信息和频域信息；

步骤S8：获取待识别语音数据进行预处理；

声纹可以从语音波形中提取讲话者的生理或行为方面，然后进行特征匹配。为了实现声纹识别，讲话者首先需要将多个声音样本输入到***中，并利用声纹特征提取技术来提取个人特征。这些数据通过声纹建模技术最终被放入数据库中，识别对象是存储在数据库中的模型和需要验证的声纹特征，最终识别说话人。

其中，步骤S1中，采集语音数据和非语音数据需要先进行预处理，用于最大限度还原原始语音信号，像混叠(Aliasing)、高次谐波失真(High Order Harmonic Distortion)、高频(High Frequency)等等这些可能会由人类本身发声器官和实验过程中采集语音信号的设备所带来的因素，经过预处理之后的信号参数，在后期进行处理之后有助于得到更平滑、均匀的信号参数，有助于实验准确度和方便指数。

其中，步骤S2中，音频帧序列获取步骤如下：

语音的基频，男生在100Hz左右，女声在200Hz左右，换算成周期就是10ms和5ms，音频帧要包含多个周期，一般至少取20ms，也可以通过音频帧来判断发声人的性别。

其中，步骤S22中：

归一化处理，用于减少不同样本之间的差异，且使得音频信号的幅值范围投影到[-1,1]之间；

预加重，用于提高音频信号的高频成分，使得音频信号从低频到高频变得相对平坦；采用高通滤波器提升高频分量，滤波器的响应特征如

H(z)＝1-uz^-1

其中，系数u的取值范围为[0.9，1]，u为预加重系数；

预加重(Pre-emphasis)是一种在发送端事先对发送信号的高频分量进行补偿的方法。之所以要进行预加重，是因为信号能量分布不均，造成语音信号高频端的信噪比(SNR)可能降到阀域。语音信号的功率谱随与频率成反比例关系，低频区域能量高，高频区域能量低的能量低，考虑分布不均的原因，可以推测判断出产生最大频偏的信号幅度多数是在低频。换个表达方式，预加重了噪声功谱。这是人们都不想要的结果，因此出现了与之抗衡的预加重和去加重。预加重就是对高频信号进行提升，去除声门和***的影响，方便研究声道的影响。不过为了尽可能还原原来的信号功率分布，还需要进行相反的处理，就是去加重技术，把高频信号去加重。在这一步处理过程中，同时也减小了噪声的高频分量，令人没有想到的是预加重对噪声并没有影响，因此有效地提高了输出信噪比(SNR)。

经过采样和量化后由模拟信号变为离散序列(数字信号)，为了使信号的频谱变得平坦，通过一个一阶有限激励响应高通滤波器进行预加重处理，经过试验u取0.97。

分帧加窗处理声音信号采样归一化后的数据x(n)进行分帧加窗处理，采用一定长度的窗函数w(n)乘以声音信号x(n)得到每帧加窗后的信号x_i(n)，常用的窗函数有汉明窗、汉宁窗和矩形窗；其公式为：

x_i(n)＝w(n)*x(n)

汉明窗：

汉宁窗：

矩形窗：

为了使全局更连续，避免了吉布斯效应，并且原始没有周期性的语音信号具有周期性函数的特征，本申请文件采用的窗长为64点；

如图3所示，则窗长(L＝64)矩形窗定义为：

则窗长(L＝64)汉宁窗定义为：

则窗长(L＝64)汉明窗定义为：

由于直接对信号(加矩形窗)截断会产生频谱泄露，为了改善频谱泄露的情况，加非矩形窗，一般都是加汉明窗，因为汉明窗的幅频特性是旁瓣衰减较大，主瓣峰值与一个旁瓣峰值衰减可达43dB。

其中，步骤S3中，对音频帧序列中每一帧进行傅里叶变化的得到每帧音频序列的频谱，并对每帧音频序列的频谱取模的平方得到音频洗了的功率谱；通过预设滤波器对音频序列的功率谱滤波，得到音频序列的对数能量；对音频序列的对数能量进行离散余弦变化，得到音频的特征向量。

使用MATLAB时域处理及分析，在时域图中，语音信号直接由其时间波形表示。时域波形图背后蕴藏着丰富的语音参数信息。用MATLAB打开的时域图，显示了该语音波形的量化精度，它是16bit。可以得到每个声音的起始位置，通过波形振幅和周期性可以观察不同特性的音素差异。经过对比，考虑说话的端点不一致，单从时域是没有办法确定非目标人与目标人。

使用MATLAB频域处理及分析，所谓信号，从狭义上说可以认为是自然界中作为信息载体的各类波，一般来说简谐震动产生的正弦波是最常见的研究对象。针对正弦波，在数学上有一系列的工具可以对其进行分析。因此，对于自然界存在的所有波，我们可以利用所谓的傅立叶级数展开法将它们分解为有限或无限个不同频率不同振幅的正弦波的集合，其中各个分量的振幅的确定有专门的公式。而各个分量的频率恰好是原来函数频率的整数倍。我们可以发现，经过分解后的公式完全可以用一幅图来表示，横坐标为各个分量的频率，纵坐标为对应振幅，就是周期性傅里叶变换。对于非周期信号的傅立叶变换所得频域图像是连续的。

傅里叶变换是离散傅氏变换(DFT)的快速算法。它是根据离散傅氏变换的奇、偶、虚、实等特性，对离散傅立叶变换的算法进行改进获得的。正弦曲线无限拟合需要拆分的对象信号是(Fourier Transform)的原理。在各式各样的信号中单单选中正弦信号，主要的原因就是它能保持真我。不管幅度和相位做出什么样的千奇百怪的变换，但是频率和波的形状却还是亘古不变。在频域波形图上可以发现原周期信号含有的所有频率的余弦(或正弦)信号的幅度和相位大小，也就知道了周期信号含有的所有成分以及这些频率成分对原信号的贡献大小。

在MATLAB R2016b实验环境下，的信号处理工具箱中函数FFT和IFFT用于快速傅里叶变换和逆变换。考虑到人说话在100Hz～1100Hz范围，本申请文件截取了100Hz～1100Hz区间内频域波形图。对比可以发现，从频域角度同一目标人不同次差异很小，而不同人则有很大差异，选取了频率为515Hz这一点，目标人与非目标人的幅值相差1000左右。

其中，步骤S4中，时域信息和频域信息输入到二维卷积神经网络中，能够得到声音数据的时域特征和频域特征。

其中，步骤S5中，时域特征和频域特征进行特征聚合包括：将时域特征和频域特征输入到局部向量聚合层，以使得局部向量聚合层对时域信息或频域信息相似度大于预设相似度的时域特征和频域特征聚合在一起。

其中，步骤S6中，对聚合后的特征输入到全连接层，得到声纹特征向量。

其中，步骤S7中，声纹特征向量输入至卷积神经网络模型进行训练，得到用于识别声纹的声纹模型包括：

其中，步骤S8中，预处理包括如下步骤：

步骤S81：待识别语音进行增强处理；

步骤S82：将增强的声音信号以语谱图的形式输出；

步骤S83：将彩色的语谱图转换成灰度图；

步骤S84：将灰度图二值化处理，转换成对应的二值图；

步骤S85：将二值图纹理分布特征提取相应特征数据。

请参阅图2所示，一种基于人工智能的声纹特征提取装置，其特征在于，包括：

获取单元：用于获取语音数据和非语音数据；

提取单元：用于从语音数据中提取声纹特征向量；

值得注意的是，上述***实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于人工智能的声纹特征提取方法，其特征在于，包括如下步骤：

步骤S1：采集语音数据和非语音数据，建立样本数据库；

步骤S8：获取待识别语音数据进行预处理；

2.根据权利要求1所述的一种基于人工智能的声纹特征提取方法，其特征在于，所述步骤S2中，音频帧序列获取步骤如下：

3.根据权利要求2所述的一种基于人工智能的声纹特征提取方法，其特征在于，所述步骤S22中：

H(z)＝1-uz^-1

其中，系数u的取值范围为[0.9，1]，u为预加重系数；

x_i(n)＝w(n)*x(n)

所述汉明窗：

所述汉宁窗：

所述矩形窗：

4.根据权利要求1所述的一种基于人工智能的声纹特征提取方法，其特征在于，所述步骤S3中，对音频帧序列中每一帧进行傅里叶变化的得到每帧音频序列的频谱，并对每帧音频序列的频谱取模的平方得到音频洗了的功率谱；通过预设滤波器对音频序列的功率谱滤波，得到音频序列的对数能量；对音频序列的对数能量进行离散余弦变化，得到音频的特征向量。

5.根据权利要求1所述的一种基于人工智能的声纹特征提取方法，其特征在于，所述步骤S4中，时域信息和频域信息输入到二维卷积神经网络中，能够得到声音数据的时域特征和频域特征。

6.根据权利要求1所述的一种基于人工智能的声纹特征提取方法，其特征在于，所述步骤S5中，时域特征和频域特征进行特征聚合包括：将所述时域特征和频域特征输入到局部向量聚合层，以使得局部向量聚合层对时域信息或频域信息相似度大于预设相似度的时域特征和频域特征聚合在一起。

7.根据权利要求1所述的一种基于人工智能的声纹特征提取方法，其特征在于，所述步骤S6中，对聚合后的特征输入到全连接层，得到声纹特征向量。

8.根据权利要求1所述的一种基于人工智能的声纹特征提取方法，其特征在于，所述步骤S7中，声纹特征向量输入至卷积神经网络模型进行训练，得到用于识别声纹的声纹模型包括：

9.根据权利要求1所述的一种基于人工智能的声纹特征提取方法，其特征在于，所述步骤S8中，预处理包括如下步骤：

步骤S81：待识别语音进行增强处理；

步骤S82：将增强的声音信号以语谱图的形式输出；

步骤S83：将彩色的语谱图转换成灰度图；

步骤S84：将灰度图二值化处理，转换成对应的二值图；

步骤S85：将二值图纹理分布特征提取相应特征数据。

10.一种基于人工智能的声纹特征提取装置，其特征在于，包括：

获取单元：用于获取语音数据和非语音数据；

提取单元：用于从语音数据中提取声纹特征向量；