CN110390937B

CN110390937B - 一种基于ArcFace loss算法的跨信道声纹识别方法

Info

Publication number: CN110390937B
Application number: CN201910495120.6A
Authority: CN
Inventors: 司马华鹏; 唐翠翠
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2021-12-24
Anticipated expiration: 2039-06-10
Also published as: CN110390937A

Abstract

本发明公开了一种基于ArcFace loss算法的跨信道声纹识别方法，解决了跨信道声纹识别率较低的问题，其技术方案要点是将多信道的原始音频预处理后，提取fbank特征、fbank的一阶微分特征和fbank的二阶微分特征，将提取的其中一个信道的特征投入insightvoice网络训练，训练基于ArcFace loss算法的损失函数进行，得到单信道模型。然后将多信道的原始音频特征输入到单信道模型进行fine‑tune，得到多信道模型，使用多信道模型进行跨信道声纹识别，识别错误率低，总体效果较好。

Description

一种基于ArcFace loss算法的跨信道声纹识别方法

技术领域

本公开涉及声纹识别领域，尤其涉及一种基于ArcFace loss算法的跨信道声纹识别方法。

背景技术

目前，声纹识别产品化的过程中，噪声干扰、跨信道是两个主要技术难点，对于噪声干扰，已经研究出了很多算法，传统的谱减法、WebRTC、rnn、mask掩码等，这些方法在很大程度上能够解决噪声干扰问题。而对于跨信道问题，像经典的LDA和PLDA算法，能做到一定程度上的信道补偿。但是，在日新月异的时代里，从电话到手机，从有线到无线，从单一的麦克风到自带降噪处理功能，从低采样到高采样等等因素，信道的差异也就越来越大，跨信道的问题已经成为一个不可避免的挑战和难以逾越的鸿沟，传统的算法已经无法很好的解决这个问题。

在POC现场，跨信道的缺陷问题暴露无遗，已成为声纹的致命伤，要想声纹产品扎扎实实落地，超越同行竞争选手，解决跨信道问题已然是声纹产品化的关键。

发明内容

本公开的目的是提供一种基于ArcFace loss算法的跨信道声纹识别方法，以实现识别率较高的跨信道声纹识别。

为实现上述技术目的，本公开采用以下技术方案：

一种基于ArcFace loss算法的跨信道声纹识别方法，包括：

收集说话人至少在两个不同信道的音频，对所述音频进行预处理并提取音频特征；

将所述音频特征转换为.lst 文件，所述.lst 文件包括音频路径；

将一个信道音频特征的所述.lst 文件投入到insightvoice网络训练单信道模型，所述insightvoice网络通过.lst和音频结合的方式读取音频；

将其他信道音频特征的所述.lst 文件输入到所述单信道模型，基于所述单信道模型做fine-tune得到多信道模型；通过所述多信道模型对不同信道音频进行交叉验证，完成声纹识别；

其中，所述insightvoice网络为ResNet-50网络，由50个block组成；所述训练基于ArcFace loss算法的损失函数进行。

作为具体实施例地，所述基于ArcFace loss算法的损失函数为：

；其中，

为样本数量，

为类别数，

为角度余量，

，

，

，

，

，

表示第

个样本的深度特征，属于第

类，

表示最后一个全连接层权重

的第

列。

进一步地，所述角度余量

的值为0.5。

作为具体实施例地，所述音频特征为fbank特征、fbank的一阶微分特征和fbank的二阶微分特征。

作为具体实施例地，所述音频的预处理、fine-tune和insightvoice网络的训练基于MxNet框架进行。

本公开的有益效果在于提供了一种跨信道声纹识别方法，将多信道的音频预处理后，提取音频特征，并将音频特征转为.lst文件，将其中一个信道音频特征的.lst 文件投入insightvoice网络训练，训练基于ArcFace loss算法的损失函数进行，得到单信道模型。然后将多信道音频特征的.lst 文件输入到单信道模型进行fine-tune，得到多信道模型，使用多信道模型进行跨信道声纹识别，识别错误率低，总体效果较好。

附图说明

图1是本公开的流程图；

图2为data_train.lst和data_val.lst的文件示意图；

图3为.lst文件样例示意图；

图4为.rec文件样例示意图；

图5为insightvoice网络block结构示意图。

具体实施方式

以下结合附图对本公开作进一步详细说明。

为了提高跨信道声纹识别率，本公开使用insightvoice网络来训练声音识别网络。具体方法过程为：收集说话人在至少两个信道的音频，对音频进行预处理并提取音频特征，将音频特征转为.lst文件，.lst 文件包括音频路径，再将其中一个信道音频特征的.lst文件投入到insightvoice网络训练单信道模型；然后将多信道音频特征的.lst文件基于单信道模型进行fine-tune得到多信道模型；训练基于ArcFace loss算法的损失函数，最后通过多信道模型对不同信道音频进行交叉验证，完成跨信道声纹识别。

本公开的跨信道声纹识别是基于MxNet框架进行的，本公开insightvoice网络训练声音识别模型使用.lst和音频结合的方式读取音频，可参考MxNet框架中insightface图像的读取方式。insightvoice网络同其他深度学习网络的区别在于：投入训练的特征不一样、训练使用的损失函数不一样。

insightvoice网络训练采用特征的获取方法如下：例如音频数据放在/home/audio文件夹下，一共有10个类别，那么在/home/audio文件夹下应有10个子文件夹，每个子文件夹放属于这个类的音频文件，可以用英文、中文或数字等命名这些子文件夹来表达类别，可根据个人使用习惯来进行命名。另外假设要将生成的.lst文件放在/home/lst文件夹下，那么MxNet项目的路径是~/incubator-mxnet，运行下面的命令就可以生成.lst文件：

“python ~/incubator-mxnet/tools/im2rec.py --list True --recursiveTrue --train-ratio 0.9 /home/lst/data /home/audio”

--list参数必须要是True，说明是要生成.lst文件，--recursive参数必须为True，表示要将所有音频路径写进成.lst文件，--train-ratio参数表示将train和val以多少比例划分，默认为1，表示都是train的数据。这样在/home/lst文件夹下就会生成data_train.lst和data_val.lst两个文件，如图2所示。图3为.lst文件样例：第一列是index，第二列是label，第三列是音频路径。

当然有时候可能你的数据音频不是按照一个类别放在一个文件夹这种方式，那么就需要考虑修改这个脚本来生成相同格式的.lst文件才能用于后续生成.rec文件。第一步就是已生成的.lst文件和音频，例如要将生成的.rec文件放在.lst文件相同的/home/lst文件夹下（一般都会这样操作），那么运行下面的命令就可以生成.rec文件：

python ~/incubator-mxnet/tools/im2rec.py --num-thread 4 /home/lst /home/audio

这里倒数第二个参数：/home/lst是.lst文件所放的路径，可以不用指明.lst文件名称，因为代码会自动搜索/home/lst文件夹下所有以.lst结尾的文件。最后一个参数：/home/audio是你的音频所放的路径。–num-thread 4 这个参数是表示用4个线程来执行，当数据量较大的时候，生成.rec的过程会比较慢，使用多线程可以加速。

运行成功后，在/home/rec文件夹下就生成了data_train.rec和data_val.rec文件，如图4所示，然后就可以用mxnet.io.audioRecordIter类来导入.rec文件。第二步制作rec和idx的训练集，使用MxNet的$INSIGHTFACE/src/align对齐码可以对齐并生成lst，然后在property中定义数据集的格式，整体内容例如：1000，224，224 ，其中1000代表声纹的类别数目，音频格式为224x224。

insightvoice的网络结构为ResNet-50网络，由50个block组成，每个block的构成如图5所示，其中卷积层1的卷积核大小为3*3，步宽为1，卷积层2的卷积核大小为3*3，步宽为2。

提取预处理后的音频特征即fbank特征、 fbank的一阶微分特征和fbank的二阶微分特征。fbank特征的提取这里不再赘述，一般为对数梅尔滤波器的输出。特征的维数一般选择为64维。

然后按照上述方法将音频特征转为.lst文件并投入insightvoice网络进行训练，特征提取完成后就投入insightvoice网络进行训练，训练所用的损失函数基于ArcFaceloss算法，ArcFace loss算法的损失函数为：

；其中，

为样本数量，

为类别数，

为角度余量，

，

，

，

，

，

表示第

个样本的深度特征，属于第

类，

表示最后一个全连接层权重

的第

列。本公开选用的角度余量

的值为0.5。

本公开基于12133人数据（包含704589条音频数据）对数据做增强，在音频中加入音乐、回响、说话声、白噪声的噪音，起到数据增强的作用，提高模型的鲁棒性，本公开验证的数据来自两个信道，一是通过APP注册获取的音频，二是通过拨打电话获取的音频。在400人ai_hell_v1数据集上测试，每人识别音频数量20条，20秒APP注册和10秒电话识别分别各10条，文本为自由说方式，总共2872800次交叉验证，本地cpu每次验证耗时2秒，最终测试结果如表1所示：

表1

其中，FAR和FRR是声纹识别性能的评价指标，简单地说，FAR就是“把不应该匹配的声纹当成匹配的声纹”的比例，FRR就是“把应该相互匹配成功的声纹当成不能匹配的声纹”的比例，ERR是等错误率，是FAR和FRR均值，T-ERR是自己定义的一个性能指标，比较严格，可做参考。

基于上面训练的单信道模型，使用975人双信道数据进行fine-tune，基于25人双信道测试集分别做单信道注册验证和双信道交叉验证，包括电话注册电话识别、APP注册APP识别、电话注册APP识别、APP注册电话识别，注册时长20秒，验证时长10秒，文本内容为自由说方式，测试结果如表2所示：

表2

表2中每两行为一组，一共为四组，每组的第一行参数是当T-ERR最小时取出的参数，第二行是参照FAR和FRR相等时取出的性能参数，以第二行评价指标为主。

因为本地CPU验证每次耗时在2秒左右，故做进一步优化，将验证时长缩短为5秒，提取的fbank特征维度从64降到32，最后测试能将验证耗时缩短为500毫秒左右，但是识别准确率略有下降，测试结果如表3所示：

表3

综上，通过insightvoice网络来进行跨信道声纹识别，最终的识别效果较好。以上为本公开的部分实施例，本公开的保护范围由权利要求书及其等效物限定。