CN110556114A

CN110556114A - 基于注意力机制的通话人识别方法及装置

Info

Publication number: CN110556114A
Application number: CN201910684343.7A
Authority: CN
Inventors: 林格平; 戚梦苑; 沈亮; 李娅强; 刘发强; 孙旭东; 孙晓晨; 宁珊; 蔡文强; 王玉龙
Original assignee: Beijing University of Posts and Telecommunications; National Computer Network and Information Security Management Center
Current assignee: Beijing University of Posts and Telecommunications; National Computer Network and Information Security Management Center
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-12-10
Anticipated expiration: 2039-07-26
Also published as: CN110556114B

Abstract

本发明公开了一种基于注意力机制的说话人识别方法及装置，包括如下步骤：采集多个被测试通话人的通话录音和测试通话人的通话录音；根据所述被测试通话人对应的通话录音，建立通话人语音库；采用基于注意力的神经网络对所述被测试通话人语音进行训练，获得训练模型；存储所述测试通话人的通话录音，获得录音文件；将所述录音文件采用所述训练模型识别所述被测试通话人是否目标通话人。通过采用基于注意力的神经网络对所述被测试通话人语音进行训练，获得训练模型，采用训练模型识别所述被测试通话人，确认了拨号码对应的主人的一致性，避免了由于通话人身份被仿冒带来的通信安全隐患，进一步提高了通话过程中的信息的安全性。

Description

基于注意力机制的通话人识别方法及装置

技术领域

本发明涉及语音识别领域，特别涉及基于注意力机制的通话人识别方法及装置。

背景技术

语音是人类生产生活中最直接也是最主要的交流方式，人的语音中包含了语义信息、语言或者方言信息、信道信息等。随着计算机技术的不断进步与发展及网络时代的到来，有越来越多的措施去伪装说话人的身份。

在通信过程中，确定说话者的身份有利于确定通信的安全。现有技术中的说话人识别方式有利用KL散度的近似值作为说话人之间相似度的度量标准、利用BP神经网络进行说话人的识别、利用MFCC和GFCC的混合特征进行说话人识别等。然而，大部分技术的应用场景都是基于智能家居，如扫地机器人等根据声音去识别说话人是否为自己的主人。现有技术中并没有针对通信过程中的说话人识别方法，更没有对通信过程中语音的静默过程进行考虑。

现有技术中的语音识别的方法多数适用于对外界直接获取的语音信号进行识别的场景，缺乏在通信过程中对通话人的语音识别方法，存在通话人身份可被仿冒的安全隐患。

发明内容

本发明的目的是提出一种基于注意力机制的通话人识别方法及装置，以解决上述技术问题。

为实现上述目的，本发明提供了如下方案：

本发明实施例的第一个方面，提供了一种基于注意力机制的通话人识别方法，包括如下步骤：

采集多个被测试通话人的通话录音和测试通话人的通话录音；

根据被测试通话人对应的通话录音，建立通话人语音库；

采用基于注意力的神经网络对被测试通话人语音进行训练，获得训练模型；

存储测试通话人的通话录音，获得录音文件；

将录音文件采用训练模型识别被测试通话人是否为目标通话人。

可选的，步骤采集多个被测试通话人的通话录音和测试通话人的通话录音，包括：

测试方使用智能手机在通话过程中的内置录音功能录制被测试通话人在通话过程的语音；在通话过程中使用***自带的通话录音功能，需要明确手机设备型号，录音文件保存格式，通话时外部环境特征；并将通话录音保存为Wave格式的无损文件形式。

可选的，步骤根据所述被测试通话人对应的通话录音，建立通话人语音库，包括：

获取被测试通话人身份与被测试语音的对应关系；

根据对应关系建立通话人语音库，通话人语音库中包括被识别方通话音频数据、被测试通话人身份信息、被测试通话人环境特性、测试方录制设备信息、测试方环境特性、通话时长、通话时间、通话音量。

可选的，步骤采用基于注意力的神经网络对所述被测试通话人语音进行训练，获得训练模型，包括：

将录音文件采用维纳滤波器进行去噪处理，获得预处理录音文件；

采用基于注意力机制的时间递归神经网络训练所述预处理录音文件，获得训练模型。

可选的，步骤采用基于注意力机制的时间递归神经网络训练预处理录音文件，获得训练模型，包括：

将预处理录音文件通过时间递归神经网络的输入层提取语音特征，获得预处理录音文件中的语音的梅尔倒谱系数特征向量；

将梅尔倒谱系数特征向量发送至全连接层，全连接层(可以看作为自编码器)对梅尔倒谱系数特征向量进行特征提取，获得预处理录音文件中的语音的第二特征向量；

将第二特征向量发送至基于注意力的时间递归神经网络层，基于注意力的时间递归神经网络层包括多个LSTM层，通过多个LSTM层处理第二特征向量获得处理数据；

将处理数据发送至归一化指数函数层，归一化指数函数层将处理数据与人名对应转换，获得处理数据对应的人名。

可选的，步骤将录音文件采用训练模型识别被测试通话人是否目标通话人，包括：

判断通话人语音库中是否存在待测试语音，如果是，识别出通话人语音库中已有的被测试人；否则，如果待识别的音频文件属于新测试人，则会被识别为最相近的已有被测试人，即置信度值最大的已有分类。

为了实现上述目的，本发明还提供了如下方案：

基于注意力机制的通话人识别装置，包括：

收集模块，用于采集多个被测试通话人的通话录音和测试通话人的通话录音；

语音库建立模块，用于根据被测试通话人对应的通话录音，建立通话人语音库；

训练模块，用于采用基于注意力的神经网络对被测试通话人语音进行训练，获得训练模型；

文件存储模块，用于存储测试通话人的通话录音，获得录音文件；

测试模块，用于将录音文件采用训练模型识别被测试通话人是否目标通话人。

可选的，收集模块具体包括：

测试方单元，用于测试方使用智能手机在通话过程中的内置录音功能录制被测试通话人在通话过程的语音；

录音单元，用于在通话过程中使用***自带的通话录音功能，需要明确手机设备型号，录音文件保存格式，通话时外部环境特征；并将通话录音保存为Wave格式的无损文件形式。

可选的，语音库建立模块具体包括：

对应关系获取单元，用于获取被测试通话人身份与被测试语音的对应关系；

语音库建立单元，用于根据对应关系建立通话人语音库，通话人语音库中包括被识别方通话音频数据、被测试通话人身份信息、被测试通话人环境特性、测试方录制设备信息、测试方环境特性、通话时长、通话时间、通话音量。

可选的，训练模块具体包括：

预处理单元，用于将录音文件采用维纳滤波器进行去噪处理，获得预处理录音文件；

训练模型建立单元，用于采用基于注意力机制的时间递归神经网络训练预处理录音文件，获得训练模型。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了基于注意力机制的说话人识别方法及装置，通过采用基于注意力的神经网络对被测试通话人语音进行训练，获得训练模型，采用训练模型识别被测试通话人，能在仅有音频的情况下利用已有通信语音库确定通信过程中的说话，以便用户通过号码显示通话人与实际通话人进行匹配，从而进行可靠性的判断，可有效防御通过仿冒通话人语音而进行的诈骗等行为，间接保护用户通信安全。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1基于注意力机制的通话人识别方法的一个实施例的流程示意图；

图2为本发明实施例2提供的一种基于注意力机制的说话人识别方法的流程图；

图3为本发明实施例3基于注意力机制的通话人识别装置的结构示意图；

图4为本发明提供的神经网络结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明实施例1提供一种基于注意力机制的说话人识别方法的一个实施例，如图1所示，该方法，包括如下步骤：

S101：采集多个被测试通话人的通话录音和测试通话人的通话录音；

S102：根据被测试通话人对应的通话录音，建立通话人语音库；

S103：采用基于注意力的神经网络对被测试通话人语音进行训练，获得训练模型；

S104：存储测试通话人的通话录音，获得录音文件；

S105：将录音文件采用训练模型识别被测试通话人是否为目标通话人。

在接听过程中，测试方对通话进行录音，后续将通话录音与被测试通话人对应,构建被测试通话人语音库；

利用基于注意力的LSTM神经网络对通话人语音特征进行学习，生成通话人识别模型；

在进行通话人识别时，测试方对通话过程进行录音,并将录音文件保存成wave的音频文件；

将保存好的音频文件经过维纳滤波器，提取梅尔倒谱系数后输入到训练好的通话人识别模型，进行被测试通话人的识别。

其中基于注意力的时间递归神经网络的使用可以直接利用开源工具tensorflow实现。

其中本发明实例中使用的网络参数为：rnn_size为任一实数，如64，

attn_length为任一实数，如64。需要强调的是本发明的核心是基于注意力机制的通话人识别方法，修改网络参数等针对网络的操作均包含在本发明中。

本发明实施例提供的基于注意力机制的通话人识别，能在仅有音频的情况下利用已有通信语音库确定通信过程中的说话，以便用户通过号码显示通话人与实际通话人进行匹配，从而进行可靠性的判断，间接保护用户通信安全，通过采用训练模型识别被测试通话人是否为目标通话人，通过语音仿冒通话者身份进行通话的行为具有一定的识别能力，提高了用户通话过程中的通话信息的安全性。

实施例2

本发明实施例2提供一种基于注意力机制的说话人识别方法的一个优选实施例。参见图2所示，在该实施例中，该方法包括步骤：

S201：收集用户的通话录音，将通话录音与被测试通话人对应，构建通话人语音库。

测试方使用智能手机在通话过程中的内置录音设备或使用含有录音功能的耳机录制被测试通话人在通话过程的语音。

安卓手机在通话过程中可以使用***自带的通话录音功能，需要明确手机设备型号，录音文件保存格式，通话时外部环境特征(如安静、嘈杂)；而苹果手机由于隐私设置***并未提供通话录音功能，可以通过带有录音功能的耳机进行录音，需要明确耳机的品牌、耳机的型号，录音文件保存格式，外部环境特征(如安静、嘈杂)。

当测试方是主叫时，可以在被叫接听后打开智能手机内置录音设备或含有录音功能的耳机；当测试方是被叫时，可以在接听主叫呼叫时打开智能手机内置录音设备或含有录音功能的耳机。

语音库是被测试通话人身份与被测试语音的关联库，目的是为后续的模型训练提供数据。

语音库中包含被识别方通话音频数据；被识别方身份信息(例如：电话号码、姓名、所在地)；被叫方环境特性(例如：室内、街道、商店等)；测试方录制设备信息(例如：采样频率、降噪特性、音频存储格式等)；测试方环境特性(例如：室内、街道、商店等)；通话时长；通话时间；通话音量。

S202:利用基于注意力的神经网络对通信人语音进行训练生成训练模型。

具体而言，将语音库中的语音文件进行预处理，使用维纳滤波器进行语音的简单降噪，避免噪声对整个实验过程的影响。

使用的神经网络基于注意力机制的时间递归神经网络，网络结构如图4所示。

S203：测试过程中测试方对通话过程进行录音,并将录音文件保存。

具体而言，要求保存的音频文件格式是无损的，如WAVE、FLAC、APE、ALAC、WavPack等。

其中WAVE通常使用三个参数来表示声音，量化位数，取样频率和采样点振幅。量化位数分为8位，16位，24位三种，声道有单声道和立体声之分，单声道振幅数据为n*1矩阵点，立体声为n*2矩阵点，取样频率一般有11025Hz(11kHz)，22050Hz(22kHz)和44100Hz(44kHz)三种，音质出色，但文件体积较大。并记录录音文件的编码方式。

S204：将录音文件输入到训练好的模型，进行被测试通话人的识别。

具体而言，保存好的音频文件要先经过预处理，经过维纳滤波对语音信号进行降噪处理，然后截取成相同长度的语音片段，如10秒，将每个语音片段提取Mel频率倒谱系数特征后输入训练好的模型，进行分类，神经网络模型如图4所示。

神经网络结构包括：

S301为特征输入层，对通信语音库中的语音进行特征工程，提取所需特征，这里提取语音库中语音的梅尔倒谱系数作为特征向量；

S302为全连接层；

S303为基于注意力的时间递归神经网络层；

S304中归一化指数函数层计算的结果；

S305输出层，做编码与人名的转换，用于输出S304中归一化指数函数层计算的结果。

本实施例只能识别出已有的被测试人，即通话人语音库中已有的被测试人，如果待识别的音频文件属于新测试人，则会被识别为最相近的已有被测试人。

本发明提供的实施例2通过采用基于注意力的神经网络对被测试通话人语音进行训练，获得训练模型，采用训练模型识别被测试人通话人，确认了拨号码对应的主人的一致性，避免了通话人身份被仿冒的安全隐患。

实施例3

本发明实施例3还提供一种基于注意力机制的通话人识别装置，如图3所示。

收集模块10，用于构建被测试通话人身份和音频文件对应的被测试通话人语音库。收集模块10中还可细分为电话录音模块11和数据库处理模块12。

电话录音模块11，用于对通话过程进行录音，具体实施方法为测试方有计划或无计划的与被测试通话人产生通话，对通话过程进行录音，并将录音文件保存成如Wave格式的音频文件。

数据库处理模块12，用于关联音频文件与被测试人身份。

测试方将收集到的音频文件与被测试通话人身份，及音频文件的相关配置信息存入数据库。配置信息中含有被识别方身份信息(例如：电话号码、姓名、所在地)；被叫方环境特性(例如：室内、街道、商店等)；测试方录制设备信息(例如：采样频率、降噪特性、音频存储格式等)；测试方环境特性(例如：室内、街道、商店等)；通话时长；通话时间；通话音量的信息。

训练模块20，用来训练被测试人语音库中的音频文件。使用的网络结构模型如图4所示。

具体而言，在此之前还要对音频文件进行降噪处理并提取特征。降噪处理用的是维纳滤波，特征使用的是音频文件的梅尔倒谱系数。这里可以使用Python提供的音频处理模块python_speech_features。

测试模块30，用来识别新音频文件所属的通话人。

在测试过程中，测试方仍通过上述录音方法对与被测试通话人的通话过程进行录音。录音文件进行预处理，即训练模块20中所说的降噪处理和提取特征后将其传入训练好的模型，接收模型的输出结果。

测试模块30只能识别出训练模块20中已有的被测试人，即通话人语音库中已有的被测试人。如果测试模块30中待识别的音频文件属于新测试人，则会被识别为最相近的已有被测试人，最相近的已有被测试人为置信度值最大的已有分类的被测试人。

本发明相比于现有技术具有如下的技术效果：

本发明公开了基于注意力机制的说话人识别方法及装置，通过采用基于注意力的神经网络对所述被测试通话人语音进行训练，获得训练模型，采用训练模型识别所述被测试通话人，确认了拨号码对应的主人的一致性，避免了由于通话人身份被仿冒带来的通信安全隐患，进一步提高了通话过程中的信息的安全性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.基于注意力机制的说话人识别方法，其特征在于，包括如下步骤：

根据所述被测试通话人对应的通话录音，建立通话人语音库；

采用基于注意力的神经网络对所述被测试通话人语音进行训练，获得训练模型；

存储所述测试通话人的通话录音，获得录音文件；

将所述录音文件采用所述训练模型识别所述被测试通话人是否为目标通话人。

2.根据权利要求1所述的基于注意力机制的说话人识别方法，其特征在于，所述步骤采集多个被测试通话人的通话录音和测试通话人的通话录音，包括：

3.根据权利要求1所述的基于注意力机制的说话人识别方法，其特征在于，所述步骤根据所述被测试通话人对应的通话录音，建立通话人语音库，包括：

获取被测试通话人身份与被测试语音的对应关系；

根据所述对应关系建立通话人语音库，所述通话人语音库中包括被识别方通话音频数据、被测试通话人身份信息、被测试通话人环境特性、测试方录制设备信息、测试方环境特性、通话时长、通话时间、通话音量。

4.根据权利要求1所述的基于注意力机制的说话人识别方法，其特征在于，所述步骤采用基于注意力的神经网络对所述被测试通话人语音进行训练，获得训练模型，包括：

将所述录音文件采用维纳滤波器进行去噪处理，获得预处理录音文件；

5.根据权利要求4所述的基于注意力机制的说话人识别方法，其特征在于，所述步骤采用基于注意力机制的时间递归神经网络训练所述预处理录音文件，获得训练模型，包括：

将所述预处理录音文件通过时间递归神经网络的输入层提取语音特征，获得所述预处理录音文件中的语音的梅尔倒谱系数特征向量；

将所述梅尔倒谱系数特征向量发送至全连接层，所述全连接层，对所述梅尔倒谱系数特征向量进行特征提取，获得所述预处理录音文件中的语音的第二特征向量；

将所述第二特征向量发送至基于注意力的时间递归神经网络层，所述基于注意力的时间递归神经网络层包括多个LSTM层，通过所述多个LSTM层处理所述第二特征向量获得处理数据；

将所述处理数据发送至归一化指数函数层，所述归一化指数函数层将所述处理数据与人名对应转换，获得处理数据对应的人名。

6.根据权利要求4所述的基于注意力机制的说话人识别方法，其特征在于，所述步骤将所述录音文件采用所述训练模型识别所述被测试通话人是否目标通话人，包括：

判断所述通话人语音库中是否存在待测试语音，如果是，识别出所述通话人语音库中已有的被测试人；否则，如果待识别的音频文件属于新测试人，则会被识别为最相近的已有被测试人。

7.基于注意力机制的通话人识别装置，其特征在于，包括：

语音库建立模块，用于根据所述被测试通话人对应的通话录音，建立通话人语音库；

训练模块，用于采用基于注意力的神经网络对所述被测试通话人语音进行训练，获得训练模型；

文件存储模块，用于存储所述测试通话人的通话录音，获得录音文件；

测试模块，用于将所述录音文件采用所述训练模型识别所述被测试通话人是否目标通话人。

8.根据权利要求7所述的一种基于注意力机制的通话人识别装置，其特征在于，收集模块具体包括：

9.根据权利要求7所述的一种基于注意力机制的通话人识别装置，其特征在于，所述语音库建立模块具体包括：

语音库建立单元，用于根据所述对应关系建立通话人语音库，所述通话人语音库中包括被识别方通话音频数据、被测试通话人身份信息、被测试通话人环境特性、测试方录制设备信息、测试方环境特性、通话时长、通话时间、通话音量。

10.根据权利要求7所述的一种基于注意力机制的通话人识别装置，其特征在于，所述训练模块具体包括：

预处理单元，用于将所述录音文件采用维纳滤波器进行去噪处理，获得预处理录音文件；

训练模型建立单元，用于采用基于注意力机制的时间递归神经网络训练所述预处理录音文件，获得训练模型。