CN111179945A

CN111179945A - 基于声纹识别的安全门的控制方法和装置

Info

Publication number: CN111179945A
Application number: CN201911418613.6A
Authority: CN
Inventors: 黄文强; 季蕴青; 张懂; 胡玮; 易念; 胡传杰; 浮晨琪; 胡路苹; 黄雅楠; 李蚌蚌; 申亚坤; 王畅畅; 徐晨敏
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-19
Anticipated expiration: 2039-12-31
Also published as: CN111179945B

Abstract

本申请提供一种基于声纹识别的安全门的控制方法和装置，在用户输入开启密码后，采集用户的语音信息，并提取出语音信息中的声纹特征；利用风险预测网络处理声纹特征，得到声纹特征的预估风险等级；若声纹特征的预估风险等级为低风险，且用户输入的开启密码通过密码校验，控制银行金库的安全门开启；若声纹特征的预估风险等级为高风险，控制银行金库的安全门关闭。本方案用预先构建的风险预测网络处理用户输入金库密码时的声纹特征，预测出用户输入金库密码的场景的风险等级，基于预测结果控制金库的安全门的开启或关闭，从而有效避免了高风险场景下金库门开启导致的财物损失。

Description

基于声纹识别的安全门的控制方法和装置

技术领域

本发明涉及安防技术领域，特别涉及一种基于声纹识别的安全门的控制方法和装置。

背景技术

银行金库是银行的重点区域，储存有大量贵重物品，金库的物品被盗或被抢将给银行带来巨大损失。为了保护金库内物品的安全，现有银行多采用密码锁的方式控制金库的安全门。

然而，在某些高风险场景中(例如，发生暴力犯罪事件时)持有金库安全门密码的管理员可能会被胁迫打开安全门，现有的密码锁无法识别这类场景，一旦管理员输入了正确的密码安全门就会开启，导致金库内的财物失窃。

发明内容

基于上述现有技术的缺点，本发明提供一种基于声纹识别的安全门的控制方法和装置，以提供一种能够识别高风险场景并在高风险场景下自动控制金库的安全门的控制方案。

本发明第一方面提供一种基于声纹识别的安全门的控制方法，包括：

在用户输入银行金库的安全门的开启密码后，采集用户的语音信息；

提取所述语音信息的声纹特征；

利用风险预测网络处理所述声纹特征，得到所述声纹特征的预估风险等级；其中，所述风险预测网络是，利用样本数据集预先训练得到的反向传播神经网络；所述样本数据集的每一个样本数据，均包括声纹特征和所述声纹特征对应的实际风险等级；

若所述声纹特征的预估风险等级为低风险，且用户输入的开启密码通过密码校验，控制银行金库的安全门开启；

若所述声纹特征的预估风险等级为高风险，控制所述银行金库的安全门关闭。

可选的，所述在用户输入银行金库的安全门的开启密码后，采集用户的语音信息之前，还包括：

在用户输入银行金库的安全门的开启密码后，输出第一提示信息；其中，所述第一提示信息用于提示用户提供与所述第一提示信息匹配的语音信息；

其中，所述采集用户的语音信息，包括：

采集用户提供的，与所述第一提示信息匹配的语音信息。

可选的，所述若所述声纹特征的预估风险等级为低风险，且用户输入的开启密码通过密码校验，控制银行金库的安全门开启，包括：

若所述声纹特征的预估风险等级为低风险，比较所述用户输入的开启密码和预设的所述银行金库的标准密码；

若所述用户输入的开启密码和所述银行金库的标准密码一致，确定所述用户输入的开启密码通过密码校验，并控制所述银行金库的安全门开启。

可选的，训练所述风险预测网络的方法，包括：

获取初始预测网络；其中，所述初始预测网络的参数利用遗传算法确定；

针对样本数据集的每一个样本数据，利用所述初始预测网络处理所述样本数据的声纹特征，得到所述样本数据的预估风险等级；

根据每一个所述样本数据的预估风险等级和所述样本数据的实际风险等级，计算所述初始预测网络的损失函数；

若所述初始预测网络的损失函数不满足收敛条件，更新所述初始预测网络的参数，返回执行所述针对样本数据集的每一个样本数据，利用所述初始预测网络处理所述样本数据的声纹特征，得到所述样本数据的预估风险等级；

若所述初始预测网络的损失函数满足收敛条件，将所述初始预测网络确定为风险预测网络。

可选的，所述若所述声纹特征的预估风险等级为高风险，控制所述银行金库的安全门关闭之后，还包括：

向授权终端发送授权请求，并接收所述授权终端的响应信息；

若所述授权终端的响应信息授权开启所述银行金库的安全门，且所述用户输入的开启密码通过密码校验，控制所述银行金库的安全门开启；

若所述授权终端的响应信息授权关闭所述银行金库的安全门，控制所述银行金库的安全门关闭。

本发明第二方面提供一种基于声纹识别的安全门的控制装置，包括：

采集单元，用于在用户输入银行金库的安全门的开启密码后，采集用户的语音信息；

提取单元，用于提取所述语音信息的声纹特征；

预测单元，用于利用风险预测网络处理所述声纹特征，得到所述声纹特征的预估风险等级；其中，所述风险预测网络是，利用样本数据集预先训练得到的反向传播神经网络；所述样本数据集的每一个样本数据，均包括声纹特征和所述声纹特征对应的实际风险等级；

控制单元，用于，若所述声纹特征的预估风险等级为低风险，且用户输入的开启密码通过密码校验，控制银行金库的安全门开启；

所述控制单元，用于，若所述声纹特征的预估风险等级为高风险，控制所述银行金库的安全门关闭。

可选的，还包括：

提示单元，用于在用户输入银行金库的安全门的开启密码后，输出第一提示信息；其中，所述第一提示信息用于提示用户提供与所述第一提示信息匹配的语音信息；

其中，所述采集单元采集用户的语音信息时，具体用于：

采集用户提供的，与所述第一提示信息匹配的语音信息。

可选的，所述控制单元若所述声纹特征的预估风险等级为低风险，且用户输入的开启密码通过密码校验，控制银行金库的安全门开启时，具体用于：

可选的，所述控制装置还包括训练单元，所述训练单元用于：

可选的，所述控制装置还包括：通信单元，用于向授权终端发送授权请求，并接收所述授权终端的响应信息；

其中，所述控制单元还用于：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种基于声纹识别的安全门的控制方法的流程图；

图2为本申请实施例提供的一种风险预测模型的训练方法的流程图；

图3为本申请实施例提供的一种基于声纹识别的安全门的控制装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

人说话时，语音的声纹特征能够体现说话人的情感状态，例如，高兴，恐惧，惊吓等。因此，可以构建一个用于识别声纹特征的神经网络，用于根据语音中的声纹特征确定说话人当前的情感状态。进一步的，人在危险场景下(例如，被绑架，被胁迫等场景)的情感状态会表现出不同于安全场景的惊吓和恐惧，对应的危险场景下语音的声纹特征会明显的区别于安全场景下的语音的声纹特征，所以，利用大量样本数据对一个初始神经网络进行训练，得到风险预测网络，这个风险预测网络就可以根据用户当前发出的语音的声纹特征预测出用户(本申请中，用户指代银行金库的管理员)当前是处于危险场景还是安全场景下，从而根据预测结果实现对金库的安全门的控制。

综上所述，本申请实施例提供一种基于声纹识别的安全门的控制方法，请参考图1，该方法包括以下步骤：

S101、在用户输入银行金库的安全门的开启密码后，采集用户的语音信息。

可选的，在用户唤醒安全门的密码输入界面，开始输入安全门的开启密码后，金库的控制***可以采用语音播放，屏幕显示等形式输出第一提示信息，以提示用户提供与第一提示信息匹配的语音信息。

例如，可以在屏幕上展示如下文所示的第一提示信息：

“请说出后续文字：‘请打开安全门’”

通过输出这样的第一提示信息，可以指示用户在输入密码后发出“请打开安全门”的语音，然后控制***就可以采集用户提供的“请打开安全门”的语音，进而执行后续步骤。

S102、提取语音信息的声纹特征。

一段语音信号可以用多种特征参数描述，包括但不限于基频、能量、语速、共振峰频率、单个音节的持续时间、音节之间的停顿时间、线性预测系数、梅尔倒谱系数，针对当前采集到的用户的语音信息，将该语音信息的上述特征参数的值拼接成一个向量，这个向量就是当前采集到的语音信息的声纹特征。

S103、利用风险预测网络处理声纹特征，得到声纹特征的预估风险等级。

其中，风险预测网络是，利用样本数据集预先训练得到的反向传播神经网络；样本数据集的每一个样本数据，均包括声纹特征和声纹特征对应的实际风险等级。

一个声纹特征对应于一次密码输入过程，一个声纹特征对应的风险等级，可以理解为：

在这个表情特征对应的密码输入过程中，输入密码的用户(也就是银行金库的管理员)处在危险场景(例如，发生暴力犯罪事件，管理员被胁迫打开金库的场景就是一种危险场景)中的概率。

本实施例中，将风险等级划分为高风险和低风险两个等级，若某个声纹特征对应的风险等级是高风险，那么***就认为在这个声纹特征对应的密码输入过程中用户处于危险场景下，对应的，若某个声纹特征对应的风险等级是低风险，那么***就认为在这个声纹特征对应的密码输入过程中用户处于安全场景下。

步骤S103中，若声纹特征的预估风险等级为低风险，表示当前输入密码的用户处于安全场景中，执行步骤S104。若声纹特征的预估风险等级为高风险，表示当前输入密码的用户处于危险场景中，执行步骤S105。

预估风险等级，就是利用风险预测网络处理声纹特征后，由风险预测网络预测得到的，该声纹特征对应的密码输入过程中用户处于危险场景的概率。声纹特征的实际风险等级，则表示声纹特征对应的密码输入过程实际发生时的场景是否为危险场景。

样本数据可以通过以下方式获取：

在银行中模拟出若干种危险场景，然后记录金库管理员在这些危险场景下所执行的若干次密码输入过程的声纹特征，这些在模拟的危险场景下采集的声纹特征，对应的实际风险等级就是高风险。

另一方面，采集正常情况下被执行的若干次密码输入过程的声纹特征，这些声纹特征对应的实际风险等级就是低风险。

通过上述方法，就可以得到实际风险等级已知的若干个声纹特征，这些声纹特征以及对应的实际风险等级就构成用于训练风险预测网络的样本数据。

S104、在用户输入的开启密码通过密码校验后，控制银行金库的安全门开启。

可以理解的，在预测出输入开启密码的管理员处于安全场景后，还需要校验管理员输入的开启密码。从而确认管理员的身份。

因此，步骤S104具体包括如下两个动作：

将用户输入的开启密码和金库的标准密码进行比对，若用户输入的开启密码和预设的标准密码一致，则认为用户输入的开启密码通过密码校验；反之，若用户输入的开启密码和预设的标准密码不一致，则认为用户输入的开启密码未通过密码校验。

确定用户输入的开启密码通过密码校验之后，控制银行金库的安全门开启。

可选的，若确定用户输入的开启密码未通过密码校验，可以输出错误提示信息，提示用户再次输入开启密码。

S105、控制银行金库的安全门关闭。

可选的，执行步骤S105之后，金库的控制***还可以执行以下方法向远程的授权终端请求授权：

向授权终端发送授权请求，并接收所述授权终端的响应信息。

可选的，授权终端收到授权请求，授权终端的用户可以与金库的控制***建立视频连接，从金库的控制***获取实时视频流，从而了解金库的管理员所处的场景，以判断授权关闭还是打开银行金库的安全门。

若通过视频发现金库的管理员所处的场景所处场景安全，那么授权终端可以向金库的控制***发送第一响应信息，第一响应信息用于授权开启银行金库的安全门。

若通过视频发现金库的管理员所处的场景所处场景危险，那么授权终端可以向金库的控制***发送第二响应信息，第二响应信息用于授权关闭银行金库的安全门。

若金库的控制***收到第一响应信息，且用户输入的密码通过密码校验，则控制银行金库的安全门开启。

若金库的控制***收到第二响应信息，则控制银行金库的安全门关闭。

本申请提供一种基于声纹识别的安全门的控制方法，在用户输入开启密码后，采集用户的语音信息，并提取出语音信息中的声纹特征；利用风险预测网络处理声纹特征，得到声纹特征的预估风险等级；若声纹特征的预估风险等级为低风险，且用户输入的开启密码通过密码校验，控制银行金库的安全门开启；若声纹特征的预估风险等级为高风险，控制银行金库的安全门关闭。本方案用预先构建的风险预测网络处理用户输入金库密码时的声纹特征，预测出用户输入金库密码的场景的风险等级，基于预测结果控制金库的安全门的开启或关闭，从而有效避免了高风险场景下金库门开启导致的财物损失。

本申请实施例还提供一种风险预测网络的训练方法，请参考图2，该方法包括以下步骤：

S201、获取初始预测网络。

其中，初始预测网络的参数利用遗传算法确定。

具体的，利用遗传算法确定初始预测网络的参数的方法包括：

根据初始预测的架构，随机生成多个参数向量，这些参数向量构成的集合称为参数向量集合。

这里的随机，是指，每一个参数向量所包含的各个元素的取值是随机确定的。另一方面，每一个参数向量的维数是相同的，均等于初始预测网络中需要确定的参数的数量。初始预测网络的参数的数量由网络的架构决定。网络架构方面，可以直接将现有的任意一种神经网络架构确定为本实施例中初始预测网络的架构。

另外，对于任意一个参数向量，该参数向量所包含的每一个元素均对应于初始预测网络中的一个参数，换言之，对于确定了架构的初始预测网络，每给定一个参数向量，将这个参数向量的各个元素对应的代入初始预测网络中的参数，就可以得到这个参数向量对应的预测网络。

确定参数向量集合中的每一个参数向量的适应度，本实施例中，参数向量的适应度，利用该参数向量对应的预测网络处理样本数据后得到的损失函数，因此，适应度越低的参数向量越优，适应度越高的参数向量越差。

以参数向量的适应度作为概率，对参数向量集合中的每一个参数向量进行随机的交叉和变异，得到迭代后的参数向量集合。其中，适应度越低的参数向量交叉和变异的概率越高。

迭代结束后，判断当前的迭代次数是否大于或等于预先指定的次数阈值，若当前的迭代次数小于预先指定的次数阈值，返回执行前述确定参数向量集合中的每一个参数向量的适应度的步骤，也就是进入下一次迭代，以此类推，直至当前的迭代次数大于或等于预先指定的次数阈值。

当前的迭代次数大于或等于预先指定的次数阈值后，将当前的参数向量集合中适应度最低的参数向量确定为初始参数向量，初始参数向量中各个元素的值，就是初始预测网络中对应的参数。

S202、针对样本数据集的每一个样本数据，利用初始预测网络处理样本数据的声纹特征，得到样本数据的预估风险等级。

S203、根据每一个样本数据的预估风险等级和样本数据的实际风险等级，计算初始预测网络的损失函数。

初始预测网络的损失函数，是一个由预测错误的样本数量决定的函数值。具体的，对于任意一个样本数据，若初始预测网络处理该样本数据的声纹特征后得到的预估风险等级和该样本数据的实际风险等级不一致，那么该样本数据就是一个预测错误的样本。

利用初始预测网络处理样本数据集的所有样本数据后，确定其中预测错误的样本所占的比例，然后就可以根据该比例计算出初始预测网络的损失函数。

S204、判断初始预测网络的损失函数是否满足收敛条件。

可选的，可以将初始预测网络的损失函数和预设的阈值做比较，若初始预测网络的损失函数大于阈值，则不满足收敛条件，执行步骤S205。

若初始预测网络的损失函数小于或等于阈值，则满足收敛条件，执行步骤S206。

S205、更新初始预测网络的参数。

可选的，可以利用梯度下降算法对初始预测网络的损失函数进行计算，得到初始预测网络的参数的更新值，然后用参数的更新值更新初始预测网络的参数。

完成步骤S205的更新后，返回步骤S202。

S206、将初始预测网络确定为风险预测网络，并输出风险预测网络。

本申请实施例还提供一种基于声纹识别的安全门的控制装置，请参考图3，该装置包括以下单元：

采集单元301，用于在用户输入银行金库的安全门的开启密码后，采集用户的语音信息。

提取单元302，用于提取语音信息的声纹特征。

预测单元303，用于利用风险预测网络处理声纹特征，得到声纹特征的预估风险等级。

控制单元304，用于：

若声纹特征的预估风险等级为低风险，且用户输入的开启密码通过密码校验，控制银行金库的安全门开启；

若声纹特征的预估风险等级为高风险，控制银行金库的安全门关闭。

可选的，本实施例提供的控制装置还包括：

提示单元305，用于在用户输入银行金库的安全门的开启密码后，输出第一提示信息；其中，第一提示信息用于提示用户提供与第一提示信息匹配的语音信息。

其中，采集单元301采集用户的语音信息时，具体用于：

采集用户提供的，与第一提示信息匹配的语音信息。

控制单元304控制银行金库的安全门开启时，具体用于：

若声纹特征的预估风险等级为低风险，比较用户输入的开启密码和预设的银行金库的标准密码；

若用户输入的开启密码和银行金库的标准密码一致，确定用户输入的开启密码通过密码校验，并控制银行金库的安全门开启。

可选的，控制装置还包括训练单元306，用于：

根据初始反向传播神经网络的架构，生成由多个参数向量构成的参数向量集合；其中，参数向量集合的维数等于初始反向传播神经网络中参数的个数，参数向量的每一个元素均对应于初始反向传播神经网络的一个参数；

利用遗传算法对参数向量集合进行优化处理，得到目标参数向量；

将目标参数向量的每一个元素赋值于元素对应的初始反向传播神经网络中的参数，得到初始预测网络；

针对样本数据集的每一个样本数据，利用初始预测网络处理样本数据的声纹特征，得到样本数据的预估风险等级；

根据每一个样本数据的预估风险等级和样本数据的实际风险等级，计算初始预测网络的损失函数；

若初始预测网络的损失函数不满足收敛条件，更新初始预测网络的参数，返回执行针对样本数据集的每一个样本数据，利用初始预测网络处理样本数据的声纹特征，得到样本数据的预估风险等级；

若初始预测网络的损失函数满足收敛条件，将初始预测网络确定为风险预测网络。

可选的，控制装置还包括：通信单元307，用于向授权终端发送授权请求，并接收授权终端的响应信息。

其中，控制单元304还用于：

若授权终端的响应信息授权开启银行金库的安全门，且用户输入的开启密码通过密码校验，控制银行金库的安全门开启；

若授权终端的响应信息授权关闭银行金库的安全门，控制银行金库的安全门关闭。

本实施例所提供的控制装置，其具体工作原理可以参考本申请其他实施例提供的控制方法中的对应步骤，此处不再赘述。

本申请提供一种基于声纹识别的安全门的控制装置，采集单元301在用户输入开启密码后，采集用户的语音信息，提取单元302提取出语音信息中的声纹特征；预测单元303利用风险预测网络处理声纹特征，得到声纹特征的预估风险等级；若声纹特征的预估风险等级为低风险，且用户输入的开启密码通过密码校验，控制单元304控制银行金库的安全门开启；若声纹特征的预估风险等级为高风险，控制单元304控制银行金库的安全门关闭。本方案用预先构建的风险预测网络处理用户输入金库密码时的声纹特征，预测出用户输入金库密码的场景的风险等级，基于预测结果控制金库的安全门的开启或关闭，从而有效避免了高风险场景下金库门开启导致的财物损失。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

需要注意，本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于声纹识别的安全门的控制方法，其特征在于，包括：

提取所述语音信息的声纹特征；

2.根据权利要求1所述的控制方法，其特征在于，所述在用户输入银行金库的安全门的开启密码后，采集用户的语音信息之前，还包括：

其中，所述采集用户的语音信息，包括：

采集用户提供的，与所述第一提示信息匹配的语音信息。

3.根据权利要求1所述的控制方法，其特征在于，所述若所述声纹特征的预估风险等级为低风险，且用户输入的开启密码通过密码校验，控制银行金库的安全门开启，包括：

4.根据权利要求1所述的管控方法，其特征在于，训练所述风险预测网络的方法，包括：

5.根据权利要求1至4任意一项所述的管控方法，其特征在于，所述若所述声纹特征的预估风险等级为高风险，控制所述银行金库的安全门关闭之后，还包括：

6.一种基于声纹识别的安全门的控制装置，其特征在于，包括：

提取单元，用于提取所述语音信息的声纹特征；

7.根据权利要求6所述的控制装置，其特征在于，还包括：

其中，所述采集单元采集用户的语音信息时，具体用于：

采集用户提供的，与所述第一提示信息匹配的语音信息。

8.根据权利要求6所述的控制装置，其特征在于，所述控制单元若所述声纹特征的预估风险等级为低风险，且用户输入的开启密码通过密码校验，控制银行金库的安全门开启时，具体用于：

9.根据权利要求6所述的控制装置，其特征在于，所述控制装置还包括训练单元，所述训练单元用于：

10.根据权利要求6至9任意一项所述的控制装置，其特征在于，所述控制装置还包括：通信单元，用于向授权终端发送授权请求，并接收所述授权终端的响应信息；

其中，所述控制单元还用于：