CN113313231A

CN113313231A - 基于LipNet算法的反欺诈方法及***、电子设备

Info

Publication number: CN113313231A
Application number: CN202110470152.8A
Authority: CN
Inventors: 陈雪清; 孙涛
Original assignee: Shanghai Qiyue Information Technology Co Ltd
Current assignee: Shanghai Qiyue Information Technology Co Ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-08-27
Anticipated expiration: 2041-04-28
Also published as: CN113313231B

Abstract

一种基于LipNet算法的反欺诈方法及***、电子设备，所述方法包括：对于需要进行身份确认的场合，从圈定的N个语句中随机挑选出一条或多条供用户朗读，采集用户视频数据，输入LipNet算法模型中进行预测；若预测结果低于分类的阈值，则判断所述用户为机器人；其中，N为自然数。本发明通过采用LipNet算法，针对目前的模拟水平还无法根据语音模拟出对应的唇语，将其应用于反欺诈人脸识别阶段，加入圈定范围随机挑选的句子，用户即无法提前进行机器模仿动作，从而能防范有人利用高新技术手段进行伪冒的高危行为，提高人脸识别技术的安全度。

Description

基于LipNet算法的反欺诈方法及***、电子设备

技术领域

本发明属于图像语音识别技术领域，尤其是机器学习辅助图像语音识别技术领域，更具体的是涉及一种基于LipNet算法的反欺诈方法及***、电子设备和计算机存储介质。

背景技术

随着图像技术的发展，人脸识别技术应用范围越来越广，比如身份识别、人脸支付、现场监控等。人脸识别技术也在不断的进步，从最开始的仅是识别静态图像，到可以添加眨眼、张嘴、转头等补充动作增加破解难度，但是有一些新的技术手段对静态图像进行眨眼、张嘴等动作的逼真模仿，使得在反欺诈中的人脸识别阶段对是否机器人的防范措施有被突破的可能。这就迫切要求开发一种破解难度更高的人脸识别技术。

发明内容

有鉴于此，本发明的主要目的在于提出一种基于LipNet算法的反欺诈方法及***、电子设备和计算机存储介质，以期至少部分地解决上述技术问题中的至少之一。

为了实现上述目的，作为本发明的第一方面，提供了一种基于LipNet 算法的反欺诈模型的生成方法，包括如下步骤：构建LipNet算法模型，所述LipNet算法模型采用3D卷积网络对输入视频的图像帧进行特征提取，然后使用两层双向GRU作为编码-解码结构，输出一个预测值，最后再用全连接层输出预测的概率；采用第一次处理好的语料样本对所述LipNet 算法模型进行训练，找出预测准确度最高且差异最大的N个句子，其中， N为自然数。

根据本发明的一种实施方式，所述LipNet算法模型的输入为T帧序列，所述T的取值为输入数据的最大序列长度L的2倍加1，即2L+1。

根据本发明的一种实施方式，所述LipNet算法模型包括3层时空卷积神经网络，每层后面是一个空间最大池化层。

根据本发明的一种实施方式，所述LipNet算法模型采用CTC损失函数进行训练。

根据本发明的一种实施方式，所述第一次处理好的语料样本一部分来源于新闻媒体，一部分来源于带有地域特征的普通话视频。

根据本发明的一种实施方式，所述第一次处理好的语料样本的筛选注重不同年龄段、不同性别及语句的重复度。

根据本发明的一种实施方式，所述生成方法还包括采用第二次处理好的语料样本对所述LipNet算法模型再次进行训练的步骤。

根据本发明的一种实施方式，所述第二次处理好的语料样本是基于第一轮训练出来的结果筛选出来的语句，进行有针对性的语料的再次收集；所述再次收集侧重于加大目标语句在语料中出现频次、年龄段、性别和地域的分布权重。

本发明的第二方面也提出一种基于LipNet算法的反欺诈方法，包括如下步骤：

对于需要进行身份确认的场合，从圈定的N个语句中随机挑选出一条或多条供用户朗读，采集用户视频数据，输入如上所述的LipNet算法模型中进行预测；若预测结果低于分类的阈值，则判断所述用户为机器人；其中，N为自然数。

根据本发明的一种实施方式，在采集用户视频数据时还同时采集用户声纹数据。

根据本发明的一种实施方式，将采集的声纹数据与***存储的历史声纹数据进行匹配，确认是否为用户本人。

本发明的第三方面提出一种基于LipNet算法的反欺诈***，其特征在于，包括：如前所述的生成方法生成的LipNet算法模型；显示单元，用于从圈定的N个语句中随机挑选出一条或多条呈现给用户供其朗读；其中， N为自然数；视频采集单元，用于采集用户视频数据；数据处理单元，用于将视频采集单元采集的用户视频数据输入到所述的LipNet算法模型中进行预测；若预测结果低于分类的阈值，则判断所述用户为机器人。

13、根据权利要求12所述的基于LipNet算法的反欺诈***，其特征在于，

所述基于LipNet算法的反欺诈***还包括声纹采集单元，用于采集用户声纹数据。

根据本发明的一种实施方式，所述基于LipNet算法的反欺诈***还包括声纹数据库，用于存储所述声纹采集单元采集的声纹数据，且所述数据处理单元还将采集的声纹数据与声纹数据库中存储的历史声纹数据进行匹配，确认是否为用户本人。

本发明的第四方面提出一种电子设备，包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机可执行程序被所述处理器执行时，所述处理器执行前述的方法。

本发明的第五方面提出一种计算机可读介质，存储有计算机可执行程序，其特征在于，所述计算机可执行程序被执行时，实现前述的方法。

基于上述技术方案可知，本发明的基于LipNet算法的反欺诈方法及***、电子设备和计算机存储介质相对于现有技术至少具有如下有益效果之一：

本发明通过对满足要求的语料的收集和加工，采用LipNet算法，挑选出语料中准确度最高的句子，然后再次更具针对性的收集语料，进行模型的二次训练，可以提高模型的预测效果，提高该模型被破解的难度；

本发明独出心裁，将上述训练得到的模型应用于反欺诈人脸识别阶段，加入圈定范围随机挑选的句子，让用户无法提前进行机器模仿动作，从而可以规避简单转头等动作被机器人模拟的破解风险；

本发明通过采集视频数据，进行模型预测，看是否匹配，从而判断用户是否为真人还是仿冒，从而可以通过该技术防范有人利用高新技术手段进行伪冒的高危行为，且模型运算速度快，不耽误正常人脸识别算法的运行。

附图说明

图1是本发明的基于LipNet算法的反欺诈方法的方框流程图；

图2是本发明的基于LipNet算法的反欺诈***的框架示意图；

图3是本发明的电子设备的结构示意图；

图4是本发明的计算机可读记录介质的示意图。

具体实施方式

在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示，不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤，也不代表必须按照图中所显示的顺序执行。例如，流程图中有的操作/步骤可以分解，有的操作/步骤可以合并或部分合并，等等，在不脱离本发明的发明主旨的情况下，流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体，并不一定必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分，因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说，这些定语仅是用来将一者与另一者区分。例如，第一器件亦可称为第二器件，但不偏离本发明实质的技术方案。此外，术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

本说明书中一些技术术语含义如下：

卷积神经网络(Convolutional Neural Networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学***移不变分类。对卷积神经网络的研究始于二十世纪80至90年代，在二十一世纪后，随着深度学习理论的提出和数值计算设备的改进，卷积神经网络得到了快速发展，并被应用于计算机视觉、自然语言处理等领域。卷积神经网络仿造生物的视知觉机制构建，可以进行监督学习和非监督学习，其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化特征，例如像素和音频进行学习、有稳定的效果且对数据没有额外的特征工程要求。

长短时记忆神经网络(Long Short-term Memory Networks，LSTM)是一种循环神经网络(RNN)特殊的类型，可以学习长期依赖信息。LSTM 由Hochreiter&Schmidhuber于1997年提出，并在近期被Alex Graves进行了改良和推广。循环神经网络处理时间序列数据具有先天优势，其通过反向传播和梯度下降算法达到了纠正错误的能力，但未解决梯度消失问题，直到1997年，循环神经网络引入了一个基于LSTM的架构后，梯度消失问题得以解决；LSTM的架构中的单元相当于一个模拟计算机，显著提高了网络精度。LSTM的设计初衷是希望能够解决神经网络中的长期依赖问题，由此LSTM记忆单元具有遗忘门、输入门和输出门，LSTM记忆单元拥有长短时记忆机制。

LipNet算法，是第一个句子层面的唇读模型，其使用了一个单端到端的独立于说话人的深度模型来同时地学习时空视觉特征(spatiotemporal visual features)和一个序列模型；其也是一种可以将可变长度的视频序列映射成文本的模型，其使用了时空卷积、一个LSTM循环网络和联结主义的时间分类损失，该模型完全是以端到端的形式训练的。目前，LipNet算法一般用于唇语的识别(如聋哑人的唇语识别)、动画对话配音、电影配音等等场景。

GRU(门控循环单元)，GRU作为LSTM的一种变体，将忘记门和输入门合成了一个单一的更新门；同样还混合了细胞状态和隐藏状态，加诸其他一些改动。GRU最终的模型比标准的LSTM模型要简单，但是却能够达到与LSTM相当的功能，考虑到硬件的计算能力和时间成本，因而很多时候就会选择更加“实用”的GRU。

编码-解码结构(encoder-decoder)，指的是一种对称的CNN架构，其先将输入逐渐地转换为更小分辨率、更多通道的特征，然后逐渐地转换到原始输入大小的输出。同分辨率下的编码器与解码器之间可通过跳过连接方式进行特征组合，跳过连接有助于梯度传播，加速收敛。编码-解码结构已在多种视觉任务中证实了其有效性。

CTC损失函数(Connectionist temporal classification)，字面上理解它是用来解决时序类数据的分类问题，与传统的声学模型训练相比，采用 CTC作为损失函数的声学模型训练，是一种完全端到端的声学模型训练，不需要预先对数据做对齐，只需要一个输入序列和一个输出序列即可以训练，这样就不需要对数据对齐和一一标注，并且CTC直接输出序列预测的概率，不需要外部的后处理。CTC的方法只会关心预测输出的序列是否和真实的序列接近(相同)，而不会关心预测输出序列中每个结果在时间点上是否和输入的序列正好对齐。

本发明是基于人脸识别技术存在一些容易被破解的弊端而开发出来的，其创新点在于在人脸识别的活体检测中加入声音信息，进行唇语识别，从而由于随机出现的阅读信息使用户无法提前进行视频准备，而图像和声音的同步性则作为解密的关键步骤，从而可以提高仿冒者的技术门槛，而且应用过程中不需要在APP内新增节点，用户不用做眨眼、张嘴等动作，不会影响用户体验。

具体地，本发明公开了一种基于LipNet算法的反欺诈模型的生成方法，包括如下步骤：

构建LipNet算法模型，所述LipNet算法模型采用3D卷积网络对输入视频的图像帧进行特征提取，然后使用两层双向GRU作为编码-解码结构，输出一个预测值，最后再用全连接层输出预测的概率；

采用第一次处理好的语料样本对所述LipNet算法模型进行训练，找出预测准确度最高且差异最大的20个句子。

其中，所述LipNet算法模型的输入为T帧序列，所述T的取值为输入数据的最大序列长度L的2倍加1，即2L+1。

其中，所述LipNet算法模型包括3层时空卷积神经网络，每层后面是一个空间最大池化层。

其中，所述LipNet算法模型采用CTC损失函数进行训练。

其中，所述第一次处理好的语料样本一部分来源于新闻媒体，一部分来源于带有地域特征的普通话视频。

其中，所述第一次处理好的语料样本的筛选注重不同年龄段、不同性别及语句的重复度。

其中，所述生成方法还包括采用第二次处理好的语料样本对所述 LipNet算法模型再次进行训练的步骤。

其中，所述第二次处理好的语料样本是基于第一轮训练出来的结果筛选出来的语句，进行有针对性的语料的再次收集；所述再次收集侧重于加大目标语句在语料中出现频次、年龄段、性别和地域的分布权重。

本发明还公开了一种基于LipNet算法的反欺诈方法，包括如下步骤：

对于需要进行身份确认的场合，从圈定的N个语句中随机挑选出一条或多条供用户朗读，采集用户视频数据，输入如上所述的LipNet算法模型中进行预测；若预测结果低于分类的阈值，则判断所述用户为机器人；

其中，N为自然数。

其中，在采集用户视频数据时还同时采集用户声纹数据。

其中，将采集的声纹数据与***存储的历史声纹数据进行匹配，确认是否为用户本人。

如图2所示，本发明还公开了一种基于LipNet算法的反欺诈***，包括：

如上所述的LipNet算法模型；

显示单元，用于从圈定的N个语句中随机挑选出一条或多条呈现给用户供其朗读；

视频采集单元，用于采集用户视频数据；

数据处理单元，用于将视频采集单元采集的用户视频数据输入到所述的LipNet算法模型中进行预测；若预测结果低于分类的阈值，则判断所述用户为机器人。

其中，所述基于LipNet算法的反欺诈***还包括声纹采集单元，用于采集用户声纹数据。

其中，所述基于LipNet算法的反欺诈***还包括声纹数据库，用于存储所述声纹采集单元采集的声纹数据，且所述数据处理单元还将采集的声纹数据与声纹数据库中存储的历史声纹数据进行匹配，确认是否为用户本人。

图3是本发明的该实施例的电子设备的结构示意图，该电子设备包括处理器和存储器，所述存储器用于存储计算机可执行程序，当所述计算机程序被所述处理器执行时，所述处理器执行如上所述的方法。

如图3所示，电子设备以通用计算设备的形式表现。其中处理器可以是一个，也可以是多个并且协同工作。本发明也不排除进行分布式处理，即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体，也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序，通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行，以使得电子设备能够执行本发明的方法，或者方法中的至少部分步骤。

所述存储器包括易失性存储器，例如随机存取存储单元(RAM)和/ 或高速缓存存储单元，还可以是非易失性存储器，如只读存储单元(ROM)。

可选的，该实施例中，电子设备还包括有I/O接口，其用于电子设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

应当理解，图3显示的电子设备仅仅是本发明的一个示例，本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如，有些电子设备中还包括有显示屏等显示单元，有些电子设备还包括人机交互元件，例如按扭、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤，均可认为是本发明所涵盖的电子设备。

图4是本发明的该实施例的计算机可读记录介质的示意图。如图4所示，计算机可读记录介质中存储有计算机可执行程序，所述计算机可执行程序被执行时，实现本发明如上所述的方法。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、 RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如 Python、Java、C++等，还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

通过以上对实施方式的描述，本领域的技术人员易于理解，本发明可以由能够执行特定计算机程序的硬件来实现，例如本发明的***，以及***中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等，本发明也可以由包含上述***或部件的至少一部分的车辆来实现。本发明也可以由执行本发明的方法的计算机软件来实现，例如由机车端的微处理器、电子控制单元，客户端、服务器端等执行的控制软件来实现。但需要说明的是，执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行，其也可以是由不特定具体硬件的以分布式的方式来实现，例如计算机程序执行的某些方法步骤可以在机车端执行，另一部分可以在移动终端或智能头盔等中执行。对于计算机软件，软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM，U盘，移动硬盘等)中，也可以分布式存储于网络上，只要其能使得电子设备执行根据本发明的方法。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

实施例1

本实施例主要基于高效的lipNet算法，在活体检测中加入声音信息，进行唇语识别，提高攻击者的技术门槛，加强伪冒风险防范。

如图1所示，本实施例的主要技术方案包括：

第一次语料的收集和加工

考虑到授信用户存在年龄和地域的差异，语料的收集一部分来源于新闻联播、早间新闻等新闻媒体，一部分来源于带有地域特征的普通话视频。语料的筛选注重不同年龄段，不同性别及语句的重复度，以便模型效果评估。

首轮模型的训练测试

首轮模型的训练和测试采用唇语识别中的LipNet算法，语料库来源于第一次处理好的语料，目的是找出预测准确度最高的且差异最大的20个句子。LipNet算法逻辑为用3D卷积网络对图像帧进行特征提取，然后使用两层双向GRU作为Encoder-Decoder，输出一个预测值，最后再用全连接层输出预测的概率。由于音频数据和图像数据都是从现实世界中将模拟信号转为数字信号采集得到，这些数据天然就很难进行“分割”，这使得很难获取到包含输入序列和输出序列映射关系的大规模训练样本，人工标注成本巨高，因此，在这种条件下，RNN无法直接进行端到端的训练和预测。所以本实施例算法中采用CTC损失函数，避免了帧与字符进行对齐标注。通过首轮模型的结果，将筛选出预测准确率最高的20个句子，在此基础上进行后续的语料的再次收集、加工、模型的训练。

对语料更有针对性的收集和加工

基于第一轮训练出来的结果筛选出来的语句，进行有针对性的语料的再次收集。这次收集侧重于加大目标语句在语料中出现频次、年龄段、性别和地域的分布权重。

模型在新的语料的第二轮训练

模型的再次训练目的在于提升模型在圈定范围语句的准确度和降低模型耗时。

模型在反欺诈活体检测中的部署

模型部署在活体检测环节下，从圈定的20个语句中随机挑选，提示用户用尽量标准的普通话进行朗读，采集用户视频数据，输入模型进行预测。看预测结果是否低于该分类的阈值，判断用户是否非机器人。同时采集用户声纹，供后续用户声纹锁以备参考。

通过上述实施例可见，本发明通过对满足要求的语料的收集和加工，采用LipNet算法，挑选出语料中准确度最高的句子，然后再次更具针对性的收集语料，进行模型的二次训练，提高了模型的预测效果。此外，由于目前的模拟水平还无法针对语音模拟出对应的唇语，将其应用于反欺诈人脸识别阶段，加入圈定范围随机挑选的句子，用户即无法提前进行机器模仿动作，从而能防范有人利用高新技术手段进行伪冒的高危行为，提高人脸识别技术的安全度。此外，语音本身也内带声纹特征，本身也具有防伪特性。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者电子设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于LipNet算法的反欺诈模型的生成方法，其特征在于，包括如下步骤：

采用第一次处理好的语料样本对所述LipNet算法模型进行训练，找出预测准确度最高且差异最大的N个句子，其中，N为自然数。

2.根据权利要求1所述的方法，其特征在于，

所述LipNet算法模型的输入为T帧序列，所述T的取值为输入数据的最大序列长度L的2倍加1，即2L+1。

3.根据权利要求1所述的方法，其特征在于，

所述LipNet算法模型包括3层时空卷积神经网络，每层后面是一个空间最大池化层。

4.根据权利要求1所述的方法，其特征在于，

所述LipNet算法模型采用CTC损失函数进行训练。

5.根据权利要求1所述的方法，其特征在于，

所述第一次处理好的语料样本一部分来源于新闻媒体，一部分来源于带有地域特征的普通话视频。

6.根据权利要求1所述的方法，其特征在于，

所述第一次处理好的语料样本的筛选注重不同年龄段、不同性别及语句的重复度。

7.根据权利要求1所述的方法，其特征在于，

所述生成方法还包括采用第二次处理好的语料样本对所述LipNet算法模型再次进行训练的步骤。

8.根据权利要求1所述的方法，其特征在于，

9.一种基于LipNet算法的反欺诈方法，其特征在于，包括如下步骤：

其中，N为自然数。

10.根据权利要求9所述的方法，其特征在于，

在采集用户视频数据时还同时采集用户声纹数据。

11.根据权利要求10所述的方法，其特征在于，

将采集的声纹数据与***存储的历史声纹数据进行匹配，确认是否为用户本人。

12.一种基于LipNet算法的反欺诈***，其特征在于，包括：

如权利要求1-8任一项所述的生成方法生成的LipNet算法模型；

显示单元，用于从圈定的N个语句中随机挑选出一条或多条呈现给用户供其朗读；其中，N为自然数；

视频采集单元，用于采集用户视频数据；

13.根据权利要求12所述的基于LipNet算法的反欺诈***，其特征在于，

14.根据权利要求13所述的基于LipNet算法的反欺诈***，其特征在于，

所述基于LipNet算法的反欺诈***还包括声纹数据库，用于存储所述声纹采集单元采集的声纹数据，且所述数据处理单元还将采集的声纹数据与声纹数据库中存储的历史声纹数据进行匹配，确认是否为用户本人。

15.一种电子设备，包括处理器和存储器，所述存储器用于存储计算机可执行程序，其特征在于：

当所述计算机可执行程序被所述处理器执行时，所述处理器执行如权利要求1-11中任一项所述的方法。

16.一种计算机可读介质，存储有计算机可执行程序，其特征在于，所述计算机可执行程序被执行时，实现如权利要求1-11中任一项所述的方法。