WO2022268183A1

WO2022268183A1 - 一种基于视频的随机手势认证方法及***

Info

Publication number: WO2022268183A1
Application number: PCT/CN2022/100935
Authority: WO
Inventors: 康文雄; 宋文伟
Original assignee: 华南理工大学
Priority date: 2021-06-23
Filing date: 2022-06-23
Publication date: 2022-12-29
Also published as: CN113343198A; CN113343198B

Abstract

本发明公开的一种基于视频的随机手势认证方法，包括：选择注册模式或认证模式；采集用户随机手势视频；随机手势视频预处理；将预处理后的动态手势视频输入到随机手势特征提取器，提取包含用户生理特征和行为特征的特征向量；在注册模式时，将输入的用户名和提取出的随机手势的特征向量添加至手势模板数数据库；在认证模式时，首先提取用户名在手势模板数据库中对应的多个特征向量，然后计算与待认证用户特征向量的余弦距离，并将最小的余弦距离与阈值比对，如果低于阈值，则认证通过，否则认证不通过。本发明采用随机手势兼备生理特征和行为特征，认证更加安全、高效和友好。本发明还提供了相应的***。

Description

一种基于视频的随机手势认证方法及***

技术领域

本发明属于生物特征识别与视频理解领域，更具体地说，涉及一种基于视频的空中随机手势认证方法及***。

背景技术

生物特征认证技术是一个典型而又复杂的模式识别问题，一直处于人工智能技术发展的前沿。该技术是指通过获取和分析人体的生理特征和行为特征实现身份鉴别的科学和技术。常见的生物特征模态包括指纹、虹膜、人脸、掌纹、手形、静脉、笔迹、步态和声纹等。经过多年的发展，生物特征认证技术已经渗透到人们生产生活的方方面面，从电子设备解锁、超市收银、小区门禁，再到高铁进站和机场安检，生物特征已经成为人们在万物互联时代的重要数字身份凭证。

生物特征认证攸关公众的隐私及财产安全，涉及到诸多道德和伦理问题，因此社会公众迫切需求一种更加安全、更加友好和更加高效的生物特征认证技术。然而，既有生物特征识别技术并非完美，不同生物特征模态具有各自的优点和缺点。人脸是生物特征中最受关注的模态，因为其所携带的信息辨识度极高，然而触及到了公众的敏感身份信息，一定程度上侵害了用户的隐私，如果缺乏有效监管和法律制约，人脸识别技术很难大规模普及。指纹经过50多年的发展，技术相对成熟，然而认证过程需要触摸传感器，容易受到油脂、水渍等的影响，同时也增加了细菌病毒交叉感染的可能。虹膜认证技术虽然可以实现非接触，然而图像的获取难度大，需要用户高度配合，用户体验差。上述模态还共同面临着严峻的伪冒攻击问题，虽然可以进行活体检测，但是隐患依旧，并且模板具有不可替换性。基于静脉的认证方式具有很好的防伪能力，然而静脉所携带的信息量相对较少且难以挖掘，同时受采集设备、个体差异和温度的影响大。与上述人脸、指纹、虹膜和静脉这些生理特征不同，步态识别、签名识别和声纹识别主要以行为特征为主。步态识别和签名识别涉及到的行为特征相对简单，并缺失了特征丰富的生理特征，因此识别效果相对较差。声纹是一种具有生理特性的行为特征。一方面，语音可以体现说话人先天发音器官差异，另一方面，语音中又包含了说话人后天形成的独特发音与言语习惯。但是认证时需要发声，用户体验差，应用场景受限。

目前有两种基于视频的手势认证模式和两种基于视频的手势认证***。两种认证模式包括基于***定义手势类型的手势认证和基于自定义手势类型的手势认证。第一种基于***定义手势类型的手势认证，用户在进行注册和认证时必须采用***指定的手势，且注册手势和用于认证的手势必须一致，这种方法需要用户记忆手势类型，由于手势不熟练容易导致执行不自然，同时由于遗忘的导致认证效果差。第二种基于自定义手势类型的手势认证，用户可以在注册和认证时自己设计手势，但是注册和认证手势必须一致。这种方法可以一定程度上缓解用户记忆的压力并且可以选择自己熟悉的手势进行注册和认证，但是仍然会因为遗忘导致的认证效果变差，同时自定义的手势类型容易被盗取，增加被入侵的风险。此外两种手势认证模式需要采集较长手势视频(约4s)，用户友好性较差。两种基于视频的手势认证***包括基于双流卷积神经网络的认证***和基于三维卷积神经网络的认证***。基于双流卷积神经网络的认证***采用光流表示行为特征，需要两倍的参数量和运算量，此外光流的计算同样效率低下。基于三维卷积神经网络的认证***直接通过三维卷积进行时空特征建模，同时提取行为特征和生理特征，但是三维卷积参数量和运算量同样很大。这两种***无法满足实际认证产品对实时性的要求。由此可见，目前基于视频的手势认证方法在认证模式和***设计上仍然存在很多的不足之处，不能满足使用需要。

发明内容

本发明的目的在于克服既有生物特征识别技术和手势认证技术的不足之处，提供一种基于视频的随机手势认证方法及***，无需记忆手势，认证更加高效和安全。

为了达到上述目的，本发明提供的一种基于视频的随机手势认证方法，包括以下步骤：

选择注册模式或认证模式；

输入用户名，采集用户随机手势视频；

对随机手势视频进行预处理；

将预处理后的动态手势视频输入到随机手势特征提取器，提取出包含用户生理特征和行为特征的特征向量，所述随机手势特征提取器是时间差分共生神经网络模型进行训练和测试后得到的随机手势特征提取器；其中，时间差分共生神经网络模型包括残差生理特征提取模块、共生行为特征提取模块、基于行为特征模长的特征融合模块和帧间差分模块，所述残差生理特征提取模块将随机手势视频作为输入，用于提取生理特征；所述帧间差分模块用于对输入视频及残差生理特征提取模块中各层的输出特征进行相邻帧相同通道的相减并将每一个差分特征的所有通道进行逐元素求和，得到差分伪模态；所述共生行为特征提取模块将手势视频差分伪模态作为输入，用于提取行为特征；所述基于行为特征模长的特征融合模块将生理特征和行为特征进行特征融合，以充分利用生理特征和行为特征在身份信息上的互补优势，提高认证的准确率和***的安全性；

在注册模式时，将输入的用户名和提取出的随机手势的特征向量添加至手势模板数数据库；在认证模式时，首先提取用户名在手势模板数据库中对应的多个特征向量，然后计算与待认证用户特征向量的余弦距离，并将最小的余弦距离与阈值比对，如果低于阈值，则认证通过，否则认证不通过，其中，所述阈值是指根据应用场景人工设定的认证阈值。

优选地，所述采集用户随机手势视频，只需要在摄像头面前即兴地执行一段满足要求的手势即可，随机手势无需记忆，在数据采集时，手势要尽量充分调动五根手指，并展现手掌的多个角度。

优选地，从动态手势视频截取T帧手势片段，然后进行逐帧的中心裁剪、图像大小调整和图像标准化，最终截取的视频大小为(T,C,W,H)，其中T为帧数，C为通道数，W为图像宽度，H为图像高度。

优选地，所述随机手势特征提取器是时间差分共生神经网络模型进行训练和测试后得到的随机手势特征提取器，包括：

对若干用户的若干随机手势进行N帧视频采集，并记录对应的用户名，形成随机手势视频数据集；

对随机手势视频数据集进行处理，从随机手势视频数据集的画面中剪切手势动作区域并进行图像大小调整，最终数据集大小为(P,Q,N,C,W,H)，其中P为采集用户个数，Q为每个用户执行随机手势个数，N为每段随机手势视频帧数；

将数据集分为训练样本和测试样本，用于进行时间差分共生神经网络模型的训练和测试。测试集需要考虑到生物特征识别中的跨时段问题，即随着时间的延长，生物特征会存在一定程度上的变化，通常体现在行为特征上。因此随机手势的测试集需要在相隔一个周之后采集多人(例如100人)的随机手势作为第二阶段的测试集。最终部署于认证***的神经网络主要依据第二阶段样本的等误率进行选择，从而使模型在真实场景下具有良好的性能。

在训练阶段，对随机手势视频进行随机T帧手势片段的截取，并进行随机旋转、随机色彩抖动和图像标准化处理；将经过上述在线处理的随机手势视频通过时间差分共生神经网络模型前向传播得到融合特征，然后输入损失函数，并通过反向传播对时间差分共生神经网络模型进行优化；

在测试阶段，对随机手势视频进行中间T帧手势片段的截取，并进行图像标准化处理，然后输入时间差分共生神经网络获得融合特征，用于距离计算。

手势认证可以看作是一种度量学习任务，通过训练，模型应该把用户随机手势视频映射到一个类内间距小，类间间距大的特征空间。考虑到相比于三元损失函数、对比损失函数，AM-Softmax不要精心地设计样本对，相比于Sphereface和L-Softmax，AM-Softmax更简单且可解释性更强。本***采用了AM-Softmax损失函数用于模型训练：

其中，W _i(W _i包括W _yi和W _j)和f _i分别为归一化的权重系数和用户身份特征向量，

为损失函数、Bt训练时采用的批大小、i表示批中第i个样本、y _i表示样本对应的正确用户名、fdim为基于行为特征模长特征融合模块输出特征的维度(本***采用512维，如图2所示)、j表示fdim维特征的第j维。s和m为超参数，在本发明其中一个实施例中，设定s＝30,m＝0.5。

在测试阶段，依次对第一阶段的测试集中的样本和第二阶段测试集的样本进行测试。测试前首先对随机手势视频进行配对，其中来自相同用户的随机手势对标记为正样本，来自不同用户的随机手势对标记为负样本，最终随机选取正负样本对各2.5万对用于测试。测试时首先对含有丰富动作T帧手势片段的截取，并进行图像标准化处理，然后输入时间差分共生神经网络模型获得融合生理特征和行为特征的用户身份特征，并计算5万个样本对的距离。然后计算5万个样本对距离的最大值和最小值，并在最小值和最大值间均匀采样1000个值依次作为阈值,即Threshold＝[min,min+step,min+2step,...,max]，其中

step为均匀采样步长。样本对的余弦距离小于阈值则认证通过，否则认证不通过。

计算错误接受率FAR、错误拒绝率FRR和等误率EER。FAR表示***错误地把未注册用户认证通过的概率，即测试集中负样本对余弦距离小于阈值个数占所有负样本对的比率：

其中FP _thres表示在阈值thres下，负样本被***认证通过的个数，TN _thres表示负样本被***认证拒绝的个数。FRR表示***错误地把注册用户认证拒绝的概率，即测试集中正样本对余弦距离大于阈值个数占所有正样本对的比率：

其中FN _thres表示正样本被***认证拒绝的个数，TP _thres表示正样本被***认证通过的个数。

FRR越小表明算法的易用性越强，即用户在访问自己账户时更加不容易被拒绝；FAR越小表明算法的安全性越强，即用户仿冒攻击他人账户的难度更大。通常，FAR和FRR会有性能权衡，通过遍历不同的阈值，可以获得各个阈值下的FAR和FRR，当阈值增加，FAR上升，FRR下降。EER是当FRR等于FAR时的误差率，它用于评估不同参数的匹配精度，因为此时FRR和FAR被同等对待。具有较低EER的算法可以在认证任务中表现出更好的性能。因此最终选择EER最低的模型用于作为特征提取器。

优选地，将T帧随机手势图像视为大小为T的图像批进行18层卷积神经网络的前向传播；通过全局平均值池化和全连接操作，将生理特征表示为T×fdim维特征向量；将T×fdim维特征向量在时间维度平均得到fdim维的生理特征向量。

优选地，通过所述共生行为特征提取模块得到行为特征的步骤为：输入随机手势视频，通过所述帧间差分模块处理获得随机手势视频差分伪模态；将随机手势视频差分伪模态输入共生行为特征提取模块；每经过一次卷积操作后，将上一层的输出与代表相应的残差生理特征的差分伪模态进行通道维度的拼接；通过全局平均池化和全连接操作，将行为特征表示为fdim维特征向量。

优选地，通过所述帧间差分模块得到的差分伪模态为：

IS ^fn(x,y,t)即为所述差分伪模态，其中chn,fn,t分别代表第chn个通道，来自残差生理特征提取模块第fn层特征和第t帧，ch表示当前特征图通道总数，x,y分别表示特征图或图像的横坐标和纵坐标。

优选地，通过所述基于行为特征模长的特征融合模块得到融合模块的步骤包括：将残差生理特征提取模块输出的生理特征进行归一化；将归一化的生理特征与共生行为特征提取模块输出的行为特征进行相加获得融合特征；将融合特征进行归一化；最后融合特征为：

为归一化后的融合特征，包含了生理特征和行为特征，其中生理特征为P＝(p ₁,p ₂,...,p _n) ^T，行为特征为B＝(b ₁,b ₂,...,b _n) ^T，||.|| ₂表示二范数，λ为超参数，α为生理特征向量P与行为特征向量B的之间夹角。

优选地，通过所述基于行为特征模长的特征融合模块自动调节生理特征和行为特征的比重，其中

当行为特征与生理特征夹角α小于120°时，且行为特征模长小于λ时，生理特征所占比重大于行为特征，当行为特征与生理特征夹角α大于120°时，生理特征在小于λ的同时还需要大于-λ(1+2cosα)，生理特征所占比重才大于行为特征，即

当行为特征与生理特征夹角小于120°时，且行为特征模长大于λ时，行为特征所占比重大于生理特征；当行为特征与生理特征夹角大于120°时，生理特征在大于λ的同时还需要小于

行为特征所占比重才大于生理特征，即

通过基于行为特征模长的特征融合模块，***可以根据行为特征模长的大小自动调节生理特征和行为特征的比重。同时该模块也限制了两种特征比重的上限，防止训练初期，某种特征模长过大，占据主导地位从而导致另一种特征被湮没。

本发明还提供用于实现前述方法的***。

一种基于视频的随机手势认证***，包括：

模式选择模块，用于选择注册模式或认证模式；

采集模块，用于输入用户名，采集用户随机手势视频；

数据处理模块，用于对随机手势视频进行预处理；

特征提取模块，用于将预处理后的动态手势视频输入到随机手势特征提取器，提取出包含用户生理特征和行为特征的特征向量，所述随机手势特征提取器是时间差分共生神经网络模型进行训练和测试后得到的随机手势特征提取器；其中，时间差分共生神经网络模型包括残差生理特征提取模块、共生行为特征提取模块、基于行为特征模长的特征融合模块和帧间差分模块，所述残差生理特征提取模块将随机手势视频作为输入，用于提取生理特征；所述帧间差分模块用于对输入视频及残差生理特征提取模块中各层的输出特征进行相邻帧相同通道的相减并将将每一个差分特征的所有通道进行逐元素求和，得到差分伪模态；所述共生行为特征提取模块将手势视频差分伪模态作为输入，用于提取行为特征；所述基于行为特征模长的特征融合模块将生理特征和行为特征进行特征融合；

注册认证模块，用于在注册模式时，将输入的用户名和提取出的随机手势的特征向量添加至手势模板数数据库；在认证模式时，首先提取用户名在手势模板数据库中对应的多个特征向量，然后计算与待认证用户特征向量的余弦距离，并将最小的余弦距离与阈值比对，如果低于阈值，则认证通过，否则认证不通过，其中，所述阈值是指根据应用场景人工设定的认证阈值。

本发明公开的随机手势认证方法，相比其它生物特征模态和既有手势认证方法，能够实现有益效果至少如下：

(1)随机手势兼备生理特征和行为特征，信息量丰富，认证更加准确；

(2)随机手势，模仿难度极大，安全性更高；

(3)随机手势执行轻松自然，采集数据质量更高；

(4)随机手势，无需记忆，执行快速(<1.3s)，用户体验好，认证效率高；

(5)凌空操作，采集方便，清洁卫生，不受污渍影响；

(6)解耦敏感身份信息，不触及用户信息隐私；

本发明还提供了一种基于视频的随机手势认证***，具有和上述基于视频的随机手势认证方法相同的有益效果，此外相比既有的手势认证***，本发明提供的***还具有以下优点：

(1)公开了一种新型的时间差分共生神经网络模型，残差生理特征提取模块和共生行为特征提取模块可以分别提取用户身份相关的生理特征和行为特征。相比主流的三维卷积神经网络和双流二维卷积神经网络，所公开的网络具有更高的准确率和更快速的运行速度。

(2)公开一种特征融合策略，可以根据行为特征模长大小自动地分配生理特征和行为特征权重，相比既有的特征融合策略，具有更好的性能提升。

附图说明

图1是本发明基于视频的随机手势认证方法及***的原理示意图。

图2是本发明基于视频的随机手势认证方法及***中随机手势特征提取器示意图。

图3是本发明基于视频的随机手势认证方法及***中帧间差分模块示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造力劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参照图1，图1为本发明所提供的一种基于视频的随机手势认证方法的原理示意图，包括以下步骤：

步骤1：进行随机手势数据集构建和训练随机手势特征提取器。

本步骤中，随机手势特征提取器通过深度学习技术训练和测试后得到。为了获得高性能随机手势特征提取器，首先需要对高质量的随机手势样本进行采集。

手势样本采集需要对若干用户的若干随机手势进行N帧视频采集，得到随机手势视频数据集。在本发明其中一个实施例中，是进行64帧视频采集。并设定视频信号的帧率，在本发明其中一个实施例中，视频信号的帧率为15fps，即每秒视频中有15帧图像。可以理解的是，15fps只是一个具体的实例，如果磁盘存储允许，越大越好。15fps是一个比较适宜的值，太低的话，时序信息不足，太高的话，存储压力大，冗余信息多。本发明进行随机手势的采集，随机手势无需记忆，只需要在摄像头面前即兴地执行一段满足要求的手势即可，即手势要尽量充分调动五根手指，并展现手掌的多个角度。视频采集时需要记录对应的用户名。

采集后需要对随机手势视频数据集进行初步处理，从随机手势视频数据集的画面中剪切手势动作区域并进行图像大小调整，使其满足随机手势特征提取器对图像大小的预设要求。数据集大小为(P,Q,N,C,W,H)，其中P为采集用户个数，Q为每个用户执行随机手势个数，N为每段随机手势视频帧数，C为通道数，W为图像宽度，H为图像高度。

正式训练前，需要将随机手势视频数据集分为训练集和测试集。测试集要考虑到生物特征识别中的跨时段问题，即随着时间的延长，生物特征会存在一定程度上的变化，通常体现在行为特征上。在本发明其中一个实施例中，随机手势的测试集要在相隔预设时间后(如一周之后)采集多人(如100人)的第二阶段随机手势样本。由于在真实应用场景中，认证***需要对同一用户由于时间延长导致的手势差异具有较强的鲁棒性，所以最终部署于认证***的神经网络主要依据第二阶段随机手势样本的等误率进行选择，从而使时间差分共生神经网络模型在真实场景下具有良好的性能。

在训练阶段，随机挑选用户的随机手势，然后进行在线数据增强，包括时域数据增强和空域数据增强。时域数据增强需要从所挑选的N帧随机手势视频进行随机T帧手势片段的截取，通过采用这种方法同一个用户的一段N帧手势可以衍生出N-T+1段不同的T帧随机手势，从而在时间维度上，达到了很好的数据增强的作用。对于空域数据增强，本方法对同一手势视频的所有帧进行相同的随机旋转和随机色彩抖动(亮度、对比度和饱和度)。在本发明其中一个实施例中，考虑到***实时性要求，当N取值64时，T取值20，在15fps视频采集帧率下，等效于快速手势执行了1.3s。在进行随机旋转时，是进行随机±15°旋转。

手势认证可以看作是一种度量学习任务，通过训练，模型应该把用户随机手势视频映射到一个类内间距小，类间间距大的特征空间。考虑到相比于三元损失函数、对比损失函数，AM-Softmax不要精心地设计样本对，相比于Sphereface和L-Softmax，AM-Softmax更简单且可解释性更强。本发明采用AM-Softmax损失函数用于时间差分共生神经网络模型训练，AM-Softmax损失函数如下：

其中，

为损失函数， _n为训练练时采用的批大小， _i表示批中的第 _i个样本，W _i(W _i包括W _yi和W _j)和f _i分别为归一化的权重系数和用户身份特征向量(即图2中基于行为特征模长特征融合模块的输出)y _i表示样本正确用户名，fdim为基于行为特征模长特征融合模块输出特征的维度(在本发明其中一个实施例中，维度为512维，如图2所示)，j表示fdim维特征的第j维，T代表转置，s和m为超参数，在本发明其中一个实施例中，设定s＝30,m＝0.5。

在测试阶段，依次对第一阶段和第二阶段采集的测试样本进行测试。测试前首先对随机手势视频进行配对，其中来自相同用户的随机手势对标记为正样本，来自不同用户的随机手势对标记为负样本，最终随机选取正负样本对各2.5万对用于测试。测试时，首先截取视频中间T帧手势片段(因中间T帧往往动作丰富，在本发明其中一个实施例中，T取值20)，并进行图像标准化处理，然后输入时间差分共生神经网络获得融合生理特征和行为特征的用户身份特征，并计算5万个样本对的距离。然后计算5万个样本对距离的最大值和最小值，并在最小值和最大值间均匀采样1000个值依次作为阈值，即Threshold＝[min,min+step,min+2×step,...,max]，其中

step为均匀采样步长。样本对的余弦距离小于阈值的则认证通过，否则认证不通过。

计算***错误接受率FAR、错误拒绝率FRR和等误率EER。FAR表示错误地把未注册用户认证通过的概率，即测试集中负样本对余弦距离小于阈值个数占所有负样本对的比率：

其中FP _thres表示在阈值thres下，负样本被认证通过的个数，TN _thres表示负样本被认证拒绝的个数。FRR表示错误地把注册用户认证拒绝的概率，即测试集中正样本对余弦距离大于阈值个数占所有正样本对的比率：

其中FN _thres表示正样本被认证拒绝的个数，TP _thres表示正样本被认证通过的个数。

错误拒绝率FRR越小表明本方法的易用性越强，即用户在访问自己账户时更加不容易被拒绝；错误接受率FAR越小表明本方法的安全性越强，即用户仿冒攻击他人账户的难度更大。通常，错误接受率FAR和错误拒绝率FRR会有性能权衡，通过遍历不同的阈值，可以获得各个阈值下的FAR和错误拒绝率FRR，当阈值增加，错误接受率FAR上升，FRR下降。EER是当错误拒绝率FRR等于错误接受率FAR时的误差率(EER就是FRR＝FAR时FRR、FAR的值，即此时三者数值相等，EER＝FRR＝FAR)，它用于评估不同参数的匹配精度，因为此时错误拒绝率FRR和错误接受率FAR被同等对待。具有较低误差率EER的算法可以在认证任务中表现出更好的性能。在本发明其中一个实施例中，选择误差率EER最低时的时间差分共生神经网络模型作为随机手势特征提取器。

步骤2：选择注册模式或认证模式。

完成随机手势特征提取器训练后，即可将随机手势特征提取器进行***部署，用于在注册和认证环节提取用户的身份特征。

步骤3：输入用户名，采集用户随机手势视频。

随机手势无需记忆，只需要在摄像头面前即兴地执行一段满足要求的手势即可，手势要尽量充分调动五根手指，并展现手掌的多个角度。在本发明其中一个实施例中，采集用户随机手势视频时，视频信号的帧率为15fps，即每秒视频中有15帧图像。

步骤4：对随机手势视频进行预处理。

在手势注册和认证环节，需要对采集到的手势视频首先裁剪中间T帧，从而获取随机手势视频中动作相对丰富的片段。然后再进行逐帧的中心裁剪、图像大小调整和图像标准化，去除无关的图像背景，并使手势视频帧满足用于随机手势特征提取器对输入图像的大小和分布要求。在本发明其中一个实施例中，由于需要采用ImageNet图像数据集预训练模型初始化随机手势特征提取器，因此在图像标准化时，所有视频帧的三通道减去均值[0.485,0.456,0.406]并除以标准差[0.229,0.224,0.225](均值和标准差都是基于ImageNet数据集的统计值)。最终截取的视频大小为(T,C,W,H)，其中T为帧数，C为通道数，W为图像宽度，H为图像高度。

步骤5：将预处理后的动态手势视频输入到经训练和测试后得到的随机手势特征提取器，提取出包含用户生理特征和行为特征的特征向量。

随机手势兼备生理特征和行为特征，随机手势特征提取器需要具备同时提取上述两种特征的能力，并进行特征融合，充分利用生理特征和行为特征在身份信息上的互补优势，提高认证的准确率和***的安全性。

在本发明其中一个实施例中，随机手势特征提取器是通过时间差分共生神经网络模型进行训练和测试后得到的。请参阅图2至图3所示，本实施例提供的快速准确的时间差分共生神经网模型包括残差生理特征提取模块、共生行为特征提取模块、帧间差分模块和基于行为特征模长的特征融合模块。

残差生理特征提取模块包括一个输入层和标准18层残差网络，用于提取每一帧手势图像的生理特征，同时为共生行为特征提取模块提供差分伪模态输入。输入为原始手势视频 (Bt,T,3,224,224)，即批大小为Bt的T帧三通道尺寸为224×224的手势视频。前向传播时需要将输入转换为(Bt×T,3,224,224)，即将视频帧单独进行处理，不涉及帧间信息交互。在模块末端通过全局平均池化和全连接操作后生理特征形状为(Bt×T,fdim),最终输出时生理特征需要转换成(Bt,T,fdim)。

共生行为特征提取模块包括五个输入层、五个二维卷积层、一个二维池化层、一个全局平均池化层和一个全连接层。所有卷积层后采用BN层进行批归一化，激活函数采用ReLU。输入为原始手势视频帧和残差生理特征提取模块Conv1、Layer1、Layer2、Layer3卷积获得的特征图经过帧间差分模块处理后得到的差分伪模态。在共生行为特征提取模块中，除了Conv1可以直接对差分伪模态进行卷积外，Conv2、Conv3、Conv4和Conv5在卷积前首先需要将上一层卷积获得的特征图与来自帧间差分模块的差分伪模态进行通道维度的拼接，然后再进行卷积。最后通过全局平均池化和全连接操作，将行为特征表示为fdim维特征向量。

所述帧间差分模块为残差生理特征提取模块和共生行为特征提取模块的桥梁，其输入来自残差生理特征提取模块，形状为(Bt×T,ch,w,h)，需要首先转换为(Bt,T,ch,w,h)，其中ch为通道个数，w和h分别为原始图像或特征图的宽度和高度。在残差生理特征提取模块中输入图像通道数为3，宽度和高度为(224，224)，经过残差生理特征提取模块的Conv1,Layer1,Layer2,Layer3后获得的特征图通道数依次为64，64，128，256，特征图的宽度和高度依次为(56,56),(56,56),(28,28),(14,14)。帧间差分模块用上述各层卷积特征(包括输入图像)进行相邻帧相同通道的相减，然后将每一个差分特征的所有通道进行逐元素求和，公式为：

式中，IS ^fn(x,y,t)即为差分伪模态，其中chn代表第chn个通道，fn来自残差生理特征提取模块第fn层特征，t表示第t帧，ch表示当前特征图通道总数，x,y分别表示特征图或图像的横坐标和纵坐标，

表示第t帧图像在残差生理特征提取模块fn层特征中的第chn通道特征图。

通过帧间差分模块可以将残差生理特征提取模块不同卷积层输出的通道数不同的特征图统一表示为T-1通道的差分伪模态，可以很好地对用户行为信息进行表示的同时，大大降低运算量。最终帧间差分模块的输出特征伪模态形状为(Bt,T-1,w,h)。

通过所述基于行为特征模长的特征融合模块进行特征融合，包括：将残差生理特征提取模块输出的生理特征进行视频帧维度的平均，输出大小为(Bt,fdim)的生理特征，然后进行归一化：

然后将归一化的生理特征与共生行为特征提取模块输出的行为特征进行相加获得融合特征：

其中，生理特征为P＝(p ₁,p ₂,...,p _n) ^T，

为归一化后的生理特征，行为特征为B＝(b ₁,b ₂,...,b _n) ^T，||.|| ₂表示二范数，λ为超参数，值越大生理特征越重要，在本发明其中一个实施例中，λ＝1，p _n和b _n分别表示生理特征和行为特征向量第n维的数值。最后将融合特征进行归一化：

式中

为归一化后的融合特征，通过时间差分共生神经网络模型的训练，其中包含了合理占比的生理特征和行为特征，α为生理特征向量P与行为特征向量B的之间夹角。

如果对生理特征和行为特征都先进行归一化处理然后再相加和进一步归一化，那么可以得到均衡融合特征：

为均衡融合特征，其中所融合的生理特征和行为特征的贡献相同，

为归一化后的行为特征(归一化方法与生理特征归一化方法一致)。通过

可以得到通过基于行为特征模长的特征融合方法下生理特征和行为特征相比均衡状态下的生理特征和行为特征的比重提升了多少倍：

生理特征相比均衡贡献提升倍数：

行为特征相比均衡贡献提升倍数：

生理特征和行为特征的夹角α决定贡献值的上限，夹角越小上限值越大。μ _p＞1时，生理特征比重大，此时：

可见当行为特征与生理特征夹角α小于120°时，且行为特征模长小于λ时，生理特征占主导；当行为特征与生理特征夹角α大于120°时，生理特征在小于λ的同时还需要大于-λ(1+2cosα)，生理特征才能占主导；

μ _b＞1时，行为特征比重大，此时：

即，当行为特征与生理特征夹角小于120°时，且行为特征模长大于λ时，行为特征占主导；当行为特征与生理特征夹角大于120°时，生理特征在大于λ的同时还需要小于

行为特征才能占主导；

通过基于行为特征模长的特征融合模块，***可以根据行为特征模长的大小自动调节生理特征和行为特征的比重。同时该模块也限制了两种特征比重的上限，防止训练初期某种特征模长过大，占据主导地位从而导致另一种特征被湮没。

步骤6，在注册模式时，将输入的用户名和提取出的随机手势特征向量添加至手势模板数据库；在认证模式时，首先提取用户名在手势模板数据库中对应的多个特征向量，然后计算与待认证用户特征向量的余弦距离，并将最小的余弦距离与阈值比对，如果低于阈值，则认证通过，否则认证不通过；所述阈值是指根据应用场景人工设定的认证阈值，在本发明其中一个实施例中，阈值取值范围为[0,1]。

在实际场景使用时，可以动态地选择阈值来平衡满足实际应用的需要，例如在安全性要求很高的场合，例如银行、海关等，需要尽可能的避免仿冒攻击者攻击成功的情况，此时应该调低阈值(例如0.2)使得错误接受率FAR降低。反之在安全性要求相对不高的场合，例如公共办公区门禁、家电产品控制等，需要调高阈值(例如0.3)，从而尽可能地正确识别注册用户，使得FRR降低。阈值调低或调高的幅度由用户根据需求确定。

在本发明其中一个实施例中，还提供了实现前述方法***。即一种基于视频的随机手势认证***，包括以下模块：

模式选择模块，用于选择注册模式或认证模式；

采集模块，用于输入用户名，采集用户随机手势视频；

数据处理模块，用于对随机手势视频进行预处理；

特征提取模块，用于将预处理后的动态手势视频输入到随机手势特征提取器，提取出包含用户生理特征和行为特征的特征向量，所述随机手势特征提取器是时间差分共生神经网络模型进行训练和测试后得到的随机手势特征提取器；其中，时间差分共生神经网络模型包括残差生理特征提取模块、共生行为特征提取模块、基于行为特征模长的特征融合模块和帧间差分模块，所述残差生理特征提取模块将随机手势视频作为输入，用于提取生理特征；所述帧间差分模块用于对输入视频及残差生理特征提取模块中各层的输出特征进行相邻帧相同通道的相减并将每一个差分特征的所有通道进行逐元素求和，得到差分伪模态；所述共生行为特征提取模块将手势视频差分伪模态作为输入，用于提取行为特征；所述基于行为特征模长的特征融合模块将生理特征和行为特征进行特征融合；

为了证明本发明所公开的基于时间差分共生神经网络模型的随机手势认证方法及***的有效性和优越性，本发明公开时间差分共生神经网络模型在动态手势认证数据集随机手势认证的等误率，并与当前主流视频理解网络(TSN、TSM、双流卷积神经网络、三维卷积神经网络、图像分类网络(ResNet18)进行对比实验。实验结果如下表所示：

可以看到，本方法通过采用时间差分共生神经网络模型进行认证，在第一阶段测试集中达到2.580％的等误率，在第二阶段测试集中达到6.485％的等误率，即分别只错误识别2.580％和6.485％的注册用户/非注册用户(相当于识别准确率分别为97.420％和93.515％)，等误率远远低于其他现有的方法，由此可证明随机手势的有效性。通过与当前主流视频理解网络和图像分类网络在随机手势认证中的表现的比较可以发现，时间差分共生神经网络在阶段一和阶段二的测试集上都具有最低的等误率，因此可以证明时间差分共生神经网络具有更强的认证性能。本实验仅为证明随机手势认证的有效性和时间差分共生神经网络的优越性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的一种基于视频的随机手势认证***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本发明通过基于视频的快速随机手势进行认证，可以无需记忆，只需即兴地执行一段随机手势即可完成用户的身份认证，所采用的的模型运行速度快，手势解耦敏感身份信息，不触及用户信息隐私，可以实现更安全、更高效和更友好的身份认证。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

一种基于视频的随机手势认证方法，其特征在于，包括以下步骤：

选择注册模式或认证模式；

输入用户名，采集用户随机手势视频；

对随机手势视频进行预处理；

将预处理后的动态手势视频输入到随机手势特征提取器，提取出包含用户生理特征和行为特征的特征向量，所述随机手势特征提取器是时间差分共生神经网络模型进行训练和测试后得到的随机手势特征提取器；其中，时间差分共生神经网络模型包括残差生理特征提取模块、共生行为特征提取模块、基于行为特征模长的特征融合模块和帧间差分模块，所述残差生理特征提取模块将随机手势视频作为输入，用于提取生理特征；所述帧间差分模块用于对输入视频和残差生理特征提取模块中各层的输出特征进行相邻帧相同通道的相减并将每一个差分特征的所有通道进行逐元素求和，得到差分伪模态；所述共生行为特征提取模块将手势视频差分伪模态作为输入，用于提取行为特征；所述基于行为特征模长的特征融合模块将生理特征和行为特征进行特征融合；

在注册模式时，将输入的用户名和提取出的随机手势的特征向量添加至手势模板数数据库；在认证模式时，首先提取用户名在手势模板数据库中对应的多个特征向量，然后计算与待认证用户特征向量的余弦距离，并将最小的余弦距离与阈值比对，如果低于阈值，则认证通过，否则认证不通过，其中，所述阈值是指根据应用场景人工设定的认证阈值。
根据权利要求1所述的一种基于视频的随机手势认证方法，其特征在于：所述采集用户随机手势视频中，随机手势无需记忆，只需要即兴执行一段手势即可进行注册和认证。
根据权利要求1所述的一种基于视频的随机手势认证方法，其特征在于：所述对随机手势视频进行预处理，包括：从动态手势视频截取T帧手势片段，然后进行逐帧的中心裁剪、图像大小调整和图像标准化，最终截取的视频大小为(T,C,W,H)，其中T为帧数，C为通道数，W为图像宽度，H为图像高度。
根据权利要求1所述的基于视频的随机手势认证方法，其特征在于：所述随机手势特征提取器是时间差分共生神经网络模型进行训练和测试后得到的随机手势特征提取器，包括：

对若干用户的若干随机手势进行N帧视频采集，并记录对应的用户名，形成随机手势视频数据集；

对随机手势视频数据集进行处理，从随机手势视频数据集的画面中剪切手势动作区域并进行图像大小调整，最终数据集大小为(P,Q,N,C,W,H)，其中P为采集用户个数，Q为每个用户执行随机手势个数，N为每段随机手势视频帧数；

将随机手势视频数据集分为训练集和测试集对时间差分共生神经网络模型进行训练和测试，其中，对测试集中的样本在相隔预设时间后采集多人的随机手势作为第二阶段的测试集；

在训练阶段，对随机手势视频进行随机T帧手势片段的截取，并进行预处理；将经过预处理的随机手势视频通过时间差分共生神经网络模型前向传播得到融合特征，然后输入损失函数，并通过反向传播对时间差分共生神经网络模型进行优化；

在测试阶段，对随机手势视频进行中间T帧手势片段的截取，并进行图像标准化处理，然后输入时间差分共生神经网络获得融合特征，用于距离计算。
根据权利要求1所述的一种基于视频的随机手势认证方法，其特征在于，通过所述残差生理特征提取模块得到生理特征的步骤为：将T帧随机手势图像视为大小为T的图像批进行18层卷积神经网络的前向传播；通过全局平均值池化和全连接操作，将生理特征表示为T×fdim维特征向量；将T×fdim维特征向量在时间维度平均得到fdim维的生理特征向量。
根据权利要求1所述的一种基于视频的随机手势认证方法，其特征在于，通过所述共生行为特征提取模块得到行为特征的步骤为：输入随机手势视频，通过所述帧间差分模块处理获得随机手势视频差分伪模态；将随机手势视频差分伪模态输入共生行为特征提取模块；每经过一次卷积操作后，将上一层的输出与代表相应的残差生理特征的差分伪模态进行通道维度的拼接；通过全局平均池化和全连接操作，将行为特征表示为fdim维特征向量。
根据权利要求1所述的一种基于视频的随机手势认证方法，其特征在于，通过所述帧间差分模块得到的差分伪模态为：

IS ^fn(x,y,t)即为所述差分伪模态，其中chn,fn,t分别代表第chn个通道，来自残差生理特征提取模块第fn层特征和第t帧，ch表示当前特征图通道总数，x,y分别表示特征图或图像的横坐标和纵坐标。
根据权利要求1-7任一所述的一种基于视频的随机手势认证方法，其特征在于，通过所述基于行为特征模长的特征融合模块得到融合模块的步骤包括：将残差生理特征提取模块输出的生理特征进行归一化；将归一化的生理特征与共生行为特征提取模块输出的行为特征进行相加获得融合特征；将融合特征进行归一化；最后融合特征为：

为归一化后的融合特征，包含了生理特征和行为特征，其中生理特征为P＝(p ₁,p ₂,...,p _n) ^T，行为特征为B＝(b ₁,b ₂,...,b _n) ^T，||.|| ₂表示二范数，λ为超参数，α为生理特征向量P与行为特征向量B的之间夹角。
根据权利要求8所述的一种基于视频的随机手势认证方法，其特征在于：通过所述基于行为特征模长的特征融合模块自动调节生理特征和行为特征的比重，其中

当行为特征与生理特征夹角α小于120°时，且行为特征模长小于λ时，生理特征所占比重大于行为特征，当行为特征与生理特征夹角α大于120°时，生理特征在小于λ的同时还需要大于-λ(1+2cosα)，生理特征所占比重才大于行为特征，即

当行为特征与生理特征夹角小于120°时，且行为特征模长大于λ时，行为特征所占比重大于生理特征；当行为特征与生理特征夹角大于120°时，生理特征在大于λ的同时还需要小于
行为特征所占比重才大于生理特征，即
一种基于视频的随机手势认证***，其特征在于，用于实现权利要求1任一所述的方法，所述***包括：

模式选择模块，用于选择注册模式或认证模式；

采集模块，用于输入用户名，采集用户随机手势视频；

数据处理模块，用于对随机手势视频进行预处理；

特征提取模块，用于将预处理后的动态手势视频输入到随机手势特征提取器，提取出包含用户生理特征和行为特征的特征向量，所述随机手势特征提取器是时间差分共生神经网络模型进行训练和测试后得到的随机手势特征提取器；其中，时间差分共生神经网络模型包括残差生理特征提取模块、共生行为特征提取模块、基于行为特征模长的特征融合模块和帧间差分模块，所述残差生理特征提取模块将随机手势视频作为输入，用于提取生理特征；所述帧间差分模块用于对输入视频及残差生理特征提取模块中各层的输出特征进行相邻帧相同通道的相减并将每一个差分特征的所有通道进行逐元素求和，得到差分伪模态；所述共生行为特征提取模块将手势视频差分伪模态作为输入，用于提取行为特征；所述基于行为特征模长的特征融合模块将生理特征和行为特征进行特征融合；

注册认证模块，用于在注册模式时，将输入的用户名和提取出的随机手势的特征向量添加至手势模板数数据库；在认证模式时，首先提取用户名在手势模板数据库中对应的多个特征向量，然后计算与待认证用户特征向量的余弦距离，并将最小的余弦距离与阈值比对，如果低于阈值，则认证通过，否则认证不通过，其中，所述阈值是指根据应用场景人工设定的认证阈值。