CN114898472A

CN114898472A - 基于孪生视觉Transformer网络的签名鉴定方法和***

Info

Publication number: CN114898472A
Application number: CN202210443563.2A
Authority: CN
Inventors: 霍华骑; 陆璐; 冼允廷
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-08-12
Anticipated expiration: 2042-04-26
Also published as: CN114898472B

Abstract

本发明人工智能、计算机模式识别领域，具体涉及基于孪生视觉Transformer网络的签名鉴定方法和***，该方法包括步骤：签名图片预处理；对签名进行真真、真伪配对，构建数据集；构建孪生多尺度视觉Transformer神经网络模型；对模型进行训练；使用模型进行签名鉴定。本方法与传统的方法相比，采用了深度学习领域的视觉Transformer模型作为骨干网络，并改进提出了多尺度分块方法，可以更好的提取签名的特征，提高了鉴定的精度；同时采用端到端的方式，输入两张对比的图片，即可输出距离用于真伪判定，不需要额外训练分类器或者使用其他度量算法，使得模型易于训练和使用。

Description

基于孪生视觉Transformer网络的签名鉴定方法和***

技术领域

本发明涉及人工智能、计算机模式识别领域，具体涉及基于孪生视觉Transformer网络的签名鉴定方法和***。

背景技术

手写签名鉴定(Hand-written Signature Verification,HSV)也称为手写签名验证、手写签名鉴别，简单来说就是：判定一个待鉴定签名相对于特定的真实签名而言，是真实的还是伪造的。手写签名鉴定根据签名的获取方式，可以分为在线和离线，前者需要通过特定设备采集，采集的签名包含了笔画速度、压力等动态信息；而后者一般是将纸张上的签名扫描后得到的图片，只包含静态信息。在线签名的鉴定相对简单，目前已经有实际应用，通常用来判断一个是否是其本人；而离线签名由于缺失了动态信息，使其鉴定难度更大。本发明针对是离线签名的鉴定。

在刑侦、司法、金融、行政等领域，时常需要鉴定某离线手写签名是否是当事人的真实签名。现在普遍使用的方法是专家鉴定，但是这种方法成本高，耗费人力。

近30年来，许多基于计算机视觉、特征工程、图像处理的方法被应用到该领域，这些方法往往是使用手工特征对签名图片进行特征提取，得到特征向量，再使用机器学习算法对特征向量进行分类，从而鉴定签名的真假。不过这些传统手工特征，例如局部二局模式(Local Binary Pattern，LBP)、灰度共生矩阵(Gray Level Co-occurrence Matrix，GLCM)等，往往不能很好的提取签名图片的全部特征，导致丢失了签名图片的一些重要的信息，因此鉴定准确率往往不高，例如把伪造的签名鉴定为真，或者把真实的签名误报成伪。

随着人工智能(Artificial Intelligence，AI)技术的快速发展，人们开始尝试使用AI解决手写签名鉴定问题。近年来，许多基于卷积神经网络(Convolutional NeuralNetwork，CNN)的方法开始陆续出现，它们通常是训练CNN作为特征提取器，以代替传统的手工特征，然后再利用得到的特征针对每个用户训练分类器，以此鉴定签名是否属于某个特定用户，但是这类方法需要分阶段训练，而且受限于CNN自身的缺陷，例如容易陷入局部最优解、网络过深时难以训练等，鉴定准确率还有提升空间。

发明内容

为解决现有技术所存在的技术问题，本发明提供基于孪生视觉Transformer网络的签名鉴定方法和***，通过构建孪生视觉Transformer网络模型，基于孪生网络架构，使用改进多尺度视觉Transformer作为骨干网络，使用多层感知机进行距离计算，使其可以获取更加丰富的不同尺度的特征，更好的提取签名的特征，提高了签名鉴定的精度，提高了签名鉴定准确率。

本发明的第一个目的在于提供基于孪生视觉Transformer网络的签名鉴定方法。

本发明的第二个目的在于提供基于孪生视觉Transformer网络的签名鉴定***。

本发明的第一个目的可以通过采取如下技术方案达到：

基于孪生视觉Transformer网络的签名鉴定方法，所述方法包括：

S1、签名图片预处理，将签名图片等比缩放，采用基于统计的阈值对签名图片进行二值化；

S2、对每个签名的真实签名照片、伪造签名照片进行配对，得到每个签名的正样本和负样本，构建样本数据集；

S3、构建孪生视觉Transformer网络模型，孪生视觉Transformer网络模型为基于孪生网络架构，使用改进多尺度视觉Transformer作为骨干网络，使用多层感知机进行距离计算的神经网络模型；

S4、采用样本数据集对孪生视觉Transformer网络模型进行训练，使用梯度下降的逼近方法使得孪生视觉Transformer网络模型收敛；

S5、使用训练后的孪生视觉Transformer网络模型对待鉴定签名图片进行鉴定，输出鉴定结果。

优选地，所述孪生视觉Transformer网络模型使用端到端的孪生网络架构，将参考签名图片和待鉴定签名图片分别输入改进的多尺度视觉Transformer得到两个特征向量，将两个特征向量做差后取绝对值并输入多层感知机，输出两张签名图片的距离。

优选地，所述改进的多尺度视觉Transformer有3个不同尺度，采用无重叠的切割方法对图片分块；将原始视觉Transformer的最后分类层移除，直接输出特征向量作为签名图片的特征，将3个不同尺度的Transformer输出的特征向量进行融合。

本发明的第二个目的可以通过采取如下技术方案达到：

基于孪生视觉Transformer网络的离线手写签名鉴定***，包括：

签名图片预处理模块，用于签名图片预处理，将签名图片等比缩放，采用基于统计的阈值对签名图片进行二值化；

签名图片配对模块，用于对每个签名的真实签名照片、伪造签名照片进行配对，得到每个签名的正样本和负样本，构建样本数据集；

模型构建模块，用于构建孪生视觉Transformer网络模型，孪生视觉Transformer网络模型为基于孪生网络架构，使用改进多尺度视觉Transformer作为骨干网络，使用多层感知机进行距离计算的神经网络模型；

模型训练模块，用于采用样本数据集对孪生视觉Transformer网络模型进行训练，使用梯度下降的逼近方法使得孪生视觉Transformer网络模型收敛；

签名鉴定模块，用于使用训练后的孪生视觉Transformer网络模型对待鉴定签名图片进行鉴定，输出鉴定结果；

所述孪生视觉Transformer网络模型使用端到端的孪生网络架构，将参考签名图片和待鉴定签名图片分别输入改进的多尺度视觉Transformer得到两个特征向量，将两个特征向量做差后取绝对值并输入多层感知机，输出两张签名图片的距离；所述改进的多尺度视觉Transformer 有3个不同尺度，采用无重叠的切割方法对图片分块；将原始ViT的最后分类层移除，直接输出特征向量作为签名图片的特征，将3个不同尺度的Transformer输出的特征向量进行融合。

本发明与现有技术相比，具有如下优点和有益效果：

1、相对于传统人工选择的特征和卷积神经网络提取的特征，本发明通过以视觉Transformer网络作为骨干网络，使用了多尺度的分块方式，使其可以获取更加丰富的不同尺度的特征，更好的提取签名的特征，提高了签名鉴定的精度，提高了签名鉴定准确率。

2、传统的方法大多是把特征提取器和分类器分开训练，本发明通过提出了一种端到端的模型，输入参考签名图片和待鉴定签名图片，直接输出图片距离用于真伪判定，不需要额外训练分类器或者使用其他度量算法，使得模型易于训练和使用。

3、考虑到签名绝大多数都是横向书写的，本发明通过将视觉Transformer的输入图片改为横向矩形并且修改了相应的分块方式，具有更好的适应性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1是本发明实施例中的离线手写签名鉴定方法的流程图；

图2是本发明实施例中的签名图片预处理示意图；

图3是本发明实施例中的模型方法的整体网络架构图；

图4是本发明实施例中视觉Transformer网络分支mViT示意图；

图5是本发明实施例中的图3中的多层感知机的网络示意图；

图6是本发明实施例中图5中模块1和模块2的网络示意图。

具体实施方式

下面将结合附图和实施例，对本发明技术方案做进一步详细描述，显然所描述的实施例是本发明一部分实施例，而不是全部的实施例，本发明的实施方式并不限于此。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，离线手写签名鉴定方法的流程图，本发明所述的基于孪生视觉Transformer 网络的签名鉴定方法，包含以下步骤：

S1、签名图片预处理，将签名图片等比缩放，采用基于统计的阈值对签名图片进行二值化，得到固定大小的具有白色背景、黑色字迹的签名图片；预处理是做图像类模式识别任务时必不可少的环节，预处理的目的是使得模型的输入统一，去除不必要的冗余信息。

如图2所示，签名图片预处理示意图，优选地，首先将签名图片等比缩放为固定的宽高 224×160大小，使每一张签名图片完全居中嵌入在宽高224×160的白色背景图片中(即上下或者左右紧贴背景图片的边缘)，当签名图片周围有空白就填充显示背景的白色。然后采用基于统计的阈值方法进行签名图片的二值化，所述阈值通过在原始签名图片中进行抽样获取，对于每张原始签名图片的所有像素点，每间隔若干个像素点(优选5个像素点)进行采样，最后求所有采样点的灰度值的平均数，得到阈值T，这个T即近似为图片的背景(浅色纸张)和前景(黑色字迹)的分界线；其中间隔5个像素点进行采样的目的是减少计算量，加快得到阈值T，可以这样做的理由是就签名图片而言，其大部分是背景，即使间隔采样，其平均值也是接近背景色；

优选地，对于图片中的每个像素点进行二值化，当像素点灰度值小于0.8×T，则令其为黑色0，当大于0.8×T则令其为白色255；乘以0.8的原因是，由于图片背景的分布不均匀，如果直接使用阈值T作为二值化的中间值，往往会造成一些深色背景被误认为是签名笔迹，造成额外的噪音。

对所有图片进行上述等比缩放和二值化操作之后，就会得到固定大小为宽高224×160的白色背景、黑色字迹的签名图片。

对每个签名的真实签名照片、伪造签名照片进行配对，包括对签名照片进行真真配对、真伪配对，对于每个名字都要有若干张真实的签名照片和伪造签名照片，其中真实签名就是其本人实际手写的签名，而伪造签名可以是随机使用别人的真实签名，或者由他人模仿伪造。优选地，将每个签名的若干张真实签名照片两两配对，得到真-真正样本，真-真正样本标签为0，表示两张真实签名照片的距离为0；将每个签名的若干张真实签名和若干张伪造签名进行两两配对，得到真-假负样本，真-假负样本标签为1，表示1张真实签名和1张伪造签名的距离为0；将正样本和负样本构建为样本数据集。

优选地，为了使得模型能够学习到足够的信息，每个人的真实签名个数应当不少于5张，这样配对之后正样本数量可以达到10以上。

优选地，样本数据集包括训练集和测试集，为了方便模型训练，样本数据集中的每个签名的正样本和负样本中按照7:3的比例进行划分，分别得到训练集和测试集。例如每个人名各有10正样本和10个负样本，那么其中各取7个作为训练集，3个作为测试集。在深度学习领域为了训练和评估模型，需要划分训练集和测试集，经典的划分可以从6:4到8:2不等，考虑到每个人名往往不会有很多张签名，为了兼顾模型训练的数据量和评估的客观性，使用中间的7:3划分方式是更好的选择。

S3、构建孪生视觉Transformer网络模型，孪生视觉Transformer网络模型为构建基于孪生网络架构，使用改进的多尺度视觉Transformer作为骨干网络、使用多层感知机进行距离计算的神经网络模型。

视觉Transformer(Vision Transformer，简称ViT，详见论文Dosovitskiy A,Beyer L, Kolesnikov A,et al.An image is worth 16x16 words:Transformers forimage recognition at scale[J]. arXiv preprint arXiv:2010.11929,2020.)是最近两年提出的具有重大创新的神经网络架构，相比于传统的基于卷积神经网络的方法，其使用了纯注意力机制，许多实验都表明ViT具有更好的特征提取能力。视觉Transformer主要思想是将图片分成小块后分别输入线性层得到嵌入向量，然后将嵌入向量序列输入到Transformer网络的若干个串联的编码器中，每个编码器主要包含多头自注意力机制、残差连接和线性层，最后使用多层感知机进行分类；

优选地，改进的多尺度视觉Transformer网络具有3个不同尺度，采用无重叠的切割方法对图片分块，将原始ViT(视觉Transformer)的最后分类层移除，直接输出特征向量作为签名图片的特征，然后将三个不同尺度得到的特征向量进行融合。

孪生视觉Transformer网络模型，使用端到端的孪生网络架构，将参考签名图片和待鉴定签名图片分别输入视觉Transformer网络，得到两个特征向量，将两个特征向量做差后取绝对值并输入多层感知机，输出两张图片的距离。

如图3所示，模型方法的整体网络架构图，图3中的矩形框代表计算过程，图3中的圆角框代表非计算过程。本实施例中，使用PyTorch深度学习框架作为实现方式，PyTorch是一个开源的Python语言的机器学习库，是目前最流行的两种深度学习实现方式之一(另一个是 Tensorflow)，无论采用何种实现方式，本发明的模型方法是不变的。

输入的参考签名图片和待鉴定签名图片的大小是1×160×224的固定大小，其中1代表图片的通道数，PyTorch实现的模型输入格式是：通道数×高度×宽度，正好与常识相反；其中参考签名图片和待鉴定签名图片分别是两张经过预处理的签名图片，其中前者是属于某个人的真实签名，后者是需要判断真伪的签名，这里的真伪是相对于参考签名图片而言的。

参考签名图片和待鉴定签名图片分别通过改进的多尺度视觉Transformer网络，得到两个特征向量，两个特征向量做差后取绝对值，继续输入3层的感知机进行预测，最后的输出层维度是1维，最后使用Sigmoid函数将其变换到0～1之间，所以模型最后的输出是0～1之间的小数，表示两张签名图片的距离，该距离值表示这两张图片不相似的程度。

孪生视觉Transformer网络模型是一个端到端的模型，可以采用公式化的方式进行描述，记为Model，可以直接输入2张图片G1、G2，即可输出0～1之间的浮点数O表示两张图片的距离，模型公式为：

O＝Model(G₁,G₂) (1)

具体地，孪生视觉Transformer网络模型采用孪生网络架构，具有两个多尺度视觉Transformer网络分支mViT，它们分别接收一张图片作为输入，输出各一个特征向量，记为F1、F2，最后两个特征向量做差后取绝对值，输入到多层感知机MLP中，最后输出的维度是1维，并且使用Sigmoid激活函数使其输出范围变为0～1；

F₁＝mViT(G₁) (2)

F₂＝mViT(G₂) (3)

O＝Sigmoid(MLP(|F₁-F₂|)) (4)

最后输出的O可以根据实际统计情况设置一个阈值T例如0.5，如果小于0.5则判定为真，否则为假；

本实施例中，3个不同尺度的分块大小(宽×高)分别是8×16、16×32、28×40，相比于原始ViT的16×16大小的分块可以更好地适应签名鉴定任务；采用无重叠的切割方法，宽高 224×160的图片分别得到的分块(Patch)个数为280、70和32；3个不同尺度的Transformer 的堆叠的编码器层数分别为2、4和6；对于每个尺度的视觉Transformer，删除了其最后的分类层，而直接将倒数第二层作为特征向量输出；为融合3个尺度的视觉Transformer输出的特征向量，其特征融合方法为直接相加后除以3本发明是通过8×16、16×32、28×40这小、中、大三种不同尺度提取更丰富的签名图片的特征信息。

如图4所示，多尺度视觉Transformer网络分支mViT示意图，具体地，输入的图片(即图3中的参考签名图片和待鉴定签名图片)分别输入到3个不同尺度的ViT中，他们的分块大小分别是8×16、16×32、28×40，编码器层数分别是2、4、6；假设采用ViT作者提出的ViT-B/16作为基础模型，只改变其中的分块方式和编码器层数以及移除最后的分类层，则图片输入到这三个ViT中之后，则分别输出三个768维度大小的特征向量；特征融合的方式采用相加之后除以3的方式进行特征融合，所以最后输出的维度还是768。采用不同分块尺度大小的原因是，这样可以提取更加丰富的纹理信息和语义信息；而编码器层数不同的原因是，分块越小，参数越多，越难训练，所以对于小尺度分支应当缩小层数，大尺度分支则拥有更大的层数，这样使得模型易于训练和使用；特征融合方法采用相加取平均的方法的原因是，就特征融合而言，相加和拼接没有本质的效果差别，而相加不会扩大特征的维度，可以明显减少后续的计算量。

如图5所示，多层感知机网络示意图，多层感知机包含两个模块，分别为模块1和模块 2，已融合的特征向量分别通过模块1和模块2之后，输入到一个输出维度是1的全连接层中，最后经过Sigmoid激活函数，使最终输出值范围为0～1之间；在实施例中，输入的已融合的特征向量是两个mViT分支输出的融合的特征向量的差的绝对值，维度还是768，多层感知机中的三个的全连接层(其中有两个层分别在模块1和模块2中)的输出维度可以分别设置为 1024、512、1，两个Dropout层可以分别设置为丢弃概率为0.6和0.5用来防止训练的时候过拟合。

如图6所示，图5中模块1和模块2的网络示意图，多层感知机的模块1和模块2均包含一个全连接层、ReLU激活函数层、Dropout随机丢弃层。三个层之间是串联关系，全连接层的输出经过ReLU激活函数层，再经过Dropout随机丢弃层。其中ReLU是一种人工神经网络中常用的激活函数函数，可以让线性的神经网络具有非线性；Dropout在模型训练的时候起作用，通过随机丢掉一些权重，可以提供模型的泛化能力，有效防止模型的过拟合。

相比于传统方法常使用的特征提取加支持向量机分类两步法，本发明直接使用两个特征向量做差后输入多层感知机中自适应学习，这样可以实现端到端的模型训练和使用。

优选地，对孪生视觉Transformer网络模型进行训练，采用步骤S2中配对好的样本数据集的训练集对孪生视觉Transformer神经网络模型进行训练；其中训练集样本包括了正样本和负样本，其标签分别是0和1，所以损失函数使用二分类交叉熵函数，同时为了防止过拟合以及提高模型的泛化能力，在损失函数中添加了L2正则项；完整的损失函数的公式为：

其中N为训练时候的样本数量，i代表每个样本下标，yi是样本的标签，Oi代表模型的预测输出；后面第二项为L2正则项，用来防止过拟合，其中λ是超参数，如果模型无法收敛或者精度不高可以缩小λ，如果过拟合则考虑增大λ，w是模型的可学习参数；

一旦定义好损失函数，模型优化采用了小批量随机梯度下降的方法进行参数更新；模型的优化过程也称为模型的训练，目的是调整模型的内部参数使得损失函数最小化；其中梯度下降是深度学习领域最常使用的优化方法，在给定数据集后，它可以自动更新参数；考虑到现有的算力资源无法很难让整个数据集同时输入模型，所以现实中采用的几乎都是小批量小批量随机梯度下降，即每次只输入数据集的一部分数据，然后梯度下降进行参数更新；当损失函数不再下降或者下降幅度很小，就可以称之为模型收敛了，结束训练过程。

由于深度学习模型往往需要大量数据才能使得模型收敛，所以如果步骤S2中的签名数量不足，可以使用开源的签名数据集(例如英文的CEDAR、中文和荷兰语的Sigcomp2011)先进行模型的预训练，然后再用自己的数据集进行微调。

S5、通过训练后的孪生视觉Transformer网络模型对待鉴定签名图片进行鉴定，输出鉴定结果。

具体地，将待鉴定签名图片和参考签名图片输入使用训练后的孪生视觉Transformer网络模型对待鉴定签名图片进行鉴定，输出待鉴定签名图片和参考签名图的距离值；当距离值小于预设阀值则认为待鉴定签名图片是真实的，当距离值大于预设阀值则认为是待鉴定图片是伪造的或者待鉴定图片与参考签名图片是不同。

本实施中，一旦孪生视觉Transformer网络模型训练完毕，输入两张签名图片即可输出两张签名图片的距离。训练完毕后的孪生多尺度视觉Transformer神经网络模型的具体使用方法是，当需要鉴定一张签名图片A相对于某一张参考签名图片B而言是否是真实的时候，先将图片A、B进行S1步骤所述的预处理，然后将A、B输入到孪生视觉Transformer网络模型中，最终会得到0～1之间的输出值，该值表示这两张图片的距离值(不相似的程度)，可以设置一个阈值例如0.5，如果小于该值，则认为待鉴定图片A是真实的，如果大于该值，就认为是待鉴定图片A是伪造的或者和参考的签名有很大不同。

综上，本发明先对签名图片做统一的预处理，然后构建数据集训练提出的新模型，最后使用模型进行签名鉴定。由于本发明采用了端到端的孪生多尺度视觉Transformer网络架构，模型具有很高的特征提取能力和自适应性，在使用中，即使待鉴定签名和参考签名都没有出现在训练集中，也能取得很高的鉴定准确度。

实施例2：

本实施例提供了基于孪生视觉Transformer网络的签名鉴定***，该***包括获签名图片预处理模块、签名图片配对模块、模型构建模块、模型训练模块和签名鉴定模块，各个模块的具体功能如下：

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于孪生视觉Transformer网络的签名鉴定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的签名鉴定方法，其特征在于，所述将签名图片等比缩放包括：将签名图片等比缩放为固定大小，使每一张签名图片居中嵌入在固定大小的白色背景图片中，当签名图片周围有空白就填充显示背景的白色；所述阈值通过在原始签名图片中进行抽样获取，对于每张原始签名图片的所有像素点，每间隔若干个像素点进行采样，取所有采样点的灰度值的平均数作为阈值T。

3.根据权利要求2所述的签名鉴定方法，其特征在于，所述采用基于统计的阈值对签名图片进行二值化包括：对于签名图片中的每个像素点进行二值化，当像素点灰度值小于0.8×T，则令像素点为黑色0，当大于0.8×T则令像素点为白色255。

4.根据权利要求1所述的签名鉴定方法，其特征在于，所述步骤S2包括：将每个签名的若干张真实签名照片两两配对得到正样本，正样本的标签为0；将每个签名的若干张真实签名和若干张伪造签名进行两两配对得到负样本，负样本标签为1；将正样本和负样本构建为样本数据集。

5.根据权利要求1所述的签名鉴定方法，其特征在于，所述孪生视觉Transformer网络模型使用端到端的孪生网络架构，将参考签名图片和待鉴定签名图片分别输入改进的多尺度视觉Transformer得到两个特征向量，将两个特征向量做差后取绝对值并输入多层感知机，输出两张签名图片的距离。

6.根据权利要求5所述的签名鉴定方法，其特征在于，所述改进的多尺度视觉Transformer有3个不同尺度，采用无重叠的切割方法对图片分块；将原始视觉Transformer的最后分类层移除，直接输出特征向量作为签名图片的特征，将3个不同尺度的视觉Transformer输出的特征向量进行融合。

7.根据权利要求6所述的签名鉴定方法，其特征在于，所述改进的多尺度视觉Transformer的3个不同尺度分别是8×16、16×32、28×40，3个不同尺度的Transformer的堆叠的编码器层数分别为2、4和6；所述将3个不同尺度的Transformer输出的特征向量进行融合方法为将3个不同尺度的Transformer输出的特征向量相加后除以3。

8.根据权利要求1所述的签名鉴定方法，其特征在于，所述对孪生视觉Transformer网络模型进行训练包括：采用样本数据集的训练集对孪生视觉Transformer网络模型进行训练；损失函数使用二分类交叉熵函数，在损失函数中添加L2正则项；完整的损失函数的公式为：

其中，N为训练时候的样本数量，i代表每个样本下标，yi是样本的标签，Oi代表模型的预测输出；公式的第二项为L2正则项，用于防止过拟合，其中λ是超参数，w是模型的可学习参数。

9.根据权利要求1所述的签名鉴定方法，其特征在于，所述步骤S5包括：将参考签名图片和待鉴定签名图片输入使用训练后的孪生视觉Transformer网络模型对待鉴定签名图片进行鉴定，输出参考签名图片和待鉴定签名图片的距离值；当距离值小于预设阀值则认为待鉴定签名图片是真实的，当距离值大于预设阀值则认为是待鉴定图片是伪造的或者待鉴定图片与参考签名图片是不同。

10.基于孪生视觉Transformer网络的签名鉴定***，其特征在于，所述***包括：

所述孪生视觉Transformer网络模型使用端到端的孪生网络架构，将参考签名图片和待鉴定签名图片分别输入改进的多尺度视觉Transformer得到两个特征向量，将两个特征向量做差后取绝对值并输入多层感知机，输出两张签名图片的距离；所述改进的多尺度视觉Transformer有3个不同尺度，采用无重叠的切割方法对图片分块；将原始视觉Transformer的最后分类层移除，直接输出特征向量作为签名图片的特征，将3个不同尺度的视觉Transformer输出的特征向量进行融合。