CN114898472A - 基于孪生视觉Transformer网络的签名鉴定方法和*** - Google Patents
基于孪生视觉Transformer网络的签名鉴定方法和*** Download PDFInfo
- Publication number
- CN114898472A CN114898472A CN202210443563.2A CN202210443563A CN114898472A CN 114898472 A CN114898472 A CN 114898472A CN 202210443563 A CN202210443563 A CN 202210443563A CN 114898472 A CN114898472 A CN 114898472A
- Authority
- CN
- China
- Prior art keywords
- signature
- picture
- twin
- vision
- transformer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 36
- 230000000007 visual effect Effects 0.000 claims abstract description 34
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000003062 neural network model Methods 0.000 claims abstract description 10
- 238000012795 verification Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 42
- 238000005070 sampling Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000000903 blocking effect Effects 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 238000005259 measurement Methods 0.000 abstract description 2
- 238000003909 pattern recognition Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000218645 Cedrus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/30—Writer recognition; Reading and verifying signatures
- G06V40/33—Writer recognition; Reading and verifying signatures based only on signature image, e.g. static signature recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Collating Specific Patterns (AREA)
Abstract
本发明人工智能、计算机模式识别领域,具体涉及基于孪生视觉Transformer网络的签名鉴定方法和***,该方法包括步骤:签名图片预处理;对签名进行真真、真伪配对,构建数据集;构建孪生多尺度视觉Transformer神经网络模型;对模型进行训练;使用模型进行签名鉴定。本方法与传统的方法相比,采用了深度学习领域的视觉Transformer模型作为骨干网络,并改进提出了多尺度分块方法,可以更好的提取签名的特征,提高了鉴定的精度;同时采用端到端的方式,输入两张对比的图片,即可输出距离用于真伪判定,不需要额外训练分类器或者使用其他度量算法,使得模型易于训练和使用。
Description
技术领域
本发明涉及人工智能、计算机模式识别领域,具体涉及基于孪生视觉Transformer网络的 签名鉴定方法和***。
背景技术
手写签名鉴定(Hand-written Signature Verification,HSV)也称为手写签名验证、手写签名鉴 别,简单来说就是:判定一个待鉴定签名相对于特定的真实签名而言,是真实的还是伪造的。 手写签名鉴定根据签名的获取方式,可以分为在线和离线,前者需要通过特定设备采集,采 集的签名包含了笔画速度、压力等动态信息;而后者一般是将纸张上的签名扫描后得到的图 片,只包含静态信息。在线签名的鉴定相对简单,目前已经有实际应用,通常用来判断一个 是否是其本人;而离线签名由于缺失了动态信息,使其鉴定难度更大。本发明针对是离线签 名的鉴定。
在刑侦、司法、金融、行政等领域,时常需要鉴定某离线手写签名是否是当事人的真实 签名。现在普遍使用的方法是专家鉴定,但是这种方法成本高,耗费人力。
近30年来,许多基于计算机视觉、特征工程、图像处理的方法被应用到该领域,这些方 法往往是使用手工特征对签名图片进行特征提取,得到特征向量,再使用机器学习算法对特 征向量进行分类,从而鉴定签名的真假。不过这些传统手工特征,例如局部二局模式(Local Binary Pattern,LBP)、灰度共生矩阵(Gray Level Co-occurrence Matrix,GLCM)等,往往不能 很好的提取签名图片的全部特征,导致丢失了签名图片的一些重要的信息,因此鉴定准确率 往往不高,例如把伪造的签名鉴定为真,或者把真实的签名误报成伪。
随着人工智能(Artificial Intelligence,AI)技术的快速发展,人们开始尝试使用AI解决手 写签名鉴定问题。近年来,许多基于卷积神经网络(Convolutional NeuralNetwork,CNN)的方 法开始陆续出现,它们通常是训练CNN作为特征提取器,以代替传统的手工特征,然后再利 用得到的特征针对每个用户训练分类器,以此鉴定签名是否属于某个特定用户,但是这类方 法需要分阶段训练,而且受限于CNN自身的缺陷,例如容易陷入局部最优解、网络过深时难 以训练等,鉴定准确率还有提升空间。
发明内容
为解决现有技术所存在的技术问题,本发明提供基于孪生视觉Transformer网络的签名鉴 定方法和***,通过构建孪生视觉Transformer网络模型,基于孪生网络架构,使用改进多尺 度视觉Transformer作为骨干网络,使用多层感知机进行距离计算,使其可以获取更加丰富的 不同尺度的特征,更好的提取签名的特征,提高了签名鉴定的精度,提高了签名鉴定准确率。
本发明的第一个目的在于提供基于孪生视觉Transformer网络的签名鉴定方法。
本发明的第二个目的在于提供基于孪生视觉Transformer网络的签名鉴定***。
本发明的第一个目的可以通过采取如下技术方案达到:
基于孪生视觉Transformer网络的签名鉴定方法,所述方法包括:
S1、签名图片预处理,将签名图片等比缩放,采用基于统计的阈值对签名图片进行二值 化;
S2、对每个签名的真实签名照片、伪造签名照片进行配对,得到每个签名的正样本和负 样本,构建样本数据集;
S3、构建孪生视觉Transformer网络模型,孪生视觉Transformer网络模型为基于孪生网 络架构,使用改进多尺度视觉Transformer作为骨干网络,使用多层感知机进行距离计算的神 经网络模型;
S4、采用样本数据集对孪生视觉Transformer网络模型进行训练,使用梯度下降的逼近方 法使得孪生视觉Transformer网络模型收敛;
S5、使用训练后的孪生视觉Transformer网络模型对待鉴定签名图片进行鉴定,输出鉴定 结果。
优选地,所述孪生视觉Transformer网络模型使用端到端的孪生网络架构,将参考签名图 片和待鉴定签名图片分别输入改进的多尺度视觉Transformer得到两个特征向量,将两个特征 向量做差后取绝对值并输入多层感知机,输出两张签名图片的距离。
优选地,所述改进的多尺度视觉Transformer有3个不同尺度,采用无重叠的切割方法对 图片分块;将原始视觉Transformer的最后分类层移除,直接输出特征向量作为签名图片的特 征,将3个不同尺度的Transformer输出的特征向量进行融合。
本发明的第二个目的可以通过采取如下技术方案达到:
基于孪生视觉Transformer网络的离线手写签名鉴定***,包括:
签名图片预处理模块,用于签名图片预处理,将签名图片等比缩放,采用基于统计的阈 值对签名图片进行二值化;
签名图片配对模块,用于对每个签名的真实签名照片、伪造签名照片进行配对,得到每 个签名的正样本和负样本,构建样本数据集;
模型构建模块,用于构建孪生视觉Transformer网络模型,孪生视觉Transformer网络模 型为基于孪生网络架构,使用改进多尺度视觉Transformer作为骨干网络,使用多层感知机进 行距离计算的神经网络模型;
模型训练模块,用于采用样本数据集对孪生视觉Transformer网络模型进行训练,使用梯 度下降的逼近方法使得孪生视觉Transformer网络模型收敛;
签名鉴定模块,用于使用训练后的孪生视觉Transformer网络模型对待鉴定签名图片进行 鉴定,输出鉴定结果;
所述孪生视觉Transformer网络模型使用端到端的孪生网络架构,将参考签名图片和待鉴 定签名图片分别输入改进的多尺度视觉Transformer得到两个特征向量,将两个特征向量做差 后取绝对值并输入多层感知机,输出两张签名图片的距离;所述改进的多尺度视觉Transformer 有3个不同尺度,采用无重叠的切割方法对图片分块;将原始ViT的最后分类层移除,直接 输出特征向量作为签名图片的特征,将3个不同尺度的Transformer输出的特征向量进行融合。
本发明与现有技术相比,具有如下优点和有益效果:
1、相对于传统人工选择的特征和卷积神经网络提取的特征,本发明通过以视觉Transformer网络作为骨干网络,使用了多尺度的分块方式,使其可以获取更加丰富的不同尺 度的特征,更好的提取签名的特征,提高了签名鉴定的精度,提高了签名鉴定准确率。
2、传统的方法大多是把特征提取器和分类器分开训练,本发明通过提出了一种端到端的 模型,输入参考签名图片和待鉴定签名图片,直接输出图片距离用于真伪判定,不需要额外 训练分类器或者使用其他度量算法,使得模型易于训练和使用。
3、考虑到签名绝大多数都是横向书写的,本发明通过将视觉Transformer的输入图片改 为横向矩形并且修改了相应的分块方式,具有更好的适应性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术 描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一 些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些 附图示出的结构获得其他的附图。
图1是本发明实施例中的离线手写签名鉴定方法的流程图;
图2是本发明实施例中的签名图片预处理示意图;
图3是本发明实施例中的模型方法的整体网络架构图;
图4是本发明实施例中视觉Transformer网络分支mViT示意图;
图5是本发明实施例中的图3中的多层感知机的网络示意图;
图6是本发明实施例中图5中模块1和模块2的网络示意图。
具体实施方式
下面将结合附图和实施例,对本发明技术方案做进一步详细描述,显然所描述的实施例 是本发明一部分实施例,而不是全部的实施例,本发明的实施方式并不限于此。基于本发明 中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。
实施例1
如图1所示,离线手写签名鉴定方法的流程图,本发明所述的基于孪生视觉Transformer 网络的签名鉴定方法,包含以下步骤:
S1、签名图片预处理,将签名图片等比缩放,采用基于统计的阈值对签名图片进行二值 化,得到固定大小的具有白色背景、黑色字迹的签名图片;预处理是做图像类模式识别任务 时必不可少的环节,预处理的目的是使得模型的输入统一,去除不必要的冗余信息。
如图2所示,签名图片预处理示意图,优选地,首先将签名图片等比缩放为固定的宽高 224×160大小,使每一张签名图片完全居中嵌入在宽高224×160的白色背景图片中(即上 下或者左右紧贴背景图片的边缘),当签名图片周围有空白就填充显示背景的白色。然后采 用基于统计的阈值方法进行签名图片的二值化,所述阈值通过在原始签名图片中进行抽样获 取,对于每张原始签名图片的所有像素点,每间隔若干个像素点(优选5个像素点)进行采 样,最后求所有采样点的灰度值的平均数,得到阈值T,这个T即近似为图片的背景(浅色 纸张)和前景(黑色字迹)的分界线;其中间隔5个像素点进行采样的目的是减少计算量, 加快得到阈值T,可以这样做的理由是就签名图片而言,其大部分是背景,即使间隔采样, 其平均值也是接近背景色;
优选地,对于图片中的每个像素点进行二值化,当像素点灰度值小于0.8×T,则令其为 黑色0,当大于0.8×T则令其为白色255;乘以0.8的原因是,由于图片背景的分布不均匀, 如果直接使用阈值T作为二值化的中间值,往往会造成一些深色背景被误认为是签名笔迹, 造成额外的噪音。
对所有图片进行上述等比缩放和二值化操作之后,就会得到固定大小为宽高224×160的 白色背景、黑色字迹的签名图片。
S2、对每个签名的真实签名照片、伪造签名照片进行配对,得到每个签名的正样本和负 样本,构建样本数据集;
对每个签名的真实签名照片、伪造签名照片进行配对,包括对签名照片进行真真配对、 真伪配对,对于每个名字都要有若干张真实的签名照片和伪造签名照片,其中真实签名就是 其本人实际手写的签名,而伪造签名可以是随机使用别人的真实签名,或者由他人模仿伪造。 优选地,将每个签名的若干张真实签名照片两两配对,得到真-真正样本,真-真正样本标签 为0,表示两张真实签名照片的距离为0;将每个签名的若干张真实签名和若干张伪造签名进 行两两配对,得到真-假负样本,真-假负样本标签为1,表示1张真实签名和1张伪造签名的 距离为0;将正样本和负样本构建为样本数据集。
优选地,为了使得模型能够学习到足够的信息,每个人的真实签名个数应当不少于5张, 这样配对之后正样本数量可以达到10以上。
优选地,样本数据集包括训练集和测试集,为了方便模型训练,样本数据集中的每个签 名的正样本和负样本中按照7:3的比例进行划分,分别得到训练集和测试集。例如每个人名 各有10正样本和10个负样本,那么其中各取7个作为训练集,3个作为测试集。在深度学 习领域为了训练和评估模型,需要划分训练集和测试集,经典的划分可以从6:4到8:2不等, 考虑到每个人名往往不会有很多张签名,为了兼顾模型训练的数据量和评估的客观性,使用 中间的7:3划分方式是更好的选择。
S3、构建孪生视觉Transformer网络模型,孪生视觉Transformer网络模型为构建基于孪 生网络架构,使用改进的多尺度视觉Transformer作为骨干网络、使用多层感知机进行距离计 算的神经网络模型。
视觉Transformer(Vision Transformer,简称ViT,详见论文Dosovitskiy A,Beyer L, Kolesnikov A,et al.An image is worth 16x16 words:Transformers forimage recognition at scale[J]. arXiv preprint arXiv:2010.11929,2020.)是最近两年提出的具有重大创新的神经网络架构,相 比于传统的基于卷积神经网络的方法,其使用了纯注意力机制,许多实验都表明ViT具有更 好的特征提取能力。视觉Transformer主要思想是将图片分成小块后分别输入线性层得到嵌入 向量,然后将嵌入向量序列输入到Transformer网络的若干个串联的编码器中,每个编码器主 要包含多头自注意力机制、残差连接和线性层,最后使用多层感知机进行分类;
优选地,改进的多尺度视觉Transformer网络具有3个不同尺度,采用无重叠的切割方法 对图片分块,将原始ViT(视觉Transformer)的最后分类层移除,直接输出特征向量作为签 名图片的特征,然后将三个不同尺度得到的特征向量进行融合。
孪生视觉Transformer网络模型,使用端到端的孪生网络架构,将参考签名图片和待鉴定 签名图片分别输入视觉Transformer网络,得到两个特征向量,将两个特征向量做差后取绝对 值并输入多层感知机,输出两张图片的距离。
如图3所示,模型方法的整体网络架构图,图3中的矩形框代表计算过程,图3中的圆 角框代表非计算过程。本实施例中,使用PyTorch深度学习框架作为实现方式,PyTorch是一 个开源的Python语言的机器学习库,是目前最流行的两种深度学习实现方式之一(另一个是 Tensorflow),无论采用何种实现方式,本发明的模型方法是不变的。
输入的参考签名图片和待鉴定签名图片的大小是1×160×224的固定大小,其中1代表 图片的通道数,PyTorch实现的模型输入格式是:通道数×高度×宽度,正好与常识相反;其 中参考签名图片和待鉴定签名图片分别是两张经过预处理的签名图片,其中前者是属于某个 人的真实签名,后者是需要判断真伪的签名,这里的真伪是相对于参考签名图片而言的。
参考签名图片和待鉴定签名图片分别通过改进的多尺度视觉Transformer网络,得到两个 特征向量,两个特征向量做差后取绝对值,继续输入3层的感知机进行预测,最后的输出层 维度是1维,最后使用Sigmoid函数将其变换到0~1之间,所以模型最后的输出是0~1之间 的小数,表示两张签名图片的距离,该距离值表示这两张图片不相似的程度。
孪生视觉Transformer网络模型是一个端到端的模型,可以采用公式化的方式进行描述, 记为Model,可以直接输入2张图片G1、G2,即可输出0~1之间的浮点数O表示两张图片 的距离,模型公式为:
O=Model(G1,G2) (1)
具体地,孪生视觉Transformer网络模型采用孪生网络架构,具有两个多尺度视觉Transformer网络分支mViT,它们分别接收一张图片作为输入,输出各一个特征向量,记为F1、F2,最后两个特征向量做差后取绝对值,输入到多层感知机MLP中,最后输出的维度 是1维,并且使用Sigmoid激活函数使其输出范围变为0~1;
F1=mViT(G1) (2)
F2=mViT(G2) (3)
O=Sigmoid(MLP(|F1-F2|)) (4)
最后输出的O可以根据实际统计情况设置一个阈值T例如0.5,如果小于0.5则判定为真, 否则为假;
本实施例中,3个不同尺度的分块大小(宽×高)分别是8×16、16×32、28×40,相比于 原始ViT的16×16大小的分块可以更好地适应签名鉴定任务;采用无重叠的切割方法,宽高 224×160的图片分别得到的分块(Patch)个数为280、70和32;3个不同尺度的Transformer 的堆叠的编码器层数分别为2、4和6;对于每个尺度的视觉Transformer,删除了其最后的分 类层,而直接将倒数第二层作为特征向量输出;为融合3个尺度的视觉Transformer输出的特 征向量,其特征融合方法为直接相加后除以3本发明是通过8×16、16×32、28×40这小、 中、大三种不同尺度提取更丰富的签名图片的特征信息。
如图4所示,多尺度视觉Transformer网络分支mViT示意图,具体地,输入的图片(即 图3中的参考签名图片和待鉴定签名图片)分别输入到3个不同尺度的ViT中,他们的分块 大小分别是8×16、16×32、28×40,编码器层数分别是2、4、6;假设采用ViT作者提出的ViT-B/16作为基础模型,只改变其中的分块方式和编码器层数以及移除最后的分类层,则图 片输入到这三个ViT中之后,则分别输出三个768维度大小的特征向量;特征融合的方式采 用相加之后除以3的方式进行特征融合,所以最后输出的维度还是768。采用不同分块尺度 大小的原因是,这样可以提取更加丰富的纹理信息和语义信息;而编码器层数不同的原因是, 分块越小,参数越多,越难训练,所以对于小尺度分支应当缩小层数,大尺度分支则拥有更 大的层数,这样使得模型易于训练和使用;特征融合方法采用相加取平均的方法的原因是, 就特征融合而言,相加和拼接没有本质的效果差别,而相加不会扩大特征的维度,可以明显 减少后续的计算量。
如图5所示,多层感知机网络示意图,多层感知机包含两个模块,分别为模块1和模块 2,已融合的特征向量分别通过模块1和模块2之后,输入到一个输出维度是1的全连接层中, 最后经过Sigmoid激活函数,使最终输出值范围为0~1之间;在实施例中,输入的已融合的 特征向量是两个mViT分支输出的融合的特征向量的差的绝对值,维度还是768,多层感知机 中的三个的全连接层(其中有两个层分别在模块1和模块2中)的输出维度可以分别设置为 1024、512、1,两个Dropout层可以分别设置为丢弃概率为0.6和0.5用来防止训练的时候过 拟合。
如图6所示,图5中模块1和模块2的网络示意图,多层感知机的模块1和模块2均包含一个全连接层、ReLU激活函数层、Dropout随机丢弃层。三个层之间是串联关系,全连接层的输出经过ReLU激活函数层,再经过Dropout随机丢弃层。其中ReLU是一种人工神经 网络中常用的激活函数函数,可以让线性的神经网络具有非线性;Dropout在模型训练的时候起作用,通过随机丢掉一些权重,可以提供模型的泛化能力,有效防止模型的过拟合。
相比于传统方法常使用的特征提取加支持向量机分类两步法,本发明直接使用两个特征 向量做差后输入多层感知机中自适应学习,这样可以实现端到端的模型训练和使用。
S4、采用样本数据集对孪生视觉Transformer网络模型进行训练,使用梯度下降的逼近方 法使得孪生视觉Transformer网络模型收敛;
优选地,对孪生视觉Transformer网络模型进行训练,采用步骤S2中配对好的样本数据 集的训练集对孪生视觉Transformer神经网络模型进行训练;其中训练集样本包括了正样本和 负样本,其标签分别是0和1,所以损失函数使用二分类交叉熵函数,同时为了防止过拟合 以及提高模型的泛化能力,在损失函数中添加了L2正则项;完整的损失函数的公式为:
其中N为训练时候的样本数量,i代表每个样本下标,yi是样本的标签,Oi代表模型的 预测输出;后面第二项为L2正则项,用来防止过拟合,其中λ是超参数,如果模型无法收敛 或者精度不高可以缩小λ,如果过拟合则考虑增大λ,w是模型的可学习参数;
一旦定义好损失函数,模型优化采用了小批量随机梯度下降的方法进行参数更新;模型 的优化过程也称为模型的训练,目的是调整模型的内部参数使得损失函数最小化;其中梯度 下降是深度学习领域最常使用的优化方法,在给定数据集后,它可以自动更新参数;考虑到 现有的算力资源无法很难让整个数据集同时输入模型,所以现实中采用的几乎都是小批量小 批量随机梯度下降,即每次只输入数据集的一部分数据,然后梯度下降进行参数更新;当损 失函数不再下降或者下降幅度很小,就可以称之为模型收敛了,结束训练过程。
由于深度学习模型往往需要大量数据才能使得模型收敛,所以如果步骤S2中的签名数量 不足,可以使用开源的签名数据集(例如英文的CEDAR、中文和荷兰语的Sigcomp2011)先进 行模型的预训练,然后再用自己的数据集进行微调。
S5、通过训练后的孪生视觉Transformer网络模型对待鉴定签名图片进行鉴定,输出鉴定 结果。
具体地,将待鉴定签名图片和参考签名图片输入使用训练后的孪生视觉Transformer网络 模型对待鉴定签名图片进行鉴定,输出待鉴定签名图片和参考签名图的距离值;当距离值小 于预设阀值则认为待鉴定签名图片是真实的,当距离值大于预设阀值则认为是待鉴定图片是 伪造的或者待鉴定图片与参考签名图片是不同。
本实施中,一旦孪生视觉Transformer网络模型训练完毕,输入两张签名图片即可输出两 张签名图片的距离。训练完毕后的孪生多尺度视觉Transformer神经网络模型的具体使用方法 是,当需要鉴定一张签名图片A相对于某一张参考签名图片B而言是否是真实的时候,先将 图片A、B进行S1步骤所述的预处理,然后将A、B输入到孪生视觉Transformer网络模型 中,最终会得到0~1之间的输出值,该值表示这两张图片的距离值(不相似的程度),可以 设置一个阈值例如0.5,如果小于该值,则认为待鉴定图片A是真实的,如果大于该值,就 认为是待鉴定图片A是伪造的或者和参考的签名有很大不同。
综上,本发明先对签名图片做统一的预处理,然后构建数据集训练提出的新模型,最后 使用模型进行签名鉴定。由于本发明采用了端到端的孪生多尺度视觉Transformer网络架构, 模型具有很高的特征提取能力和自适应性,在使用中,即使待鉴定签名和参考签名都没有出 现在训练集中,也能取得很高的鉴定准确度。
实施例2:
本实施例提供了基于孪生视觉Transformer网络的签名鉴定***,该***包括获签名图片 预处理模块、签名图片配对模块、模型构建模块、模型训练模块和签名鉴定模块,各个模块 的具体功能如下:
签名图片预处理模块,用于签名图片预处理,将签名图片等比缩放,采用基于统计的阈 值对签名图片进行二值化;
签名图片配对模块,用于对每个签名的真实签名照片、伪造签名照片进行配对,得到每 个签名的正样本和负样本,构建样本数据集;
模型构建模块,用于构建孪生视觉Transformer网络模型,孪生视觉Transformer网络模 型为基于孪生网络架构,使用改进多尺度视觉Transformer作为骨干网络,使用多层感知机进 行距离计算的神经网络模型;
模型训练模块,用于采用样本数据集对孪生视觉Transformer网络模型进行训练,使用梯 度下降的逼近方法使得孪生视觉Transformer网络模型收敛;
签名鉴定模块,用于使用训练后的孪生视觉Transformer网络模型对待鉴定签名图片进行 鉴定,输出鉴定结果;
所述孪生视觉Transformer网络模型使用端到端的孪生网络架构,将参考签名图片和待鉴 定签名图片分别输入改进的多尺度视觉Transformer得到两个特征向量,将两个特征向量做差 后取绝对值并输入多层感知机,输出两张签名图片的距离;所述改进的多尺度视觉Transformer 有3个不同尺度,采用无重叠的切割方法对图片分块;将原始ViT的最后分类层移除,直接 输出特征向量作为签名图片的特征,将3个不同尺度的Transformer输出的特征向量进行融合。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制, 其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应 为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.基于孪生视觉Transformer网络的签名鉴定方法,其特征在于,所述方法包括:
S1、签名图片预处理,将签名图片等比缩放,采用基于统计的阈值对签名图片进行二值化;
S2、对每个签名的真实签名照片、伪造签名照片进行配对,得到每个签名的正样本和负样本,构建样本数据集;
S3、构建孪生视觉Transformer网络模型,孪生视觉Transformer网络模型为基于孪生网络架构,使用改进多尺度视觉Transformer作为骨干网络,使用多层感知机进行距离计算的神经网络模型;
S4、采用样本数据集对孪生视觉Transformer网络模型进行训练,使用梯度下降的逼近方法使得孪生视觉Transformer网络模型收敛;
S5、使用训练后的孪生视觉Transformer网络模型对待鉴定签名图片进行鉴定,输出鉴定结果。
2.根据权利要求1所述的签名鉴定方法,其特征在于,所述将签名图片等比缩放包括:将签名图片等比缩放为固定大小,使每一张签名图片居中嵌入在固定大小的白色背景图片中,当签名图片周围有空白就填充显示背景的白色;所述阈值通过在原始签名图片中进行抽样获取,对于每张原始签名图片的所有像素点,每间隔若干个像素点进行采样,取所有采样点的灰度值的平均数作为阈值T。
3.根据权利要求2所述的签名鉴定方法,其特征在于,所述采用基于统计的阈值对签名图片进行二值化包括:对于签名图片中的每个像素点进行二值化,当像素点灰度值小于0.8×T,则令像素点为黑色0,当大于0.8×T则令像素点为白色255。
4.根据权利要求1所述的签名鉴定方法,其特征在于,所述步骤S2包括:将每个签名的若干张真实签名照片两两配对得到正样本,正样本的标签为0;将每个签名的若干张真实签名和若干张伪造签名进行两两配对得到负样本,负样本标签为1;将正样本和负样本构建为样本数据集。
5.根据权利要求1所述的签名鉴定方法,其特征在于,所述孪生视觉Transformer网络模型使用端到端的孪生网络架构,将参考签名图片和待鉴定签名图片分别输入改进的多尺度视觉Transformer得到两个特征向量,将两个特征向量做差后取绝对值并输入多层感知机,输出两张签名图片的距离。
6.根据权利要求5所述的签名鉴定方法,其特征在于,所述改进的多尺度视觉Transformer有3个不同尺度,采用无重叠的切割方法对图片分块;将原始视觉Transformer的最后分类层移除,直接输出特征向量作为签名图片的特征,将3个不同尺度的视觉Transformer输出的特征向量进行融合。
7.根据权利要求6所述的签名鉴定方法,其特征在于,所述改进的多尺度视觉Transformer的3个不同尺度分别是8×16、16×32、28×40,3个不同尺度的Transformer的堆叠的编码器层数分别为2、4和6;所述将3个不同尺度的Transformer输出的特征向量进行融合方法为将3个不同尺度的Transformer输出的特征向量相加后除以3。
9.根据权利要求1所述的签名鉴定方法,其特征在于,所述步骤S5包括:将参考签名图片和待鉴定签名图片输入使用训练后的孪生视觉Transformer网络模型对待鉴定签名图片进行鉴定,输出参考签名图片和待鉴定签名图片的距离值;当距离值小于预设阀值则认为待鉴定签名图片是真实的,当距离值大于预设阀值则认为是待鉴定图片是伪造的或者待鉴定图片与参考签名图片是不同。
10.基于孪生视觉Transformer网络的签名鉴定***,其特征在于,所述***包括:
签名图片预处理模块,用于签名图片预处理,将签名图片等比缩放,采用基于统计的阈值对签名图片进行二值化;
签名图片配对模块,用于对每个签名的真实签名照片、伪造签名照片进行配对,得到每个签名的正样本和负样本,构建样本数据集;
模型构建模块,用于构建孪生视觉Transformer网络模型,孪生视觉Transformer网络模型为基于孪生网络架构,使用改进多尺度视觉Transformer作为骨干网络,使用多层感知机进行距离计算的神经网络模型;
模型训练模块,用于采用样本数据集对孪生视觉Transformer网络模型进行训练,使用梯度下降的逼近方法使得孪生视觉Transformer网络模型收敛;
签名鉴定模块,用于使用训练后的孪生视觉Transformer网络模型对待鉴定签名图片进行鉴定,输出鉴定结果;
所述孪生视觉Transformer网络模型使用端到端的孪生网络架构,将参考签名图片和待鉴定签名图片分别输入改进的多尺度视觉Transformer得到两个特征向量,将两个特征向量做差后取绝对值并输入多层感知机,输出两张签名图片的距离;所述改进的多尺度视觉Transformer有3个不同尺度,采用无重叠的切割方法对图片分块;将原始视觉Transformer的最后分类层移除,直接输出特征向量作为签名图片的特征,将3个不同尺度的视觉Transformer输出的特征向量进行融合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210443563.2A CN114898472B (zh) | 2022-04-26 | 2022-04-26 | 基于孪生视觉Transformer网络的签名鉴定方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210443563.2A CN114898472B (zh) | 2022-04-26 | 2022-04-26 | 基于孪生视觉Transformer网络的签名鉴定方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114898472A true CN114898472A (zh) | 2022-08-12 |
CN114898472B CN114898472B (zh) | 2024-04-05 |
Family
ID=82717342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210443563.2A Active CN114898472B (zh) | 2022-04-26 | 2022-04-26 | 基于孪生视觉Transformer网络的签名鉴定方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114898472B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115393966A (zh) * | 2022-10-27 | 2022-11-25 | 中鑫融信(北京)科技有限公司 | 基于信用监督的纠纷调解数据处理方法及其*** |
CN115878561A (zh) * | 2022-12-19 | 2023-03-31 | 青岛诺亚信息技术有限公司 | 一种电子档案四性检测方法 |
CN117475519A (zh) * | 2023-12-26 | 2024-01-30 | 厦门理工学院 | 基于孪生网络与多重通道融合的脱机笔迹鉴别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222792A (zh) * | 2019-06-20 | 2019-09-10 | 杭州电子科技大学 | 一种基于孪生网络的标签缺陷检测算法 |
CN112598658A (zh) * | 2020-12-29 | 2021-04-02 | 哈尔滨工业大学芜湖机器人产业技术研究院 | 基于轻量级孪生卷积神经网络的病识别方法 |
CN112784130A (zh) * | 2021-01-27 | 2021-05-11 | 杭州网易云音乐科技有限公司 | 孪生网络模型训练、度量方法、装置、介质和设备 |
CN113963032A (zh) * | 2021-12-01 | 2022-01-21 | 浙江工业大学 | 一种融合目标重识别的孪生网络结构目标跟踪方法 |
CN114092521A (zh) * | 2021-11-26 | 2022-02-25 | 厦门理工学院 | 基于多阶段自适应网络的鲁棒目标跟踪方法及*** |
-
2022
- 2022-04-26 CN CN202210443563.2A patent/CN114898472B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222792A (zh) * | 2019-06-20 | 2019-09-10 | 杭州电子科技大学 | 一种基于孪生网络的标签缺陷检测算法 |
CN112598658A (zh) * | 2020-12-29 | 2021-04-02 | 哈尔滨工业大学芜湖机器人产业技术研究院 | 基于轻量级孪生卷积神经网络的病识别方法 |
CN112784130A (zh) * | 2021-01-27 | 2021-05-11 | 杭州网易云音乐科技有限公司 | 孪生网络模型训练、度量方法、装置、介质和设备 |
CN114092521A (zh) * | 2021-11-26 | 2022-02-25 | 厦门理工学院 | 基于多阶段自适应网络的鲁棒目标跟踪方法及*** |
CN113963032A (zh) * | 2021-12-01 | 2022-01-21 | 浙江工业大学 | 一种融合目标重识别的孪生网络结构目标跟踪方法 |
Non-Patent Citations (1)
Title |
---|
沈雁;王环;戴瑜兴;: "基于改进深度孪生网络的分类器及其应用", 计算机工程与应用, no. 10, 15 May 2018 (2018-05-15), pages 24 - 30 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115393966A (zh) * | 2022-10-27 | 2022-11-25 | 中鑫融信(北京)科技有限公司 | 基于信用监督的纠纷调解数据处理方法及其*** |
CN115878561A (zh) * | 2022-12-19 | 2023-03-31 | 青岛诺亚信息技术有限公司 | 一种电子档案四性检测方法 |
CN117475519A (zh) * | 2023-12-26 | 2024-01-30 | 厦门理工学院 | 基于孪生网络与多重通道融合的脱机笔迹鉴别方法 |
CN117475519B (zh) * | 2023-12-26 | 2024-03-12 | 厦门理工学院 | 基于孪生网络与多重通道融合的脱机笔迹鉴别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114898472B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114898472B (zh) | 基于孪生视觉Transformer网络的签名鉴定方法和*** | |
CN105447473B (zh) | 一种基于PCANet-CNN的任意姿态人脸表情识别方法 | |
CN111444881A (zh) | 伪造人脸视频检测方法和装置 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN109002755B (zh) | 基于人脸图像的年龄估计模型构建方法及估计方法 | |
CN111652332A (zh) | 基于二分类的深度学习手写中文字符识别方法及*** | |
CN114155527A (zh) | 一种场景文本识别方法和装置 | |
CN112307919B (zh) | 一种基于改进YOLOv3的单证图像中数字信息区域识别方法 | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及*** | |
Wang et al. | Hand-drawn electronic component recognition using deep learning algorithm | |
Hossain et al. | Recognition and solution for handwritten equation using convolutional neural network | |
US11568140B2 (en) | Optical character recognition using a combination of neural network models | |
CN115527072A (zh) | 一种基于稀疏空间感知与元学习的芯片表面缺陷检测方法 | |
Soumya et al. | Emotion recognition from partially occluded facial images using prototypical networks | |
CN111340051A (zh) | 图片处理方法、装置及存储介质 | |
CN113537173B (zh) | 一种基于面部补丁映射的人脸图像真伪识别方法 | |
Bose et al. | Light weight structure texture feature analysis for character recognition using progressive stochastic learning algorithm | |
Lien et al. | Product surface defect detection based on deep learning | |
CN111242114B (zh) | 文字识别方法及装置 | |
Liu et al. | Iterative deep neighborhood: a deep learning model which involves both input data points and their neighbors | |
Calefati et al. | Reading meter numbers in the wild | |
CN116912872A (zh) | 图纸识别方法、装置、设备及可读存储介质 | |
CN108960275A (zh) | 一种基于深度玻尔兹曼机的图像识别方法及*** | |
CN114550197A (zh) | 一种端子排图像检测信息匹配方法 | |
Zhi et al. | A Hybrid Framework for Text Recognition Used in Commodity Futures Document Verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |