CN116758562B

CN116758562B - 通用文本验证码识别方法及***

Info

Publication number: CN116758562B
Application number: CN202311057773.9A
Authority: CN
Inventors: 周神特; 宋志龙; 孙林君; 高扬
Original assignee: Hangzhou Real Intelligence Technology Co ltd
Current assignee: Hangzhou Real Intelligence Technology Co ltd
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2023-12-08
Anticipated expiration: 2043-08-22
Also published as: CN116758562A

Abstract

本发明属于验证码识别技术领域，具体涉及通用文本验证码识别方法及***。方法包括训练过程和预测过程；训练过程包括如下步骤；S1，获取验证码图像数据，并对验证码图像数据进行具有浮雕效果的数据增强处理；S2，通过视觉模型，对经过数据增强后的验证码图像数据进行特征提取以及特征的对比学习和分类；S3，通过语言模型，将分类后的特征进行位置编码以及解码过程处理，并生成解码序列。预测过程包括如下步骤：S4，将需要识别的验证码图片经过预处理后，输入到训练后的视觉模型中，经过分类得到验证码字符的预测输出。本发明具有能够实现各个文本验证码的高效、准确、鲁棒识别的特点。

Description

通用文本验证码识别方法及***

技术领域

本发明属于验证码识别技术领域，具体涉及通用文本验证码识别方法及***。

背景技术

验证码（全自动区分计算机和人类的图灵测试）是一种用于区分计算机和人类用户的技术，旨在防止自动化程序（如恶意机器人）对在线服务进行滥用。这些验证码在用户与网络应用程序进行交互时出现，要求用户执行某种任务来证明自己是真实的人类用户，而不是自动化程序。

随着计算机视觉、图像处理和机器学习技术的不断进步，验证码识别技术逐渐从最初的简单文本和数字识别演变为更复杂的图像和声音识别。以下是验证码识别技术领域的发展概述：

1.简单文本和数字验证码：最早的验证码是简单的文本和数字组合，要求用户从扭曲或干扰的图像中辨认出字符并输入。最开始，基于图像处理技术，例如图像滤波和形态学操作，帮助增强字符的可辨识性。随着简单字符验证码的易被破解，后续发展更复杂的验证码形式。

2.图像验证码：随着计算机视觉和深度学习技术的发展，图像验证码逐渐变得更复杂和具有挑战性。此类验证码可能包含旋转、扭曲、倾斜、干扰线和背景噪声等，以防止自动化程序识别图像中的内容。这推动了基于深度学习的目标检测和图像分割算法的发展，用于识别和定位验证码中的字符。

3.声音验证码：为了进一步提高安全性，一些网站采用声音验证码，要求用户听取并输入验证码中的语音内容。声音验证码的发展促进了语音识别技术的研究，包括梅尔频率倒谱系数（MFCC）特征提取和深度学习模型应用。

4.行为分析验证码：为了防止机器学习模型和算法直接攻击验证码，一些验证码***引入了行为分析，以识别用户的行为模式。这些***可以监控用户的鼠标移动、键盘输入速度和点击模式等，以判断用户是否是真实用户。

本发明所述的通用文本验证码为上述前两种验证码。

目前验证码识别技术虽然已经取得了很大的进步，但仍然存在一些缺点和挑战：

1.复杂验证码难以解决：随着验证码的复杂化，尤其是图像验证码中包含扭曲、倾斜、噪声等复杂变换，预处理不当导致图片信息丢失过多、仅使用特征的浅层信息、对于特征没有进行充分的融合，现有的识别技术可能无法准确地解决这些验证码，导致识别率下降。

2.鲁棒性不足：一些验证码***可能会采取反制措施，如添加噪声、干扰线、字符中大小不一，图像背景复杂等，以对抗识别算法，从而降低了算法的鲁棒性，使得识别结果受到干扰。

3.通用性不足：验证码种类多样，现有技术都是针对专门几类特定的验证码，无法覆盖不定长和算术验证码等多种样式的验证码。

4.数据利用性不足：一些验证码识别技术可能需要大量的计算资源和时间来进行训练和识别，目前都是有监督的验证码识别，需要大量数据和标注，这增加了解决验证码的成本和时间。

因此，设计一种能够实现各个文本验证码的高效、准确、鲁棒识别的通用文本验证码识别方法及***，就显得十分重要。

发明内容

本发明是为了克服现有技术中，目前验证码识别针对的都是单视觉模态以及有监督的方式，存在着验证码数据样式变化大、模型鲁棒性不足的问题，提供了一种能够实现各个文本验证码的高效、准确、鲁棒识别的通用文本验证码识别方法及***。

为了达到上述发明目的，本发明采用以下技术方案：

通用文本验证码识别方法，包括训练过程和预测过程；所述训练过程包括如下步骤；

S1，获取验证码图像数据，并对验证码图像数据进行具有浮雕效果的数据增强处理；

S2，通过视觉模型，对经过数据增强后的验证码图像数据进行特征提取以及特征的对比学习和分类；

S3，通过语言模型，将步骤S2中分类后的特征进行位置编码以及解码过程处理，并生成解码序列；所述解码序列通过投射层用于验证码字符预测；

所述预测过程包括如下步骤：

S4，将需要识别的验证码图片经过预处理后，输入到训练后的视觉模型中，经过分类得到验证码字符的预测输出。

作为优选，步骤S1中，所述数据增强处理具体为：

对验证码字符进行锐化操作，并加入随机脉冲噪声和自适应高斯噪声。

作为优选，步骤S2中，所述视觉模型包括主干网络和头部：

所述主干网络用于逐步学习验证码字符中的边缘、纹理和形状的低级特征，并将低级特征组合成更高级别的语义特征；

所述视觉模型通过主干网络对验证码图像进行特征提取，提取特征后将特征拉直送入到位置编码模块；所述位置编码模块用于提供验证码序列中元素的相对位置信息，具体实现过程如下：

其中，表示单词位置；/>为特征维度长度，/>表示特征维度的下标，/>的取值范围为[0,…,/>]；/>表示/>位置的位置编码，/>表示位置的位置编码；

最后将位置编码模块输出的特征输入到编码器，编码器通过多层的自注意力机制和前馈神经网络，从输入的特征序列中提取需要的特征。

作为优选，所述视觉模型的头部包括对比学习和分类两个任务分支：

其中，对比学习任务分支通过两个线性层进行特征投影，具体过程如下：

S21，将编码器提取的特征，经过第一线性层特征投影以及sigmoid函数计算，获取到注意力权重；

S22，将编码器提取的特征均匀分割成第一特征和第二特征/>；

S23，计算得到第三特征为：

；

S24，将第三特征经过第二线性层特征投影，得到最终线性层输出；

S25，将所述线性层输出进行实例映射；所述实例映射具体采用全局平均池化；

分类任务分支，用于最终预测字符的输出；

S26，将主干网络的输出特征经过位置注意力机制处理，用于捕捉验证码图像中不同位置之间的空间相关性；

S27，将经过位置注意力机制处理后的特征映射到字符分类空间；所述字符分类空间由验证码字符构成的集合组成。

作为优选，对比学习任务分支中，采用对比学习损失函数进行计算，具体计算过程如下：

其中，和/>表示一批图片经过不同数据增强处理后，最后实例映射输出分成两个对齐的集合；/>和/>分别表示集合/>和/>中的特征向量；/>是损失函数；/>是相似度计算操作，具体采用的是余弦距离；/>是温度参数；/>和/>分别等同于/>和/>；/>等同于；/>表示/>和/>的损失函数；r表示/>或/>集合的子元素；/>表示/>集合的子元素，/>表示集合/>中存在但不存在集合/>中的所有元素。

作为优选，分类任务分支中，采用交叉熵损失函数进行计算。

作为优选，步骤S3包括如下步骤：

S31，将视觉模型分类后得到的特征，进行特征投射到语言模型特征维度；

S32，对视觉模型分类后得到的特征进行位置编码；

S33，对位置编码后的特征进行解码；解码过程通过解码器逐步生成解码序列；

S34，所述解码序列再通过投射层用于验证码字符预测。

作为优选，步骤S4中所述预处理过程包括图像缩放和图像归一化过程。

作为优选，所述训练过程采用知识蒸馏模式；所述知识蒸馏模式包括教师分支和学生分支；在教师分支训练过程中，停止所有模型的参数梯度更新；在学生分支训练过程中，保持所有模型的参数梯度更新。

本发明还提供了所述通用文本验证码识别***，包括：

数据增强模块，用于获取验证码图像数据，并对验证码图像数据进行具有浮雕效果的数据增强处理；

视觉模型模块，用于对经过数据增强后的验证码图像数据进行特征提取以及特征的对比学习和分类；

语言模型模块，用于将分类后的特征进行位置编码以及解码过程处理，并生成解码序列；所述解码序列通过投射层用于验证码字符预测；

预测模块，用于将需要识别的验证码图片经过预处理后，输入到训练后的视觉模型模块中，经过分类得到验证码字符的预测输出。

本发明与现有技术相比，有益效果是：（1）本发明将对验证码图像设计了图像增强技巧，增强效果会对验证码图像进行锐化，对字符达到一个“浮雕”的效果；（2）本发明设计的验证码不仅仅是数英验证码、中文验证码，同时兼容算术验证码，是一个通用的文本验证码识别算法；（3）本发明设计了对比学习和分类头对验证码图像进行特征提取，并且利用语言模型增强模型的表达能力，最后会将视觉模型和语言模型进行融合，达到多模态的效果；（4）本发明还使用了知识蒸馏技术，使得模型特征更加稳定，模型更快的收敛；（5）通过本发明技术方案，可以实现各个文本验证码的高效、准确、鲁棒的识别。

附图说明

图1为本发明中通用文本验证码识别方法的一种原理框图；

图2为本发明中视觉模型的一种构架图；

图3为本发明实施例所提供的通用文本验证码识别方法在实际应用的一种流程图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

如图1所示，本发明提供了通用文本验证码识别方法，包括训练过程和预测过程；所述训练过程包括如下步骤；

1.获取验证码图像数据，并对验证码图像数据进行具有浮雕效果的数据增强处理；

2.通过视觉模型，对经过数据增强后的验证码图像数据进行特征提取以及特征的对比学习和分类；

3.通过语言模型，将步骤2中分类后的特征进行位置编码以及解码过程处理，并生成解码序列；所述解码序列通过投射层用于验证码字符预测；

预测过程包括如下步骤：

4.将需要识别的验证码图片经过预处理后，输入到训练后的视觉模型中，经过分类得到验证码字符的预测输出。

对于步骤1，在对比学习过程中，同一张图片会进行不同的增强处理。基本变化有：灰度变化、对比度增强、色彩变换和各种模糊操作。本发明专门针对验证码图片设计了“浮雕”效果的数据增强，主要体现在对验证码字符进行锐化操作，加入了随机脉冲噪声和自适应高斯噪声，对字符的形变和字体更加鲁棒。具体达到的效果如下：

1.增加数据量：通过对原始数据进行变换和扩充，有效地增加数据量，使得模型能够在更多样化的数据上进行训练；

2.缓解过拟合：过拟合是指模型在训练集上表现很好，但在测试集上表现较差。过拟合通常是由于训练数据过少或模型过于复杂导致的。数据增强可以提供更多样本，有助于缓解过拟合，提高模型的泛化能力；

3.增加数据多样性：数据增强通过对数据进行随机变换，使得模型在观察到不同样本的情况下进行训练。这样，模型可以学习到更丰富和多样的特征表示，提高对不同变化和干扰的适应能力。

4.增强模型鲁棒性：验证码图片可能会包含各种噪声、干扰和变换，验证码图片的旋转、平移、缩放、翻转等。通过数据增强，模型可以在训练过程中接触到这些变换后的样本，从而提高模型的鲁棒性，使其在实际应用中更加可靠。

5.降低数据偏差：有些数据集可能存在样本分布不均衡或类别偏差的问题，导致模型对少数类别的学***衡数据集，减轻数据偏差对模型的影响。

6.简化特征检测：数据增强可以简化模型的特征检测过程。随机的旋转、缩放和平移操作可以让模型更容易检测和理解验证码字符的特征不变性和位置信息。

如图2所示，为本发明中的视觉模型，视觉模型包括主干网络和头部。

主干网络用于逐步学习验证码字符中的边缘、纹理和形状的低级特征，并将低级特征组合成更高级别的语义特征；

视觉模型通过主干网络（一种深度残差网络结构）对验证码图像进行特征提取，本发明采用的是resnet18主干网络，提取特征后将特征拉直送入到位置编码模块；所述位置编码模块用于提供验证码序列中元素的相对位置信息，具体实现过程如下：

；

模型可以根据这些位置向量来区分不同位置的元素，帮助模型理解序列中元素的相对顺序。与resnet特征向量相加，将位置信息与语义信息相结合。这样，模型既能够通过自注意力机制学习元素之间的相互依赖关系，又能够保留元素在序列中的相对位置信息。

最后将特征输入到TransformerEncoder（编码器），编码器通过多层的自注意力机制和前馈神经网络，从输入序列中提取有意义的特征表示。自注意力机制能够在序列中建立每个元素之间的关联性，帮助模型捕捉序列中不同元素之间的依赖关系和语义信息。编码器中的自注意力机制是并行计算的，使得模型可以高效处理较长的序列数据，大大加速了模型训练和推理的过程。在每一层中直接建立元素之间的依赖关系，有助于更好地捕捉长程依赖性，并且不受输入序列长度的限制，可以处理变长的序列数据。

视觉模型的头部包括对比学习和分类两个任务分支：

1.将编码器提取的特征，经过第一线性层特征投影以及sigmoid函数计算，获取到注意力权重；

2.将编码器提取的特征均匀分割成第一特征和第二特征/>；

3.计算得到第三特征为：

；

4.将第三特征经过第二线性层特征投影，得到最终线性层输出；

5.将所述线性层输出进行实例映射；本发明采用全局平均池化进行实例映射，映射长度灵活，可以通过分析验证码数据的最大长度进行设置。

分类任务分支，用于最终预测字符的输出；

1.将主干网络的输出特征经过位置注意力机制处理，用于捕捉验证码图像中不同位置之间的空间相关性，从而增强图像的空间信息，从而更好地捕捉图像中不同物体和区域的边界和细节；

2.将经过位置注意力机制处理后的特征映射到字符分类空间；所述字符分类空间由验证码字符构成的集合组成。

对比学习任务分支中，采用对比学习损失函数进行计算，具体计算过程如下：

分类任务分支中，采用交叉熵损失函数进行计算。

另外，视觉预测采用对比学习损失，分类器CLs采用分类损失。语言预测采用分类损失。混合预测采用分类损失+对比学习损失。

蒸馏时，教师模型的输出生成伪标签作为真实标签与学生模型计算分类损失。

进一步的，对于语言模型，具体作用如下：

1.将视觉模型分类后得到的特征，进行特征投射到语言模型特征维度；

2.对视觉模型分类后得到的特征进行位置编码；

为了确保解码器在生成第一个位置的输出时，不依赖于任何编码器端的信息。因为在自回归的解码过程中，每个位置的输出都是一个接一个生成的，而不是同时生成的。所以在生成第一个位置时，还没有任何编码器端的信息可用。将Query初始化为全0的向量可以使得解码器开始时自主地生成输出。故初始化Query为全0，也进行位置编码；

3.对位置编码后的特征进行解码；解码过程通过解码器逐步生成解码序列；

4.所述解码序列再通过投射层用于验证码字符预测。

如图1所示，训练过程采用知识蒸馏模式；知识蒸馏模式包括教师分支（左分支）和学生分支（右分支）；在教师分支训练过程中，停止所有模型的参数梯度更新；在学生分支训练过程中，保持所有模型的参数梯度更新。

本发明还提供了所述通用文本验证码识别***，包括：

如图3所示，本发明在RPA流程下登陆网站验证码应用示例，该示例仅作为整个发明方案在其中一个具体场景上的应用示例：

1.通过RPA流程登录某网站；

2.从网站的登录界面，获取到验证码的图片；

3.将图片中验证码转成base64编码；

4.同时输入验证码类型，例如：数字验证码、英文验证码、数英混合验证码、算术验证码、中文验证码等；例如本实施例的验证码为英文验证码；

5.根据输入的图片编码信息和验证码类型（英文验证码），请求算法服务；

算法服务通过请求（request）涉及以下几个步骤：

（1）请求的定义：

确定请求的数据格式：定义请求的数据结构为 JSON 格式、图像数据等。

定义请求参数：列出请求所需的所有参数，包括输入数据、模型选项等。

（2）请求的发送：

客户端构建请求：根据定义的请求数据格式，创建包含所需参数的请求对象。

使用 HTTP 或其他通信协议：选择适当的通信方式（如 HTTP POST 请求），将请求发送给算法服务的 API 端点。

（3）请求的处理：

接收请求：算法服务接收到客户端发送的请求。

参数解析：解析请求中的参数，获取输入数据、模型选择等信息。

（4）算法执行：

模型加载：根据请求中的模型版本，加载相应的验证码模型，本例为英文模型。

数据处理：对接收到的输入数据进行预处理，确保其符合模型的输入要求。

算法执行：将预处理后的数据输入模型，执行算法推理或预测操作，生成相应的结果。

（5）结果返回：

结果生成：算法执行后，得到模型的输出结果为“RSBC”。

结果格式化：将结果转换为客户端期望的数据格式, JSON 格式。

返回结果：将格式化后的结果作为 HTTP 响应返回给客户端。

（6）错误处理：

异常处理：如果在请求处理或算法执行中出现异常，捕获错误，并返回相应的错误信息给客户端。

（7）日志记录：

记录请求日志：在算法服务中记录请求的信息，包括请求时间、请求参数等，以便跟踪和故障排查。

（8）安全性考虑：

鉴权和认证：实施鉴权机制，确保只有授权用户可以访问算法服务。

数据隐私：确保请求中不包含敏感信息，或在传输过程中进行加密。

6.将验证码结果输入网站内，通过验证。

本发明将多模态学习和自监督学习技术引入到文本验证码的识别中，解决了数据利用度不高、验证码识别兼容性差、识别精度低等问题。

1.本发明在设计图片验证码数据增强时，分析了验证码数据的特效，创新性地设计出“浮雕”效果的数据增强，更加突出了验证码字符的特征。降低数据偏差，简化特征的提取，增强了模型鲁棒性。

2.本发明在分析验证码识别，设计了适配验证码识别的多模态学习方法，有视觉模型、语言模型以及多模态的混合模型。通过实例映射过渡视觉模态到语言模态，随着语言模型的加入，能让验证码在专属类型中表现更好，举个简单的例子，只有数字的验证码可能数字“0”识别为字母“o”,但是在语言模型的学习下，会减少这一类型的错误。通过结合这些数据，模型可以弥补单一模态的不足，得到更准确的结果，提高识别的准确率。

3.本发明针对目前验证码识别方案使用的是有监督数据，提出将自监督学习引入到验证码识别技术中，利用“对比学习”技术，实现验证码自监督实现的过程，通过对比学习，模型在样本间进行比较和区分，从而促使模型学习区分不同样本的特征，以及捕捉样本内的共性。有效地利用丰富的未标记数据，用时也缩短了开发时间。

4.除了设计强大的模型提取验证码模型，考虑到实际使用的时效性，本发明引入知识蒸馏的技术，对验证码识别模型进行蒸馏，简化了推理模型，降低了计算资源需求，同时也增强了模型的鲁棒能力。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.通用文本验证码识别方法，其特征在于，包括训练过程和预测过程；所述训练过程包括如下步骤；

所述预测过程包括如下步骤：

S4，将需要识别的验证码图片经过预处理后，输入到训练后的视觉模型中，经过分类得到验证码字符的预测输出；

步骤S2中，所述视觉模型包括主干网络和头部：

其中，pos表示单词位置；d_model为特征维度长度，i表示特征维度的下标，i的取值范围为[0,…,d_model/2]；PE(pos,2i)表示2i位置的位置编码，PE(pos,2i+1)表示2i+1位置的位置编码；

最后将位置编码模块输出的特征输入到编码器，编码器通过多层的自注意力机制和前馈神经网络，从输入的特征序列中提取需要的特征；

所述视觉模型的头部包括对比学习和分类两个任务分支：

S21，将编码器提取的特征，经过第一线性层特征投影以及sigmoid函数计算，获取到注意力权重w；

S22，将编码器提取的特征均匀分割成第一特征f₁和第二特征f₂；

S23，计算得到第三特征f₃为：

f₃＝w*f₁+(1-w)*f₂；

S24，将第三特征f₃经过第二线性层特征投影，得到最终线性层输出；

分类任务分支，用于最终预测字符的输出；

S27，将经过位置注意力机制处理后的特征映射到字符分类空间；所述字符分类空间由验证码字符构成的集合组成；

其中，和/>表示一批图片经过不同数据增强处理后，最后实例映射输出分成两个对齐的集合；/>和/>分别表示集合/>和/>中的特征向量；l_NEC是损失函数；sim是相似度计算操作，具体采用的是余弦距离；τ是温度参数；u^a和u^b分别等同于/>和/> 等同于表示/>和/>的损失函数；r表示/>或/>集合的子元素；u表示/>集合的子元素，/>表示集合/>中存在但不存在集合u^a中的所有元素。

2.根据权利要求1所述的通用文本验证码识别方法，其特征在于，步骤S1中，所述数据增强处理具体为：

3.根据权利要求1所述的通用文本验证码识别方法，其特征在于，分类任务分支中，采用交叉熵损失函数进行计算。

4.根据权利要求1所述的通用文本验证码识别方法，其特征在于，步骤S3包括如下步骤：

S32，对视觉模型分类后得到的特征进行位置编码；

S34，所述解码序列再通过投射层用于验证码字符预测。

5.根据权利要求1所述的通用文本验证码识别方法，其特征在于，步骤S4中所述预处理包括图像缩放和图像归一化过程。

6.根据权利要求1所述的通用文本验证码识别方法，其特征在于，所述训练过程采用知识蒸馏模式；所述知识蒸馏模式包括教师分支和学生分支；在教师分支训练过程中，停止所有模型的参数梯度更新；在学生分支训练过程中，保持所有模型的参数梯度更新。

7.通用文本验证码识别***，用于实现权利要求1-6任一项所述的通用文本验证码识别方法，其特征在于，所述通用文本验证码识别***包括：