CN111652233B

CN111652233B - 一种针对复杂背景的文本验证码自动识别方法

Info

Publication number: CN111652233B
Application number: CN202010495757.8A
Authority: CN
Inventors: 王瑶; 王佰玲; 魏玉良; 张茗晋; 辛国栋; 王巍
Original assignee: Weihai Tianzhiwei Network Space Safety Technology Co ltd; Harbin Institute of Technology Weihai
Current assignee: Weihai Tianzhiwei Network Space Safety Technology Co ltd; Harbin Institute of Technology Weihai
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2023-04-25
Anticipated expiration: 2040-06-03
Also published as: CN111652233A

Abstract

本发明涉及一种针对复杂背景的文本验证码自动识别方法，包括：验证码去噪模块通过循环生成式对抗网络去除真实验证码的复杂安全特征；字符分割模块使用图像处理算法将整体验证码图片分割为单个字符；分割后的字符送入文本识别网络得到最终输出。本发明提出的文本验证码自动识别方法可以快速有效的识别带有背景噪声、字符扭曲、边缘模糊的文本类型验证码，具有高度泛化性和可移植性，可以简单的嵌入到爬虫算法中，解决数据获取过程中遇到的验证码问题。

Description

一种针对复杂背景的文本验证码自动识别方法

技术领域

本发明涉及一种针对复杂背景的文本验证码自动识别方法，属于验证码识别技术领域。

背景技术

大数据时代，数据源是进行大数据分析和数据挖掘的必要条件，在互联网中手动寻找有用数据耗时耗力。爬虫技术可以自动从互联网中获取我们感兴趣的数据内容，并将这些数据爬取回来作为数据源，从而进行更深层次的数据分析。验证码作为一种防止自动化程序的措施，是爬虫过程中的主要制约因素。目前网络上仍广泛使用字符型验证码，因此对该类型验证码全自动、端对端的识别方法变得尤为重要。

现有的验证码自动识别算法通常包括三大类：特定类型验证码攻击算法、基于字符分割的算法、基于深度学习的方法。其中特定类型的攻击算法只能识别单一类型的验证码图片(例如：微软验证码)，不能泛化到其他类型，因此很难应用于工程领域；基于字符分割的算法一般使用传统的图像处理算法对验证码图片进行预处理(例如：灰度化、二值化等)，由于传统图像处理具有局限性，不能有效的去除背景干扰，会导致字符分割困难以及识别准确率低的问题；近年来，随着深度学习的发展，基于神经网络模型的验证码识别技术取得了很好的效果，但该类方法目前仍然存在两个主要问题：第一，现有的基于深度学习模型的验证码识别方法大多采用监督学习的方式，需要大量的有标注数据进行训练(一般情况下不小于50000张)，十分耗费时间和人力。在标注样本不足的情况下极易出现过拟合的现象，导致模型无法收敛，准确率很低；第二，目前已存的验证码识别方法中，对规则的以及带轻微噪声的文本验证码识别取得了较高的准确率，但不能很好的识别带有复杂安全特征的文本验证码类型。

此外，中国专利文件CN107967475A公开了一种基于窗口滑动和卷积神经网络的验证码识别方法。首先收集少量验证码图片，降噪后抠出验证码需要识别的字符集，将每个字符集进行旋转、扭曲，增加背景噪音，然后针对这些字符集利用卷积神经网络进行训练，得到一个单字符分类器。最后对需要识别的验证码图片预处理后进行连通域分割，针对每个连通域，进行窗口滑动，利用之前训练的单字符分类器进行分类，得到识别最终结果。中国专利文件CN110555298A公开了一种验证码识别装置以及计算设备，该验证码识别模型训练方法包括：获取具有相同验证码长度的验证码图像样本，并确定与验证码图像样本相对应的字符样本标签；确定组成字符样本标签的验证码字符以及验证码字符的属性值，并获取验证码字符的字符类型信息；根据字符类型信息和属性值对字符样本标签进行编码以得到编码样本标签；利用验证码图像样本和编码样本标签训练用于识别验证码图像的验证码识别模型。但是，以上两种专利文件提到的方法均采用传统图像处理算法对验证码图片进行预处理，这种方法只适用于不带有明显噪声的情况，而对于具有复杂安全特征的验证码类型不能有效的去除噪声干扰，因此，严重影响字符分割和识别的准确率。

发明内容

针对上述现有验证码识别技术存在的问题，尤其是带有复杂安全特征的文本验证码不能很好的去噪声，少量标注情况下扭曲变形的文本验证码识别效果较差的问题。本发明提出一种针对复杂背景的文本验证码自动识别方法。具有标注样本少，处理时间短，识别准确率高的特点，解决了现有算法需要大量人工标注以及对背景复杂、扭曲变形的字符识别效果差的问题，具有广泛的应用前景。该方法结合验证码去噪模块、字符分割模块、验证码识别模块为一体，实现端对端的文本验证码自动识别。该方法仅需少量标注样本(500张)即可获得较高的识别准确率，同时对噪声和扭曲验证码有较好的识别效果。本发明提出的验证码识别方法具有较好的泛化性，能在保证模型结构不变的前提下应用于不同类型的文本验证码中。同时，该模型可以简单的嵌入到爬虫算法中，快速高效的解决企业以及个人在获取数据时遇到的文本验证码反爬虫问题。

本发明的技术方案如下：

一种针对复杂背景的文本验证码自动识别方法，包括：

验证码去噪模块通过循环生成式对抗网络去除真实验证码的复杂安全特征；

字符分割模块使用图像处理算法将整体验证码图片分割为单个字符；

分割后的字符送入文本识别网络得到最终输出。

根据本发明，优选的，针对扭曲旋转幅度大的文本验证码类型，本发明的文本识别网络首先使用空间变换层(Spatial Transformer Layers)对其进行校正，使模型具有空间不变性。

本发明针对具有复杂安全特征(例如：背景噪声、边缘模糊、字符扭曲变形)的文本类型验证码进行自动识别，属于一种基于少量训练样本的验证码自动识别方法。本发明包括验证码去噪模块、字符分割模块、文本识别模块三个部分。整体模型解决方案如图1所示。图1左侧所示的验证码来自***，该类验证码具有边缘模糊、带有噪声以及文本扭曲的特点，其边缘的噪声虽然对人眼的识别不会造成太大的影响，但是对于神经网络来说，由于像素分布混乱，难以分割，很难取得较高的识别准确率。因此，本发明首先通过循环生成式对抗网络对真实验证码进行去噪，使其边缘清晰，更利于进一步识别。然后使用图像处理算法将整体验证码图片分割为单个字符。最后，分割后的字符送入文本识别网络得到最终输出，特别地，针对扭曲旋转幅度大的文本验证码类型，该网络首先使用空间变换层(SpatialTransformer Layers)对其进行校正，使模型具有空间不变性。

验证码去噪模块

根据本发明，优选的，通过循环生成式对抗网络对真实验证码进行去噪过程中，首先利用验证码生成器，通过参数调节，批量生成与真实验证码字体格式类似的图片，并与真实验证码成对组合成训练集，作为去噪网络的输入。

根据本发明，优选的，所述的循环生成式对抗网络(Cycle GAN)由两个生成器和两个判别器组成，整体呈对偶结构。循环生成式对抗网络的核心目标是将带有复杂安全特征的验证码图片转换为去除安全特征的简单验证码，以便于降低字符分割以及识别的难度。如图2所示，模型训练过程中，首先通过域A获取真实输入图像，并通过第一个生成器GeneratorA→B将其转换到目标域B中的简单验证码图片；接着这个图片作为第二个生成器GeneratorB→A的输入，转换回原始的复杂图片。此外，这里的两个判别器(Discriminator)用来判断输入图片为真实的输入图片还是Generator生成的仿造图片。

根据本发明，优选的，所述的循环生成式对抗网络进行去噪的优化目标包括两种不同类型的损失函数，分别为对抗性损失(Adversarial loss)和循环一致性损失(CycleConsistency Loss)；其中，对抗性损失用于匹配生成图片的像素分布与目标域中图片的像素分布；循环一致性损失用于控制转换后的图像与源域中图像尽量相似；

进一步优选的，真实验证码和生成验证码分别作为域X和域Y，使用两个风格转换器在域X和域Y之间互相转换；优化过程如下：(1)首先利用卷积神经网络对输入图片进行特征提取，得到特征向量；(2)然后通过Resnet模块将域X中图片的特征向量转换为域Y中的特征向量，并且在转换的同时保留原始图像特征的目标；(3)最后，解码过程通过反卷积操作，由特征向量还原出转换后的图像。判别器是由多层卷积神经网络组成的，以图片作为输入，试图判断输入图片是来自原域的真实图片还是经过转换生成的虚假图片，判别器的最后一层输出预测为真实图片的概率。算法流程如图3所示，不同于传统生成式对抗网络的单向转换，本发明使用两个风格转换器在域X和域Y之间互相转换。

本发明训练好的验证码去噪网络能够有效的识别出可能对字符分割和识别造成干扰的复杂安全特征(包括背景噪声、干扰线、文字颜色、文字扭曲变形模糊、字符间距小等)并较好的去除这些干扰项，使其变为简单的验证码图片。有效的减小了字符分割和识别的难度，因此，只需要少量的标注样本就可以达到较高的识别准确率。同时，该去噪网络具有泛化性和通用性，能够在不改变模型结构的情况下，应用于不同类型的验证码图片，极大的减少了人工干预。

字符分割模块

经过验证码去噪网络，带有复杂安全特征的原始验证码转换为简单的验证码，输入到字符分割模块。针对不同类型验证码的特征，分别采用轮廓检测、传统分割、以及阈值分割等方法将验证码图片中的字符串分割为单个字符。等距分割是传统的图像处理算法之一，该算法将图片像素等间距分为N份，但该方法存在一定问题，如图4(a)所示，等距分割不能很好的将验证码字符分开，其中两个字符可能存在于一个方框中。因此，本发明对此分割方法进行改进。将分割的起始位置从(0，0)调整为第一个字符的左上角像素点，将分割宽度调整为每个字符的近似大小，并将高度调整为每个字符的近似高度，分割效果如图4(b)所示，其中黑色边框表示分割结果。

根据本发明，优选的，所述的图像处理算法采用轮廓检测、改进后的等距分割算法和阈值分割算法，所述的改进的等距分割算法中，分割的起始位置为第一个字符的左上角像素点，分割宽度为每个字符的近似大小，分割高度为每个字符的近似高度。

针对处理后边缘清晰但字符扭曲的文本验证码，传统分割算法并不适用，本发明优选采用轮廓检测的算法进行字符分割；

进一步优选的，所述轮廓检测的算法对整个图片像素点进行扫描，找到每个字符外边界的起始点以及孔边界的起始点，并对这些边界点进行编号，最后通过轮廓绘制函数将这些外边界连接起来，得到最终的分割结果。

阈值分割是一种基于区域的图像分割技术，适用于目标和背景占据不同灰度级范围的图片。

根据本发明，优选的，针对验证码图片中存在的字符大小间距不等的情况，采用阈值分割算法，流程如下：首先对图片进行二值化处理；然后计算图片的纵坐标像素累加值，采用峰谷值分析法来确定阈值大小。

文本识别模块

由于简化后的验证码图片去除了大部分干扰分割的安全因素，因此分割模块可以得到较高的分割准确率，同时也降低了字符识别的难度。本发明设计使用简单的卷积神经网络模型作为最终的文本识别模块，具体的模型结构如图5所示。

根据本发明，优选的，所述的文本识别网络为卷积神经网络，包括卷积层、池化层、dropout层以及全连接层；

进一步优选的，所述卷积神经网络使用ReLu作为激活函数，使用交叉熵作为损失函数，优化器选择Adadelta。由于该模型卷积层较少，不易出现过拟合的问题，因此不需要大量的训练数据。实际使用中只需要500张样本训练就可以得到较高的识别准确率，极大的降低了模型训练时间以及加快了识别过程中的处理速度，能够满足工程化使用的需要。

本发明未详尽说明的，均按本领域现有技术。

本发明的有益效果如下：

1、本发明提出的文本验证码自动识别方法可以快速有效的识别带有背景噪声、字符扭曲、边缘模糊的文本类型验证码，具有高度泛化性和可移植性，可以简单的嵌入到爬虫算法中，解决数据获取过程中遇到的验证码问题。

2、本发明方法对背景复杂、字符扭曲、边缘模糊的文本验证码识别准确率高。

3、本发明仅需要少量的数据标注即可达到较好的识别效果，减少了人工干预。

4、本发明具有高度泛化性和可移植性，适用于不同种类的文本验证码；模型训练时间短，处理速度快，能够满足工程化需求。应用范围支持嵌入到任何网络爬虫算法，并可以将其应用于任何需要进行自动验证码识别的网站和软件，具有广泛的应用前景。

附图说明

图1为本发明基于少量样本的复杂验证码识别解决方案流程图。

图2为本发明验证码去噪网络整体结构图。

图3为本发明循环一致性损失示意图。

图4为传统字符分割算法结果示意图，其中：(a)等距分割算法(b)改进后分割算法。

图5为本发明文本识别模块网络结构图。

具体实施方式

下面通过具体实施例并结合附图对本发明做进一步说明，但不限于此。

实施例1

一种针对复杂背景的文本验证码自动识别方法，包括：

验证码去噪模块通过循环生成式对抗网络去除真实验证码的复杂安全特征，同时使字符边缘清晰：

首先利用验证码生成器，通过参数调节，批量生成与真实验证码字体格式类似的图片，并与真实验证码成对组合成训练集，作为去噪网络的输入。所述的循环生成式对抗网络(Cycle GAN)由两个生成器和两个判别器组成，整体呈对偶结构。循环生成式对抗网络的核心目标是将带有复杂安全特征的验证码图片转换为去除安全特征的简单验证码，以便于降低字符分割以及识别的难度。如图2所示，模型训练过程中，首先通过域A获取真实输入图像，并通过第一个生成器GeneratorA→B将其转换到目标域B中的简单验证码图片；接着这个图片作为第二个生成器GeneratorB→A的输入，转换回原始的复杂图片。此外，这里的两个判别器(Discriminator)用来判断输入图片为真实的输入图片还是Generator生成的仿造图片。所述的循环生成式对抗网络进行去噪的优化目标包括两种不同类型的损失函数，分别为对抗性损失(Adversarial loss)和循环一致性损失(Cycle Consistency Loss)；其中，对抗性损失用于匹配生成图片的像素分布与目标域中图片的像素分布；循环一致性损失用于控制转换后的图像与源域中图像尽量相似；真实验证码和生成验证码分别作为域X和域Y，使用两个风格转换器在域X和域Y之间互相转换；优化过程如下：(1)首先利用卷积神经网络对输入图片进行特征提取，得到特征向量；(2)然后通过Resnet模块将域X中图片的特征向量转换为域Y中的特征向量，并且在转换的同时保留原始图像特征的目标；(3)最后，通过反卷积操作进行解码，由特征向量还原出转换后的图像。判别器是由多层卷积神经网络组成的，以图片作为输入，试图判断输入图片是来自原域的真实图片还是经过转换生成的虚假图片，判别器的最后一层输出预测为真实图片的概率。算法流程如图3所示。

字符分割模块使用图像处理算法将整体验证码图片分割为单个字符：

所述的图像处理算法包括轮廓检测、改进的等距分割算法和阈值分割算法，所述的改进的等距分割算法中，分割的起始位置为第一个字符的左上角像素点，分割宽度为每个字符的近似大小，分割高度为每个字符的近似高度，分割效果如图4(b)所示，其中黑色边框表示分割结果；针对处理后边缘清晰但字符扭曲的文本验证码，传统分割算法并不适用，本发明优选采用轮廓检测的算法进行字符分割；所述轮廓检测的算法对整个图片像素点进行扫描，找到每个字符外边界的起始点以及孔边界的起始点，并对这些边界点进行编号，最后通过轮廓绘制函数将这些外边界连接起来，得到最终的分割结果。针对验证码图片中存在的字符大小间距不等的情况，本发明采用阈值分割算法，流程如下：首先对图片进行二值化处理；然后计算图片的纵坐标像素累加值，采用峰谷值分析法来确定阈值大小。

分割后的字符送入文本识别网络得到最终输出：

所述的文本识别网络为卷积神经网络，包括卷积层、池化层、dropout层以及全连接层；所述卷积神经网络使用ReLu作为激活函数，使用交叉熵作为损失函数，优化器选择Adadelta。

本发明整体模型解决方案如图1所示。图1左侧所示的验证码来自***，对于神经网络来说，由于该类验证码像素分布混乱，难以分割，很难取得较高的识别准确率。本发明首先通过循环生成式对抗网络对真实验证码进行去噪，使其边缘清晰，更利于进一步识别。然后使用对应的图像处理算法将整体验证码图片分割为单个字符。最后，分割后的字符送入文本识别网络得到最终输出。同时由于本专利设计的文本识别模型卷积层较少，不易出现过拟合的问题，因此不需要大量的训练数据。实际使用中只需要500张样本训练就可以得到较高的识别准确率，极大的降低了模型训练时间以及加快了识别过程中的处理速度，能够满足工程化使用的需要。

特别的，针对扭曲旋转幅度大的文本验证码类型，文本识别网络首先使用空间变换层(Spatial Transformer Layers)对其进行校正，使模型具有空间不变性。

Claims

1.一种针对复杂背景的文本验证码自动识别方法，包括：

分割后的字符送入文本识别网络得到最终输出；

通过循环生成式对抗网络对真实验证码进行去噪过程中，首先利用验证码生成器，通过参数调节，批量生成与真实验证码字体格式类似的图片，并与真实验证码成对组合成训练集，作为去噪网络的输入；所述的循环生成式对抗网络由两个生成器和两个判别器组成，整体呈对偶结构；

所述的图像处理算法采用轮廓检测、改进后的等距分割算法和阈值分割算法，所述的改进的等距分割算法中，分割的起始位置为第一个字符的左上角像素点，分割宽度为每个字符的近似大小，分割高度为每个字符的近似高度；

所述的循环生成式对抗网络进行去噪的优化目标包括两种不同类型的损失函数，分别为对抗性损失和循环一致性损失；其中，对抗性损失用于匹配生成图片的像素分布与目标域中图片的像素分布；循环一致性损失用于控制转换后的图像与源域中图像尽量相似；

真实验证码和生成验证码分别作为域X和域Y，使用两个风格转换器在域X和域Y之间互相转换；优化过程如下：（1）首先利用卷积神经网络对输入图片进行特征提取，得到特征向量；（2）然后通过Resnet模块将域X中图片的特征向量转换为域Y中的特征向量，并且在转换的同时保留原始图像特征的目标；（3）最后，解码过程通过反卷积操作，由特征向量还原出转换后的图像；

针对处理后边缘清晰但字符扭曲的文本验证码，采用轮廓检测的算法进行字符分割；

所述轮廓检测的算法对整个图片像素点进行扫描，找到每个字符外边界的起始点以及孔边界的起始点，并对这些边界点进行编号，最后通过轮廓绘制函数将这些外边界连接起来，得到最终的分割结果；

针对验证码图片中存在的字符大小间距不等的情况，采用阈值分割算法，流程如下：首先对图片进行二值化处理；然后计算图片的纵坐标像素累加值，采用峰谷值分析法来确定阈值大小。

2.根据权利要求1所述的针对复杂背景的文本验证码自动识别方法，其特征在于，所述的文本识别网络为卷积神经网络，包括卷积层、池化层、dropout层以及全连接层。

3.根据权利要求2所述的针对复杂背景的文本验证码自动识别方法，其特征在于，所述卷积神经网络使用ReLu作为激活函数，使用交叉熵作为损失函数，优化器选择Adadelta。

4.根据权利要求1所述的针对复杂背景的文本验证码自动识别方法，其特征在于，针对扭曲旋转幅度大的文本验证码类型，文本识别网络首先使用空间变换层对其进行校正，使模型具有空间不变性。