CN112926469A

CN112926469A - 基于深度学习ocr与版面结构的证件识别方法

Info

Publication number: CN112926469A
Application number: CN202110238213.8A
Authority: CN
Inventors: 谭智峰; 周庆勇; 李明明
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2021-03-04
Filing date: 2021-03-04
Publication date: 2021-06-08
Anticipated expiration: 2041-03-04
Also published as: CN112926469B

Abstract

本发明公开了基于深度学习OCR与版面结构的证件识别方法，属于图像识别技术领域，要解决的技术问题为如何提供一种成本低廉、鲁棒性高、识别结果有保障的身份证识别方法。包括如下步骤：对证件图像进行旋转操作，旋转后证件图像符合人视角；通过训练后证件检测模型对上述旋转后证件图像进行证件识别，去除背景图像；通过OCR文本检测方法进行文本检测，得到多个初始文本框；去除内容要素之外的杂框，对去除杂框后的初始文本框进行合并，并对多个合并后文本框进行比例拉伸；计算每个内容要素对应文本框的坐标信息；将上述每个内容要素对应文本框剪裁得到文本框图像，通过OCR文本检测方法进行文本检测，得到内容要素对应的文本信息。

Description

基于深度学习OCR与版面结构的证件识别方法

技术领域

本发明涉及图像识别技术领域，具体地说是基于深度学习OCR与版面结构的证件识别方法。

背景技术

身份证作为持有人身份证明的证件，在人们的日常生活和工作中有着非常重要的作用。在登记注册、出入手续、证照办理、入学就业、金融信贷等过程中，身份证作为一种身份唯一性证明材料都需要提交审核。

当前，身份证识别技术主要采用以下三种方法完成：一是采用硬件设备读卡器，通过读取二代身份证内部的磁条完成识别，但是往往读卡器设备价格昂贵，成本较高；二是采用传统的图像处理技术对身份证信息进行识别，已知该方法在光照不均、背景干扰、遮挡等方面鲁棒性较差，识别率、准确率等得不到保障；三是固定拍摄区域的身份证识别，此拍摄过程要求高，必须光线充足，身份证的边缘必须紧靠给定的框边缘，从而对拍摄者本身提出了更高的技术要求。

基于上述，如何提供一种成本低廉、鲁棒性高、识别结果有保障的身份证识别方法，是需要解决的技术问题。

发明内容

本发明的技术任务是针对以上不足，提供基于深度学习OCR与版面结构的证件识别方法，来解决如何提供一种成本低廉、鲁棒性高、识别结果有保障的身份证识别方法的技术问题。

第一方面，本发明提供一种基于深度学习OCR与版面结构的证件识别方法，包括如下步骤：

对于输入的证件图像，基于文字方向进行四个方向的角度检测，并对证件图像进行旋转操作，旋转后证件图像符合人视角；

基于迁移学习训练证件检测模型，通过训练后证件检测模型对上述旋转后证件图像进行证件识别，去除背景图像，得到目标证件图像；

对于目标证件图像，通过OCR文本检测方法进行文本检测，得到多个初始文本框；

对于上述初始文本框，去除内容要素之外的杂框，并基于文本框的中心点坐标以及长宽角度，对上述去除杂框后的初始文本框进行合并，得到多个合并后文本框，并对上述多个合并后文本框进行比例拉伸以避免内容要素遗漏；

基于证件包围框的坐标信息以及证件号码长度信息，计算证件号码对应文本框的坐标信息，以证件号码对应文本框的坐标信息为基准，计算每个内容要素对应文本框的坐标信息；

将上述每个内容要素对应文本框剪裁得到文本框图像，对于每个文本框图像，通过OCR文本检测方法进行文本检测，得到内容要素对应的文本信息。

作为优选，得到内容要素对应的文本信息后，通过正则表达式对文本信息进行规范化输出。

作为优选，基于文字方向进行0度、90度、180度以及270度四个方向的角度检测。

作为优选，所述证件检测模型为SSD-MobileNet V1模型。

作为优选，对于上述初始文本框，去除内容要素之外的杂框，包括如下步骤：

去除低置信度的文本框；

去除证件检测出的包围框之外以及与包围框相交的所有框；

去除反光导致的出现在人像下面的重影文本框；

去除长宽比小于预设值的竖形框；

去除汉族语言之外的语言的文字框。

第二方面，本发明提供基于深度学习OCR与版面结构的证件识别***，通过如第一方面任一项所述的基于深度学习OCR与版面结构的证件识别方法对证件进行文本文本，所述***包括：

图像旋转模块，所述图像旋转模块用于对于获取的证件图像，基于文字方向进行四个方向的角度检测，并对证件图像进行旋转操作，旋转后证件图像符合人视角；

证件提取模块，所述证件提取模块用于基于迁移学习训练证件检测模型，通过训练后证件检测模型对上述旋转后证件图像进行证件识别，去除背景图像，得到目标证件图像；

文本提取模块，所述文本提取模块用于对于目标证件图像，通过OCR文本检测方法进行文本检测，得到多个初始文本框；

文本处理模块，所述文本处理模块用于对于上述初始文本框，去除内容要素之外的杂框，并基于文本框的中心点坐标以及长宽角度，对上述去除杂框后的初始文本框进行合并，得到多个合并后文本框，并对上述多个合并后文本框进行比例拉伸以避免内容要素遗漏；

内容要素与版面坐标匹配模块，所述内容要素与版面坐标匹配模块用于基于证件包围框的坐标信息以及证件号码长度信息，计算证件号码对应文本框的坐标信息，以证件号码对应文本框的坐标信息为基准，计算每个内容要素对应文本框的坐标信息；

内容要素结构化提取模块，所述内容要素结构化提取模块用于将上述每个内容要素对应文本框剪裁得到文本框图像，对于每个文本框图像，通过OCR文本检测方法进行文本检测，得到内容要素对应的文本信息；

文字规范模块，所述文字规范模块用于通过正则表达式对上述内容要素对应的文本信息进行规范化输出。

作为优选，所述图像旋转模块用于基于文字方向进行0度、90度、180度以及270度四个方向的角度检测。

作为优选，所述证件检测模型为SSD-MobileNet V1模型。

作为优选，所述文本处理模块用于通过如下步骤对于上述初始文本框，去除内容要素之外的杂框：

对于上述初始文本框，去除内容要素之外的杂框，包括如下步骤：

去除低置信度的文本框；

去除证件检测出的包围框之外以及与包围框相交的所有框；

去除反光导致的出现在人像下面的重影文本框；

去除长宽比小于预设值的竖形框；

去除汉族语言之外的语言的文字框。

第三方面，本发明提供一种计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行第一方面任一所述的方法。

本发明的基于深度学习OCR与版面结构的证件识别方法具有以下优点：

1、对输入的证件图像进行角度检测，矫正证件图像的角度，并通过迁移学习训练的证件检测模型获取目标证件图像，去除背景图像，通过OCR文本检测方法对目标证件图像进行文本提取得到初始文本框，对初始文本框去除杂框后，进行合并和比例拉伸操作，并以证件号码对应文本框的坐标信息为基准计算每个内容要素对应文本框的坐标信息，将每个内容要素对应文本框剪裁文本框图像，并通过OCR文本检测方法进行文本检测，得到文本信息，该方法成本低廉，并提高了证件识别的准确率；

2、该方法矫正证件图像的角度，并通过迁移学习训练的证件检测模型获取目标证件图像，去除背景图像，对于拍摄证件图像的要求较低，不需要必须光线充足以及证件的边缘必须紧靠给定的框边缘得一些技术要求，方便快捷。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

下面结合附图对本发明进一步说明。

图1为实施例1基于深度学习OCR与版面结构的证件识别方法的流程框图；

图2为实施例1基于深度学习OCR与版面结构的证件识别方法中方向判定示意图；

图3为实施例1基于深度学习OCR与版面结构的证件识别方法中身份证检测结果示意图；

图4为实施例1基于深度学习OCR与版面结构的证件识别方法中要素内容检测示意图；

图5为实施例1基于深度学习OCR与版面结构的证件识别方法中检测框处理流程示意图；

图6为实施例1基于深度学习OCR与版面结构的证件识别方法中检测框处理后示意图；

图7为实施例1基于深度学习OCR与版面结构的证件识别方法中要素内容与坐标信息匹配示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互结合。

本发明实施例提供基于深度学习OCR与版面结构的证件识别方法，用于解决如何提供一种成本低廉、鲁棒性高、识别结果有保障的身份证识别方法的技术问题。

实施例1：

本发明的基于深度学习OCR与版面结构的证件识别方法，包括如下步骤：

S100、对于输入的证件图像，基于文字方向进行四个方向的角度检测，并对证件图像进行旋转操作，旋转后证件图像符合人视角；

S200、基于迁移学习训练证件检测模型，通过训练后证件检测模型对上述旋转后证件图像进行证件识别，去除背景图像，得到目标证件图像；

S300、对于目标证件图像，通过OCR文本检测方法进行文本检测，得到多个初始文本框；

S400、对于上述初始文本框，去除内容要素之外的杂框，并基于文本框的中心点坐标以及长宽角度，对上述去除杂框后的初始文本框进行合并，得到多个合并后文本框，并对上述多个合并后文本框进行比例拉伸以避免内容要素遗漏；

S500、基于证件包围框的坐标信息以及证件号码长度信息，计算证件号码对应文本框的坐标信息，以证件号码对应文本框的坐标信息为基准，计算每个内容要素对应文本框的坐标信息；

S600、将上述每个内容要素对应文本框剪裁得到文本框图像，对于每个文本框图像，通过OCR文本检测方法进行文本检测，得到内容要素对应的文本信息。

其中，步骤S100进行方向判定，由于智能设备拍照存储的缘故，上传的证件图像有四个角度的旋转，造成后面身份证位置检测的不便。为了解决这个问题，对输入的证件图像进行文字方向0、90、180、270度检测，根据度数，对证件图像进行旋转，对待处理的证件进行四个方向的角度检测，旋转得到符合人视角的目标证件图像。

步骤S200进行证件检测，由于背景干扰、身份证污损、光线不均匀等因素的影响，以前采用图像处理的方法如边缘检测、图像分割的方式确定身份证位置信息的方法，已经越来越不适用，迫切需要一种鲁棒性较强的方法来代替。目前随着深度学习在图像领域的深入应用，利用目标检测去定位目标对象的方法已经越来越普遍。通过对证件数据集打标，标注出证件的包围框，然后通过迁移学习，训练出证件检测模型，然后识别出证件所在自然场景中的相对准确位置。本实施例中证件检测模型为SSD-MobileNet V1模型。

步骤S300进行证件内容要素检测，由于智能设备会受所处环境的影响，如光照不均匀、低对比度、背景的干扰；设备本身成像导致的几何变形、模糊、残缺，距离导致图像太小；身份证本身的纹理干扰、logo干扰，多民族多语言混合，导致单一通过图像处理的方式或者字符分割再检测的方法很难得到满意的结果。目前通过深度学习检测文本行，并利用文字的上下文信息进行文本行识别，技术已经比较成熟。利用一些公共的OCR文本行检测语料，进行文本行检测的训练，然后再通过标注了一部分身份证的语料做参数调优，使得检测尽量准确。本实施例中通过OCR文本检测方法将证件中待提取的要素内容检测出来，得到多个初始文本框。

步骤S400进行检测框处理，背景的复杂性及身份证本身的设计会导致检测出出内容要素以外的杂框，为避免对后续的步骤产生影响，需要对杂框进行处理，具体如如图5所示：

(1)去除低置信度的文本框；

(2)去除证件检测出的包围框之外以及与包围框相交的所有框；

(3)去除反光导致的出现在人像下面的重影文本框；

(4)去除长宽比小于预设值的竖形框；

(5)去除汉族语言之外的语言的文字框。

处理后的文本框由于界面设计的原因，可能会出现文本框分开的问题，需要根据位置参数，计算文本框的中心点坐标以及长宽角度信息，对文本框进行合并操作。由于检测的原因，可能会导致合并后的文本框有遗漏内容要素的情况，所以，最后对文本框的大小进行了比例拉伸操作。

步骤S500中进行内容要素与版面坐标匹配，根据包围框的坐标信息以及身份证号码的长度信息，很容易计算出证件号码所在的文本框。以这个文本框为基准，根据证件设计的比例关系，通过参数，结合包围框信息，大体可以确定地址、出生、性别及民族、姓名内容要素所在的区域，把文本行的位置信息与上述每个区域进行匹配，最后就可以得到文本框所代表的内容要素的信息。

步骤S600中进行内容要素结构化提取，对于上述每个内容要素所定对应的文本框，通过框坐标信息裁剪出图像，然后把图像输入到文字识别模型里，就可以得到每个内容要素对应的文本信息了。目前利用深度学习做文本识别，文本行识别能够充分利用文字的上下文信息进行建模，所以识别效果要好于先切分单字然后再识别。利用一些公共的OCR文本识别方法，进行文本行识别的训练，然后通过标注了一部分身份证的语料做参数调优，使得识别尽量准确。受识别模型的准确度影响，可能会出现识别出来的文字不规范，最后需要通过正则表达式对结果进行规范化输出。

本实施例里中证件图像可以为身份证、驾驶证、行驶证、银行卡等。对于身份证，可根据包围框的坐标信息以及身份证号码的长度信息，计算出身份证号码所在的文本框。以这个身份证号码对应文本框为基准，根据身份证设计的比例关系，通过参数，结合包围框信息，大体可以确定地址、出生、性别及民族、姓名内容要素所在的区域，把文本行的位置信息与上述每个区域进行匹配，最后就可以得到文本框所代表的内容要素的信息。其他类型证件也基于上述方法获取内容要素对应文本框的坐标信息。

实施例2：

本发明的基于深度学习OCR与版面结构的证件识别***，通过实施例1公开的基于深度学习OCR与版面结构的证件识别方法对证件进行文本文本，该***包括图像旋转模块、证件提取模块、文本提取模块、文本处理模块、内容要素与版面坐标匹配模块、内容要素结构化提取模块以及文字规范模块，图像旋转模块用于对于获取的证件图像，基于文字方向进行四个方向的角度检测，并对证件图像进行旋转操作，旋转后证件图像符合人视角；证件提取模块用于基于迁移学习训练证件检测模型，通过训练后证件检测模型对上述旋转后证件图像进行证件识别，去除背景图像，得到目标证件图像；文本提取模块用于对于目标证件图像，通过OCR文本检测方法进行文本检测，得到多个初始文本框；文本处理模块用于对于上述初始文本框，去除内容要素之外的杂框，并基于文本框的中心点坐标以及长宽角度，对上述去除杂框后的初始文本框进行合并，得到多个合并后文本框，并对上述多个合并后文本框进行比例拉伸以避免内容要素遗漏；内容要素与版面坐标匹配模块用于基于证件包围框的坐标信息以及证件号码长度信息，计算证件号码对应文本框的坐标信息，以证件号码对应文本框的坐标信息为基准，计算每个内容要素对应文本框的坐标信息；内容要素结构化提取模块用于将上述每个内容要素对应文本框剪裁得到文本框图像，对于每个文本框图像，通过OCR文本检测方法进行文本检测，得到内容要素对应的文本信息；文字规范模块用于通过正则表达式对上述内容要素对应的文本信息进行规范化输出。

其中，图像旋转模块用于基于文字方向进行0度、90度、180度以及270度四个方向的角度检测。

证件检测模型为SSD-MobileNet V1模型。

文本处理模块用于通过如下步骤对于上述初始文本框，去除内容要素之外的杂框：

(1)对于上述初始文本框，去除内容要素之外的杂框，包括如下步骤：

(2)去除低置信度的文本框；

(3)去除证件检测出的包围框之外以及与包围框相交的所有框；

(4)去除反光导致的出现在人像下面的重影文本框；

(5)去除长宽比小于预设值的竖形框；

(6)去除汉族语言之外的语言的文字框。

该***可识别证件中文本信息，对于身份证，其工作流程为：首先通过智能设备采集身份证图像数据；对待处理的图像进行四个方向的角度检测，根据角度对图像旋转得到符合人视角的图像；对上述图像进一步通过深度目标检测模型，找到身份证所在的大体区域；采用深度OCR文本行检测模型检测本图像中文本行所在的区域；对非身份证要素的文本框进行删除处理，合适的文本框按照参数进行合并，并对合并后的文本框进行拉伸处理；参照身份证号的位置信息根据预置的参数对身份证要素位置进行匹配定位；正则化提取的每个要素的信息；最后格式化输出身份证信息。该***对拍摄要求较低，方便使用。

实施例3：

本发明实施例还提供了一种计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行实施例1公开的方法。具体地，可以提供配有存储介质的***或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该***或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作***等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

需要说明的是，上述各流程和各***结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。上述各实施例中描述的***结构可以是物理结构，也可以是逻辑结构，即，有些模块可能由同一物理实体实现，或者，有些模块可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.基于深度学习OCR与版面结构的证件识别方法，其特征在于包括如下步骤：

2.根据权利要求1所述的基于深度学习OCR与版面结构的证件识别方法，其特征在于得到内容要素对应的文本信息后，通过正则表达式对文本信息进行规范化输出。

3.根据权利要求1或2所述的基于深度学习OCR与版面结构的证件识别方法，其特征在于基于文字方向进行0度、90度、180度以及270度四个方向的角度检测。

4.根据权利要求1所述的基于深度学习OCR与版面结构的证件识别方法，其特征在于所述证件检测模型为SSD-MobileNet V1模型。

5.根据权利要求1所述的基于深度学习OCR与版面结构的证件识别方法，其特征在于对于上述初始文本框，去除内容要素之外的杂框，包括如下步骤：

去除低置信度的文本框；

去除证件检测出的包围框之外以及与包围框相交的所有框；

去除反光导致的出现在人像下面的重影文本框；

去除长宽比小于预设值的竖形框；

去除汉族语言之外的语言的文字框。

6.基于深度学习OCR与版面结构的证件识别***，其特征在于通过如权利要求1-5任一项所述的基于深度学习OCR与版面结构的证件识别方法对证件进行文本文本，所述***包括：

7.根据权利要求6所述的基于深度学习OCR与版面结构的证件识别方法，其特征在于所述图像旋转模块用于基于文字方向进行0度、90度、180度以及270度四个方向的角度检测。

8.根据权利要求6所述的基于深度学习OCR与版面结构的证件识别方法，其特征在于所述证件检测模型为SSD-MobileNet V1模型。

9.根据权利要求6所述的基于深度学习OCR与版面结构的证件识别方法，其特征在于所述文本处理模块用于通过如下步骤对于上述初始文本框，去除内容要素之外的杂框：

去除低置信度的文本框；

去除证件检测出的包围框之外以及与包围框相交的所有框；

去除反光导致的出现在人像下面的重影文本框；

去除长宽比小于预设值的竖形框；

去除汉族语言之外的语言的文字框。

10.计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行权利要求1至5任一所述的方法。