CN112926469A - 基于深度学习ocr与版面结构的证件识别方法 - Google Patents

基于深度学习ocr与版面结构的证件识别方法 Download PDF

Info

Publication number
CN112926469A
CN112926469A CN202110238213.8A CN202110238213A CN112926469A CN 112926469 A CN112926469 A CN 112926469A CN 202110238213 A CN202110238213 A CN 202110238213A CN 112926469 A CN112926469 A CN 112926469A
Authority
CN
China
Prior art keywords
text
certificate
image
detection
box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110238213.8A
Other languages
English (en)
Other versions
CN112926469B (zh
Inventor
谭智峰
周庆勇
李明明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202110238213.8A priority Critical patent/CN112926469B/zh
Publication of CN112926469A publication Critical patent/CN112926469A/zh
Application granted granted Critical
Publication of CN112926469B publication Critical patent/CN112926469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本发明公开了基于深度学习OCR与版面结构的证件识别方法,属于图像识别技术领域,要解决的技术问题为如何提供一种成本低廉、鲁棒性高、识别结果有保障的身份证识别方法。包括如下步骤:对证件图像进行旋转操作,旋转后证件图像符合人视角;通过训练后证件检测模型对上述旋转后证件图像进行证件识别,去除背景图像;通过OCR文本检测方法进行文本检测,得到多个初始文本框;去除内容要素之外的杂框,对去除杂框后的初始文本框进行合并,并对多个合并后文本框进行比例拉伸;计算每个内容要素对应文本框的坐标信息;将上述每个内容要素对应文本框剪裁得到文本框图像,通过OCR文本检测方法进行文本检测,得到内容要素对应的文本信息。

Description

基于深度学习OCR与版面结构的证件识别方法
技术领域
本发明涉及图像识别技术领域,具体地说是基于深度学习OCR与版面结构的证件识别方法。
背景技术
身份证作为持有人身份证明的证件,在人们的日常生活和工作中有着非常重要的作用。在登记注册、出入手续、证照办理、入学就业、金融信贷等过程中,身份证作为一种身份唯一性证明材料都需要提交审核。
当前,身份证识别技术主要采用以下三种方法完成:一是采用硬件设备读卡器,通过读取二代身份证内部的磁条完成识别,但是往往读卡器设备价格昂贵,成本较高;二是采用传统的图像处理技术对身份证信息进行识别,已知该方法在光照不均、背景干扰、遮挡等方面鲁棒性较差,识别率、准确率等得不到保障;三是固定拍摄区域的身份证识别,此拍摄过程要求高,必须光线充足,身份证的边缘必须紧靠给定的框边缘,从而对拍摄者本身提出了更高的技术要求。
基于上述,如何提供一种成本低廉、鲁棒性高、识别结果有保障的身份证识别方法,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供基于深度学习OCR与版面结构的证件识别方法,来解决如何提供一种成本低廉、鲁棒性高、识别结果有保障的身份证识别方法的技术问题。
第一方面,本发明提供一种基于深度学习OCR与版面结构的证件识别方法,包括如下步骤:
对于输入的证件图像,基于文字方向进行四个方向的角度检测,并对证件图像进行旋转操作,旋转后证件图像符合人视角;
基于迁移学习训练证件检测模型,通过训练后证件检测模型对上述旋转后证件图像进行证件识别,去除背景图像,得到目标证件图像;
对于目标证件图像,通过OCR文本检测方法进行文本检测,得到多个初始文本框;
对于上述初始文本框,去除内容要素之外的杂框,并基于文本框的中心点坐标以及长宽角度,对上述去除杂框后的初始文本框进行合并,得到多个合并后文本框,并对上述多个合并后文本框进行比例拉伸以避免内容要素遗漏;
基于证件包围框的坐标信息以及证件号码长度信息,计算证件号码对应文本框的坐标信息,以证件号码对应文本框的坐标信息为基准,计算每个内容要素对应文本框的坐标信息;
将上述每个内容要素对应文本框剪裁得到文本框图像,对于每个文本框图像,通过OCR文本检测方法进行文本检测,得到内容要素对应的文本信息。
作为优选,得到内容要素对应的文本信息后,通过正则表达式对文本信息进行规范化输出。
作为优选,基于文字方向进行0度、90度、180度以及270度四个方向的角度检测。
作为优选,所述证件检测模型为SSD-MobileNet V1模型。
作为优选,对于上述初始文本框,去除内容要素之外的杂框,包括如下步骤:
去除低置信度的文本框;
去除证件检测出的包围框之外以及与包围框相交的所有框;
去除反光导致的出现在人像下面的重影文本框;
去除长宽比小于预设值的竖形框;
去除汉族语言之外的语言的文字框。
第二方面,本发明提供基于深度学习OCR与版面结构的证件识别***,通过如第一方面任一项所述的基于深度学习OCR与版面结构的证件识别方法对证件进行文本文本,所述***包括:
图像旋转模块,所述图像旋转模块用于对于获取的证件图像,基于文字方向进行四个方向的角度检测,并对证件图像进行旋转操作,旋转后证件图像符合人视角;
证件提取模块,所述证件提取模块用于基于迁移学习训练证件检测模型,通过训练后证件检测模型对上述旋转后证件图像进行证件识别,去除背景图像,得到目标证件图像;
文本提取模块,所述文本提取模块用于对于目标证件图像,通过OCR文本检测方法进行文本检测,得到多个初始文本框;
文本处理模块,所述文本处理模块用于对于上述初始文本框,去除内容要素之外的杂框,并基于文本框的中心点坐标以及长宽角度,对上述去除杂框后的初始文本框进行合并,得到多个合并后文本框,并对上述多个合并后文本框进行比例拉伸以避免内容要素遗漏;
内容要素与版面坐标匹配模块,所述内容要素与版面坐标匹配模块用于基于证件包围框的坐标信息以及证件号码长度信息,计算证件号码对应文本框的坐标信息,以证件号码对应文本框的坐标信息为基准,计算每个内容要素对应文本框的坐标信息;
内容要素结构化提取模块,所述内容要素结构化提取模块用于将上述每个内容要素对应文本框剪裁得到文本框图像,对于每个文本框图像,通过OCR文本检测方法进行文本检测,得到内容要素对应的文本信息;
文字规范模块,所述文字规范模块用于通过正则表达式对上述内容要素对应的文本信息进行规范化输出。
作为优选,所述图像旋转模块用于基于文字方向进行0度、90度、180度以及270度四个方向的角度检测。
作为优选,所述证件检测模型为SSD-MobileNet V1模型。
作为优选,所述文本处理模块用于通过如下步骤对于上述初始文本框,去除内容要素之外的杂框:
对于上述初始文本框,去除内容要素之外的杂框,包括如下步骤:
去除低置信度的文本框;
去除证件检测出的包围框之外以及与包围框相交的所有框;
去除反光导致的出现在人像下面的重影文本框;
去除长宽比小于预设值的竖形框;
去除汉族语言之外的语言的文字框。
第三方面,本发明提供一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行第一方面任一所述的方法。
本发明的基于深度学习OCR与版面结构的证件识别方法具有以下优点:
1、对输入的证件图像进行角度检测,矫正证件图像的角度,并通过迁移学习训练的证件检测模型获取目标证件图像,去除背景图像,通过OCR文本检测方法对目标证件图像进行文本提取得到初始文本框,对初始文本框去除杂框后,进行合并和比例拉伸操作,并以证件号码对应文本框的坐标信息为基准计算每个内容要素对应文本框的坐标信息,将每个内容要素对应文本框剪裁文本框图像,并通过OCR文本检测方法进行文本检测,得到文本信息,该方法成本低廉,并提高了证件识别的准确率;
2、该方法矫正证件图像的角度,并通过迁移学习训练的证件检测模型获取目标证件图像,去除背景图像,对于拍摄证件图像的要求较低,不需要必须光线充足以及证件的边缘必须紧靠给定的框边缘得一些技术要求,方便快捷。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
图1为实施例1基于深度学习OCR与版面结构的证件识别方法的流程框图;
图2为实施例1基于深度学习OCR与版面结构的证件识别方法中方向判定示意图;
图3为实施例1基于深度学习OCR与版面结构的证件识别方法中身份证检测结果示意图;
图4为实施例1基于深度学习OCR与版面结构的证件识别方法中要素内容检测示意图;
图5为实施例1基于深度学习OCR与版面结构的证件识别方法中检测框处理流程示意图;
图6为实施例1基于深度学习OCR与版面结构的证件识别方法中检测框处理后示意图;
图7为实施例1基于深度学习OCR与版面结构的证件识别方法中要素内容与坐标信息匹配示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供基于深度学习OCR与版面结构的证件识别方法,用于解决如何提供一种成本低廉、鲁棒性高、识别结果有保障的身份证识别方法的技术问题。
实施例1:
本发明的基于深度学习OCR与版面结构的证件识别方法,包括如下步骤:
S100、对于输入的证件图像,基于文字方向进行四个方向的角度检测,并对证件图像进行旋转操作,旋转后证件图像符合人视角;
S200、基于迁移学习训练证件检测模型,通过训练后证件检测模型对上述旋转后证件图像进行证件识别,去除背景图像,得到目标证件图像;
S300、对于目标证件图像,通过OCR文本检测方法进行文本检测,得到多个初始文本框;
S400、对于上述初始文本框,去除内容要素之外的杂框,并基于文本框的中心点坐标以及长宽角度,对上述去除杂框后的初始文本框进行合并,得到多个合并后文本框,并对上述多个合并后文本框进行比例拉伸以避免内容要素遗漏;
S500、基于证件包围框的坐标信息以及证件号码长度信息,计算证件号码对应文本框的坐标信息,以证件号码对应文本框的坐标信息为基准,计算每个内容要素对应文本框的坐标信息;
S600、将上述每个内容要素对应文本框剪裁得到文本框图像,对于每个文本框图像,通过OCR文本检测方法进行文本检测,得到内容要素对应的文本信息。
其中,步骤S100进行方向判定,由于智能设备拍照存储的缘故,上传的证件图像有四个角度的旋转,造成后面身份证位置检测的不便。为了解决这个问题,对输入的证件图像进行文字方向0、90、180、270度检测,根据度数,对证件图像进行旋转,对待处理的证件进行四个方向的角度检测,旋转得到符合人视角的目标证件图像。
步骤S200进行证件检测,由于背景干扰、身份证污损、光线不均匀等因素的影响,以前采用图像处理的方法如边缘检测、图像分割的方式确定身份证位置信息的方法,已经越来越不适用,迫切需要一种鲁棒性较强的方法来代替。目前随着深度学习在图像领域的深入应用,利用目标检测去定位目标对象的方法已经越来越普遍。通过对证件数据集打标,标注出证件的包围框,然后通过迁移学习,训练出证件检测模型,然后识别出证件所在自然场景中的相对准确位置。本实施例中证件检测模型为SSD-MobileNet V1模型。
步骤S300进行证件内容要素检测,由于智能设备会受所处环境的影响,如光照不均匀、低对比度、背景的干扰;设备本身成像导致的几何变形、模糊、残缺,距离导致图像太小;身份证本身的纹理干扰、logo干扰,多民族多语言混合,导致单一通过图像处理的方式或者字符分割再检测的方法很难得到满意的结果。目前通过深度学习检测文本行,并利用文字的上下文信息进行文本行识别,技术已经比较成熟。利用一些公共的OCR文本行检测语料,进行文本行检测的训练,然后再通过标注了一部分身份证的语料做参数调优,使得检测尽量准确。本实施例中通过OCR文本检测方法将证件中待提取的要素内容检测出来,得到多个初始文本框。
步骤S400进行检测框处理,背景的复杂性及身份证本身的设计会导致检测出出内容要素以外的杂框,为避免对后续的步骤产生影响,需要对杂框进行处理,具体如如图5所示:
(1)去除低置信度的文本框;
(2)去除证件检测出的包围框之外以及与包围框相交的所有框;
(3)去除反光导致的出现在人像下面的重影文本框;
(4)去除长宽比小于预设值的竖形框;
(5)去除汉族语言之外的语言的文字框。
处理后的文本框由于界面设计的原因,可能会出现文本框分开的问题,需要根据位置参数,计算文本框的中心点坐标以及长宽角度信息,对文本框进行合并操作。由于检测的原因,可能会导致合并后的文本框有遗漏内容要素的情况,所以,最后对文本框的大小进行了比例拉伸操作。
步骤S500中进行内容要素与版面坐标匹配,根据包围框的坐标信息以及身份证号码的长度信息,很容易计算出证件号码所在的文本框。以这个文本框为基准,根据证件设计的比例关系,通过参数,结合包围框信息,大体可以确定地址、出生、性别及民族、姓名内容要素所在的区域,把文本行的位置信息与上述每个区域进行匹配,最后就可以得到文本框所代表的内容要素的信息。
步骤S600中进行内容要素结构化提取,对于上述每个内容要素所定对应的文本框,通过框坐标信息裁剪出图像,然后把图像输入到文字识别模型里,就可以得到每个内容要素对应的文本信息了。目前利用深度学习做文本识别,文本行识别能够充分利用文字的上下文信息进行建模,所以识别效果要好于先切分单字然后再识别。利用一些公共的OCR文本识别方法,进行文本行识别的训练,然后通过标注了一部分身份证的语料做参数调优,使得识别尽量准确。受识别模型的准确度影响,可能会出现识别出来的文字不规范,最后需要通过正则表达式对结果进行规范化输出。
本实施例里中证件图像可以为身份证、驾驶证、行驶证、银行卡等。对于身份证,可根据包围框的坐标信息以及身份证号码的长度信息,计算出身份证号码所在的文本框。以这个身份证号码对应文本框为基准,根据身份证设计的比例关系,通过参数,结合包围框信息,大体可以确定地址、出生、性别及民族、姓名内容要素所在的区域,把文本行的位置信息与上述每个区域进行匹配,最后就可以得到文本框所代表的内容要素的信息。其他类型证件也基于上述方法获取内容要素对应文本框的坐标信息。
实施例2:
本发明的基于深度学习OCR与版面结构的证件识别***,通过实施例1公开的基于深度学习OCR与版面结构的证件识别方法对证件进行文本文本,该***包括图像旋转模块、证件提取模块、文本提取模块、文本处理模块、内容要素与版面坐标匹配模块、内容要素结构化提取模块以及文字规范模块,图像旋转模块用于对于获取的证件图像,基于文字方向进行四个方向的角度检测,并对证件图像进行旋转操作,旋转后证件图像符合人视角;证件提取模块用于基于迁移学习训练证件检测模型,通过训练后证件检测模型对上述旋转后证件图像进行证件识别,去除背景图像,得到目标证件图像;文本提取模块用于对于目标证件图像,通过OCR文本检测方法进行文本检测,得到多个初始文本框;文本处理模块用于对于上述初始文本框,去除内容要素之外的杂框,并基于文本框的中心点坐标以及长宽角度,对上述去除杂框后的初始文本框进行合并,得到多个合并后文本框,并对上述多个合并后文本框进行比例拉伸以避免内容要素遗漏;内容要素与版面坐标匹配模块用于基于证件包围框的坐标信息以及证件号码长度信息,计算证件号码对应文本框的坐标信息,以证件号码对应文本框的坐标信息为基准,计算每个内容要素对应文本框的坐标信息;内容要素结构化提取模块用于将上述每个内容要素对应文本框剪裁得到文本框图像,对于每个文本框图像,通过OCR文本检测方法进行文本检测,得到内容要素对应的文本信息;文字规范模块用于通过正则表达式对上述内容要素对应的文本信息进行规范化输出。
其中,图像旋转模块用于基于文字方向进行0度、90度、180度以及270度四个方向的角度检测。
证件检测模型为SSD-MobileNet V1模型。
文本处理模块用于通过如下步骤对于上述初始文本框,去除内容要素之外的杂框:
(1)对于上述初始文本框,去除内容要素之外的杂框,包括如下步骤:
(2)去除低置信度的文本框;
(3)去除证件检测出的包围框之外以及与包围框相交的所有框;
(4)去除反光导致的出现在人像下面的重影文本框;
(5)去除长宽比小于预设值的竖形框;
(6)去除汉族语言之外的语言的文字框。
该***可识别证件中文本信息,对于身份证,其工作流程为:首先通过智能设备采集身份证图像数据;对待处理的图像进行四个方向的角度检测,根据角度对图像旋转得到符合人视角的图像;对上述图像进一步通过深度目标检测模型,找到身份证所在的大体区域;采用深度OCR文本行检测模型检测本图像中文本行所在的区域;对非身份证要素的文本框进行删除处理,合适的文本框按照参数进行合并,并对合并后的文本框进行拉伸处理;参照身份证号的位置信息根据预置的参数对身份证要素位置进行匹配定位;正则化提取的每个要素的信息;最后格式化输出身份证信息。该***对拍摄要求较低,方便使用。
实施例3:
本发明实施例还提供了一种计算机可读介质,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行实施例1公开的方法。具体地,可以提供配有存储介质的***或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该***或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。
在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上下载程序代码。
此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作***等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
此外,可以理解的是,将由存储介质读出的程序代码写到***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
需要说明的是,上述各流程和各***结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。上述各实施例中描述的***结构可以是物理结构,也可以是逻辑结构,即,有些模块可能由同一物理实体实现,或者,有些模块可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。

Claims (10)

1.基于深度学习OCR与版面结构的证件识别方法,其特征在于包括如下步骤:
对于输入的证件图像,基于文字方向进行四个方向的角度检测,并对证件图像进行旋转操作,旋转后证件图像符合人视角;
基于迁移学习训练证件检测模型,通过训练后证件检测模型对上述旋转后证件图像进行证件识别,去除背景图像,得到目标证件图像;
对于目标证件图像,通过OCR文本检测方法进行文本检测,得到多个初始文本框;
对于上述初始文本框,去除内容要素之外的杂框,并基于文本框的中心点坐标以及长宽角度,对上述去除杂框后的初始文本框进行合并,得到多个合并后文本框,并对上述多个合并后文本框进行比例拉伸以避免内容要素遗漏;
基于证件包围框的坐标信息以及证件号码长度信息,计算证件号码对应文本框的坐标信息,以证件号码对应文本框的坐标信息为基准,计算每个内容要素对应文本框的坐标信息;
将上述每个内容要素对应文本框剪裁得到文本框图像,对于每个文本框图像,通过OCR文本检测方法进行文本检测,得到内容要素对应的文本信息。
2.根据权利要求1所述的基于深度学习OCR与版面结构的证件识别方法,其特征在于得到内容要素对应的文本信息后,通过正则表达式对文本信息进行规范化输出。
3.根据权利要求1或2所述的基于深度学习OCR与版面结构的证件识别方法,其特征在于基于文字方向进行0度、90度、180度以及270度四个方向的角度检测。
4.根据权利要求1所述的基于深度学习OCR与版面结构的证件识别方法,其特征在于所述证件检测模型为SSD-MobileNet V1模型。
5.根据权利要求1所述的基于深度学习OCR与版面结构的证件识别方法,其特征在于对于上述初始文本框,去除内容要素之外的杂框,包括如下步骤:
去除低置信度的文本框;
去除证件检测出的包围框之外以及与包围框相交的所有框;
去除反光导致的出现在人像下面的重影文本框;
去除长宽比小于预设值的竖形框;
去除汉族语言之外的语言的文字框。
6.基于深度学习OCR与版面结构的证件识别***,其特征在于通过如权利要求1-5任一项所述的基于深度学习OCR与版面结构的证件识别方法对证件进行文本文本,所述***包括:
图像旋转模块,所述图像旋转模块用于对于获取的证件图像,基于文字方向进行四个方向的角度检测,并对证件图像进行旋转操作,旋转后证件图像符合人视角;
证件提取模块,所述证件提取模块用于基于迁移学习训练证件检测模型,通过训练后证件检测模型对上述旋转后证件图像进行证件识别,去除背景图像,得到目标证件图像;
文本提取模块,所述文本提取模块用于对于目标证件图像,通过OCR文本检测方法进行文本检测,得到多个初始文本框;
文本处理模块,所述文本处理模块用于对于上述初始文本框,去除内容要素之外的杂框,并基于文本框的中心点坐标以及长宽角度,对上述去除杂框后的初始文本框进行合并,得到多个合并后文本框,并对上述多个合并后文本框进行比例拉伸以避免内容要素遗漏;
内容要素与版面坐标匹配模块,所述内容要素与版面坐标匹配模块用于基于证件包围框的坐标信息以及证件号码长度信息,计算证件号码对应文本框的坐标信息,以证件号码对应文本框的坐标信息为基准,计算每个内容要素对应文本框的坐标信息;
内容要素结构化提取模块,所述内容要素结构化提取模块用于将上述每个内容要素对应文本框剪裁得到文本框图像,对于每个文本框图像,通过OCR文本检测方法进行文本检测,得到内容要素对应的文本信息;
文字规范模块,所述文字规范模块用于通过正则表达式对上述内容要素对应的文本信息进行规范化输出。
7.根据权利要求6所述的基于深度学习OCR与版面结构的证件识别方法,其特征在于所述图像旋转模块用于基于文字方向进行0度、90度、180度以及270度四个方向的角度检测。
8.根据权利要求6所述的基于深度学习OCR与版面结构的证件识别方法,其特征在于所述证件检测模型为SSD-MobileNet V1模型。
9.根据权利要求6所述的基于深度学习OCR与版面结构的证件识别方法,其特征在于所述文本处理模块用于通过如下步骤对于上述初始文本框,去除内容要素之外的杂框:
对于上述初始文本框,去除内容要素之外的杂框,包括如下步骤:
去除低置信度的文本框;
去除证件检测出的包围框之外以及与包围框相交的所有框;
去除反光导致的出现在人像下面的重影文本框;
去除长宽比小于预设值的竖形框;
去除汉族语言之外的语言的文字框。
10.计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机指令,所述计算机指令在被处理器执行时,使所述处理器执行权利要求1至5任一所述的方法。
CN202110238213.8A 2021-03-04 2021-03-04 基于深度学习ocr与版面结构的证件识别方法 Active CN112926469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110238213.8A CN112926469B (zh) 2021-03-04 2021-03-04 基于深度学习ocr与版面结构的证件识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110238213.8A CN112926469B (zh) 2021-03-04 2021-03-04 基于深度学习ocr与版面结构的证件识别方法

Publications (2)

Publication Number Publication Date
CN112926469A true CN112926469A (zh) 2021-06-08
CN112926469B CN112926469B (zh) 2022-12-27

Family

ID=76173252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110238213.8A Active CN112926469B (zh) 2021-03-04 2021-03-04 基于深度学习ocr与版面结构的证件识别方法

Country Status (1)

Country Link
CN (1) CN112926469B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435449A (zh) * 2021-08-03 2021-09-24 全知科技(杭州)有限责任公司 基于深度学习的ocr图像文字识别与段落输出方法
CN113591657A (zh) * 2021-07-23 2021-11-02 京东科技控股股份有限公司 Ocr版面识别的方法、装置、电子设备及介质
CN113869313A (zh) * 2021-10-13 2021-12-31 广东金赋科技股份有限公司 一种图像背景过滤的信息识别方法及***
CN114332865A (zh) * 2022-03-11 2022-04-12 北京锐融天下科技股份有限公司 一种证件ocr识别方法及***
CN114708603A (zh) * 2022-05-25 2022-07-05 杭州咏柳科技有限公司 对医疗票据中关键信息的识别方法、***、设备和介质
CN115131806A (zh) * 2022-06-07 2022-09-30 福建极推科技有限公司 一种基于深度学习的各类证件ocr图像信息识别方法、***

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120281077A1 (en) * 2009-11-10 2012-11-08 Icar Vision Systems S L Method and system for reading and validating identity documents
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109934181A (zh) * 2019-03-18 2019-06-25 北京海益同展信息科技有限公司 文本识别方法、装置、设备和计算机可读介质
CN109961064A (zh) * 2019-03-20 2019-07-02 深圳市华付信息技术有限公司 身份证文本定位方法、装置、计算机设备及存储介质
CN110363199A (zh) * 2019-07-16 2019-10-22 济南浪潮高新科技投资发展有限公司 基于深度学习的证件图像文本识别方法及***
CN111639648A (zh) * 2020-05-26 2020-09-08 浙江大华技术股份有限公司 证件识别方法、装置、计算设备和存储介质
CN111783757A (zh) * 2020-06-01 2020-10-16 成都科大极智科技有限公司 一种基于ocr技术的复杂场景下身份证识别方法
CN111783761A (zh) * 2020-06-30 2020-10-16 苏州科达科技股份有限公司 证件文本的检测方法、装置及电子设备
CN111898601A (zh) * 2020-07-14 2020-11-06 浙江大华技术股份有限公司 一种身份证要素提取方法及装置
CN112016547A (zh) * 2020-08-20 2020-12-01 上海天壤智能科技有限公司 基于深度学习的图像文字识别方法、***及介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120281077A1 (en) * 2009-11-10 2012-11-08 Icar Vision Systems S L Method and system for reading and validating identity documents
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109934181A (zh) * 2019-03-18 2019-06-25 北京海益同展信息科技有限公司 文本识别方法、装置、设备和计算机可读介质
CN109961064A (zh) * 2019-03-20 2019-07-02 深圳市华付信息技术有限公司 身份证文本定位方法、装置、计算机设备及存储介质
CN110363199A (zh) * 2019-07-16 2019-10-22 济南浪潮高新科技投资发展有限公司 基于深度学习的证件图像文本识别方法及***
CN111639648A (zh) * 2020-05-26 2020-09-08 浙江大华技术股份有限公司 证件识别方法、装置、计算设备和存储介质
CN111783757A (zh) * 2020-06-01 2020-10-16 成都科大极智科技有限公司 一种基于ocr技术的复杂场景下身份证识别方法
CN111783761A (zh) * 2020-06-30 2020-10-16 苏州科达科技股份有限公司 证件文本的检测方法、装置及电子设备
CN111898601A (zh) * 2020-07-14 2020-11-06 浙江大华技术股份有限公司 一种身份证要素提取方法及装置
CN112016547A (zh) * 2020-08-20 2020-12-01 上海天壤智能科技有限公司 基于深度学习的图像文字识别方法、***及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒋冲宇 等: "基于神经网络的***文字检测与识别方法", 《武汉工程大学学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591657A (zh) * 2021-07-23 2021-11-02 京东科技控股股份有限公司 Ocr版面识别的方法、装置、电子设备及介质
CN113591657B (zh) * 2021-07-23 2024-04-09 京东科技控股股份有限公司 Ocr版面识别的方法、装置、电子设备及介质
CN113435449A (zh) * 2021-08-03 2021-09-24 全知科技(杭州)有限责任公司 基于深度学习的ocr图像文字识别与段落输出方法
CN113435449B (zh) * 2021-08-03 2023-08-22 全知科技(杭州)有限责任公司 基于深度学习的ocr图像文字识别与段落输出方法
CN113869313A (zh) * 2021-10-13 2021-12-31 广东金赋科技股份有限公司 一种图像背景过滤的信息识别方法及***
CN114332865A (zh) * 2022-03-11 2022-04-12 北京锐融天下科技股份有限公司 一种证件ocr识别方法及***
CN114708603A (zh) * 2022-05-25 2022-07-05 杭州咏柳科技有限公司 对医疗票据中关键信息的识别方法、***、设备和介质
CN115131806A (zh) * 2022-06-07 2022-09-30 福建极推科技有限公司 一种基于深度学习的各类证件ocr图像信息识别方法、***
CN115131806B (zh) * 2022-06-07 2023-10-31 福建极推科技有限公司 一种基于深度学习的各类证件ocr图像信息识别方法、***

Also Published As

Publication number Publication date
CN112926469B (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
CN112926469B (zh) 基于深度学习ocr与版面结构的证件识别方法
US10885644B2 (en) Detecting specified image identifiers on objects
WO2018010657A1 (zh) 结构化文本检测方法和***、计算设备
US7970213B1 (en) Method and system for improving the recognition of text in an image
CN109766885B (zh) 一种文字检测方法、装置、电子设备及存储介质
CN109255300B (zh) 票据信息提取方法、装置、计算机设备及存储介质
EP3940589B1 (en) Layout analysis method, electronic device and computer program product
WO2021051527A1 (zh) 基于图像分割的文字定位方法、装置、设备及存储介质
US20220108555A1 (en) Text line image splitting with different font sizes
US10628702B1 (en) Method of matching a query image to a template image and extracting information from the query image
CN112819004B (zh) 一种用于医疗票据ocr识别的图像预处理方法及***
CN111079571A (zh) 证卡信息识别及其边缘检测模型训练方法、装置
CN108154132A (zh) 一种身份证文字提取方法、***及设备和存储介质
CN113011426A (zh) 一种识别证件的方法和装置
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质
JP2009123206A (ja) 画像からテキストを抽出する方法及び装置
CN115171138A (zh) 一种身份证图片文本检测方法、***及设备
CN111738979A (zh) 证件图像质量自动检查方法及***
CN108992033B (zh) 一种视觉测试的评分装置、设备和存储介质
US11756321B2 (en) Information processing apparatus and non-transitory computer readable medium
CN111325106A (zh) 生成训练数据的方法及装置
JP3031579B2 (ja) 帳票の文字認識領域指定方法
CN113033380B (zh) 一种文本标注方法
US20220044048A1 (en) System and method to recognise characters from an image
CN109685074B (zh) 一种基于Scharr算子的银行卡***行定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant