CN109858037A

CN109858037A - 一种对ocr识别结果进行结构化输出的方法及***

Info

Publication number: CN109858037A
Application number: CN201910145824.0A
Authority: CN
Inventors: 闫铮; 杨恒杰
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2019-02-27
Filing date: 2019-02-27
Publication date: 2019-06-07

Abstract

本发明公开了一种对OCR识别结果进行结构化输出的方法及***，方法包括：使用OCR对获取的身份证图像进行识别，对识别结果进行处理获得文本序列；通过训练好的命名实体模型对所述文本序列进行命名实体识别，获得带标签的命名实体数据，输出对应的结构化文本。本发明一种对OCR识别结果进行结构化输出的方法及***，通过生成的大量的带标签的文本，训练得到命名实体识别模型，能够快速、高效地提取出OCR识别结果中的各个实体，得到结构化的输出，对身份信息的录入带来极大帮助。

Description

一种对OCR识别结果进行结构化输出的方法及***

技术领域

本发明涉及图像文字识别领域，具体涉及一种对OCR识别结果进行结构化输出的方法及***。

背景技术

OCR(Optical Character Recognition，光学字符识别)技术主要是将图像中的文字识别为可编辑的字符串。早期的OCR技术主要识别的是一些简单的文档图像，由于深度学习的发展，目前的OCR技术已经广泛应用于各种复杂场景下图像的文字识别。

近年来，随着制度的健全，越来越多的场合需要我们进行实名制，基于OCR技术的发展，通常我们仅需要拍摄或者上传含有身份证的图像即可，***利用OCR技术对图像进行识别，然后将识别出的结果进行录入。然而，OCR技术识别出的结果仅仅是一串可编辑的字符串，不包含任何结构化信息。对于结果往往需要建立一系列规则筛选各项从而录入，或者直接人工录入。前者鲁棒性很差，而且无法建立一套完全的规则来进行各项信息的筛选。后者效率低，造成极大的人力成本的浪费。此外，对于图片上文字处于同一水平方向的信息可能出现识别结果错位的情况。

发明内容

本发明的主要目的在于提出一种对OCR识别结果进行结构化输出的方法及***，能够快速、高效地提取出OCR识别结果中的各个命名实体，得到结构化的输出，对身份信息的录入带来极大帮助。

本发明采用如下技术方案：

一方面，本发明一种对OCR识别结果进行结构化输出的方法，包括：

使用OCR对获取的身份证图像进行识别，对识别结果进行处理获得文本序列；

通过训练好的命名实体模型对所述文本序列进行命名实体识别，获得带标签的命名实体数据，输出对应的结构化文本。

优选的，命名实体模型的训练方法，包括：

a)，生成若干带标签的样本文本序列；

每个样本文本序列包括姓名、性别、民族、出生、住址和公民身份号码的命名实体，分别为姓名实体、性别实体、民族实体、出生实体、住址实体和公民身份号码实体；每个样本文本序列还包括‘姓名’、‘性别’、‘民族’、‘出生’、‘住址’和‘公民身份号码’的文本项；其中，‘姓名’与姓名实体相对应，‘性别’与性别实体相对应，‘民族’与民族实体相对应，‘出生’与出生实体相对应，‘住址’与住址实体相对应，‘公民身份号码’与公民身份号码实体相对应；

每个文本项及每个命名实体起始部分的标签标注为B-entityName，每个文本项及每个命名实体其他部分的标签标注均为I-entityName；其中entityName为自定义的字符串；

b)，使用所述带标签的样本文本序列训练命名实体模型。

优选的，每个文本项的entityName及其对应的命名实体的entityName包括部分相同的字符串。

优选的，所述输出对应的结构化文本，具体为：

每一行输出一个所述文本项及其标签或一个所述命名实体及其标签；所述文本项与其对应的命名实体相邻，且所述文本项输出在其对应的命名实体的前一行。

优选的，所述命名实体模型为双向长短时记忆循环神经网络Bi-LSTM与条件随机场CRF相结合的模型。

第二方面，本发明一种对OCR识别结果进行结构化输出的***，包括：

OCR输出获取模块，用于使用OCR对获取的身份证图像进行识别，对识别结果进行处理获得文本序列；

结构化输出模块，用于通过训练好的命名实体模型对所述文本序列进行命名实体识别，获得带标签的命名实体数据，输出对应的结构化文本。

优选的，命名实体模型的训练方法，包括：

a)，生成若干带标签的样本文本序列；

b)，使用所述带标签的样本文本序列训练命名实体模型。

优选的，所述输出对应的结构化文本，具体为：

与现有技术相比，本发明的有益效果如下：

(1)本发明一种对OCR识别结果进行结构化输出的方法及***，通过对身份证信息的分析，设计了一套带标签的文本数据生成算法，可以生成大量的带标签的文本；

(2)本发明一种对OCR识别结果进行结构化输出的方法及***，通过生成的大量的带标签的文本，训练得到命名实体识别模型，能够快速、高效地提取出OCR识别结果中的各个实体，得到结构化的输出，对身份信息的录入带来极大帮助。

上述说明仅是本发明技术方案的概述，为了能够更清楚地了解本发明的技术手段，从而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下列举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述及其他目的、优点和特征。

附图说明

图1为本发明实施例的对OCR识别结果进行结构化输出的方法的流程图；

图2为本发明实施例的OCR输出的带错位的识别结果；

图3为本发明实施例的命名实体模型的输出；

图4为本发明实施例的结构化输出；

图5为本发明实施例的对OCR识别结果进行结构化输出的***的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步的详细描述。

参见图1所示，本发明一种对OCR识别结果进行结构化输出的方法，包括：

本实施例中，命名实体模型的训练方法，包括：

a)，生成若干带标签的样本文本序列；

每个文本项及每个命名实体起始部分的标签标注为B-entityName，每个文本项及每个命名实体其他部分的标签标注均为I-entityName，且标注的单位为字，即每个字都有一个标签；其中entityName为自定义的字符串；

b)，使用所述带标签的样本文本序列训练命名实体模型。

每个文本项的entityName及其对应的命名实体的entityName包括部分相同的字符串。

如‘姓名’起始部分的字‘姓’的标签标注为B-name，‘名’的标签标注为I-name，其对应的命名实体‘李明’起始部分的字‘李’的标签标注为B-e_name，‘明’的标签标注为I-e_name。

具体的，命名实体模型训练时，姓名实体、性别实体、民族实体、出生实体、住址实体和公民身份号码实体的生成规则如下。

姓名实体：采用姓氏加文字随机组合的方式生成，标签为B-e_name/I-e_name；此外，姓名的长度设置一定的限制，姓名长度设置一定的比例，如名字长度不超过4，姓名长度为2/3/4的比例为7:2:1等。

性别实体：男/女的比例为1:1,标签为B-e_gender/I-e_gender；

民族实体：范围为56个民族。标签为B-e_nation/I-e_nation；汉族与其他民族设置一定的比例，如8:2。

出生实体：出生年份的范围为从最近成年的年份向前推进若干年，例如当下为2018年，标签为B-e_birth/I-e_birth；

住址实体：根据全国省市行政区信息进行随机组合，标签为B-e_address/I-e_address。

公民身份号码实体：身份号码的前14位由住址以及出生年月日确定，后四位为数字随机组合,标签为B-e_idnum/I-e_idnum。

剩下的‘姓名’、‘性别’、‘民族’、‘出生’、‘住址’、‘公民身份号码’这几项分别标注为‘B-name/I-name’、‘B-gender/I-gender’、‘B-nation/I-nation’、‘B-birth/I-birth’、‘B-address/I-address’、‘B-idnum/I-idnum’。

此外，在命名实体模型训练时，还需通过一定的概率调换各个命名实体的顺序，增加生成样本数据的多样性。

参见图2所示，例如在身份证识别的时候，对于文字处于同一水平方向的信息会出现错位的情况，即我们识别出来的文字的顺序其实是根据文本框的位置直接得到的，这样根据这种文本框来确定各个实体就很不鲁棒，因此增加了这种调换命名实体(文字)顺序的样本来训练命名实体模型，增强了模型的鲁棒性，从而解决这种基于规则无法解决的问题。

根据上述命名实体生成规则和命名实体顺序调整后生成的带标签的文本数据参见图3所示。

进一步的，根据上述命名实体生成规则和/或命名实体顺序调整后生成若干份样本数据，然后将生成的数据送入所述的命名实体模型中进行训练，其中所述命名实体模型具体为双向长短时记忆循环神经网络(Bi-directional Long short-time Memory，Bi-LSTM)与条件随机场(condition random field)CRF相结合的模型。

所述命名实体模型训练好后，首先通过OCR识别身份证图像，然后对识别结果进行整合得到一个文本序列，整合后的文本序列如图2所示；再将所述文本训练直接送人训练好的命名实体模型进行命名实体识别，命名实体模型输出的结果如图3所示。

图2中，OCR识别中识别结果是根据文本框的位置来确定文字的顺序的，在OCR识别结果中，性别实体和民族实体由于文本框的检测出现了错位，即‘男’这一项的文本框比同一行的‘性别’和‘民族汉’的文本框要低。导致识别出的文字顺序也错位。

而图3的输出结果中，由于输出了标签标注，因此‘汉’可以被标识为B-e_nation(民族实体)，‘男’可以被标识为‘B-e_gender’(性别实体)。

参见图4所示，进一步的，可以根据对应的标签标识输出结构化的文本。

所述输出对应的结构化文本，具体为：

图4中，为便于显示将实体的标签替换为文字显示。即name(姓名)、e_name(姓名实体)、gender(性别)、e_gender(性别实体)、nation(民族)、e_nation(民族实体)、birth(出生)、e_birth(出生实体)、address(地址)、e_address(地址实体)、idnum(公民身份证号码)和e_idnum(身份证号码实体)。

参见图5所示，第二方面，本发明一种对OCR识别结果进行结构化输出的***，包括：

OCR输出获取模块501，用于使用OCR对获取的身份证图像进行识别，对识别结果进行处理获得文本序列；

结构化输出模块502，用于通过训练好的命名实体模型对所述文本序列进行命名实体识别，获得带标签的命名实体数据，输出对应的结构化文本。

本实施例中，命名实体模型的训练方法，包括：

a)，生成若干带标签的样本文本序列；

b)，使用所述带标签的样本文本序列训练命名实体模型。

所述输出对应的结构化文本，具体为：

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.一种对OCR识别结果进行结构化输出的方法，其特征在于，包括：

2.根据权利要求1所述的对OCR识别结果进行结构化输出的方法，其特征在于，命名实体模型的训练方法，包括：

a)，生成若干带标签的样本文本序列；

b)，使用所述带标签的样本文本序列训练命名实体模型。

3.根据权利要求2所述的对OCR识别结果进行结构化输出的方法，其特征在于，每个文本项的entityName及其对应的命名实体的entityName包括部分相同的字符串。

4.根据权利要求2所述的对OCR识别结果进行结构化输出的方法，其特征在于，所述输出对应的结构化文本，具体为：

每一行输出一个所述文本项及其标签或一个所述命名实体及其标签；所述文本项与其对应的命名实体互为相邻行，且所述文本项输出在其对应的命名实体的前一行。

5.根据权利要求1所述的对OCR识别结果进行结构化输出的方法，其特征在于，所述命名实体模型为双向长短时记忆循环神经网络Bi-LSTM与条件随机场CRF相结合的模型。

6.一种对OCR识别结果进行结构化输出的***，其特征在于，包括：

7.根据权利要求6所述的对OCR识别结果进行结构化输出的***，其特征在于，命名实体模型的训练方法，包括：

a)，生成若干带标签的样本文本序列；

b)，使用所述带标签的样本文本序列训练命名实体模型。

8.根据权利要求7所述的对OCR识别结果进行结构化输出的***，其特征在于，每个文本项的entityName及其对应的命名实体的entityName包括部分相同的字符串。

9.根据权利要求7所述的对OCR识别结果进行结构化输出的***，其特征在于，所述输出对应的结构化文本，具体为：

10.根据权利要求6所述的对OCR识别结果进行结构化输出的***，其特征在于，所述命名实体模型为双向长短时记忆循环神经网络Bi-LSTM与条件随机场CRF相结合的模型。