CN112381086A

CN112381086A - 一种结构化输出图像文字识别结果的方法及装置

Info

Publication number: CN112381086A
Application number: CN202011229081.4A
Authority: CN
Inventors: 汪泰伸; 吴婷婷; 吴志鹏; 陈德意; 刘彩玲; 高志鹏; 赵建强
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-02-19

Abstract

本发明涉及一种结构化输出图像文字识别结果的方法及装置，该方法包括以下步骤：S1.利用光学字符识别算法(OCR)获取检测框位置信息；S2.构建带标注的关键字段数据集，其中，关键字段为待获取的信息类别；S3.设定锚定字段；S4.特征向量构建，将相对位置信息和相对宽高比用于特征向量生成；S5.训练优化分类器，用生成的特征向量对机器学习分类器进行训练和优化；S6.检测框分类，使用训练优化后的机器学习分类器对待识别图像的文字区域的检测框进行分类；S7.识别并输出结构化结果，具体地，识别检测框内的文字，并对识别后的文字进行关键信息匹配，将版式相近的文字字段校正输出，最终输出结构化结果数据。

Description

一种结构化输出图像文字识别结果的方法及装置

技术领域

本发明涉及文字识别技术领域，具体地涉及一种用于识别卡证信息的结构化输出图像文字识别结果的方法及装置。

背景技术

图像文字识别主要利用光学字符识别(OCR)技术对图像中文字进行识别提取为字符串，在后处理环节再对其进行编辑处理。通过OCR技术识别出的结果仅仅是一串可编辑的字符串，不包含任何结构化信息。对于结果往往需要建立一系列规则筛选各项从而录入，或直接人工录入两者在鲁棒性和效率上都劣势明显，前者无法建立一套完全的规则来进行各项信息的筛选，后者造成极大的人力成本的浪费。

近几年，随着物联网和移动互联网终端加速普及，常见的证件，银行卡和实体名片等等，通常会被拍照保存为图片形式，这使得卡证信息化管理需求日益凸显。目前常见卡证类的文字结构化方法主要有两种：一种是基于语法模式对字段进行信息归属的分类，该方法对卡证信息中的短语进行关键字标注，从一个或多个关键字来判断该短语所属的信息字段，主要使用正则匹配来完成，另一种是基于版面分析的方法，利用版面形式的统计规律，对文字区域间的邻接关系进行分析，预测出该文字区域的字段归属。常用的基于语法模式对字段进行信息归属的分类方法依赖于知识库的覆盖程度，对于多样化的姓名和企业名称无法保证效果；基于版面分析的方法对一些个性化排版的卡证处理存在一定的误差。因此，需要一种鲁棒性更好的结构化输出图像文字识别结果的方法来提升卡证信息化管理的效果。

发明内容

本发明旨在提供一种结构化输出图像文字识别结果的方法，以解决上述问题。为此，本发明采用的具体技术方案如下：

根据本发明的一方面，提供了一种结构化输出图像文字识别结果的方法，其包括以下步骤：

S1利用光学字符识别算法(OCR)获取检测框位置信息，具体地，对输入的图像利用OCR进行文字检测和识别，获取到文字区域的位置信息集合和文字集合，其中位置信息集合为文字区域的检测框的左上角顶点坐标及右下角顶点坐标所构成的集合；

S2.构建带标注的关键字段数据集，其中，关键字段为待获取的信息类别；

S3.设定锚定字段，具体地，根据不同输入数据设定锚定字段，构建锚定字段对应信息的数据列表，对文字识别结果进行锚定信息检索，并以其对应的文字区域的检测框作为锚定框，计算其它文字区域的检测框与锚定框的相对位置信息和相对宽高比，其中相对位置信息是指其它文字区域的检测框的右下角顶点与锚定框的左上角顶点的坐标差值；

S4.特征向量构建，将相对位置信息和相对宽高比用于特征向量生成；

S5.训练优化分类器，用生成的特征向量对机器学习分类器进行训练和优化；

S6.检测框分类，使用训练优化后的机器学习分类器对待识别图像的文字区域的检测框进行分类；

S7.识别并输出结构化结果，具体地，识别检测框内的文字，并对识别后的文字进行关键信息匹配，将版式相近的文字字段校正输出，最终输出结构化结果数据。

进一步地，机器学习分类器采用支持向量机分类器和随机森林分类器。

进一步地，随机森林分类器的决策树数目为10，袋外数据测试设置为True；以及向量机分类器的核函数设置为高斯径向基核函数，惩罚因子设置为90。

根据本发明的另一方面，提供了一种结构化输出图像文字识别结果的装置，其包括：

检测框位置信息获取模块，用于利用光学字符识别算法(OCR)获取检测框位置信息，具体地，对输入的图像利用光学字符识别算法(OCR)进行文字检测和识别，获取到文字区域的位置信息集合和文字集合，其中位置信息集合为文字区域的检测框的左上角顶点坐标及右下角顶点坐标所构成的集合；

关键字段数据集构建模块，用于构建带标注的关键字段数据集，其中，关键字段为待获取的信息类别；

锚定字段设定模块，用于设定锚定字段，具体地，根据不同输入数据设定锚定字段，构建锚定字段对应信息的数据列表，对文字识别结果进行锚定信息检索，并以其对应的文字区域的检测框作为锚定框，计算其它文字区域的检测框与锚定框的相对位置信息和相对宽高比，其中相对位置信息是指其它文字区域的检测框的右下角顶点与锚定框的左上角顶点的坐标差值；

特征向量构建模块，用于将相对位置信息和相对宽高比用于特征向量生成；

分类器训练优化模块，用于训练优化分类器，具体地，用生成的特征向量对机器学习分类器进行训练和优化；

检测框分类模块，用于使用训练优化后的机器学习分类器对待识别图像的文字区域的检测框进行分类；

识别输出模块，用于识别并输出结构化结果，具体地，识别检测框内的文字，并对识别后的文字进行关键信息匹配，将版式相近的文字字段校正输出，最终输出结构化结果数据。

本发明采用上述技术方案，具有的有益效果是：本发明使用的机器学习分类器，能够处理高维数据，并且泛化能力强，鲁棒性好。对于版面信息复杂且多样的卡证类图片，使用机器学习分类器并结合文字区域的检测框对OCR识别结果进行结构化处理，能够将图像文字识别后的文字信息进行准确地输出，为卡证信息化管理提供有效的解决方法。

附图说明

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

图1是本发明的方法流程图；

图2示出了待识别图像；

图3是采用本发明方法对图2所示的图像进行识别得到的特征向量；

图4是采用本发明方法对图2所示的图像进行识别的输出结果。

图5是本发明的装置方框图。

具体实施方式

现结合附图和具体实施方式对本发明进一步说明。

如图1所示，一种结构化输出图像文字识别结果的方法，其可包括以下步骤：

S1利用光学字符识别算法(OCR)获取检测框位置信息，具体地，对输入的图像利用OCR进行文字检测和识别，获取到文字区域的位置信息集合和文字集合，其中位置信息集合为文字区域的检测框的左上角顶点坐标及右下角顶点坐标所构成的集合。

S2.构建带标注的关键字段数据集，其中，关键字段为待获取的信息类别。

S3.设定锚定字段，具体地，根据不同输入数据设定锚定字段，构建锚定字段对应信息的数据列表，对文字识别结果进行锚定信息检索，并以其对应的文字区域的检测框作为锚定框，计算其它文字区域的检测框与锚定框的相对位置信息和相对宽高比，其中相对位置信息是指其它文字区域的检测框的右下角顶点与锚定框的左上角顶点的坐标差值。

S4.特征向量构建，将相对位置信息和相对宽高比用于特征向量生成。

S5.训练优化分类器，用生成的特征向量对机器学习分类器进行训练和优化；其中，机器学习分类器可以采用支持向量机分类器和随机森林分类器。

S6.检测框分类，使用训练优化后的机器学习分类器对待识别图像的文字区域的检测框进行分类。机器学习分类器进行关键字段分类步骤为：1)由关键字段检测框与锚定框计算得到特征向量，2)人工标注特征向量的类别并输入到机器学习分类器进行训练，使分类器可以区分不同的字段属于哪一类关键字段，3)对待检测框与锚定框进行特征向量的计算，并输入训练后的分类器进行分类。

下面以名片为例对本发明方法进行进一步说明。图2示出了待识别的名片图像，其识别和输出的具体过程如下：

(1)对输入的名片图像利用光学字符识别算法(OCR)进行文字检测和识别，获取到文字区域的位置信息(坐标)集合和文字集合，位置信息是指文字区域的检测框的左上角顶点坐标及右下角顶点坐标；

(2)构建带标注的关键字段数据集，名片数据的关键字段为：公司名、职位、手机、电话、邮箱、传真、地址和网址，以数字表示每个类别对其进行分类标注，例如分别用0、1、2、3、4、5、6、7、8进行标注；

(3)从预先构造的职位列表中查找匹配到名片识别结果中的职位字段的检测框，并以其作为锚定框，然后计算待分类检测框的右下角顶点与锚定框的左上角顶点的坐标差值x，y以及待分类检测框的宽高与锚定框的相对宽高比r_w，r_h；

(4)将以上计算得到的相对位置信息和相对宽高比用于特征向量生成[x,y,r_w,r_h]；

(5)将生成的特征向量用于训练和优化机器学习分类器，设定随机森林分类器的参数为：创建的决策树数目为10，袋外数据测试设置为True；设定支持向量机的参数为：核函数设置为径向基核函数，惩罚因子设置为90；

(6)使用训练优化后的机器学习分类器对名片图像中的文字区域检测框进行分类，分类结果如图3所示；

(7)对检测框区域的文字进行识别，对识别后的文字进行关键信息匹配，将版式相近的文字字段校正输出，最终输出结构化结果数据，如图4所示。

如图5所示，一种结构化输出图像文字识别结果的装置包括：

检测框位置信息获取模块100，用于利用光学字符识别算法(OCR)获取检测框位置信息，具体地，对输入的图像利用光学字符识别算法(OCR)进行文字检测和识别，获取到文字区域的位置信息集合和文字集合，其中位置信息集合为文字区域的检测框的左上角顶点坐标及右下角顶点坐标所构成的集合；

关键字段数据集构建模块200，用于构建带标注的关键字段数据集，其中，关键字段为待获取的信息类别；

锚定字段设定模块300，用于设定锚定字段，具体地，根据不同输入数据设定锚定字段，构建锚定字段对应信息的数据列表，对文字识别结果进行锚定信息检索，并以其对应的文字区域的检测框作为锚定框，计算其它文字区域的检测框与锚定框的相对位置信息和相对宽高比，其中相对位置信息是指其它文字区域的检测框的右下角顶点与锚定框的左上角顶点的坐标差值；

特征向量构建模块400，用于将相对位置信息和相对宽高比用于特征向量生成；

分类器训练优化模块500，用于训练优化分类器，具体地，用生成的特征向量对机器学习分类器进行训练和优化；

检测框分类模块600，用于使用训练优化后的机器学习分类器对待识别图像的文字区域的检测框进行分类；其中，机器学习分类器采用支持向量机分类器和随机森林分类器；支持向量机分类器和随机森林分类器的具体参数可以根据不同识别对象进行设置，例如，对于图2所示的名片图像识别，随机森林分类器的决策树数目为10，袋外数据测试设置为True；以及向量机分类器的核函数设置为高斯径向基核函数，惩罚因子设置为90；

以及识别输出模块700，用于识别并输出结构化结果，具体地，识别检测框内的文字，并对识别后的文字进行关键信息匹配，将版式相近的文字字段校正输出，最终输出结构化结果数据。

本发明将图像文字识别与机器学习方法应用到卡证信息结构化输出中，图像文字识别技术能够高效准确的对复杂场景下的文字进行提取和识别，对印刷体类的字符识别已发展的比较成熟，已有不少的商业应用案例，同时机器学习在经过大量数据积累并自动分析出规律后，形成具有一定泛化能力的决策方法，能对未知数据进行推断。本发明使用的机器学习分类器，能够处理高维数据，并且泛化能力强，鲁棒性好。对于版面信息复杂且多样的卡证类图片，使用机器学习分类器并结合文字区域的检测框对OCR识别结果进行结构化处理，能够将图像文字识别后的文字信息进行准确地输出，为卡证信息化管理提供有效的解决方法。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种结构化输出图像文字识别结果的方法，其特征在于，包括以下步骤：

S1.利用光学字符识别算法(OCR)获取检测框位置信息，具体地，对输入的图像利用OCR进行文字检测和识别，获取到文字区域的位置信息集合和文字集合，其中位置信息集合为文字区域的检测框的左上角顶点坐标及右下角顶点坐标所构成的集合；

2.如权利要求1所述的方法，其特征在于，机器学习分类器采用支持向量机分类器和随机森林分类器。

3.如权利要求2所述的方法，其特征在于，随机森林分类器的决策树数目为10，袋外数据测试设置为True；以及向量机分类器的核函数设置为高斯径向基核函数，惩罚因子设置为90。

4.一种结构化输出图像文字识别结果的装置，其特征在于，包括：

5.如权利要求4所述的装置，其特征在于，机器学习分类器采用支持向量机分类器和随机森林分类器。

6.如权利要求5所述的装置，其特征在于，随机森林分类器的决策树数目为10，袋外数据测试设置为True；以及向量机分类器的核函数设置为高斯径向基核函数，惩罚因子设置为90。