CN113220878A

CN113220878A - 一种基于知识图谱的ocr识别结果分类方法

Info

Publication number: CN113220878A
Application number: CN202110490597.2A
Authority: CN
Inventors: 李向宁; 覃书农; 蔡宇旗; 廖永平; 肖凌峰; 李铭清; 赵君
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-08-06

Abstract

本发明公开了一种基于知识图谱的OCR识别结果分类方法，包括构建OCR识别结果知识图谱的本体；构建文本分类模型以及命名实体抽取模型，组成分类器；基于OCR识别结果和步骤S2中构建的分类器构建知识图谱。本发明根据特定领域内的文本分类信息构建本体，基于本体构建文本分类器，利用分类器提取OCR软件识别结果的类别和关键信息，构建文本知识图谱，从而达到OCR识别结果的自动多级分类和关键信息提取的目的。本发明能够实现OCR识别结果的自动多级分类和关键信息提取，解决了现有类似技术忽略了类别之间的层级关系，分类的细化程度不高的问题，以及只是将文本的类别信息提取并存储，忽略了文本中其他信息，不便于文本检索的问题。

Description

一种基于知识图谱的OCR识别结果分类方法

技术领域

本发明属于图像OCR(Optical Character Recognition，光学字符识别)技术领域，具体涉及一种基于知识图谱的OCR识别结果分类方法。

背景技术

OCR(Optical Character Recognition，光学字符识别)技术，是指用电子设备(例如扫描仪或数码相机)将纸质文档转换成为黑白点阵的图像文件，通过检测暗、亮的模式确定图像中字符的形状，然后用字符识别方法将形状翻译成计算机文字，供文字处理软件进一步编辑加工的技术。OCR软件指用OCR技术实现纸质文档电子化的软件，广泛应用于生产生活中的各个领域。

有OCR技术使用需求的单位和机构往往有着文本数量大、种类多的特点。为了便于文档电子化归档后的使用，用户需要将OCR软件的识别结果进行分类归档。现在OCR技术的实际应用中，用户大多采用人工分类的方法来对OCR识别结果进行分类。人工分类方法虽然技术难度低，但会耗费大量人力和时间。为此研究人员提出了基于深度学习的文本分类方法，使用大量的训练文本集训练文本分类模型，用模型代替人工实现文本的自动分类。如何实现更符合真实文本分类情况的自动分类，一直是OCR技术领域内的研究热点之一，并且已经有了许多相关研究成果。

已公开专利《基于深度学习和OCR的票据分类及票据字段提取方法》(申请公布号CN107633239A)通过深度学习模型对票据的公章外接矩形轮廓进行分类，进而得到票据的类型。

已公开专利《基于OCR与文本挖掘的机动车数字电子档案分类方法》(申请公布号CN110674332 A)采用建立电子档案表头数据库，通过比对待分类档案表头与电子档案表头数据库中数据的方法来确定电子档案的类别。

已公开专利《一种多级文本分类方法及***》(申请公布号：CN109902178A)通过将当前待分类的文本分别输入训练过的多个文本分类模型，计算各层文本的概率，选取概率大于设定阈值的第n层文本并对第n层文本对应的概率进行归一化处理，得到文本的分类结果。

现有的OCR识别结果分类方法主要分为两种：第一种是无层级的文本分类。第二种是通过复杂的算法和模型来构建复杂的多层级分类模型。两种方案都在一定程度上实现了OCR识别结果的自动分类，但这两种方案都存在不足：第一种忽略了类别之间的层级关系，分类的细化程度不高。第二种只是将文本的类别信息提取并存储，忽略了文本中其他的信息，不便于文本的检索。

发明内容

为解决现有技术的问题，本发明提供一种基于知识图谱的OCR识别结果分类方法。本发明根据特定领域内的文本分类信息构建本体，基于本体构建文本分类器，利用分类器提取OCR软件识别结果的类别和关键信息，利用这些信息构建文本知识图谱，从而达到OCR识别结果的自动多级分类和关键信息提取的目的。

一种基于知识图谱的OCR识别结果分类方法，包括以下步骤：

S1.构建OCR识别结果知识图谱的本体；

S2.构建文本分类模型以及命名实体抽取模型，组成分类器，包括：

S21.通过人工标注每个文本的类别构建文本分类模型的训练文本集和测试文本集；通过人工标注文本中所有的命名实体构建命名实体抽取模型的训练文本集和测试文本集；

S22.对文本分类模型的训练文本集和测试文本集进行文本特征提取，训练文本分类模型；训练命名实体抽取模型；

S23.组合文本分类模型和命名实体抽取模型，组成分类器；

S3.基于OCR识别结果和步骤S2中构建的分类器构建知识图谱。

优选的，所述步骤S1中，OCR识别结果知识图谱的本体，是对OCR识别结果的类型、属性以及类型和属性之间的关系的形式化描述。

优选的，所述步骤S1，包括以下步骤：

S11.确定OCR识别的目标文本领域，收集所述领域内文本的分类信息，包括各个类别名称、各类文本的属性名称；

S12.定义知识图谱本体中的概念，定义概念之间的层次，定义概念的属性；

S13.使用知识图谱本体建模工具对知识图谱本体进行编码和建模。

优选的，所述步骤S21中，人工标注的每个文本类别的名称在知识图谱的本体中都能找到同名类别，人工标注的每个命名实体的名称在知识图谱的本体中都能找到同名属性。

优选的，所述步骤S22中，文本特征提取是指，对本分类模型的训练文本集以及测试文本集进行分词、去停用词、词性标注后，使用包括TF-IDF算法、Word2Vec算法的文本特征提取算法将文本特征转换为向量的过程。

优选的，所述步骤S22中，文本分类模型是指能对OCR识别结果进行文本特征提取并根据特征对OCR识别结果进行分类的数学模型。

优选的，所述步骤S22中，命名实体抽取模型是指能识别出OCR识别结果中具有特定意义的实体，包括人名、地名、组织机构名、时间、日期、货币和百分比的数学模型。

优选的，所述步骤S22中，训练文本分类模型是指，使用文本特征提取的结果对包括FastText模型、TextCNN模型和TextRNN模型的机器学习模型进行训练的过程。

优选的，所述步骤S22中训练命名实体抽取模型是指，使用步骤21构建的命名实体抽取模型的训练文本集以及测试文本集对包括HMM模型、CRF模型和LSTM+CRF模型的机器学习模型进行训练的过程。

优选的，所述步骤S3，包括以下步骤：

S31.利用OCR软件识别待分类的文本影像，将影像转换为计算机可编辑文字；

S32.将转换得到的计算机可编辑文字输入到步骤S2所构建分类器中，得到待分类文本的类别信息和其它关键信息；

S33.将待分类文本的类别、属性、原始影像信息和计算机文字信息存储到数据库中。

相对于现有技术，本发明具有以下有益效果：

1.根据特定领域内的文本分类信息构建本体，基于本体构建文本分类器，利用分类器提取OCR软件识别结果的类别和关键信息，利用这些信息构建文本知识图谱，从而达到OCR识别结果的自动多级分类和关键信息提取的目的。

2.通过明确OCR识别的目标文本的领域，收集领域内文本的分类信息，进而定义本体中的概念，定义概念之间的层次，定义概念的属性，达到了层级化OCR识别结果类别的效果。

3.通过构建能识别出OCR识别结果中具有特定意义的实体，包括人名、地名、组织机构名、时间、日期、货币、百分比的数学模型，进一步地实现了OCR识别结果的关键信息提取，解决了现有技术只关注文本类别信息而忽略了文本其它信息的问题。

4.通过构建能对OCR识别结果进行文本特征提取并根据特征对OCR识别结果进行分类的数学模型，实现了OCR识别结果地自动分类。

5.通过人工标注每个文本的类别以及文本中所有的命名实体，使本发明的应用范围相比现有技术更加广泛。

6.通过提取待分类文本的类别信息和其它关键信息，并将待分类文本的类别、属性、原始影像信息、影像信息转换得到的计算机文字信息存储到数据库中，实现了OCR识别结果知识图谱的构建，进而达到使OCR识别结果的检索更加方便的效果。

7.

附图说明

图1为本发明方法的总体流程图；

图2为构建本体操作的流程图；

图3为构建分类器操作的流程图；

图4为构建知识图谱操作的流程图；

图5为本发明方法中的本体结构示意图；

图6为一张请假条的影像。

具体实施方式

以下结合附图和具体实施方式对本发明作具体的介绍。

如图1所示，本发明提供的一种基于知识图谱的OCR识别结果分类方法，包括以下步骤：

S1.构建OCR识别结果知识图谱的本体，如图2所示，具体包括以下步骤：

S11.明确目标文本的领域，收集领域内文本的分类信息，包括各个类别名称、文本的属性名称等。

S12.定义本体中的概念，定义概念之间的层次，定义概念的属性。属性和概念定义完毕后的本体结构示意图如图5所示。图5中A为文本分类所属领域，B1、B2、B3、B4、B5为领域A内第一层文本分类节点，C1、C2、C3、C4为类别B3的子类，D1，D2，D3，D4为子类C2的属性。

S13.使用本体建模工具Protege对本体进行建模，使用本体描述语言OWL语言对本体进行编码，使用开源语义网应用框架Jena的内嵌推理机对本体OWL编码结果进行逻辑检测，包括上下位推理、缺失类补全等。保证本体中的概念之间的上下位关系正确，概念的关系链完整。

S2.基于步骤S1中构建的本体构建文本分类模型以及命名实体抽取模型，组成分类器，如图3所示，具体包括以下步骤：

S21.通过人工标注每个文本的类别，构建文本分类模型的训练文本集以及测试文本集，人工标注每个文本的类别，按统一格式保存文本本身及其类别，标注类别的名称来源于上述步骤S1所构建的本体中的概念，文本特征提取的步骤后续用工具完成。

每个文本类别的名称在知识图谱的本体中都能找到同名类别，人工标注的每个命名实体的名称在知识图谱的本体中都能找到同名属性。

举例说明标注过程：{B2 text}表示文本“text”的类别为B2；构建命名实体抽取模型的训练文本集以及测试文本集，人工标注文本中所有的命名实体，按统一格式保存文本本身及其命名实体标注。举例说明标注过程：{word1 word2 word3},{D1 D2 D3}表示词语word1是属性D1，词语word2是属性D2，词语word3是属性D3。

S22.对文本分类模型的训练文本集以及测试文本集进行文本特征提取，训练文本分类模型。文本特征提取是指，对文本分类模型的训练文本集以及测试文本集进行分词、去停用词、词性标注后，使用包括TF-IDF算法、Word2Vec算法的文本特征提取算法将文本特征转换为向量的过程。文本分类模型是指能对OCR识别结果进行文本特征提取，并根据特征对OCR识别结果进行分类的数学模型。将标注好的训练集以及测试文本集输入到kashgari工具中的CNN_LSTM模型，此模型同时也执行了文本特征提取的步骤，经过训练得到文本分类模型；训练命名实体抽取模型。命名实体抽取模型是指能识别出OCR识别结果中具有特定意义的实体，包括人名、地名、组织机构名、时间、日期、货币和百分比的数学模型。训练命名实体抽取模型是指，使用步骤21构建的命名实体抽取模型的训练文本集以及测试文本集对包括HMM模型、CRF模型和LSTM+CRF模型的机器学习模型进行训练的过程。针对不同类别建立多个Bi-LSTM模型，将标注好的训练集以及测试文本集分别输入到对应模型中，经过训练得到命名实体抽取模型集合。

S23.组合文本分类模型和命名实体抽取模型，形成分类器。

S3.基于OCR识别结果和步骤S2中构建的分类器构建知识图谱，如图4所示，具体包括以下步骤：

S31.利用OCR软件识别如图6所示文本影像，将影像转换为计算机可编辑文字；

S32.将转换得到的计算机可编辑文字输入到步骤S2所构建分类器中，得到待分类文本的类别为“请假条”，同时得到待分类文本中属性“日期”、“请假人”、“时常”属性的属性值分别为“2013年3月3日，今年3月9日”、“XXX”、“两个月”。

S33.本体实例化，将待分类文本的类别、属性、原始影像的存储地址信息、影像信息转换得到的计算机文字的存储地址信息用OWL语言进行编码并存储到Neo4j数据库中，形成知识节点。

通过以上实施例可以确定，本发明提供一种基于知识图谱的OCR识别结果分类方法，痛过根据特定领域内的文本分类信息构建本体，基于本体构建文本分类器，利用分类器提取OCR软件识别结果的类别和关键信息，利用这些信息构建文本知识图谱，从而达到OCR识别结果的自动多级分类和关键信息提取的目的。

需要说明的是，上述实施例为一种优选实施方式，不应成为对本发明一种根据位置动态创建和解散群组方法的限制。专业技术人员可以进一步，结合本文中所公开的实施例描述的各示例的模块以及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现本发明。专业技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于知识图谱的OCR识别结果分类方法，其特征在于，包括以下步骤：

构建OCR识别结果的知识图谱的本体；

构建文本分类模型以及命名实体抽取模型，组成分类器，包括：

通过人工标注每个文本的类别，构建文本分类模型的训练文本集和测试文本集；通过人工标注文本中所有的命名实体，构建命名实体抽取模型的训练文本集和测试文本集；

对文本分类模型的训练文本集和测试文本集进行文本特征提取，训练文本分类模型；训练命名实体抽取模型；

组合文本分类模型和命名实体抽取模型，组成分类器；

基于OCR识别结果和构建的分类器构建知识图谱。

2.根据权利要求1所述的基于知识图谱的OCR识别结果分类方法，其特征在于，所述OCR识别结果的知识图谱的本体，是对OCR识别结果的类型、属性以及类型和属性之间的关系的形式化描述。

3.根据权利要求2所述的基于知识图谱的OCR识别结果分类方法，其特征在于，所述构建OCR识别结果的知识图谱的本体包括：

确定OCR识别的目标文本领域，收集所述领域内文本的分类信息，包括各个类别名称、各类文本的属性名称；

定义知识图谱本体中的概念，定义概念之间的层次，定义概念的属性；

使用知识图谱本体建模工具对知识图谱本体进行编码和建模。

4.根据权利要求1所述的基于知识图谱的OCR识别结果分类方法，其特征在于，所述人工标注的每个文本类别的名称在知识图谱的本体中都能找到同名类别，人工标注的每个命名实体的名称在知识图谱的本体中都能找到同名属性。

5.根据权利要求1所述的基于知识图谱的OCR识别结果分类方法，其特征在于，所述文本特征提取是指，对本分类模型的训练文本集以及测试文本集进行分词、去停用词、词性标注后，使用包括TF-IDF算法、Word2Vec算法的文本特征提取算法将文本特征转换为向量的过程。

6.根据权利要求1所述的基于知识图谱的OCR识别结果分类方法，其特征在于，所述文本分类模型是指能对OCR识别结果进行文本特征提取，并根据特征对OCR识别结果进行分类的数学模型。

7.根据权利要求1所述的基于知识图谱的OCR识别结果分类方法，其特征在于，所述命名实体抽取模型是指能识别出OCR识别结果中具有特定意义的实体，包括人名、地名、组织机构名、时间、日期、货币和百分比的数学模型。

8.根据权利要求1所述的基于知识图谱的OCR识别结果分类方法，其特征在于，所述训练文本分类模型是指，使用文本特征提取的结果对包括FastText模型、TextCNN模型和TextRNN模型的机器学习模型进行训练的过程。

9.根据权利要求1所述的基于知识图谱的OCR识别结果分类方法，其特征在于，所述训练命名实体抽取模型是指，使用构建的命名实体抽取模型的训练文本集以及测试文本集对包括HMM模型、CRF模型和LSTM+CRF模型的机器学习模型进行训练的过程。

10.根据权利要求1所述的基于知识图谱的OCR识别结果分类方法，其特征在于，所述组合文本分类模型和命名实体抽取模型，组成分类器，包括：

利用OCR软件识别待分类的文本影像，将影像转换为计算机可编辑文字；

将转换得到的计算机可编辑文字输入到步骤S2所构建分类器中，得到待分类文本的类别和属性；

将待分类文本的类别、属性、原始影像信息和计算机文字信息存储到数据库中。