CN116758565A

CN116758565A - 一种基于决策树的ocr文本还原方法、设备及存储介质

Info

Publication number: CN116758565A
Application number: CN202311064174.XA
Authority: CN
Inventors: 刘法; 白建亮; 阎德劲; 郑大安; 雷文强; 向元新; 熊可欣; 袁焦; 丁栋威; 邓欣; 顾海燕; 奂锐; 谢明华; 孙国东
Original assignee: CETC 10 Research Institute
Current assignee: CETC 10 Research Institute
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-09-15
Anticipated expiration: 2043-08-23
Also published as: CN116758565B

Abstract

本发明提供了一种基于决策树的OCR文本还原方法、设备及存储介质，包括：对OCR识别的文本框进行预处理；提取文本框特征，并基于文本框特征构建决策树；根据决策树，对文本框进行分类与合并，还原文本原始布局。本发明针对OCR的识别结果进行后处理，通过应用决策树分析文本框的多项特征，识别文本框内容类别：如标题、章节、页码、段落等，然后进行分类与合并，以还原文本的原始布局，避免了OCR识别结果中的文本框被错误分类、排列或重叠的情况，解决了文本内容不连贯、文本的格式和布局容易错乱的问题。

Description

一种基于决策树的OCR文本还原方法、设备及存储介质

技术领域

本发明涉及文字识别技术领域，特别涉及一种基于决策树的OCR文本还原方法、设备及存储介质。

背景技术

为进一步提高文档信息的可访问性并方便管理，需要对文档进行文本内容识别，将图像和扫描图中的文本转换为可编辑、可搜索的文本。最早的文档识别技术就是基于OCR方法，它使用光学字符识别技术将文档中的文字提取出来。近年来，随着科学技术的快速发展，渐渐出现了基于深度学习的和基于计算机视觉的文档识别技术。基于深度学习的文档识别技术虽然在图像处理上有了显著进展，但需要大规模的数据集训练，并耗费大量的计算资源和时间。基于计算机视觉的文档识别技术在表格解析上已经被广泛应用，但它也需要消耗大量资源训练，并且对于特殊结构的表格仍可能发生解析错误或丢失部分信息。反观OCR技术具备较高的成熟度和稳定性，可用于多种类型文档，随着算法改进其识别结果准确度高，支持多种语言，还有许多商业和开源引擎可供选择。因此，当前OCR识别技术仍然是最常用的文档识别技术。

尽管OCR技术的识别准确性已经取得了显著的进步，但在文本较为复杂、模糊或扭曲的文本、低分辨率图像等具有挑战性的情况下，识别后的文本可能仍然无法完全保留原始文档的格式和布局，导致识别结果与原文不一致。这时后处理方法就会发挥作用：对于已知样式和模板的文档，可以根据样式规则和模板信息进行还原，但这种方法无法处理格式未知的文档。还可以通过自然语言处理技术，对OCR识别结果进行语义分析和实体识别，提取文本中的关键信息、命名实体、关系等，从而还原原始文档中的语义结构和信息，但这种方法需要耗费大量资源进行模型训练，还需要纳入特定领域的实体知识。所以，当前最常用的OCR文本后处理方法是文本布局分析法，通过分析OCR识别结果中文本块的相对位置关系，对多个文本框进行距离计算或聚类，来还原原始文档的布局结构。然而，目前许多文本布局分析法只关注了文本框的相对位置信息，却很少关注诸如字体、数字比例、特定关键字等其他特征。

针对现有研究情况，当前面向文档的OCR识别技术后处理方法有如下问题：

1.现有的后处理技术对所识别文本结构的还原能力较差，可能让文本被错误地分类或合并，影响识别结果地准确性和连续性；

2.缺乏对字体、数字比例、特定关键字等其他多种特征的关注。

发明内容

针对现有技术中存在的问题，提供了一种基于决策树的OCR文本还原方法、设备及存储介质，决策树分析文本框的多项特征，对文本框进行分类和合并，实现了文本还原，可以解决文本框被错误分类、排列或重叠的问题。

本发明采用的技术方案如下：一种基于决策树的OCR文本还原方法，包括：

对OCR识别的文本框进行预处理；

提取文本框特征，并基于文本框特征构建决策树；

根据决策树，对文本框进行分类与合并，还原文本原始布局。

进一步的，所述预处理包括：

对每个文本框进行编号，记录其初始内容；

将文本框的所有英文字符转换为小写；

去除文本框中的特殊字符。

进一步的，所述特殊字符包括非数字、非字母、非中文、非标点、非空格的字符。

进一步的，所述提取文本框特征过程包括：

提取每个文本框的字数、行数以及在整个文档中的位置；

提取每个文本框的长度、宽度以及字体；

提取每个文本框中数字比例、字母比例以及包含的关键字。

进一步的，所述关键字为能表示文本框内容的含义的关键字，例如“图1”，“表2”，“1.1”“2.1”等。这些关键字的格式由专家根据经验制定，可通过正则表达式来识别。

进一步的，所述构建决策树包括：

根节点：判断是否包含关键字；是则根据关键字类型对文本框分类，包括：

章节节点判断：根据文本框的宽度、字体、关键字数量，细分章节等级；

图表节点判断；根据文本框的字体、位置、关键字特征，确定所属图表；

否则直接根据文本框长度、宽度、字体、位置等对文本框进行分类；

标题节点判断：文本框宽度最宽，处于页面中最高位置；

页码节点判断：若包含关键字“页”“page”，则其余内容均为数字，若不包含关键字，则全为数字；长度小于一行，处于页面中最高或最低位置；

段落节点判断：根据数字比例以及字母比例特征，确定段落类型。

进一步的，所述分类与合并过程包括：

将所有文本框按照决策树进行分类；

根据文本框编号，复原每个文本框的初始内容以及位置排布；

对同一类别内位置相邻、字体一致、宽度相同的文本框进行合并。

本发明第二方面提出了一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器可执行所述计算机程序以实现上述的基于决策树的OCR文本还原方法。

本发明第三方面提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的基于决策树的OCR文本还原方法。

与现有技术相比，采用上述技术方案的有益效果为：本发明关注了文本框除位置外的多项特征，使用决策树对文本框进行分类再合并，避免了位置相近的文本框被错误分类的情况，能够基于文本的不同类别进行针对性还原。

附图说明

图1为本发明提出的基于决策树的OCR文本还原方法流程图。

图2为本发明一实施例中预处理流程图。

图3为本发明一实施例中特征提取流程图。

图4为本发明一实施例中决策树构建流程图。

图5为本发明一实施例中分类与合并流程图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

实施例1

OCR(optical character recognition，光学字符识别)算法将图像或扫描件中的文字识别为包含文本内容、长度、宽度、位置等特征的文本框，但还需要对文本框进行格式复原才能够流畅地阅读。由于现有的OCR识别过程中容易错误对文本框进行分类或合并，更多的只考虑位置特征而缺乏对更多其他特征的关注，为了解决这个问题，本发明实施例提出了一种基于决策树的OCR文本还原方法，针对OCR的识别结果进行后处理，通过应用决策树分析文本框的多项特征，对标题、章节、页码、段落和框图中的文本框进行分类与合并，以还原文本的原始布局，避免了OCR识别结果中的文本框被错误分类、排列或重叠的情况，解决了文本内容不连贯、文本的格式和布局容易错乱的问题。如图1所示，具体方案如下：

步骤S101、对OCR识别的文本框进行预处理。

如图2所示，在本实施例中，预处理主要包括：先对每个文本框进行编号，并记录初始内容，便于后续复原。

同时，将文本框中的所有英文字符转换为小写，并去除文本框中的特殊字符。通过该预处理过程，能够有效去除文本框中的干扰项，更准确提取文本框特征，提高文本框分类的准确性。

在一个实施例中，特殊字符为非数字、非字母、非中文、非标点、非空格的字符。

步骤S102、提取文本框特征，并基于文本框特征构建决策树。

如图3所示，为了对文本框进行分类合并，需要先提取文本框的各类特征，本实施例中，包括：

对于每个文本框，提取字数、行数以及在整个文档中的位置。

对于每个文本框，提取长度、宽度、字体；

对于每个文本框，提取数字比例、字母比例以及所包含的关键字。

需要说明的是，本实施例中关键字为能表示文本框内容的含义的关键字，例如“图1”，“表2”，“1.1”“2.1”等。这些关键字的格式由专家根据经验制定，可通过正则表达式来识别。

在确定文本框包含的特征之后，基于所提取的特征进一步建立决策树。具体过程如下：

如图4所示，本实施例中先统计整个文档中包括的关键字、字体类型，文本框的宽度区间等。

再根据统计结构构造决策树：

根节点：判断是否包含关键字（如：“图1”，“表2”，“1.1”“2.1”等），是则根据关键字类型对文本框进行分类，包括：

章节节点判断：根据文本框的宽度、字体、关键字数量等特征，进一步细分章节等级。

图表节点判断：根据字体、位置、关键字等特征，进一步确定属于哪个图表。

否则根据文本框长度、宽度、字体、位置等对文本框进行分类。

标题节点判断：文本框宽度最宽，位置通常在页面中最高，长度通常小于等于一行，不排除超过一行的情况。

页码节点判断：若不包含关键字，则为全数字；若包含“页”“page”这样的关键字，则除关键字外是全数字。长度小于一行，位置通常在页面中最低。

还包括，段落节点判断：根据数字比例、字母比例等特征，确定段落类型（如正文、引用等）。

步骤103、根据决策树，对文本框进行分类与合并，还原文本原始布局。

请参考图5，本实施例中，直接采用构造的决策树对所有文本框分类；再根据文本框编号，复原每个文本框的初始内容以及位置排布；对同一类别内位置相邻、字体一致、宽度相同的文本框进行合并。

本发明关注了文本框除位置外的多项特征（如：数字/字母比例、特定关键字等），再使用决策树对文本框进行分类再合并；避免了位置相近的文本框被错误分类的情况，能够基于文本的不同类别进行针对性还原。

实施例2

本实施例提出了一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器可执行所述计算机程序以实现实施例1所述的基于决策树的OCR文本还原方法。

其中，所述处理器可以是中央处理器（CPU，Central Processing Unit），还可以是其他通用处理器、数字信号处理器（digital signal processor）、专用集成电路（Application Specific Integrated Circuit）、现成可编程门阵列（Field programmablegate array）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的数据，实现发明中一种不同前端框架间的代码转换装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等。此外，存储器可以包括高速随机存取存储器、还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡，安全数字卡，闪存卡、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“***”。

实施例3

本实施例提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1所述的基于决策树的OCR文本还原方法。

计算机可读存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行***、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的***组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的***。

同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于决策树的OCR文本还原方法，其特征在于，包括：

对OCR识别的文本框进行预处理；

提取文本框特征，并基于文本框特征构建决策树；

2.根据权利要求1所述的基于决策树的OCR文本还原方法，其特征在于，所述预处理包括：

对每个文本框进行编号，记录其初始内容；

将文本框的所有英文字符转换为小写；

去除文本框中的特殊字符。

3.根据权利要求2所述的基于决策树的OCR文本还原方法，其特征在于，所述特殊字符包括非数字、非字母、非中文、非标点、非空格的字符。

4.根据权利要求2或3所述的基于决策树的OCR文本还原方法，其特征在于，所述提取文本框特征过程包括：

提取每个文本框的字数、行数以及在整个文档中的位置；

提取每个文本框的长度、宽度以及字体；

提取每个文本框中数字比例、字母比例以及包含的关键字。

5.根据权利要求4所述的基于决策树的OCR文本还原方法，其特征在于，所述关键字为能表示文本框内容的含义的关键字，通过正则表达式来识别。

6.根据权利要求4所述的基于决策树的OCR文本还原方法，其特征在于，所述构建决策树包括：

否则直接根据文本框长度、宽度、字体、位置对文本框进行分类；

标题节点判断：文本框宽度最宽，处于页面中最高位置；

段落节点判断：根据数字比例和字母比例特征，确定具体段落类型。

7.根据权利要求6所述的基于决策树的OCR文本还原方法，其特征在于，所述分类与合并过程包括：

将所有文本框按照决策树进行分类；

8.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器执行所述计算机程序以实现权利要求1-7任一所述的基于决策树的OCR文本还原方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的基于决策树的OCR文本还原方法。