CN110826488B

CN110826488B - 一种针对电子文档的图像识别方法、装置及存储设备

Info

Publication number: CN110826488B
Application number: CN201911075895.4A
Authority: CN
Inventors: 李程
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2022-07-26
Anticipated expiration: 2039-11-06
Also published as: CN110826488A

Abstract

本发明公开了一种针对电子文档的图像识别方法、装置及计算机存储设备，首先对文档页面图像进行块分割，得到多个页面图像块；接着分别对所述多个页面图像块进行特征提取，得到对应的多个特征向量；进一步根据所述多个特征向量进行标注数据采样；再根据所述多个特征向量和采样得到的标注数据进行模型训练，得到预测模型；最后利用所述预测模型对所述多个页面图像块进行图像识别，得到目标预测图像。

Description

一种针对电子文档的图像识别方法、装置及存储设备

技术领域

本发明涉及电子文档应用技术，尤其涉及一种针对电子文档的图像识别方法、装置及计算机存储设备。

背景技术

随着计算机与网络技术的迅速发展，电子文档的应用越来越广泛，特别是PDF等格式的版式文档。目前，针对文档页面进行图像识别的方式主要包括基于XY树的全局递归切割算法和基于深度学习的物体检测算法。

然而，当前针对文档页面进行图像识别的以上方式存在如下种种缺陷：1)基于XY树的全局递归切割算法对于特定的版式(如表格，分割线)无法进行有效切割；2)主要根据投影的空白间隔进行分割，而以多大的间隔作为分割阈值全靠经验，因此块分割准确率低，且并未解决图像识别的问题；3)基于深度学习的物体检测算法(如YOLO算法)需要大量的训练数据，标注数据缺乏，且计算成本高昂。

发明内容

本发明实施例为了有效克服现有的针对文档页面进行图像识别所存在的种种问题，创造性地提供一种针对电子文档的图像识别方法、装置及计算机存储设备。

根据本发明实施例第一方面，提供一种针对电子文档的图像识别方法，该方法包括：对文档页面图像进行块分割，得到多个页面图像块；分别对所述多个页面图像块进行特征提取，得到对应的多个特征向量；根据所述多个特征向量进行标注数据采样；根据所述多个特征向量和采样得到的标注数据进行模型训练，得到预测模型；利用所述预测模型对所述多个页面图像块进行图像识别，得到目标预测图像。

根据本发明一实施方式，所述对文档页面图像进行块分割，得到多个页面图像块，包括：第一操作，获取文档页面图像的两个投影数组，所述两个投影数组分别包括所述文档页面图像在X轴和Y轴上的投影值；第二操作，对所述两个投影数组进行预处理；第三操作，根据预处理后的两个投影数组中间的空白位置对所述文档页面图像进行块分割，得到一次分割后的多个页面图像块。

根据本发明一实施方式，所述根据预处理后的两个投影数组中间的空白位置对所述文档页面图像进行块分割，包括：检测所述预处理后的两个投影数组中间是否存在空白；若存在空白，则据预处理后的两个投影数组中间的空白位置对所述文档页面图像进行块分割；若不存在空白，则结束块分割流程。

根据本发明一实施方式，所述对文档页面图像进行块分割，得到多个页面图像块，还包括：针对所述多个页面图像块中每一个页面图像块重复第一操作至第三操作，以得到多个N次分割后的页面图像块，N的取值为大于1的正整数。

根据本发明一实施方式，所述对所述两个投影数组进行预处理，包括：确定每个投影数组中所有数组元素的一个众数；在所述投影数组中每个数组元素对应值上减去所述众数；若存在减去所述众值后的数组元素对应值为负值，则将所述数组元素对应值记为零。

根据本发明一实施方式，所述分别对所述多个页面图像块进行特征提取，得到对应的多个特征向量，包括：针对所述多个页面图像块中每一个页面图像块进行特征提取，得到所述页面图像块的长、宽及在所述文档页面图像中的位置坐标；将所述页面图像块的长、宽及在所述文档页面图像中的位置坐标确定为对应的特征向量。

根据本发明实施例第二方面，还提供一种针对电子文档的图像识别装置，所述装置包括：块分割模块，用于对文档页面图像进行块分割，得到多个页面图像块；特征提取模块，用于分别对所述多个页面图像块进行特征提取，得到对应的多个特征向量；采样模块，用于根据所述多个向量进行标注数据采样；训练模块，用于根据所述多个特征向量和采样得到的标注数据进行模型训练，得到预测模型；预测识别模块，用于利用所述预测模型对所述多个页面图像块进行图像识别，得到目标预测图像。

根据本发明一实施方式，所述块分割模块包括：第一单元，用于获取文档页面图像的两个投影数组，所述两个投影数组分别包括所述文档页面图像在X轴和Y轴上的投影值；第二单元，用于对所述两个投影数组进行预处理；第三单元，用于根据预处理后的两个投影数组中间的空白位置对所述文档页面图像进行块分割，得到一次分割后的多个页面图像块。

根据本发明一实施方式，所述第三单元包括：检测子单元，用于检测所述预处理后的两个投影数组中间是否存在空白；块分割子单元，用于若存在空白，则据预处理后的两个投影数组中间的空白位置对所述文档页面图像进行块分割；若不存在空白，则结束块分割流程。

根据本发明一实施方式，所述块分割模块还用于，针对所述多个页面图像块中每一个页面图像块重复第一单元至第三单元的操作，以得到多个N次分割后的页面图像块，N的取值为大于1的正整数。

根据本发明一实施方式，所述第二单元具体用于，确定每个投影数组中所有数组元素的一个众数；在所述投影数组中每个数组元素对应值上减去所述众数；若存在减去所述众值后的数组元素对应值为负值，则将所述数组元素对应值记为零。

根据本发明一实施方式，所述特征提取模块具体用于，针对所述多个页面图像块中每一个页面图像块进行特征提取，得到所述页面图像块的长、宽及在所述文档页面图像中的位置坐标；将所述页面图像块的长、宽及在所述文档页面图像中的位置坐标确定为对应的特征向量。

根据本发明实施例第三方面，又提供一种计算机存储设备，所述存储设备包括一组计算机可执行指令，当所述指令被执行时用于执行上述任一项所述的针对电子文档的图像识别方法。

本发明实施例针对电子文档的图像识别方法、装置及计算机存储设备，首先对文档页面图像进行块分割，得到多个页面图像块；接着分别对所述多个页面图像块进行特征提取，得到对应的多个特征向量；进一步根据所述多个特征向量进行标注数据采样；之后根据所述多个特征向量和采样得到的标注数据进行模型训练，得到预测模型；最后利用所述预测模型对所述多个页面图像块进行图像识别，得到目标预测图像。如此，本发明在对文档页面图像进行块分割的基础上，基于页面图像块的特征向量进行标注数据的采样及模型训练的方式来进行图像识别。这样，相比于YOLO算法，该模型计算过程简单，且不需要太多标注数据，大大降低了图像预测成本。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本发明实施例针对电子文档的图像识别方法的实现流程示意图一；

图2示出了本发明实施例针对电子文档的图像识别方法的具体实现流程示意图二；

图3示出了本发明实施例针对电子文档的图像识别装置的组成结构示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

图1示出了本发明实施例针对电子文档的图像识别方法的实现流程示意图一；图2示出了本发明实施例针对电子文档的图像识别方法的具体实现流程示意图二。

参考图1，本发明实施例针对电子文档的图像识别方法包括：操作101，对文档页面图像进行块分割，得到多个页面图像块；操作102，分别对所述多个页面图像块进行特征提取，得到对应的多个特征向量；操作103，根据所述多个特征向量进行标注数据采样；操作104，根据所述多个特征向量和采样得到的标注数据进行模型训练，得到预测模型；操作105，利用所述预测模型对所述多个页面图像块进行图像识别，得到目标预测图像。

在操作101，参考图2，通过递归算法对文档页面图像进行块分割，得到多个页面图像块，具体包括：第一操作1011，获取文档页面图像的两个投影数组，所述两个投影数组分别包括所述文档页面图像在X轴和Y轴上的投影值；第二操作1012，对所述两个投影数组进行预处理；第三操作1013，根据预处理后的两个投影数组中间的空白位置对所述文档页面图像进行块分割，得到一次分割后的多个页面图像块。

具体地，在第一操作1011实现之前，首先对文档页面图像进行灰度处理，得到对应的灰度图像；再对灰度图像进行二值化，即将灰度值大于灰度阈值的取值为0，否则取值为1；进一步地，对而知话的举止分别在X轴和Y轴方向做投影，得到两个投影数组，分别对应X和Y方向的投影值。其中，在实际应用中，灰度阈值的取值可以为200。

在第二操作1012，确定每个投影数组中所有数组元素的一个众数；在所述投影数组中每个数组元素对应值上减去所述众数；若存在减去所述众值后的数组元素对应值为负值，则将所述数组元素对应值记为零(即若小于0，则取值为0)。其中，所述众数的取值通常为0，如果有表格或边框，则应该是表格线或边框的宽度。这样，本发明能够对于特定的版式(如表格，分割线)进行有效切割，从而提升块分割性能。

在第三操作1013，检测所述预处理后的两个投影数组中间是否存在空白；若存在空白，则据预处理后的两个投影数组中间的空白位置对所述文档页面图像进行块分割；若不存在空白，则结束块分割流程。

具体地，若投影数组中间有连续的空白则记录这些连续空白的位置，假设投影数组中有N段连续空白，则将此投影数组分成了N-1段，根据空白的位置对原始图像(即文档页面图像)进行块分割，得到N-1个页面图像块。这样，本发明块分割的空白间隔不再依靠经验，而是根据页面布局(如行间距间隔)进行有效块分割，因此大大提升块分割性能。

进一步地，在操作101，参考图2，还包括：针对所述多个页面图像块中每一个页面图像块重复第一操作1011至第三操作1013，以得到多个N次分割后的页面图像块，N的取值为大于1的正整数。

这样，本发明通过不断迭代操作101中的操作1011～1013，最终将原始图像(即文档页面图像)切割成不可再分割的页面图像块。本发明该递归算法切割出来的页面图像块组成一个树形结构，而现有技术中的基于规则的比较经典的基于XY树的全局递归切割算法生成的是一颗二叉树，因此本发明生成的子树大于等于2，因此能够有效提升块分割的性能和计算效率。

进一步地，在进行递归算法的块分割的基础上，继续操作102，首先针对所述多个页面图像块中每一个页面图像块进行特征提取，得到所述页面图像块的长、宽及在所述文档页面图像中的位置坐标；之后将所述页面图像块的长、宽及在所述文档页面图像中的位置坐标确定为对应的特征向量。

在操作103，根据所述多个特征向量进行标注数据采样，具体满足条件的采样图像块记为1，否则记为0。

在操作104～105，使用随机森林算法对所述多个特征向量和采样得到的标注数据进行拟合，训练模型；再利用训练得到的预测模型对操作101得到的页面图像块进行图像识别，从而得到最终想要的附图，即目标预测图像。

本发明实施例针对电子文档的图像识别方法，首先对文档页面图像进行块分割，得到多个页面图像块；接着分别对所述多个页面图像块进行特征提取，得到对应的多个特征向量；进一步根据所述多个特征向量进行标注数据采样；之后根据所述多个特征向量和采样得到的标注数据进行模型训练，得到预测模型；最后利用所述预测模型对所述多个页面图像块进行图像识别，得到目标预测图像。如此，本发明在对文档页面图像进行块分割的基础上，基于页面图像块的特征向量进行标注数据的采样及模型训练的方式来进行图像识别。在实际应用中，YOLO的标注数据量在几十万级，而本发明方法的标注数据量在几百到上千量级。这样，相比于YOLO算法，该模型计算过程简单，且不需要太多标注数据，大大降低了图像预测成本。而且本发明所提供的高效且准确的图像识别，能够为构建图像搜索搜索引擎奠定了很好的附图提取基础。

同样，基于如上文所述针对电子文档的图像识别方法，本发明实施例又提供一种计算机可读存储介质，所述计算机可读存储介质存储有程序，当所述程序被处理器执行时，使得所述处理器至少执行如下所述的操作步骤：操作101，对文档页面图像进行块分割，得到多个页面图像块；操作102，分别对所述多个页面图像块进行特征提取，得到对应的多个特征向量；根据所述多个特征向量进行标注数据采样；操作103，根据所述多个特征向量和采样得到的标注数据进行模型训练，得到预测模型；操作104，利用所述预测模型对所述多个页面图像块进行图像识别，得到目标预测图像。

进一步地，基于如上文所述针对电子文档的图像识别方法，本发明还提供一种针对电子文档的图像识别装置，如图3所示，所述装置30包括：块分割模块301，用于对文档页面图像进行块分割，得到多个页面图像块；特征提取模块302，用于分别对所述多个页面图像块进行特征提取，得到对应的多个特征向量；采样模块303，用于根据所述多个向量进行标注数据采样；训练模块304，用于根据所述多个特征向量和采样得到的标注数据进行模型训练，得到预测模型；预测识别模块305，用于利用所述预测模型对所述多个页面图像块进行图像识别，得到目标预测图像。

根据本发明一实施方式，块分割模块301包括：第一单元，用于获取文档页面图像的两个投影数组，所述两个投影数组分别包括所述文档页面图像在X轴和Y轴上的投影值；第二单元，用于对所述两个投影数组进行预处理；第三单元，用于根据预处理后的两个投影数组中间的空白位置对所述文档页面图像进行块分割，得到一次分割后的多个页面图像块。

根据本发明一实施方式，第三单元包括：检测子单元，用于检测所述预处理后的两个投影数组中间是否存在空白；块分割子单元，用于若存在空白，则据预处理后的两个投影数组中间的空白位置对所述文档页面图像进行块分割；若不存在空白，则结束块分割流程。

根据本发明一实施方式，块分割模块301还用于，针对所述多个页面图像块中每一个页面图像块重复第一单元至第三单元的操作，以得到多个N次分割后的页面图像块，N的取值为大于1的正整数。

根据本发明一实施方式，第二单元具体用于，确定每个投影数组中所有数组元素的一个众数；在所述投影数组中每个数组元素对应值上减去所述众数；若存在减去所述众值后的数组元素对应值为负值，则将所述数组元素对应值记为零。

根据本发明一实施方式，特征提取模块302具体用于，针对所述多个页面图像块中每一个页面图像块进行特征提取，得到所述页面图像块的长、宽及在所述文档页面图像中的位置坐标；将所述页面图像块的长、宽及在所述文档页面图像中的位置坐标确定为对应的特征向量。

这里需要指出的是：以上对针对图像识别装置实施例的描述，与前述图1和2所示的方法实施例的描述是类似的，具有同前述图1和2所示的方法实施例相似的有益效果，因此不做赘述。对于本发明图像识别装置实施例中未披露的技术细节，请参照本发明前述图1和2所示的方法实施例的描述而理解，为节约篇幅，因此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个装置，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以利用硬件的形式实现，也可以利用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种针对电子文档的图像识别方法，其特征在于，所述方法包括：

对文档页面图像进行块分割，得到多个页面图像块，包括：

第一操作，获取文档页面图像的两个投影数组，所述两个投影数组分别包括所述文档页面图像在X轴和Y轴上的投影值；

第二操作，对所述两个投影数组进行预处理；

第三操作，根据预处理后的两个投影数组中间的空白位置对所述文档页面图像进行块分割，得到一次分割后的多个页面图像块；

针对所述多个页面图像块中每一个页面图像块重复第一操作至第三操作，以得到多个N次分割后的页面图像块，N的取值为大于1的正整数；

所述对所述两个投影数组进行预处理，包括：

确定每个投影数组中所有数组元素的一个众数；

在所述投影数组中每个数组元素对应值上减去所述众数；

若存在减去所述众数后的数组元素对应值为负值，则将所述数组元素对应值记为零；

分别对所述多个页面图像块进行特征提取，得到对应的多个特征向量，包括：

针对所述多个页面图像块中每一个页面图像块进行特征提取，得到所述页面图像块的长、宽及在所述文档页面图像中的位置坐标；

将所述页面图像块的长、宽及在所述文档页面图像中的位置坐标确定为对应的特征向量；

根据所述多个特征向量进行标注数据采样；

根据所述多个特征向量和采样得到的标注数据进行模型训练，得到预测模型；

利用所述预测模型对所述多个页面图像块进行图像识别，得到目标预测图像。

2.根据权利要求1所述的方法，其特征在于，所述根据预处理后的两个投影数组中间的空白位置对所述文档页面图像进行块分割，包括：

检测所述预处理后的两个投影数组中间是否存在空白；

若存在空白，则据预处理后的两个投影数组中间的空白位置对所述文档页面图像进行块分割；

若不存在空白，则结束所述块分割流程。

3.一种针对电子文档的图像识别装置，其特征在于，所述装置包括：

块分割模块，用于对文档页面图像进行块分割，得到多个页面图像块；

所述块分割模块包括：

第一单元，用于获取文档页面图像的两个投影数组，所述两个投影数组分别包括所述文档页面图像在X轴和Y轴上的投影值；

第二单元，用于对所述两个投影数组进行预处理；

第三单元，用于根据预处理后的两个投影数组中间的空白位置对所述文档页面图像进行块分割，得到一次分割后的多个页面图像块；

所述块分割模块还用于，针对所述多个页面图像块中每一个页面图像块重复第一单元至第三单元的操作，以得到多个N次分割后的页面图像块，N的取值为大于1的正整数；

所述第二单元具体用于，确定每个投影数组中所有数组元素的一个众数；在所述投影数组中每个数组元素对应值上减去所述众数；若存在减去所述众数后的数组元素对应值为负值，则将所述数组元素对应值记为零；

特征提取模块，用于分别对所述多个页面图像块进行特征提取，得到对应的多个特征向量；

所述特征提取模块具体用于，针对所述多个页面图像块中每一个页面图像块进行特征提取，得到所述页面图像块的长、宽及在所述文档页面图像中的位置坐标；将所述页面图像块的长、宽及在所述文档页面图像中的位置坐标确定为对应的特征向量；

采样模块，用于根据所述多个特征向量进行标注数据采样；

训练模块，用于根据所述多个特征向量和采样得到的标注数据进行模型训练，得到预测模型；

预测识别模块，用于利用所述预测模型对所述多个页面图像块进行图像识别，得到目标预测图像。

4.根据权利要求3所述的装置，其特征在于，所述第三单元包括：

检测子单元，用于检测所述预处理后的两个投影数组中间是否存在空白；

块分割子单元，用于若存在空白，则据预处理后的两个投影数组中间的空白位置对所述文档页面图像进行块分割；若不存在空白，则结束所述块分割流程。

5.一种计算机存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求1至2任一项所述的针对电子文档的图像识别方法。