CN114005123B

CN114005123B - 一种印刷体文本版面数字化重建***及方法

Info

Publication number: CN114005123B
Application number: CN202111183851.0A
Authority: CN
Inventors: 马尽文
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2024-05-24
Anticipated expiration: 2041-10-11
Also published as: CN114005123A

Abstract

本发明公开了一种印刷体文本版面的数字化重建***及方法。所述***包括：版面语义分割模块，对输入的文本版面图像进行语义结构分析，按照不同的语义类型，将输入的文本版面图像分割成若干个语义块，实现不同语义块的分割与定位，所述语义块的类型包括文本块、表格块、公式块和插图块；OCR模块，用于识别和重建文本块或表格块中的文本；公式识别模块，用于识别公式块或表格块中的公式，进行公式的识别与重建；表格识别模块，用于对表格块进行表格结构和内容的识别和重建；组装模块，根据所述语义块的位置结构信息，将这些语义块的识别与重建结果进行组装与合成，输出完整的HTML格式的文本版面，实现文本版面图像的数字化重建。

Description

一种印刷体文本版面数字化重建***及方法

技术领域

本发明涉及一种印刷体文本版面数字化重建***及方法。

背景技术

随着大数据及人工智能技术的快速发展，大批量印刷体文本材料需要进行数字化，以用于建立可供检索***和机器学习的数据集。但是目前现有技术中还不存在全自动的文本版面图像数字化的方法和***，只能进行人工或半自动的人工操作。

文本版面图像的内容理解和识别是许多人工智能技术的数据来源，也是文档和书籍的数字化保存的必由之路，有着广泛的应用市场。现有技术中已经有大量开源或付费的OCR(Optical Character Recognition，光学字符识别)文字识别***。这些***能够对扫描图像的文本达到很高的识别准确率，但对于文字的位置无法确定和复现，只能将其挤压存放在一起。

另外，这些***对于公式、表格和插图无法识别和重建，只能得到一些零散的文字与符号。因此，目前的OCR***无法实现文本版面图像的全自动数字化转换。在实际操作中，许多文本版面的数字化转换是靠人工操作来识别和重建的，需要耗费了大量的人力资源，成本巨大，而且效率低下。为了提高工作效率，现在也出现了半自动的操作方式，即通过对于文本版面图像进行人工分析和处理来帮助检测出文本和其它不同性质的结构区域。

根据目前的OCR技术和版面分析方面的结果，OCR及其应用***能够对于固定结构的文本版面(如***、证书等)进行识别和重建，或者仅仅对文字进行识别或提取，但却无法对普通印刷体文本版面图像进行全自动的结构发现和整体数字化重建。

发明内容

术语解释：

HTML文件：超文本标记语言或超文本链接标示语言(标准通用标记语言下的一个应用)HTML(HyperText Mark-up Language)是一种制作万维网页面的标准语言,是万维网浏览器使用的一种语言,它消除了不同计算机之间信息交流的障碍。HTML文件能够转换为word文件或通过word编辑器进行编辑处理。

本发明的目的在于提供一种印刷体文本版面数字化重建***及方法来实现对印刷体文本版面图像的全自动数字化重建。

本发明应用场景：应用于需要将普通印刷体文本材料(如科技论文、年鉴、图书、报表等)的电子扫描图像(例如JPG文件等)进行数字化转换，形成可检索和编辑的HTML文件。

本发明实施例提供一种印刷体文本版面数字化重建***，所述***包括：

版面语义分割模块，用于对输入的文本版面图像进行语义结构分析，按照不同的语义类型，将输入的文本版面图像分割成若干个语义块，实现不同语义块的分割与定位，所述语义块的类型包括文本块、表格块、公式块和插图块；

OCR模块，用于识别和重建文本块或表格块中的文本；

公式识别模块，用于识别公式块或表格块中的公式，进行公式的识别与重建，识别出公式的结构和符号，输出能够生成和表示公式的Latex程序或字符串，并转换成相应的HTML文件；

表格识别模块，用于对表格块进行表格的识别和重建，所述表格识别模块包括表格结构识别单元和单元格内容识别单元，其中，所述表格结构识别单元定位单元格的位置以及解析单元格的行列结构，所述单元格内容识别单元调用所述OCR模块和/或公式识别模块，识别与重建每个单元格中的文本与公式；

组装模块，根据所述语义块的位置结构信息，将文本块、公式快和表格块的识别与重建结果进行组装与合成，插图块直接组装，输出完整的HTML格式的文本版面，实现数字化重建。

优选地，所述版面语义分割模块包括：

版面基础区块分割单元，其将所述文本版面图像分割为若干个基础区块；

深度语义分割单元，其基于深度语义分割神经网络确定每个基础区块的语义类型；

语义块归并单元，其基于深度语义分割单元的处理结果对相邻的相同语义类型基础区块进行归并，并对归并后语义块进行定位。

优选地，所述版面基础区块分割单元对输入的文本版面图像进行下述处理：

(1)在水平方向对文本版面图像进行平滑：若同一行的像素点中，两个黑色像素点之游程中的白色游程的像素点个数小于设定的水平方向阈值时，将该白色游程的像素点修改为黑色像素，即达到平滑为黑色的目的；否则保持原来的颜色不变，依此得到水平游程平滑图像；

(2)在垂直方向对文本版面图像进行平滑：若同一列的像素点中，两个黑色像素点游程之间的白色游程像素点个数小于设定的垂直方向阈值时，将该白色游程的像素点修改为黑色像素，即达到平滑为黑色的目的；否则保持原来的颜色不变，依此得到垂直游程平滑图像；

(3)对水平游程平滑图像与垂直游程平滑图像做与运算(AND运算)，得到若干个分块连通的分割图像；将每个分块连通的分割图像作为基础区块，并用外接矩形框来定义基础区块的边界。

优选地，所述水平阈值和垂直阈值根据字符宽度、字符横向间距、文本行高、和/或文本行间距来选取。

例如，水平方向平滑阈值设置为对应6像素点；垂直水平平滑阈值设置为对应2像素点。

再例如，水平方向阈值设置为对应0.5倍的字符宽度+字符横向间距；竖直方向阈值设置为对应0.5倍的文本行高+文本行间距，其中，字符大小按照例如5号字计算，行间距按照单倍行距计算，横向间距按照标准间隔计算。一个文本块可以只包括一行文本，也可以设置为包含更多行的文本。

优选地，所述深度语义分割单元采用的深度语义分割神经网络由五个卷积层模块组成，

第一个卷积层模块使用步长为2的7*7的卷积提取上下文特征，输出特征图的通道数为64，高度和宽度缩减为原图的二分之一；其余四个卷积层模块都是由多个具有瓶颈结构的残差模块构成；

第二个卷积层模块和第三个卷积层模块输出的特征图的高度和宽度均为输入的二分之一；

第四个卷积层模块和第五个卷积层模块分别采用扩张率为2和4的空洞卷积代替传统卷积。

优选地，人工标注多幅文本版面图像的语义分割结果，用深度语义分割神经网络的参数训练；

考虑到像素级别的标注成本过高，仅对每个区块指定一个矩形边界框和一个语义类别，将矩形边界框内的所有像素点赋为同一语义类别；

在参数训练中，损失函数选取标准的交叉熵损失函数，并采用随机梯度下降算法更新网络参数；通过在数据集上训练和优化，得到深度语义分割神经网络的最终参数；

在预测时(即在利用最终参数进行实际处理时)，当输入一幅文本版面图像后，深度语义分割神经网络输出语义类别热图，预测出各像素点的语义分类结果，对于区块级别的分类结果，则根据区块内所有像素点的分类结果，采用多数投票算法来确定区块的语义类别。

优选地，所述语义块归并单元对相同类型同类别的基础区块进行合并，合并时采用下述规则，

(1)插图类基础区块、表格类基础区块的合并规则：如果两个同类矩形框的水平距离和垂直距离均小于设定阈值，则进行合并，这一操作可递归的进行，直到没有满足合并条件的矩形框为止；

(2)文本类基础区块、公式类基础区块的合并规则：如果两个同类矩形框的高度接近，且两个矩形框处于同一水平线上，则进行合并；对于多栏版面，为了防止不同栏之间文本行的合并，利用投影法找出版面的中轴线，在合并时规定不能跨过中轴线。

优选地，所述公式识别模块包括字符识别单元和结构识别单元，

所述字符识别单元利用连通区域分析得到分割出的字符图像(即是一幅单个字符的图像)，利用卷积神经网络识别出各个字符，并完成字符顺序排列；

所述结构识别单元基于生成连接树算法实现公式的结构识别，即将所识别出的字符依次按照其位置信息进行树形结构连接，将公式表达为图论中的一个树，达到识别和重建的目的；其中，对于大型结构性符号，通过递归的形式进行多层次识别。

优选地，所述OCR模块包含文字行提取单元和文字识别网络单元，

所述文字行提取单元根据图像水平方向的投影信息提取文本行，再将文本行依次送入文字识别网络单元，识别出文字内容。

本发明的实施例还提供一种印刷体文本版面数字化重建方法，所述方法包括：

步骤S1，版面语义分割步骤，对输入的文本版面图像进行语义结构分析，按照不同的语义类型，将输入的文本版面图像分割成若干个语义块，实现不同语义块的分割与定位，所述语义块的类型包括文本块、表格块、公式块和插图块；

步骤S2，文本块识别步骤，调用OCR模块对文本块进行文本识别和重建；

步骤S3，表格块识别步骤，对表格块进行表格的识别和重建，所述表格识别步骤包括表格结构识别子步骤和单元格内容识别子步骤，其中，所述表格结构识别子步骤定位单元格的位置以及解析单元格的行列结构，所述单元格内容识别子步骤则对单元格图像进行文本识别和/或公式识别；

步骤S4，公式块识别步骤，对公式块进行公式的识别与重建，识别出公式的结构和符号，输出能够生成和表示公式的Latex程序或字符串，并转换成相应的HTML文件；Latex程序是公式编写语言，即当公式识别后就可转换成Latex语言，一种特定的字符串，然后再通过一种编译工具形成HTML文件，

步骤S5，组装步骤，根据所述语义块的位置结构信息，将文本块、公式块和表格块的识别与重建结果进行组装与合成，插图块直接组装，输出完整的HTML格式的文本版面，实现数字化重建。

本发明采用以印刷体文本版面语义分割为核心的处理方式，提出了可行的普通印刷体文本版面全自动数字化重建***。通过语义分割有效地发现了版面内容的结构，使得该***突破了印刷体文本版面图像数字化的难题，开辟了一项全新的数字化技术。

附图说明

图1示出印刷体文本版面数字化重建***的信息流程。

图2示出版面语义分割模块的工作流程模型框架。

图3示出深度语义分割神经网络的工作流程。

图4a-4f为版面语义分割模块的输出结果展示，其中，图4a示出原图；

图4b示出预测结果可视化(热图)；图4c示出真实标注可视化；图4d示出平滑后基础区块的二值图；图4e示出预测热图外接矩形框；图4f示出利用基础区块和预测热图进行归并后的语义块结果。

图5示出表格结构识别模块的工作流程模型框架。

图6为表格结构模块识别的处理结果示例。

图7示出公式识别模块的工作流程模型框架。

图8a-8c为公式识别模块的处理过程示例，其中，图8a示出原公式；图8b示出字符串；图8c示出重建后的结果。

具体实施方式

下面结合附图对本发明的实施例进行详细说明。

普通印刷体文本版面包括文字、表格、公式、插图等元素，其位置不确定的，形式多样。目前还没有任何***能够对文本版面图像做到保持结构和内容不变的数字化重建。

本发明采用机器学习和模型识别方法建立了一种普通印刷体文本版面全自动数字化重建***。本发明将语义分割技术应用于印刷体版面图像的结构分析与挖掘，形成了文本、表格、公式和插图块，然后针对这些语义块分别进行文本、表格、公式和插图的识别与重建，最后将这些识别结果根据其位置信息进行整体组装得到全文本版面图像的HTML文件，达到数字化的目标。

据图1所示的信息流程和技术方案，本发明实施例的普通印刷体文本版面全自动数字化重建***和方法对输入的文本版面图像(例如JPG文件等)首先进行语义分割，达到对不同语义的内容块精准定位的目的。

版面中的语义块的类型主要包括文本、表格、公式和插图。在实际应用中，还可进行更细致的划分，如页眉、页脚、标题、图题、标题等。进一步而言，页眉、页脚、标题、图题、标题等也可以作为一种文本块。

然后，本发明实施例的***和方法对于不同类型的语义块进行识别和重建。具体地，可以根据需求仅仅进行语义上的重建，也可以进行语义和文字格式上的完全重建。

最后，本发明实施例的***和方法再根据语义块的定位(在版面图像中的位置)、并根据各个语义块的识别和重建结果或信息，来进行整体组装，并形成全文本版面图像的数字化重建版面，即形成HTML文件。

具体地，根据本发明一实施例的印刷体文本版面的数字化重建***包括下述模块。

一、版面语义分割模块，用于对输入的文本版面图像进行语义结构分析，按照不同的语义类型，将输入的文本版面图像分割成若干个语义块，实现不同语义块的分割与定位，所述语义块的类型包括文本块、表格块、公式块和插图块；

二、OCR模块，用于识别和重建文本块或表格块中的文本；

三、公式识别模块，用于识别公式块或表格块中的公式，进行公式的识别与重建，识别出公式的结构和符号，输出能够生成和表示公式的Latex程序或字符串，并转换成相应的HTML文件；

四、表格识别模块，用于对表格块进行表格的识别和重建，所述表格识别模块包括表格结构识别单元和单元格内容识别单元，其中，所述表格结构识别单元定位单元格的位置以及解析单元格的行列结构，所述单元格内容识别单元调用所述OCR模块和/或公式识别模块，识别与重建每个单元格中的文本与公式；

五、组装模块，根据所述语义块的位置结构信息，将文本块、公式快和表格块的识别与重建结果进行组装与合成，插图块直接组装，输出完整的HTML格式的文本版面，实现数字化重建。

具体地，根据本发明一实施例的印刷体文本版面数字化重建方法包括下述步骤。

步骤S1，版面语义分割步骤，对输入的文本版面图像进行语义结构分析，按照不同的语义类型，将输入的文本版面图像分割成若干个语义块，实现不同语义块的分割与定位，所述语义块的语义类型包括文本块、表格块、公式块和插图块；

步骤S3，表格块识别步骤，对表格块进行表格的识别和重建，所述表格识别步骤包括表格结构识别子步骤和单元格内容识别子步骤，其中，所述表格结构识别子步骤定位单元格的位置以及解析单元格的行列结构，所述单元格内容识别子步骤则对每个单元格图像进行文本识别和/或公式识别；

步骤S4，公式块识别步骤，对公式块进行公式的识别与重建，识别出公式的结构和符号，输出能够生成和表示公式的Latex程序或字符串，并转换成相应的HTML文件；

可以理解的是，上述的步骤S2、S3和S4不是必须按照步骤S2、S3和S4的顺序来执行，而是可以同步执行，或者按照任意的顺序来执行。上述的步骤编号是为了便于阅读而进行的，并非意指必须按照该顺序来执行。

下面详细介绍版面语义分割模块的设计和性能，并简要介绍其它功能模块的设计和性能。

一、版面语义分割模块

发明人注意到，在普通印刷体文本材料(主要指图书、杂志、年鉴、报表等)中，一幅印刷体文本版面图像是由文字、表格、公式、插图四种基本元素所组成。它们在图像中占有不同的区域(或者说处于不同的位置)，表现为不同的语义元素，构成了版面的语义结构。

本发明的***与方法首先对版面图像进行语义结构分析，按照不同的语义类型，将版面分割成若干个语义块(如文字、公式、表格、图像等)。版面语义分割模块能够实现不同语义区块的分割与定位，以便将这些语义块送入到相应语义的识别与重建模块进行处理。需要指出的是，对于插图块不进行识别与重建。

版面语义分割模块的工作流程模型框架如图2所示。版面语义分割模块的工作流程包括三个处理过程：1、RLSA(Run Length Smoothing Algorithm，游程平滑算法)对版面图像的基础块状分割；2、基于DeepLab深度语义分割网络的版面图像的像素点级语义分割；3、基于DeepLab语义分割结果指导的对RLSA块状结构的归并和处理，达到对版面图像的精准语义分割和语义块定位。

相应地，所述版面语义分割模块包括：

1、版面基础区块分割单元，其将所述文本版面图像分割为若干个基础区块；

2、深度语义分割单元，其基于深度语义分割神经网络确定每个基础区块的语义类型；

3、语义块归并单元，其基于深度语义分割单元的处理结果对相邻的相同语义类型基础区块进行归并，并对归并后语义块进行定位。

下面对所述版面语义分割模块的这三个处理过程或三个单元分别进行描述。

1、RLSA版面自动块状分割(版面基础区块分割单元)

游程平滑算法的基本思想是对黑白二值图像中每行(或列)的像素点进行检测，当两个黑色像素点(像素值为0，对应着版面表示)间游程的白色像素点(像素值为1，对应着空白背景)之个数小于设定好的阈值时，就把这些白色像素点改变为黑色像素点。

在版面分析中，RLSA的算法实现过程如下：

(1)在水平方向对原始文本版面图像进行平滑。若同一行的像素点中，两个黑色像素点之游程中的白色游程的像素点个数小于设定的水平方向阈值时，将该白色游程的像素点修改为黑色像素，即达到平滑为黑色的目的；否则保持原来的颜色不变。依此得到水平游程平滑图像。

(2)在垂直方向对原始文本版面图像进行类似的平滑。若同一列的像素点中，两个黑色像素点游程之间的白色游程像素点个数小于设定的垂直方向阈值时，将该白色游程的像素点修改为黑色像素，即达到平滑为黑色的目的；否则保持原来的颜色不变。依此得到垂直游程平滑图像。

(3)根据实际需要，对水平游程平滑图像与垂直游程平滑图像做与(AND)运算，便得到了分块连通(黑色)的分割图像。将这些分割出来的连通区域作为基础语义区块，并用外接矩形框来定义其边界。这里采用矩形而不是其他形状来定义语义块的原因有两点：一是这样便于操作，且能够完全包含实际的语义区域；二是由于版面分析接下来要进行各语义块的识别和重建，而这些识别和重建***所要求的输入图像是矩形的。

RLSA算法中两个关键的参数是水平方向阈值(水平平滑阈值)和垂直方向阈值(垂直平滑阈值)，不同大小的阈值会对结果产生较大影响。在本发明中，为了避免不同语义块的交叉或嵌套,阈值通常取一个较小的数。

在本发明的实施例中，可根据实际数据的特点来进行确定和选择。例如，所述水平方向阈值和垂直方向阈值根据字符宽度、字符横向间距、文本行高、和/或文本行间距来选取。

在一个实施例中，水平方向平滑阈值设置为小于等于12像素点而大于2像素点，例如6像素点；垂直水平平滑阈值设置为小于等于6像素点而大于等于2像素点，例如设置为2像素点。

在另一个示例实施例，再例如，水平方向阈值设置为小于等于0.5倍的字符宽度+0.5倍字符横向间距(对应于相应的像素点)，例如，0.3倍的字符宽度+0.3倍字符横向间距，或者倍数取0.2倍或更小的值。竖直方向阈值设置小于等于0.5倍的文本行高+0.5倍文本行间距(对应于相应的像素点)，例如，0.3倍的文本行高+0.3倍文本行间距，或者倍数取0.2倍或更小的值。其中，字符大小可以按照例如设定字号的字符来计算，如5号字计算，或者按照正文部分的字符大小计算；行间距按照单倍行距计算，或者按照正文部分的行距计算；横向间距按照标准间隔计算，或者按照正文部分的横向字符间距计算。一个文本块可以只包括一行文本，也可以设置为包含更多行的文本。有利的是，在本发明的一个实施例中，文本块仅仅包括一个文本行。从而，简化识别过程。水平方向平滑阈值和垂直水平平滑阈值有利地设置为不小于2像素点。

2、深度语义分割(深度语义分割单元)

采用RLSA得到基础区块后，下一步便是如何确定每个基础区块的语义类别。传统算法通常使用人工设计的特征(如连通区域的高宽、灰度直方图、纹理特征等)进行语义分类。然而，这种手工设计的特征的方法具有很大的局限性，难于应对复杂多样的版面形式。

本发明的深度语义分割单元采用了基于深度学习框架的语义分割模型，例如采用DeepLab，借助深度学习强大的学习能力，采用特定标注的数据集来训练网络的参数，使其能够对任意给定的文本版面图像有效地预测出各像素点的语义类别。

DeepLab是谷歌使用tensorflow基于CNN开发的语义分割模型，至今已更新4个版本。最新版本是DeepLabv3+，在此模型中能够进一步将深度可分离卷积应用到孔空间金字塔池化和解码器模块，从而形成更快，更强大的语义分割编码器-解码器网络。

在本发明的一个实施例中，所述深度语义分割单元采用的深度语义分割神经网络由五个卷积层模块组成：

第四个卷积层模块和第五个卷积层模块分别采用扩张率为2和4的空洞卷积。

在一个实施例中，更具体地，第一个模块Conv_1使用步长为2的7*7的卷积提取上下文特征，输出特征图的通道数为64，高度和宽度缩减为原图的二分之一。如图3所示，每个网络层(即卷积层模块)的下方注明了输出的特征图的大小，黄色数字表示每层特征图的相对于原始输入的采样间隔。其余的四个模块均由若干个残差块组成，每个残差块包含三个卷积层。其中，第一个1*1卷积降低通道数，中间的3*3卷积负责提取特征，最后的1*1卷积层升高通道数。整体先降维再升维，呈现瓶颈结构，可有效地减少参数量。从模块Conv_2开始，每经过一个模块，特征图的通道数翻倍，高度和宽度减半，网络逐渐提取到了丰富的全局上下文信息。然而，这样延伸下去会丢失边界处的细节信息，但对于文本版面分割问题中，边界信息异常重要。若没有足够的边界信息，网络将无法清晰地区分出各语义区块的边界，易造成区块间的交叉重叠。为了解决这一问题，模块Conv_4和Conv_5则分别采用了扩张率为2和4的空洞卷积代替了传统的卷积。与模块Conv_2和Conv_3的传统卷积层相比，空洞卷积层并没有增加参数量，且可保证足够的感受野，使得输出特征图的分辨率维持不变，得到更加细致的边缘刻画效果。

一个实施例中的深度语义分割单元所采用的DeepLab深度语义分割网络的基本结构例如是基于快速训练残差网络ResNet-101，其总共包含101个卷积层。

从结构上，ResNet-101可看作由五个网络层组成。除了第一个网络层Conv_1,每个网络层由多个具有瓶颈结构的残差模块构成。随着网络层数的提高，卷积核的数量逐渐增多，输出特征图的高度和宽度逐渐降低。根据文本版面图像语义分割的要求，对ResNet-101进行一定的调整和改进得到了适用的DeepLab深度语义分割网络，其模型如图3所示，其中每个网络层的下方注明了输出的特征图的大小，黄色数字表示每层特征图的相对于原始输入的采样间隔。在该模型中，前三个网络层的结构和原始ResNet-101的设计完全一致，每经过一个网络层后，其输出的特征图的高度和宽度均为输入的二分之一。

随着卷积层数的加深，网络逐渐提取到了丰富的全局上下文信息，但同时也会丢失了边界处的细节信息。而在文本版面分割问题中，边界信息异常重要。若没有足够的边界信息，网络将无法清晰地区分出各语义区块的边界，易造成区块间的交叉重叠。

为了解决这一问题，本发明的实施例特意修改了网络层Conv_4和Conv_5的设计，分别采用了扩张率为2和4的空洞卷积代替传统卷积层。与传统卷积层相比，空洞卷积层并没有增加参数量，且可保证足够的感受野，使得输出特征图的分辨率维持不变，得到更加细致的边缘刻画效果。

另外，文本版面图像中的语义块的大小和长宽比具有很大的差异性。为了摆脱这些差异性，在设计中进一步利用了Deeplab的空洞空间金字塔池化(Atrous SpatialPyramid Pooling，ASPP)结构并且采用不同扩张率的空洞卷积并行地感知不同尺度大小的特征，然后再将其融合在一起，依此得到多尺度特征来提升分割的性能。注意这里预测热图的高度和宽度为原输入图像的八分之一，因此还需要进行上采样使得语义分割结果达到原始图像的尺度。由于目前本发明所考虑是四类语义块：文字、图像、表格和公式，图3中最后一层的特征图的通道数为5(另外加入背景类)。

针对普通文本版面图像的深度语义分割任务，特别人工标注了约三万幅文本版面图像的语义分割结果，用于DeepLab深度语义分割网络模型的参数训练。

考虑到像素级别的标注成本过高，仅对每个区块指定一个矩形边界框和一个语义类别，将矩形边界框内的所有像素点被赋为同一语义类别。在模型训练中，损失函数选取标准的交叉熵损失函数，并采用随机梯度下降算法更新网络参数。通过在数据集上训练和优化，得到网络的最终参数。

在预测时，即在利用最终参数进行实际处理时，当输入一幅文本版面图像后，深度语义分割网络则输出语义类别热图，预测出各像素点的语义分类结果。另外还需要说明的是，对于区块级别的分类结果，则可根据区块内所有像素点的分类结果，并采用多数投票算法来确定区块的语义类别。

3、语义块的归并和定位(语义块归并单元)

对于给定的版面图像，经过前面两个单元的处理过程后，得到一组具有语义类别的矩形框。

如前所述，在分割阶段，选取了比较小的阈值，以便发现版面的细致结构，也避免了不同语义板块的交叉或嵌套现象。然而，这样易造成内容的碎片化，比如一个表格被分割成两个或更多个相邻的表格类基础区块。

为了解决这一问题，本发明的实施例特别设置了语义块的归并处理操作或语义块归并单元，以达到语义块的准确定位。这一处理过程或单元的目的是对相邻的同类别的小基础区块进行合并重组，合并时需遵循下列原则：在同一类别的相邻基础区块的合并为一个基础区块或语义块，而不能合并两个不同类型的相邻基础区块。例如，不能将两个相邻的文本类基础区块与表格类基础区块合并连在一起。

由于文本、公式、表格和插图的特点不同，因此我们在合并时使用不同的机制和规则。

(1)插图与表格的合并规则。插图和表格大小类似，对它们可采用相同的合并机制和规则。首先，我们对语义区块按照外接矩形框的面积进行过滤，在合并时考虑两个矩形框的相对位置，并设定阈值。如果两个框的水平距离和垂直距离均小于阈值，则需要进行合并。这一操作可递归的进行，直到没有满足合并条件的矩形框为止。此合并规则可以有效的还原同一个插图或表格，又因为在一幅文本版面图像中，两个不同的插图或者表格之间距离往往比较大，所以这种操作过程不会将原图中两个不同的插图或表格合并成为一个。

(2)文本与公式的合并规则。文本行和公式通常呈长条状，相较于插图表格它们的数量更多，且更有规律。另外，同一行文本中的字符高度也不完全一致。为了实现单个文本行内合并，并且行之间不合并，我们采用更严苛的合并规则。只有满足两个矩形框的宽度相差不大，且两个矩形框基本处于同一水平线上，才对矩形框实行合并操作。对于一些多栏版面，为了防止不同栏之间文本行的合并，我们利用投影法找出版面的中轴线，在合并时规定不能跨过中轴线。

图4a-4f为版面语义分割模块的输出结果展示，不同颜色用来标记不同语义类别。图4a示出原图；图4b示出预测结果可视化(热图)；图4c示出真实标注可视化；图4d示出平滑后基础区块的二值图；图4e示出预测热图外接矩形框；图4f示出利用基础区块和预测热图进行归并后的语义块结果。

图4f是输入原图处理后的最后结果，可达到与真实标注(参见图4c)基本相同。这里还展示了只采用深度语义分割网络的版面分割结果图4e。事实上，根据深度语义分割网络输出的类别热图，在每个类别的二值图上应用连通区域分析，也可得到一系列具有语义类别的区块。然而此方法的测试结果非常不理想。这是分割模型本身的局限性所造成的。一方面，深度语义分割网络分割结果的边界信息比较粗糙，无法准确区分具有相同类别的不同实例。比如图中黄色的文本行，其最终将多个文本行合并在一个框内。另一方面，深度语义分割网络的输出并不是完全正确的，总会存在着分类错误的像素点，因此会分割出一些错误的语义框，比如图中文字行两端区域和图像区域。而本模块中的版面基础区块分割单元可以避免这些问题，弥补了深度语义分割网络边界不清晰的弱点，并且对分类错误的点不敏感，大大增强了语义分割的效果。

二、OCR模块

OCR模块并非本发明的创新重点，可以采用现有技术的OCR模块或相应***或技术。例如，本发明中的OCR模块调用开源的OCR文字识别***来解决文字(例如能够将数字符号包括在内)识别，其作用是实现文本块和表格中各个单元格内容中文本的识别和重建。当输入一幅文本区块的图像(段落、标题、表格单元格等)，它的输出结果便是识别出的文本内容。OCR模块例如包含文字行提取单元和文字识别网络单元。所述文字行提取单元根据图像水平方向的投影信息提取文本行，再将文本行依次送入文字识别网络单元，识别出文字内容。

对于文本块而言，因为在分割时采用的垂直方向阈值较小，相邻行的文本通常被分割为不同的文本块。即使经过了语义块的归并，因为对于语义块主要是进行横向的归并，而不会将不同行的文本块归并在一起，所以通常文本块仅仅包含一个文本行。

对于表格单元格而言，因为采用不同于的归并方式，其可以是包含多个文本行。在一个实施例中，对于表格单元格采用递归的方式进行处理，也就是说，将表格单元格图像作为一个初始图像，进一步执行步骤S1-步骤S5的语义块分割、语义块识别及组装处理。直到表格单元格中不再包含嵌套的表格。

相对于文本行识别而言，表格识别和公式识别是两个极具挑战性的问题。目现有技术也存在一些可供使用的公式和表格识别软件***，都需要人工先将表格和公式从图像上进行定位和切割，再针对公式和表格图像进行识别。由于公式和表格识别难度远大于文字识别，一般OCR***不包括一般表格和公式的识别功能，只能获得表格和公式中的部分字符，从而无法实现版面整体的数字化重建功能。

三、表格识别模块

版面语义分割模块将版面图像分成不同语义类型的区块后，***需要针对表格块进行表格的识别和重建，这一操作是通过表格识别模块来完成的。

表格识别模块主要执行表格结构识别和单元格内容识别两个子任务。其中，表格结构识别任务负责定位单元格的位置以及解析单元格的行列结构，而单元格内容识别任务则根据单元格的位置，将单元格图像送入不同的识别***(公式或文字)进行内容的识别。目前，单元格内容识别任务仅支持文字和数字识别，其直接调用开源的OCR***。

表格结构识别任务的模型框架如图5所示。传统算法通常先调用OCR***得到一系列的文字框，再利用文字框的位置信息，设计规则逐步得到单元格和行列信息。这些算法非常依赖于OCR的输出结果，容易出错，并且手工设计的规则涉及到大量的参数设置，泛化能力较弱。

为了有效的解决这一问题，在本发明的一个实施例中，本模块采用了基于深度学习的语义分割网络，预测出各像素点的类别(行分割线、列分割线、文本三类)，再通过简单的后处理操作解析出各单元格的行列结构，以及位置信息。图6展示了该方法在不同类型的表格上的实验结果。左边为输入图像，右边为分割结果，括号里的四个数字分别对应单元格的起始行，终止行，起始列，终止列。这些识别结果可通过HTML语言来描述和生成所识别的表格，形成重建表格的HTML文件。

如前所述，表格可能比较复杂，例如包括嵌套表格，或者在表格中除了文字之外，还包括公式或者图像。为此，表格识别模块采用递归的方式进行处理。也就是说，将每一个表格单元格图像作为一个初始图像，进一步执行步骤S1-步骤S5的语义块分割、语义块识别(包含文本、表格、公式的识别)及组装处理。直到表格单元格中不再包含嵌套的表格。

为了减少后续的重复处理，对于表格块的初次或本次进行的深度语义分割得到的数据(主要是归并前的基础区块信息及其语义分类信息)进行保存，以用于可能的下一步的表格单元格图像的处理。

四、公式识别模块

公式的识别与重建则是另一个重要且困难的任务，通过公式识别模块来完成。针对语义分割所得到的公式图像，公式识别模块需要识别出公式的结构和符号，输出能够生成和表示公式的Latex程序或字符串，并转换成相应的HTML文件。

在一个实施例中，公式识别模块包括字符识别单元和结构识别单元。所述字符识别单元利用连通区域分析得到分割出的字符图像(是指单个字符的图像)，利用卷积神经网络识别出各个字符，并完成字符合并。所述结构识别单元基于生成连接树算法实现公式的结构识别，即将所识别出的字符依次按照其位置信息进行树形结构连接，将公式表达为一个连接树，达到识别和重建的目的；其中，对于大型结构性符号，通过递归的形式进行多层次识别。

如图7所示，首先，利用连通区域分析得到分割出字符图像(可能被分成多个部分，例如每个字符对应一个图像)，利用卷积神经网络识别出各个字符，并完成字符顺序排列。然后，设计生成连接树算法实现公式的结构识别，将字符按照一定的结构连接。对于大型结构性符号(比如分数线、根号等)，通过递归的形式进行层次识别。图8中展示了公式识别的过程示例。其中，图8a示出原公式；图8b示出字符串；图8c示出重建后的结果。

五、组装模块

组装模块则根据版面语义分割块位置结构信息，将文本块、公式快和表格块的识别结果进行组装与合成，插图块直接组装，输出完整的HTML格式的文本版面，实现数字化重建的目标。

本发明将语义分割作为版面分析和数字化重建的核心，对版面的结构进行挖掘与发现，并依此进行分割和定位，然后将文本识别、表格识别、公式识别等问题分别进行攻克和处理，形成一个功能强大的普通印刷体文本版面整体数字化重建***，实现印刷体整个版面的全自动数字化重建与还原。为了实现版面精确的语义分割和语义块定位，本发明采用了深度学习方法和连通区域分割相融合的方法，提高了数字化重建的质量。

最后需要指出的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。本领域的普通技术人员应当理解：可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种印刷体文本版面数字化重建***，其特征在于，包括：

OCR模块，用于识别和重建文本块或表格块中的文本；

组装模块，根据所述语义块的位置结构信息，将文本块、表格块和公式块的识别与重建结果进行组装与合成，插图块直接组装，输出完整的HTML格式的文本版面，实现数字化重建，

所述版面语义分割模块包括：

语义块归并单元，其基于深度语义分割单元的处理结果对相邻的相同语义类型基础区块进行归并，形成语义块并进行定位；

所述版面基础区块分割单元对输入的文本版面图像进行下述处理：

（1）在水平方向对文本版面图像进行平滑：若同一行的像素点中，两个黑色像素点之游程中的白色游程的像素点个数小于设定的水平方向阈值时，将该白色游程的像素点修改为黑色像素，即达到平滑为黑色的目的；否则保持原来的颜色不变，依此得到水平游程平滑图像；

（2）在垂直方向对文本版面图像进行平滑：若同一列的像素点中，两个黑色像素点游程之间的白色游程像素点个数小于设定的垂直方向阈值时，将该白色游程的像素点修改为黑色像素，即达到平滑为黑色的目的；否则保持原来的颜色不变，依此得到垂直游程平滑图像；

（3）对水平游程平滑图像与垂直游程平滑图像做与运算，得到若干个分块连通的分割图像；对于每个分块连通的分割图像确定一个基础区块，并用外接矩形框来定义基础区块的边界；

所述深度语义分割单元采用的深度语义分割神经网络由五个卷积层模块组成，

第四个卷积层模块和第五个卷积层模块分别采用扩张率为2和4的空洞卷积；

人工标注多幅文本版面图像的语义分割结果，用于深度语义分割神经网络的参数训练；

考虑到像素级别的标注成本过高，仅对人工标注的每个语义块指定一个矩形边界框和一个语义类型，将矩形边界框内的所有像素点赋为同一语义类型；

在参数训练中，损失函数选取标准的交叉熵损失函数，并采用随机梯度下降算法更新深度语义分割神经网络的网络参数；通过在数据集上训练和优化，得到深度语义分割神经网络的最终参数；

在预测时，当输入一幅文本版面图像后，深度语义分割神经网络输出语义类别热图，预测出各像素点的语义分类结果，对于区块级别的分类结果，则根据区块内所有像素点的分类结果，采用多数投票算法来确定区块的语义类别。

2.如权利要求1所述的印刷体文本版面数字化重建***，其特征在于，所述水平方向阈值和垂直方向阈值根据字符宽度、字符横向间距、文本行高、和/或文本行间距来自适应选取。

3.如权利要求1所述的印刷体文本版面数字化重建***，其特征在于，所述语义块归并单元进行归并采用下述规则，

（1）插图类基础区块、表格类基础区块的归并规则：如果两个相同语义类型基础区块的水平距离和垂直距离均小于设定阈值，则进行合并，这一操作能够递归的进行，直到没有满足合并条件的矩形框为止；

（2）文本类基础区块、公式类基础区块的归并规则：如果两个相同语义类型基础区块的高度大小接近，且两个相同语义类型基础区块处于同一水平位置，则进行合并；对于多栏版面，为了防止不同栏之间文本行的合并，利用投影法找出版面的中轴线，在合并时规定不能跨过中轴线。

4.如权利要求1所述的印刷体文本版面数字化重建***，其特征在于，所述公式识别模块包括字符识别单元和结构识别单元，

所述字符识别单元利用连通区域分析得到分割出的各个字符图像，利用卷积神经网络识别出各个字符，并完成字符的顺序排列；

5.如权利要求1所述的印刷体文本版面数字化重建***，其特征在于，所述OCR模块包含文字行提取单元和文字识别网络单元，所述文字行提取单元根据图像水平方向的投影信息提取文本行，再将文本行依次送入文字识别网络单元，逐个识别出文字符号，完成对文本内容的识别与重建。

6.一种印刷体文本版面数字化重建方法，其特征在于，采用权利要求1-5中任一项所述的印刷体文本版面数字化重建***，且包括下述步骤：

步骤S5，组装步骤，根据所述语义块的位置结构信息，将文本块、公式快和表格块的识别与重建结果进行组装与合成，插图块直接组装，输出完整的HTML格式的文本版面图像，实现数字化重建。