CN117912039A

CN117912039A - 一种文档图像版面分析方法

Info

Publication number: CN117912039A
Application number: CN202410316346.6A
Authority: CN
Inventors: 邹梦婷; 杨词慧; 李千红
Original assignee: Nanchang Hangkong University
Current assignee: Nanchang Hangkong University
Priority date: 2024-03-20
Filing date: 2024-03-20
Publication date: 2024-04-19
Anticipated expiration: 2044-03-20
Also published as: CN117912039B

Abstract

本发明公开了一种文档图像版面分析方法，该方法包括以下步骤：步骤S1；文档图像预处理：读取文档图像，对文档图像进行图像去噪、图像纠偏、干扰线去除预处理操作，得到预处理后的图像；步骤S2；版面基元识别：采用目标检测算法对预处理后的图像中的版面基元进行检测，得到版面基元的位置、类别，并根据版面基元的类别，将版面基元加入对应的版面基元集合中；步骤S3；版面基元修正：对版面基元集合中版面基元进行修正，得到修正后的版面基元。本发明的有益效果是：本发明可以准确地识别出版面中的各种版面基元。本发明适用于对各类文档图像的版面分析，可有效地提高版面分析结果的准确性。

Description

一种文档图像版面分析方法

技术领域

本发明属于文档图像识别技术领域，具体涉及一种文档图像版面分析方法。

背景技术

随着数字化时代的到来，传统的纸质文档逐渐被电子文档所取代，这使得文档的存储、传输和处理变得更加便捷。如何快速、准确地识别、分类和定位文档内容已成为一项重要的技术挑战。近年来，版面分析技术的兴起为文档数字化带来了新的机遇，版面分析技术有助于将图像文档更精准地转化为数字化文档，提升工作效率。

版面分析旨在将文档划分为不同的区域，并识别出各个区域中的版面基元，从而方便后续的自动化处理和内容识别。通过一些版面分析算法，可以实现对文档版面的自动分析，提高版面分割和元素识别的准确性。

近年来，有多种版面分析方法被提出。如名称为“一种文档的版面分析方法”（公开号为“CN111881768A”）的专利文献，是一种多尺度特征融合的文档版面分析方法，通过缩放图像、特征提取与融合、语义信息提取、特征融合与分割识别等步骤，实现对文档版面的精确分析。又如名称为“一种基于图像实例分割的版面分析方法及***”（公开号为“CN111881768A ”）的专利文献通过特征提取、等比切分、注意力机制、随机遮挡和预测处理等多个步骤，实现了对图像版面的精确分析。上述方法在版面基元分类和定位方面具有一定的准确性，但在处理复杂的文档布局和元素时，对特征的选择和模型的训练仍需进一步优化，对于版式多样的文档，版面分析效果仍然不太理想。

现有的技术方案仍存在版面分割不准确、特征提取效果不佳等问题。

发明内容

为解决上述问题，本发明提出一种文档图像版面分析方法，该方法能够对文档中的版面基元进行准确检测。

本发明提出的一种文档图像版面分析方法，该方法包括以下步骤：

步骤S1；文档图像预处理：读取文档图像I，对文档图像I进行图像去噪、图像纠偏、干扰线去除预处理操作，得到预处理后的图像I_p；

步骤S2；版面基元识别：采用目标检测算法对预处理后的图像I_p中的版面基元进行检测，得到版面基元的位置、类别，并根据版面基元的类别，将版面基元加入对应的版面基元集合中；

步骤S3；版面基元修正：对版面基元集合中版面基元进行修正，得到修正后的版面基元；其中对版面基元集合中版面基元进行修正分别为表格基元修正、文本基元修正和标题基元修正。

进一步地，上述步骤S2中根据版面基元的类别，将版面基元加入到对应的版面基元集合中，具体步骤是：

如果版面基元的类别是文本，将版面基元的类别加入到文本基元集合TXS；如果版面基元的类别是表格，将版面基元的类别加入表格基元集合TS；如果版面基元的类别是标题，将版面基元的类别加入标题基元集合ES；如果版面基元的类别是其他，将版面基元的类别加入其它基元集合中。

进一步地，表格基元修正，遍历表格基元集合TS中的每一个表格基元，令p_na表示当前遍历的第na个表格基元，na=1，2，…，n，n为表格基元集合TS中的表格基元的个数；采用以下步骤对当前遍历的第na个表格基元p_na进行修正：

步骤S31，令x_lt表示当前遍历的第na个表格基元p_na的左上角顶点的x坐标，令y_lt表示当前遍历的第na个表格基元p_na的左上角顶点的y坐标，令x_rb表示当前遍历的第na个表格基元p_na的右下角顶点的x坐标，令y_rb表示当前遍历的第na个表格基元p_na的右下角顶点的y坐标；设置线段端点x坐标的容差阈值t_x，设置线段端点y坐标的容差阈值t_y；设置a为直线段检测范围水平扩边阈值，设置b为直线段检测范围垂直扩边阈值，设置线段长度容差阈值t_l；

步骤S32，以x_lt-a为左上角顶点x坐标、y_lt-b为左上角顶点y坐标、x_rb+a为右下角顶点x坐标、y_lt+b为右下角顶点y坐标，在预处理后的图像I_p中截取一个子图像I_s1；

以x_lt-a为左上角顶点x坐标、y_rb-b为左上角顶点y坐标、x_rb+ a为右下角顶点x坐标、y_rb+b为右下角顶点y坐标，在预处理后的图像I_p中截取一个子图像I_s2；

以x_lt-a为左上角顶点x坐标、y_lt-b为左上角顶点y坐标、x_lt+a为右下角顶点x坐标、y_rb+b为右下角顶点y坐标，在预处理后的图像I_p中截取一个子图像I_s3；

以x_rb-a为左上角顶点x坐标、y_lt-b为左上角顶点y坐标、x_rb+a为右下角顶点x坐标、y_rb+b为右下角顶点y坐标，在预处理后的图像I_p中截取一个子图像I_s4；

步骤S33，分别在子图像I_s1、子图像I_s2、子图像I_s3、子图像I_s4中用直线检测算法检测直线段，得到第一直线段集合L₁、第二直线段集合L₂、第三直线段集合L₃、第四直线段集合L₄；

步骤S34，分别找出第一直线段集合L₁、第二直线段集合L₂中的横线段，加入到第一横线段集合S_l1、第二横线段集合S_l2中；分别找出第三直线段集合L₃、第四直线段集合L₄中的竖线段，加入到第一竖线段集合S_l3、第二竖线段集合S_l4中；

步骤S35，如果第一横线段集合S_l1不为空，则在第一横线段集合S_l1中寻找最佳横线段l_m1；

步骤S36，如果第二横线段集合S_l2不为空，则在第二横线段集合S_l2中寻找最佳横线段l_m2；

步骤S37，如果第一竖线段集合S_l3不为空，则在第一竖线段集合S_l3中寻找最佳竖线段l_m3；

步骤S38，如果第二竖线段集合S_l4不为空，则在第二竖线段集合S_l4中寻找最佳竖线段l_m4。

进一步地，步骤S34中找出直线段集合中的横线段或找出直线段集合中的竖线段，其具体方法是：

步骤S341，遍历直线段集合中的每一条直线段，令l表示当前正在遍历的直线段：

步骤S342，令y_s和x_s分别表示直线段l的起始点的y坐标和x坐标，令y_e和x_e分别表示直线段l的结束点的y坐标和x坐标；设置k_l为直线段斜率阈值；

步骤S343，如果y_e=y_s，则判定直线段l为横线段；否则，采用如下公式计算直线段l的斜率k：

k=(y_e-y_s) / (x_e-x_s)；

如果|k|<k_l，则判定直线段l为横线段；

步骤S344，如果x_e=x_s，则判定直线段l为竖线段；否则，采用如下公式计算直线段l的斜率k：

k = (x_e-x_s) / (y_e-y_s)；

如果|k|<k_l，则判定直线段l为竖线段。

进一步的，步骤S35中，在第一横线段集合S_l1中寻找最佳横线段l_m1，其具体步骤是：

步骤S351，根据横线段的左端点的y坐标，按照从小到大的顺序，对第一横线段集合S_l1中的每一条横线段进行排序，得到排序后的第一横线段集合S_l1；

步骤S352，顺序遍历第一横线段集合S_l1中的每一条横线段，令l_1,ni表示当前遍历的第ni条横线段，ni=1，2，…，f₁，f₁为第一横线段集合S_l1中的横线段的条数；令x_l,ni表示当前遍历的第ni条横线段l_1,ni的左端点的x坐标，令y_l,ni表示当前遍历的第ni条横线段l_1,ni的左端点的y坐标；令x_r,ni表示当前遍历的第ni条横线段l_1,ni的右端点的x坐标，令y_r,ni表示当前遍历的第ni条横线段l_1,ni的右端点的y坐标；如果x_r,ni-x_l,ni>x_rb-x_lt-t_l，则判定当前遍历的第ni条横线段l_1,ni为最佳横线段l_m1，结束横线段遍历；

如果能找到最佳横线段l_m1，则按以下步骤对当前遍历的第na个表格基元p_na的左上角顶点坐标、右下角顶点坐标进行修正：

步骤S353，令最佳横线段l_m1的左端点x坐标为x_ml1，令最佳横线段l_m1的左端点y坐标为y_ml1，令最佳横线段l_m1的右端点x坐标为x_mr1，令最佳横线段l_m1的右端点y坐标为y_mr1，令最佳横线段l_m1的中点y坐标为y_m1，采用如下公式计算最佳横线段l_m1的中点y坐标y_m1：

y_m1=(y_ml1+y_mr1)/2；

步骤S354，将y_lt的值修改为y_m1；如果x_ml1<x_lt-t_x，则将x_lt的值修改为x_ml1；如果x_mr1>x_rb+t_x，则将x_rb的值修改为x_mr1。

进一步地，步骤S36中在第二横线段集合S_l2中寻找最佳横线段l_m2，其具体步骤是：

步骤S361，根据横线段的左端点的y坐标，按照从小到大的顺序，对第二横线段集合S_l2中的每一条横线段进行排序，得到排序后的第二横线段集合S_l2；

步骤S362，逆序遍历第二横线段集合S_l2中的每一条横线段，令l_2,nj表示当前遍历的第nj条横线段，nj=1，2，…，f₂，f₂为第二横线段集合S_l2中的横线段的条数；令x_l,nj表示当前遍历的第nj条横线段l_2,nj的左端点的x坐标，令y_l,nj表示当前遍历的第nj条横线段l_2,nj的左端点的y坐标；令x_r,nj表示当前遍历的第nj条横线段l_2,nj的右端点的x坐标，令y_r,nj表示当前遍历的第nj条横线段l_2,nj的右端点的y坐标；如果x_r,nj-x_l,nj>x_rb-x_lt-t_l，则判定当前遍历的第nj条横线段l_2,nj为最佳横线段l_m2，结束横线段遍历；

如果能找到最佳横线段l_m2，则按以下步骤对当前遍历的第na个表格基元p_na的左上角顶点坐标、右下角顶点坐标进行修正：

步骤S363，令最佳横线段l_m2的左端点x坐标为x_ml2，令最佳横线段l_m2的左端点y坐标为y_ml2，令最佳横线段l_m2的右端点x坐标为x_mr2，令最佳横线段l_m2的右端点y坐标为y_mr2，令最佳横线段l_m2的中点y坐标为y_m2，采用如下公式计算最佳横线段l_m2的中点y坐标y_m2：

y_m2=(y_ml2+y_mr2)/2；

步骤S364，将y_rb的值修改为y_m2；如果x_ml2<x_lt-t_x，则将x_lt的值修改为x_ml2；如果x_mr2>x_rb+t_x，则将x_rb的值修改为x_mr2。

进一步地，步骤S37中在第一竖线段集合S_l3中寻找最佳竖线段l_m3，其具体步骤是：

步骤S371，根据竖线段的上端点的x坐标，按照从小到大的顺序，对第一竖线段集合S_l3中的每一条竖线段进行排序，得到排序后的第一竖线段集合S_l3；

步骤S372，顺序遍历第一竖线段集合S_l3中的每一条竖线段，令l_3,nm表示当前遍历的第nm条竖线段，nm=1，2，…，f₃，f₃为第一竖线段集合S_l3中的竖线段的条数；令x_t,nm表示当前遍历的第nm条竖线段l_3,nm的上端点的x坐标，令y_t,nm表示当前遍历的第nm条竖线段l_3,nm的上端点的y坐标；令x_b,nm表示当前遍历的第nm条竖线段l_3,nm的下端点的x坐标，令y_b,nm表示当前遍历的第nm条竖线段l_3,nm的下端点的y坐标；如果y_b,nm-y_t,nm>y_rb-y_lt-t_l，则判定当前遍历的第nm条竖线段l_3,nm为最佳竖线段l_m3，结束竖线段遍历；

如果能找到最佳竖线段l_m3，则按以下步骤对当前遍历的第na个表格基元p_na的左上角顶点坐标、右下角顶点坐标进行修正：

步骤S373，令最佳竖线段l_m3的上端点x坐标为x_mt3，令最佳竖线段l_m3的上端点y坐标为y_mt3，令最佳竖线段l_m3的下端点x坐标为x_mb3，令最佳竖线段l_m3的下端点y坐标为y_mb3，令最佳竖线段l_m3的中点x坐标为x_m3，采用如下公式计算最佳竖线段l_m3的中点x坐标x_m3：

x_m3=(x_mt3+x_mb3)/2；

步骤S374，将x_lt的值修改为x_m3；如果y_mt3<y_lt-t_y，则将y_lt的值修改为y_mt3；如果y_mb3>y_rb+t_y，则将y_rb的值修改为y_mb3。

进一步地，步骤S38中在第二竖线段集合S_l4中寻找最佳竖线段l_m4，其具体步骤是：

步骤S381，根据竖线段的上端点的x坐标，按照从小到大的顺序，对第二竖线段集合S_l4中的每一条竖线段进行排序，得到排序后的第二竖线段集合S_l4；

步骤S382，逆序遍历第二竖线段集合S_l4中的每一条竖线段，令l_4,nn表示当前遍历的第nn条竖线段，nn=1，2，…，f₄，f₄为第二竖线段集合S_l4中的竖线段的条数；令x_t,nn表示当前遍历的第nn条竖线段l_4,nn的上端点的x坐标，令y_t,nn表示当前遍历的第nn条竖线段l_4,nn的上端点的y坐标；令x_b,nn表示当前遍历的第nn条竖线段l_4,nn的下端点的x坐标，令y_b,nn表示当前遍历的第nn条竖线段l_4,nn的下端点的y坐标；如果y_b,nn-y_t,nn>y_rb-y_lt-t_l，则判定当前遍历的第nn条竖线段l_4,nn为最佳竖线段l_m4，结束竖线段遍历；

如果能找到最佳竖线段l_m4，则按以下步骤对当前遍历的第na个表格基元p_na的左上角顶点坐标、右下角顶点坐标进行修正：

步骤S383，令最佳竖线段l_m4的上端点x坐标为x_mt4，令最佳竖线段l_m4的上端点y坐标为y_mt4，令最佳竖线段l_m4的下端点x坐标为x_mb4，令最佳竖线段l_m4的下端点y坐标为y_mb4，令最佳竖线段l_m4的中点x坐标为x_m4，采用如下公式计算最佳竖线段l_m4的中点x坐标x_m4：

x_m4=(x_mt4+x_mb4)/2；

步骤S384，将x_rb的值修改为x_m4；如果y_mt4<y_lt-t_y，则将y_lt的值修改为y_mt4；如果y_mb4>y_rb+t_y，则将y_rb的值修改为y_mb4。

进一步地，文本基元修正；按以下步骤对文本基元进行修正：

步骤T31，设置重叠率阈值t_o；

步骤T32，根据文本基元左上角顶点的y坐标，按照从小到大的顺序，对文本基元集合TXS中的文本基元进行排序，得到排序后的文本基元集合S_TX；

步骤T33，令m表示文本基元集合S_TX中文本基元的个数，令i=1，i为一个循环变量；

步骤T34，如果i>m，则转至步骤T39；否则，从文本基元集合S_TX中取出第i个文本基元tx_i，令x₁₁表示第i个文本基元tx_i的左上角顶点的x坐标，令y₁₁表示第i个文本基元tx_i的左上角顶点的y坐标，令x₁₂表示第i个文本基元tx_i的右下角顶点的x坐标，令y₁₂表示第i个文本基元tx_i的右下角顶点的y坐标，令j=i+1；

步骤T35，如果j>m，则令i=i+1，转至步骤T34；否则，从文本基元集合S_TX中取出第j个文本基元tx_j，令x₂₁表示第j个文本基元tx_j的左上角顶点的x坐标，令y₂₁表示第j个文本基元tx_j的左上角顶点的y坐标；令x₂₂表示第j个文本基元tx_j的右下角顶点的x坐标，令y₂₂表示第j个文本基元tx_j的右下角顶点的y坐标；

步骤T36，如果y₂₁>y₁₂，则令i=i+1，转至步骤T34；

步骤T37，如果x_{11 ≤}x₂₁，x_{12 ≥}x₂₂，y_{11 ≤}y₂₁，y_{12 ≥}y₂₂，则判定第i个文本基元tx_i包含第j个文本基元tx_j，将第j个文本基元tx_j从文本基元集合S_TX中删除，令j=j+1，m=m-1；转至步骤T35；

步骤T38，令x_{ol_1}表示重叠区域ol左上角顶点的x坐标，x_{ol_1}=max(x₁₁, x₂₁)；令y_{ol_1}表示重叠区域ol左上角顶点的y坐标，y_{ol_1}=max(y₁₁, y₂₁)；令x_{ol_2}表示重叠区域ol右下角顶点的x坐标，x_{ol_2}=min(x₁₂, x₂₂)；令y_{ol_2}表示重叠区域ol右下角顶点的y坐标，y_{ol_2}=min(y₁₂,y₂₂)；令ol_w表示重叠区域ol的宽度，ol_w= x_{ol_2}- x_{ol_1}；令ol_h表示重叠区域ol的高度ol_h=y_{ol_2}- y_{ol_1}；如果ol_w<0，或ol_h<0，则令j=j+1，转至步骤T35；否则，按以下公式计算第i个文本基元tx_i与第j个文本基元tx_j的重叠率r_ol：

r_ol= max(a_ol/ a_txi, a_ol/ a_txj )；

其中，a_ol表示重叠区域ol的面积，a_txi表示第i个文本基元tx_i的面积，a_txj表示第j个文本基元tx_j的面积，重叠区域ol的面积a_ol，第i个文本基元tx_i的面积a_txi，第j个文本基元tx_j的面积a_txj，分别按以下公式计算：

a_ol= ol_w×ol_h；

a_txi= ( x₁₂- x₁₁ )×( y₁₂- y₁₁) ；

a_txj= ( x₂₂- x₂₁ )×( y₂₂- y₂₁) ；

如果r_ol ≥t_o，则第i个文本基元tx_i的左上角顶点的y坐标y₁₁的值不变，将第i个文本基元tx_i的左上角顶点的x坐标x₁₁的值修改为min(x₁₁,x₂₁)，第i个文本基元tx_i的右下角顶点的x坐标x₁₂的值修改为max(x₁₂,x₂₂)，第i个文本基元tx_i的右下角顶点的y坐标y₁₂的值修改为max(y₁₂,y₂₂)，并且从文本基元集合S_TX中删除第j个文本基元tx_j；令j=j+1，m=m-1；转至步骤T35；

步骤T39，文本基元修正结束。

进一步地，标题基元修正；如果标题基元集合ES不为空，则按以下步骤对标题基元进行修正：

步骤M31，设置y坐标距离阈值t_yd，设置重叠率阈值t_os，设置置信度阈值t_c；

步骤M32，根据标题基元左上角顶点的y坐标，按照从小到大的顺序，对标题基元集合ES中的每一个标题基元进行排序，得到排序后的标题基元集合S_E；

步骤M33，令r=1，r为一个循环变量；

步骤M34，如果r>q，q为标题基元集合S_E中标题基元的个数，则跳转至步骤M39；否则从标题基元集合S_E取出第r个标题基元e_r；

步骤M35，如果标题基元的置信度t_er≥t_c，则令r=r+1，转至步骤M34；

步骤M36，令x_e1表示第r个标题基元e_r的左上角顶点的x坐标，令y_e1表示第r个标题基元e_r左上角顶点的y坐标；令x_e2表示第r个标题基元e_r右下角顶点的x坐标，令y_e2表示第r个标题基元e_r右下角顶点的y坐标；在文本基元集合S_TX中，找出文本基元的左上角y坐标与第r个标题基元e_r左上角顶点的y坐标y_e1的差值的绝对值小于y坐标距离阈值t_yd的所有文本基元，并加入到参考文本基元集合S_ref中；如果参考文本基元集合S_ref为空，则令r=r+1，转至步骤M34，否则令v=1，v为一个循环变量；

步骤M37，如果v>u，u为参考文本基元集合S_ref中文本基元的个数，则令r=r+1，转至步骤M34；否则从参考文本基元集合S_ref中取出第v个文本基元tx_v；令x_tx1表示第v个文本基元tx_v左上角顶点的x坐标，令y_tx1表示第v个文本基元tx_v的左上角顶点的y坐标；令x_tx2表示第v个文本基元tx_v的右下角顶点的x坐标，令y_tx2表示第v个文本基元tx_v的右下角顶点的y坐标；

步骤M38，令x_{os_1}表示重叠区域os左上角顶点的x坐标，x_{os_1} = max(x_e1,x_tx1)；令y_{os_1}表示重叠区域os左上角顶点的y坐标，y_{os_1}= max(y_e1,y_tx1)；令x_{os_2}表示重叠区域os右下角顶点的x坐标，x_{os_2}= min(x_e2,x_tx2)；令y_{os_2}表示重叠区域os右下角顶点的y坐标，y_{os_2}=min(y_e2,y_tx2)；令os_w表示重叠区域os的宽度，os_w= x_{os_2}-x_{os_1}；令os_h表示重叠区域os的高度，os_h= y_{os_2}-y_{os_1}；如果ol_w<0，或ol_h<0，则令v=v+1，转至步骤M37；否则按以下公式计算第v个文本基元tx_v和第r个标题基元e_r的重叠率r_os：

r_os= max(a_os/ a_er, a_os/ a_txv )；

其中，a_os表示重叠区域os的面积，a_er表示第r个标题基元e_r的面积，a_txv表示第v个文本基元tx_v的面积，重叠区域os的面积a_os，第r个标题基元e_r的面积a_er，第v个文本基元tx_v的面积a_txv，分别按以下公式计算：

a_os= os_w×os_h；

a_er= ( x_e2- x_e1 )×( y_e2- y_e1) ；

a_txv= ( x_tx2- x_tx1 )×( y_tx2- y_tx1) ；

如果r_os >t_os，则将第r个标题基元e_r从标题基元集合S_E中删除，令r=r+1，转至步骤M34；否则，令v=v+1，转至步骤M37；

步骤M39，标题基元修正结束。

本发明的有益效果是：本发明可以准确地识别出版面中的各种版面基元。本发明适用于对各类文档图像的版面分析，可有效地提高版面分析结果的准确性。本发明能够自动识别、分类和定位文档图像中的各类版面基元，如文本、标题、表格等，通过版面基元修正，对文档版面结构的识别结果进行精细化调整，提高版面分析的准确性。本发明适用于处理版式复杂多样的文档图像，整个过程快速、高效，能够显著提升文档处理效率，为文档图像版面分析工作带来极大的便利。

附图说明

下面结合附图和具体实施方式对本发明作进一步地详细说明。

图1是本发明实施例的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明的具体实施方式作进一步详细说明。需要注意的是，此处根据本发明一种文档图像版面分析方法的具体实施例仅作为举例，并不用于限定本发明。

本实施例结合一张宽为651、高为688的文档图像I，对本发明所提出的一种文档图像版面分析方法进行说明。如图1算法流程图所示，本发明采用以下步骤对文档图像进行版面分析处理：

上述步骤中的图像去噪算法，是一种常见的用于图像去噪的方法，参见Awad S A. Denoising of document images based on similarity and connectivityprinciples [J]. Computers and Electrical Engineering, 2014, 40 (8): 79-85。

上述步骤中的图像纠偏算法，是一种常见的用于图像纠偏的方法，参见Bao W,Yang C, Wen S, Zeng M, Guo J, Zhong J, Xu X. A Novel Adaptive DeskewingAlgorithm for Document Images. Sensors (Basel). 2022 Oct 18;22(20):7944. doi:10.3390/s22207944. PMID: 36298294; PMCID: PMC9610931。

上述步骤中的干扰线去除算法，是一种常见的用于图像中干扰线去除的方法，参见Cheng Z ,Liu Y . A Graph-based Method to Remove Interferential Curve FromText Image. [J]. Mach. Vis. Appl., 2006, 17 (4): 219-228。

步骤S2；版面基元识别：采用目标检测算法对预处理后的图像I_p中的版面基元进行检测，得到版面基元的位置、类别；并根据版面基元的类别，将版面基元加入对应的版面基元集合中；

上述步骤中的目标检测算法，是一种基于改进YOLOv5的目标检测算法，参见Gao Y,Liu W . Complex Labels Text Detection Algorithm Based on Improved YOLOv5[J]. IAENG International Journal of Computer Science, 2023, 50 (2)。

步骤S31，令x_lt表示当前遍历的第na个表格基元p_na的左上角顶点的x坐标，令y_lt表示当前遍历的第na个表格基元p_na的左上角顶点的y坐标，令x_rb表示当前遍历的第na个表格基元p_na的右下角顶点的x坐标，令y_rb表示当前遍历的第na个表格基元p_na的右下角顶点的y坐标；设置线段端点x坐标的容差阈值t_x=15，设置线段端点y坐标的容差阈值t_y=15；设置a=40为直线段检测范围水平扩边阈值，设置b=40为直线段检测范围垂直扩边阈值，设置线段长度容差阈值t_l=20；

步骤S342，令y_s和x_s分别表示直线段l的起始点的y坐标和x坐标，令y_e和x_e分别表示直线段l的结束点的y坐标和x坐标；设置k_l=1为直线段斜率阈值；

k=(y_e-y_s) / (x_e-x_s)；

如果|k|<k_l，则判定直线段l为横线段；

k = (x_e-x_s) / (y_e-y_s)；

如果|k|<k_l，则判定直线段l为竖线段。

y_m1=(y_ml1+y_mr1)/2；

y_m2=(y_ml2+y_mr2)/2；

x_m3=(x_mt3+x_mb3)/2；

x_m4=(x_mt4+x_mb4)/2；

步骤T31，设置重叠率阈值t_o=0.6；

步骤T36，如果y₂₁>y₁₂，则令i=i+1，转至步骤T34；

r_ol= max(a_ol/ a_txi, a_ol/ a_txj )；

a_ol= ol_w×ol_h；

a_txi= ( x₁₂- x₁₁ )×( y₁₂- y₁₁) ；

a_txj= ( x₂₂- x₂₁ )×( y₂₂- y₂₁) ；

T39，文本基元修正结束。

步骤M31，设置y坐标距离阈值t_yd=100，设置重叠率阈值t_os=0.7，设置置信度阈值t_c=0.50；

步骤M33，令r=1，r为一个循环变量；

r_os= max(a_os/ a_er, a_os/ a_txv )；

a_os= os_w×os_h；

a_er= ( x_e2- x_e1 )×( y_e2- y_e1) ；

a_txv= ( x_tx2- x_tx1 )×( y_tx2- y_tx1) ；

步骤M39，标题基元修正结束。

以上所述为本发明的较佳实施例，并不用以限制本发明，凡不脱离本发明所公开的精神下完成的等效或修改，均应包含在本发明保护的范围之内。

Claims

1.一种文档图像版面分析方法，其特征在于：该方法包括以下步骤：

2.根据权利要求1所述的一种文档图像版面分析方法，其特征在于：

上述步骤S2中根据版面基元的类别，将版面基元加入到对应的版面基元集合中，具体步骤是：

3.根据权利要求2所述的一种文档图像版面分析方法，其特征在于：表格基元修正，遍历表格基元集合TS中的每一个表格基元，令p_na表示当前遍历的第na个表格基元，na=1，2，…，n，n为表格基元集合TS中的表格基元的个数；采用以下步骤对当前遍历的第na个表格基元p_na进行修正：

4.根据权利要求3所述的一种文档图像版面分析方法，其特征在于：

步骤S34中找出直线段集合中的横线段或找出直线段集合中的竖线段，其具体方法是：

k=(y_e-y_s) / (x_e-x_s)；

如果|k|<k_l，则判定直线段l为横线段；

k = (x_e-x_s) / (y_e-y_s)；

如果|k|<k_l，则判定直线段l为竖线段。

5.根据权利要求4所述的一种文档图像版面分析方法，其特征在于：

步骤S35中，在第一横线段集合S_l1中寻找最佳横线段l_m1，其具体步骤是：

y_m1=(y_ml1+y_mr1)/2；

6.根据权利要求5所述的一种文档图像版面分析方法，其特征在于：

步骤S36中在第二横线段集合S_l2中寻找最佳横线段l_m2，其具体步骤是：

y_m2=(y_ml2+y_mr2)/2；

7.根据权利要求6所述的一种文档图像版面分析方法，其特征在于：

步骤S37中在第一竖线段集合S_l3中寻找最佳竖线段l_m3，其具体步骤是：

x_m3=(x_mt3+x_mb3)/2；

8.根据权利要求7所述的一种文档图像版面分析方法，其特征在于：

步骤S38中在第二竖线段集合S_l4中寻找最佳竖线段l_m4，其具体步骤是：

x_m4=(x_mt4+x_mb4)/2；

9.根据权利要求8所述的一种文档图像版面分析方法，其特征在于：

文本基元修正；按以下步骤对文本基元进行修正：

步骤T31，设置重叠率阈值t_o；

步骤T36，如果y₂₁>y₁₂，则令i=i+1，转至步骤T34；

r_ol= max(a_ol/ a_txi, a_ol/ a_txj )；

a_ol= ol_w×ol_h；

a_txi= ( x₁₂- x₁₁ )×( y₁₂- y₁₁) ；

a_txj= ( x₂₂- x₂₁ )×( y₂₂- y₂₁) ；

步骤T39，文本基元修正结束。

10.根据权利要求9所述的一种文档图像版面分析方法，其特征在于：

标题基元修正；如果标题基元集合ES不为空，则按以下步骤对标题基元进行修正：

步骤M33，令r=1，r为一个循环变量；

步骤M38，令x_{os_1}表示重叠区域os左上角顶点的x坐标，x_{os_1} = max(x_e1,x_tx1)；令y_{os_1}表示重叠区域os左上角顶点的y坐标，y_{os_1}= max(y_e1,y_tx1)；令x_{os_2}表示重叠区域os右下角顶点的x坐标，x_{os_2}= min(x_e2,x_tx2)；令y_{os_2}表示重叠区域os右下角顶点的y坐标，y_{os_2}= min(y_e2,y_tx2)；令os_w表示重叠区域os的宽度，os_w= x_{os_2}-x_{os_1}；令os_h表示重叠区域os的高度，os_h= y_{os_2}-y_{os_1}；如果ol_w<0，或ol_h<0，则令v=v+1，转至步骤M37；否则按以下公式计算第v个文本基元tx_v和第r个标题基元e_r的重叠率r_os：

r_os= max(a_os/ a_er, a_os/ a_txv )；

a_os= os_w×os_h；

a_er= ( x_e2- x_e1 )×( y_e2- y_e1) ；

a_txv= ( x_tx2- x_tx1 )×( y_tx2- y_tx1) ；

步骤M39，标题基元修正结束。