CN105373790B - 版面分析方法和装置 - Google Patents

版面分析方法和装置 Download PDF

Info

Publication number
CN105373790B
CN105373790B CN201510696674.4A CN201510696674A CN105373790B CN 105373790 B CN105373790 B CN 105373790B CN 201510696674 A CN201510696674 A CN 201510696674A CN 105373790 B CN105373790 B CN 105373790B
Authority
CN
China
Prior art keywords
space
opposite side
whole page
page element
extension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510696674.4A
Other languages
English (en)
Other versions
CN105373790A (zh
Inventor
兴百桥
刘正珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hanvon Digital Technology Co Ltd
Original Assignee
Beijing Hanvon Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hanvon Digital Technology Co Ltd filed Critical Beijing Hanvon Digital Technology Co Ltd
Priority to CN201510696674.4A priority Critical patent/CN105373790B/zh
Publication of CN105373790A publication Critical patent/CN105373790A/zh
Application granted granted Critical
Publication of CN105373790B publication Critical patent/CN105373790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明涉及一种版面分析方法和装置,该版面分析方法包括以下步骤:输入包括多个版面元素的待处理图像;在每个版面元素所在的区域内绘制封闭曲线;自适应调整所述封闭曲线至所述版面元素的边缘;根据自适应调整至所述版面元素边缘的封闭曲线从所述待处理图像中提取每个版面元素。

Description

版面分析方法和装置
技术领域
本发明涉及图像处理,特别涉及一种版面分析方法和装置。
背景技术
文档图像的版面分析是文档信息处理***的重要组成部分,以及复杂文档光学字符识别(OCR)必不可少的环节,它是实现纸质文档数字化的重要环节。
版面分析技术广泛应用于文档自动检索、办公自动化等领域。版面分析主要包括版面分割和区域类型识别两大部分。
近年来,随着数字化加工技术的发展,自动版面分析技术也越来越成熟。但是对于复杂的报纸版面,由于版面元素类型多样,版面布局复杂,能适应所有报纸版面的全自动的版面分析技术比较少,至今为止在文字识别领域还不存在能够适应各种应用场景的通用的版面分析器。
现有的自动版面分析方法需要非常复杂的算法,而且无法提供很高的精度。因此发展出了人工指定版面元素的方法。
例如,CN103336961A提出了一种交互式自然场景文本检测方法,通过人工绘制一条线,根据这条线在版面图像中选取一个扩展区域,在这个扩展区域中通过具体分析最终得到文本区域。这种方法适用于把一幅图中图像上的文字区域提取出来、识别文字、使计算机理解图像内容。
然而,这种交互式自然场景文本检测方法对于选取图像或广告时往往会不完整,因为这种方法检测的是图像中的文本区域,如果图像中没有文本往往会得到错误的区域。对于选取正文,由于该方法对标记线进行扩展没有利用正文的信息,而是一律向上向下扩展待测图像高度的1/3,向左向右扩展标记线长度的1/3,因此得到的是粗略文本区域,无法进行精确的版面提取和分析。
鉴于现有技术中的上述不足,需要提出一种能够快速有效准确地标记并识别各个版面元素的版面分析方法。
发明内容
本发明提出了一种版面分析方法和装置,能够快速有效准确地标记并识别各个版面元素。
根据本发明的第一方面,一种版面分析方法包括以下步骤:输入步骤,输入包括多个版面元素的待处理图像;绘制步骤,在每个版面元素所在的区域内绘制封闭曲线;自适应调整步骤,将所述封闭曲线自适应调整至所述版面元素的边缘;提取步骤,根据自适应调整至所述版面元素的边缘的所述封闭线圈从所述待处理图像中提取每个版面元素。
根据本发明的第二方面,所述封闭曲线为矩形框,该矩形框包括沿第一方向延伸的第一对边和沿第二方向延伸的第二对边;并且所述自适应调整步骤包括将所述第一对边和所述第二对边自适应调整至所述版面元素的边缘;所述提取步骤包括根据自适应调整至所述版面元素的边缘的所述第一对边和所述第二对边从所述待处理图像中提取每个版面元素。
根据本发明的第三方面,所述版面元素包括图片、标题和正文,并且,所述自适应调整步骤包括:判断所述第一对边和所述第二对边是在空白处还是压住图片或压住标题或正文的文字;如果压住图片或压住标题或正文的文字,则进行第一扩展,将所述第一对边和所述第二对边扩展至所述版面元素的边缘;如果在空白处,则执行第一收缩,将所述第一对边和所述第二对边收缩至所述版面元素的边缘。
根据本发明的第四方面,针对标题和正文预先定义了高度阈值和宽度阈值,高度和宽度分别大于所述高度阈值和所述宽度阈值的版面元素被视为正文,在进行了第一扩展或第一收缩之后,判断所述矩形框的高度和宽度是否大于高度阈值和宽度阈值;如果是,则判断所述版面元素为正文,进行第二扩展和第三扩展;如果否,则判断所述版面元素为标题,不进行第二扩展和第三扩展,其中,所述第二扩展包括将所述第一对边在所述第一方向上扩展至所述版面元素的边缘;所述第三扩展包括将所述第二对边在所述第二方向上扩展至所述版面元素的边缘。
根据本发明的第五方面,在所述第二扩展中,获取所述第一对边与所述版面元素在所述第一方向上的下一排黑色像素点之间的间距,将该间距与规定的第一间距阈值进行比较,如果该间距小于所述第一间距阈值,则将所述第一对边扩展一个像素宽度,并重复上述比较;如果该间距大于所述第一间距阈值,则停止所述第二扩展。
根据本发明的第六方面,在所述第三扩展中,获取所述第二对边与所述版面元素在所述第二方向上的下一排黑色像素点之间的间距,将该间距与规定的第二间距阈值进行比较,如果该间距小于所述第二间距阈值,则将所述第二对边扩展一个像素宽度,并重复上述比较;如果该间距大于所述第二间距阈值,则停止所述第三扩展。
根据本发明的第七方面,在所述第一扩展、所述第一收缩、所述第二扩展和所述第三扩展之后,将所述第一对边和所述第二对边朝向所述版面元素的边缘外部扩展预定数量的像素宽度。
根据本发明的第八方面,一种版面分析装置包括:输入单元,其用于输入包括多个版面元素的待处理图像;显示单元,其显示所输入的待处理图像;检测单元,当用户在每个版面元素所在区域上绘制封闭曲线时,所述检测单元检测所述封闭曲线的位置;调整单元,其用于调整所述封闭曲线;提取单元,其用于根据所述封闭曲线从所述待处理图像中提取所述版面元素;以及处理单元,其根据所述检测单元的检测结果控制所述调整单元将所述封闭曲线调整到版面元素的边缘,并控制所述提取单元提取每个版面元素。
根据本发明的第九方面,所述封闭曲线为矩形框,该矩形框包括沿第一方向延伸的第一对边和沿第二方向延伸的第二对边,并且所述检测单元检测所述第一对边和所述第二对边的位置;所述处理单元根据所述检测单元的检测结果控制所述调整单元将所述第一对边和所述第二对边调整到版面元素的边缘,并控制所述提取单元提取每个版面元素。
根据本发明的第十方面,所述版面元素包括图片、标题和正文,并且,所述处理单元根据所述检测单元的检测结果判断所述第一对边和所述第二对边是在空白处还是压住图片或压住标题或正文的文字;如果压住图片或压住标题或正文的文字,则所述处理单元控制所述调整单元进行第一扩展,将所述第一对边和所述第二对边扩展至所述版面元素的边缘;如果在空白处,则所述处理单元控制所述调整单元进行第一收缩,将所述第一对边和所述第二对边收缩至所述版面元素的边缘。
根据本发明的第十一方面,针对标题和正文预先定义了高度阈值和宽度阈值,高度和宽度分别大于所述高度阈值和所述宽度阈值的版面元素被视为正文,在进行了所述第一扩展或所述第一收缩之后,所述处理单元根据所述检测单元的检测结果判断所述矩形框的高度和宽度是否大于所述高度阈值和所述宽度阈值;如果是,则所述处理单元控制所述调整单元进行第二扩展和第三扩展;如果否,则所述处理单元控制所述调整单元不进行所述第二扩展和所述第三扩展;其中,所述第二扩展包括将所述第一对边在所述第一方向上扩展至所述版面元素的边缘;所述第三扩展包括将所述第二对边在所述第二方向上扩展至所述版面元素的边缘。
根据本发明的第十二方面,在所述第二扩展中,所述检测单元获取所述第一对边与所述版面元素在所述第一方向上的下一排黑色像素点之间的间距,所述处理单元将该间距与规定的第一间距阈值进行比较,如果该间距小于所述第一间距阈值,则控制所述调整单元将所述第一对边扩展一个像素宽度,并重复上述比较;如果该间距大于所述第一间距阈值,则控制所述调整单元停止所述第二扩展。
根据本发明的第十三方面,在所述第三扩展中,所述检测单元获取所述第二对边与所述版面元素在所述第二方向上的下一排黑色像素点之间的间距,所述处理单元将该间距与规定的第二间距阈值进行比较,如果该间距小于所述第二间距阈值,则控制所述调整单元将所述第二对边扩展一个像素宽度,并重复上述比较;如果该间距大于所述第二间距阈值,则控制所述调整单元停止所述第三扩展。
根据本发明的第十四方面,在所述第一扩展、所述第一收缩、所述第二扩展和所述第三扩展之后,所述处理单元控制所述调整单元将所述第一对边和所述第二对边朝向所述版面元素的边缘外部扩展预定数量的像素宽度。
根据本发明的版面分析方法和装置,可以不必指定版面元素的准确位置,这样既提高了指定版面元素的效率,也可以减轻操作人员的眼睛疲劳度。
附图说明
附图与文字描述一起用来对本发明的实施方式作进一步的说明。其中:
图1示出了本发明的版面分析装置的框图。
图2示出了本发明实施方式中在报纸上绘制矩形框的示意图。
图3示出了图2的矩形框扩展至版面元素边缘的示意图。
图4示出了本发明的版面分析方法的总体流程图。
图5示出了本发明的版面分析方法的上下扩展处理的流程。
图6示出了本发明的版面分析方法的左右扩展处理的流程。
具体实施方式
下面结合附图详细说明本发明的实施方式。在所有附图中,相同标号表示相同元件,并省略其重复说明。
正规出版物,例如报纸,其上的版面元素绝大部分是矩形的,因此,在文本或图像等版面元素所在区域上绘制矩形框,并扩展矩形框的四条边到版面元素的边缘从而进行版面分析,这种版面分析方法有效解决了现有技术在数字加工中绘制矩形框困难及不精准的问题,提高了版面分析的效率和准确性,进而提高了数字加工业务的工作效率和数字加工的质量。应当理解的是,矩形框的其中一对边与版面元素的一对边平行,另一对边与版面元素的另一对边平行。为了方便,在说明书中用左右和上下来表示这两对边。左右和上下均是相对用户而言的。
下面以矩形框为例说明本发明的版面分析方法。然而,本发明并不限于矩形框,而是可以根据版面元素的形状选择其他任意封闭曲线。
一般来说,版面分析过程中的版面元素包括正文、图片和标题,根据本发明的版面分析方法,在对例如报纸的正文部分绘制矩形框时,可以在正文的一部分上绘制一个小矩形框,利用正文的字间距和行间距及字的平均大小,将该矩形框的四条边扩展至正文部分的边缘,这样可以大大提高绘制框的效率,也可以大大减轻绘制框的人员的眼睛疲劳程度。
在对图片部分绘制矩形框时,可以绘制小矩形框,只要框住图片各个部分,就可以利用连通域自动将该矩形框扩展至图片的边缘。
在对标题部分绘制矩形框时,可以穿过标题部分来绘制,利用投影自动将矩形框扩展至标题部分的边缘。有时标题或正文等周围空白较大时,可以将矩形框绘制得大些以框住标题或正文等,此时矩形框的四条边如果位于空白处,则可以自动收缩至标题或正文的边缘。这样可以自适应地将人工绘制的框扩展至各个版面元素的边缘,便于进行后续的版面元素提取和内容识别处理。
在整个说明书中,对所有图像以白底黑字为准,对于黑底白字的图像首先进行反色。另外,说明书中重点介绍了矩形框的两次扩展方法,最终得出边的最佳位置。对于图片,仅执行一次扩展方法就足够了。
图1示出了本发明的版面分析装置的框图。
本发明的版面分析装置10包括输入单元101、显示单元102、检测单元103、调整单元104、提取单元105、处理单元106。
在进行版面分析时,用户通过输入单元101输入待分析图像。显示单元102显示所输入的待分析图像,这里,待分析图像包含多个版面元素。用户在所显示的版面元素所在的区域上绘制矩形框。检测单元103检测矩形框的四条边在图像上的位置。处理单元106根据检测单元103的检测结果判断矩形框的四条边是在空白处还是压在图片上或者压在正文或标题的文字上。
如果检测单元103判定矩形框的某条边在空白处,则处理单元106控制调整单元104将矩形框的该边收缩至版面元素的边缘。在此过程中,检测单元103对边上的像素点进行扫描,如果边上出现灰度值为1(黑色像素点)的像素点,则停止收缩。
如果检测单元103判定矩形框的该边压在图片上或者压在正文或标题的文字上,则处理单元106控制调整单元104将矩形框的该边向外扩展至版面元素的边缘。
在此过程中,检测单元103对边上的像素点进行扫描,如果边上灰度值为1(黑色像素点)的像素点的数量小于数量阈值,则停止扩展。随后,处理单元106控制调整单元104将矩形框的四条边调整至最佳位置。检测单元103对边外侧M行或N列像素进行扫描,找出第一个黑色像素点个数最少的行或列作为边的最佳位置,其中,M和N均为正整数,优选的,3≤M≤5,3≤N≤5。
然后,处理单元106判断矩形框是否大于阈值。当矩形框的宽度和高度分别大于宽度阈值和高度阈值时认为版面元素是正文,调整单元104对矩形框进行上下扩展和左右扩展,否则认为版面元素是标题,不进行扩展,目的是为了区分正文和标题等,因为标题不需要再进行上下扩展和左右扩展。
如果处理单元106判定矩形框大于阈值,则调整单元104对矩形框执行上下扩展。
接着,调整单元104对矩形框执行左右扩展。随后会参照图5和图6详细说明上下扩展和左右扩展。
最后,调整单元104将矩形框调整至最佳位置。检测单元103对边附近5行或5列像素进行扫描,找出第一个黑色像素点个数最少的行或列作为边的最佳位置。
下面结合图2-4详细说明本发明的版面分析方法。
图2示出了本发明实施方式中在报纸上绘制矩形框的示意图。图3示出了图2的矩形框扩展至版面元素边缘的示意图。图4示出了本发明的版面分析方法的总体流程图。
如图4所示,首先输入待处理图像(S400)。这里,待处理图像包含多个版面元素。然后,在各个版面元素所在的区域内绘制矩形框(S401)。
接下来,判定矩形框的四条边是在空白处还是压在图片上或者压在标题或正文的文字上(S402)。如果在步骤S402中判定为空白,则将边收缩至版面元素的边缘(S403)。如果在步骤S402中判定为压在图片上或者压在标题或正文的文字上,则将矩形框的该边扩展至版面元素的边缘(S404)。
在步骤S402中,对矩形框的四条边上的像素点进行扫描,当某条边上黑色像素点的个数大于像素数阈值时,判定该边压在图片上或者压在标题或正文的文字上。具体地,本发明采用投影的方法对矩形框的四条边进行检测,左右两条边进行上下(即向水平方向)投影,上下两条边进行左右投影(即向垂直方向)投影,如果任何一条边投影像素灰度值之和为0,则表示该边处于空白位置处。如果任何一条边投影像素灰度值之和大于规定的灰度阈值,则表示该边压在图片上或者压在标题或正文的文字上。
另外,在步骤S403中进行收缩时,利用投影的方法,将边收缩至第一个像素灰度值之和不为零的位置。在步骤S404中进行扩展时,同样利用投影的方法,将边扩展至第一个像素灰度值之和小于所述灰度阈值的位置。
在步骤S404之后,将矩形框的四条边调整至最佳位置(S405)。对边外侧M行或N列像素进行扫描,找出第一个黑色像素点个数最少的行或列作为边的最佳位置,其中,M和N均为正整数,优选的,3≤M≤5,3≤N≤5。
接下来,流程进行到步骤S406,判断矩形框的高度和宽度是否大于高度阈值和宽度阈值。
具体地,对矩形框中的黑色像素点进行连通域分析,计算出该矩形框内连通域的平均宽度与平均高度及连通域的左右平均间距和上下平均间距,将3倍的平均连通域宽度加两倍的连通域左右平均间距作为所述宽度阈值,将3倍的平均连通域高度加两倍的连通域上下间距作为所述高度阈值。
在步骤S406中进行上述判断的目的是区分版面元素的类型。
在本发明中,版面元素包括标题、正文和图片。针对这三种类型的版面元素需要绘制不同的矩形框,下面进行具体说明。
在标题所在的区域内绘制矩形框时,当标题字较小且周围空白较大时可以将矩形框绘制得大一些以框住整个标题,当标题字大或周围空白较小时,可以穿过标题来绘制矩形框,如图2顶部的标题和右侧上部的标题所示。
在图片所在区域内绘制矩形框时,如果图片是一个整体,则在图片所在区域内任意一个地方绘制一个矩形框都可以,而如果图片为分离的几部分子图片,则只要保证分离的各部分字图片有像素点在矩形框中即可,如图2底部的图片所示。
在正文所在区域内绘制矩形框时,假设正文中包含M行N列文字,其中M和N均为大于等于3的正整数,则只要矩形框的大小大于3行3列即可,如图2所示。
此处需要说明,图2是为了清楚地说明绘制矩形框的情况。实际绘制矩形框时,每画一个矩形框,它都会自动扩展至版面元素的边缘,如图3所示。不会出现图2中所有矩形框均未扩展的情况。
也就是说,在步骤S406中,如果判定结果为是,则说明版面元素为正文,如果为否,则说明版面元素为标题。对于标题不需要再进行扩展。
如果在步骤S406中判定结果为是,则对矩形框执行上下扩展(步骤S407)。具体来讲,利用连通域上下间距及连通域大小,将矩形框的上下两条边扩展至版面元素的上下边缘。
下面结合图5来详细说明本发明的版面分析方法中的上下扩展。
需要说明的是,只有在判定矩形框的高度和宽度分别大于高度阈值和宽度阈值的条件下才执行上下扩展。而且,这里的边是指矩形框的上下两条边。
首先,判断当前边到下一行黑色像素之间的距离是否为1个像素(S501)。如果步骤S501中判定结果为是,则判断下一行黑色像素点所在的连通域是否为横线(S502)。
在步骤S502中,判断连通域是否为横线的方法为:当下一行黑色像素点所在的连通域的高度小于平均连通域高度的五分之一且下一行黑色像素点所在的连通域的宽度大于平均连通域宽度的5倍时,则认为该连通域为横线。
如果步骤S502中判定结果为否,则当前边向外扩展一个像素点(S503),然后返回步骤S51进行下一轮判断。
如果步骤S502中判定结果为是,则停止扩展(步骤S506)。
另一方面,如果步骤S501中判定结果为否,则判断下一行连通域平均间距是否小于行间距阈值(S505)。
在步骤S505中,获取当前边到下一行(往上或往下)黑色像素点的间距,并与规定的行间距阈值进行比较。具体地,所述行间距阈值被设定为:当上下平均间距小于20时,为上下平均间距乘以1.5,当上下平均间距大于等于20时,为上下平均间距加10。
如果步骤S505中判定结果为否,则认为当前边位于该版面元素的边界(上边位于上边界,下边位于下边界),停止扩展(步骤S506)。如果步骤S505中判定结果为是,则判定下一行连通域大小是否小于行连通域大小阈值(步骤S507)。
在步骤S507中,统计下一行连通域的平均宽度,并与规定的行连通域大小阈值进行比较。具体地,连通域大小阈值被设定为连通域平均宽度加6,即连通域的平均宽度最多相差5个像素。
如果步骤S507中判定结果为否(遇到标题或横线),则认为当前边位于该版面元素的边界(上边位于上边界,下边位于下边界),停止扩展(步骤S506)。如果步骤S507中判定结果为是,则判断连通域平均大小是否为0(步骤S508)。
在步骤S508中,当往上或往下扩展时,如果扫描到图像的上下边界还没有找到黑色像素点,说明当前边扩展至空白处,则停止扩展(步骤S506),否则将当前边移至下一行连通域边界处然后进行下一轮判断(步骤S509)。
最后,在步骤S506之后,将矩形框的四条边调整至最佳位置(S510)。对边外侧规定行或规定列像素进行扫描,找出第一个黑色像素点个数最少的行或列作为边的最佳位置,例如,所述规定行或规定列为5行或5列。
至此,本发明的版面分析方法的上下扩展处理结束。
返回图4,接下来对矩形框执行左右扩展(步骤S408)。具体来讲,利用连通域左右间距的大小及连通域的大小,将矩形框的左右两条边扩展至版面元素的左右边缘。
下面结合图6来详细说明本发明的版面分析方法中的左右扩展。
需要说明的是,只有在判定矩形框的高度和宽度分别大于高度阈值和宽度阈值的条件下才执行左右扩展。而且,这里的边是指矩形框的左右两条边。
首先,判断当前边到下一列黑色像素之间的距离是否为1个像素(步骤S600)。如果步骤S600中判定结果为是,则判断下一列黑色像素所在的连通域是否为竖线(步骤S601)。
在步骤S601中,判断连通域是否为竖线的方法为:当连通域的宽度小于平均连通域宽度的五分之一且连通域的高度大于平均连通域高度的5倍时,则认为该连通域为竖线。
如果步骤S601中判定结果为否,则当前边向外扩展一个像素点(步骤S602),流程返回步骤S600进行下一轮判断。
如果步骤S601中判定结果为是,则停止扩展(步骤S606)。
另一方面,如果步骤S600中判定结果为否,则判断下一列连通域平均间距是否小于列间距阈值(步骤S603)。
在步骤S603中,获取当前边到下一列(往左或往右)黑色像素点的间距,并与规定的列间距阈值进行比较。具体地,所述列间距阈值被设定为:当左右平均间距小于20时,为左右平均间距乘以1.5,当左右平均间距大于等于20时,为左右平均间距加10。
如果步骤S603中的判定结果为否,则认为当前边位于该版面元素的边界(左边位于左边界,右边位于右边界),停止扩展(步骤S606)。如果步骤S603中的判定结果为是,则判定下一列连通域平均大小是否小于列连通域大小阈值(步骤S604)。
在步骤S604中,统计下一列连通域的平均高度,并与规定的列连通域大小阈值进行比较。具体地,列连通域大小阈值被设定为连通域平均高度加6,即连通域的平均高度最多相差5个像素。
如果步骤S604中的判定结果为否(遇到标题或横线),则认为当前边位于该版面元素的边界(左边位于左边界,右边位于右边界),停止扩展(步骤S606)。如果步骤S604中的判定结果为是,则判断下一列上下扩展高度是否发生变化(步骤S605)。
在步骤S605中,对下一列连通域进行上下扩展,如果扩展后该列连通域高度大于矩形框高度(即,发生了变化),则停止左右扩展(步骤S606)。如果扩展后没有发生变化,则判断连通域平均大小是否为0(步骤S607)。
在步骤S607中,当向左或向右扩展时,如果扫描到图像的左右边界还没有找到黑色像素点(连通域平均大小为0),说明该边扩展至空白处,停止左右扩展(步骤S606),否则该边移至下一列连通域边界处(步骤S608),然后进行下一轮判断(步骤S600)。
最后,在步骤S606之后,将矩形框的四条边调整至最佳位置(S609)。对边外侧规定行或规定列像素进行扫描,找出第一个黑色像素点个数最少的行或列作为该边的最佳位置,例如,所述规定行或规定列为5行或5列。
至此,本发明的版面分析方法的左右扩展处理结束。
需要说明的是,图4的流程图仅示出了矩形框调整阶段的处理步骤,在将矩形框自适应调整到版面元素的边缘之后,还要根据矩形框提取版面元素,尽管图4中并未示出,但是这是版面分析领域的公知常识。
本发明的版面分析方法和装置只需要用户在需要分析的版面元素上随意绘制一个矩形框,矩形框就会自适应地扩展到该版面元素的边缘,这样可以大大提高识别并提取版面元素的效率,也可以大大减轻操作人员的眼睛疲劳程度。
以上结合具体实施方式对本发明的目的、技术方案和有益效果进行了进一步详细说明。应理解的是,以上仅仅是出于例示的目的介绍了本发明的具体实施方式,并不是要限制本发明。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种版面分析方法,包括以下步骤:
输入步骤,输入包括多个版面元素的待处理图像;
绘制步骤,在每个版面元素所在的区域内绘制封闭曲线,其中,所述封闭曲线为矩形框,且该矩形框包括沿第一方向延伸的第一对边和沿第二方向延伸的第二对边;
自适应调整步骤,将所述封闭曲线自适应调整至所述版面元素的边缘,且当所述封闭曲线为所述矩形框时,将所述第一对边和所述第二对边自适应调整至所述版面元素的边缘,并判断所述第一对边和所述第二对边是在空白处还是压住版面元素的文字,
若压住版面元素的文字,则进行第一扩展,将所述第一对边和所述第二对边扩展至所述版面元素的边缘;
若在空白处,则执行第一收缩,将所述第一对边和所述第二对边收缩至所述版面元素的边缘;
其中,所述版面元素包括图片、标题和正文,针对标题和正文预先定义了高度阈值和宽度阈值,高度和宽度分别大于所述高度阈值和所述宽度阈值的版面元素被视为正文,
在进行了第一扩展或第一收缩之后,判断所述矩形框的高度和宽度是否大于高度阈值和宽度阈值;
如果是,则判断所述版面元素为正文,进行第二扩展和第三扩展;
如果否,则判断所述版面元素为标题,不进行第二扩展和第三扩展,其中,所述第二扩展包括将所述第一对边在所述第一方向上扩展至所述版面元素的边缘;所述第三扩展包括将所述第二对边在所述第二方向上扩展至所述版面元素的边缘;
提取步骤,根据自适应调整至所述版面元素的边缘的所述封闭曲线从所述待处理图像中提取每个版面元素。
2.根据权利要求1所述的版面分析方法,其中,在所述第二扩展中,获取所述第一对边与所述版面元素在所述第一方向上的下一排黑色像素点之间的间距,将该间距与规定的第一间距阈值进行比较,如果该间距小于所述第一间距阈值,则将所述第一对边扩展一个像素宽度,并重复上述比较;如果该间距大于所述第一间距阈值,则停止所述第二扩展。
3.根据权利要求2所述的版面分析方法,其中,在所述第三扩展中,获取所述第二对边与所述版面元素在所述第二方向上的下一排黑色像素点之间的间距,将该间距与规定的第二间距阈值进行比较,如果该间距小于所述第二间距阈值,则将所述第二对边扩展一个像素宽度,并重复上述比较;如果该间距大于所述第二间距阈值,则停止所述第三扩展。
4.根据权利要求1-3中任意一项所述的版面分析方法,其中,
在所述第一扩展、所述第一收缩、所述第二扩展和所述第三扩展之后,将所述第一对边和所述第二对边朝向所述版面元素的边缘外部扩展预定数量的像素宽度。
5.一种版面分析装置(10),包括:
输入单元(101),其用于输入包括多个版面元素的待处理图像;
显示单元(102),其显示所输入的待处理图像;
检测单元(103),当用户在每个版面元素所在区域上绘制封闭曲线时,所述检测单元(103)检测所述封闭曲线的位置,其中,所述封闭曲线为矩形框,该矩形框包括沿第一方向延伸的第一对边和沿第二方向延伸的第二对边,当所述封闭曲线为矩形框时,所述检测单元(103)用于检测所述第一对边和所述第二对边的位置;
调整单元(104),其用于调整所述封闭曲线;
提取单元(105),其用于根据所述封闭曲线从所述待处理图像中提取所述版面元素;以及
处理单元(106),其根据所述检测单元(103)的检测结果控制所述调整单元(104)将所述封闭曲线调整到版面元素的边缘,并控制所述提取单元(105)提取每个版面元素,当所述封闭曲线为所述矩形框时,根据所述检测单元(103)的检测结果控制所述调整单元(104)将所述第一对边和所述第二对边调整到版面元素的边缘,以及判断所述第一对边和所述第二对边是在空白处还是压住版面元素的文字,
若压住所述版面元素的文字,则控制所述调整单元(104)进行第一扩展,将所述第一对边和所述第二对边扩展至所述版面元素的边缘;
若在空白处,则控制所述调整单元(104)进行第一收缩,将所述第一对边和所述第二对边收缩至所述版面元素的边缘;
其中,所述版面元素包括图片、标题和正文,针对标题和正文预先定义了高度阈值和宽度阈值,高度和宽度分别大于所述高度阈值和所述宽度阈值的版面元素被视为正文,并在进行了所述第一扩展或所述第一收缩之后,还根据所述检测单元(103)的检测结果判断所述矩形框的高度和宽度是否大于所述高度阈值和所述宽度阈值;
如果是,则控制所述调整单元(104)进行第二扩展和第三扩展;
如果否,则控制所述调整单元(104)不进行所述第二扩展和所述第三扩展;其中,所述第二扩展包括将所述第一对边在所述第一方向上扩展至所述版面元素的边缘;所述第三扩展包括将所述第二对边在所述第二方向上扩展至所述版面元素的边缘。
6.根据权利要求5所述的版面分析装置(10),其中,在所述第二扩展中,所述检测单元(103)获取所述第一对边与所述版面元素在所述第一方向上的下一排黑色像素点之间的间距,所述处理单元(106)将该间距与规定的第一间距阈值进行比较,如果该间距小于所述第一间距阈值,则控制所述调整单元(104)将所述第一对边扩展一个像素宽度,并重复上述比较;如果该间距大于所述第一间距阈值,则控制所述调整单元(104)停止所述第二扩展。
7.根据权利要求6所述的版面分析装置,其中,在所述第三扩展中,所述检测单元(103)获取所述第二对边与所述版面元素在所述第二方向上的下一排黑色像素点之间的间距,所述处理单元(106)将该间距与规定的第二间距阈值进行比较,如果该间距小于所述第二间距阈值,则控制所述调整单元(104)将所述第二对边扩展一个像素宽度,并重复上述比较;如果该间距大于所述第二间距阈值,则控制所述调整单元(104)停止所述第三扩展。
8.根据权利要求5、6或7所述的版面分析装置(10),其中,
在所述第一扩展、所述第一收缩、所述第二扩展和所述第三扩展之后,所述处理单元(106)控制所述调整单元(104)将所述第一对边和所述第二对边朝向所述版面元素的边缘外部扩展预定数量的像素宽度。
CN201510696674.4A 2015-10-23 2015-10-23 版面分析方法和装置 Active CN105373790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510696674.4A CN105373790B (zh) 2015-10-23 2015-10-23 版面分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510696674.4A CN105373790B (zh) 2015-10-23 2015-10-23 版面分析方法和装置

Publications (2)

Publication Number Publication Date
CN105373790A CN105373790A (zh) 2016-03-02
CN105373790B true CN105373790B (zh) 2019-02-05

Family

ID=55375973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510696674.4A Active CN105373790B (zh) 2015-10-23 2015-10-23 版面分析方法和装置

Country Status (1)

Country Link
CN (1) CN105373790B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227709B (zh) * 2016-07-14 2019-03-29 北京小米移动软件有限公司 细线绘制方法、装置及终端
CN106096592B (zh) * 2016-07-22 2019-05-24 浙江大学 一种数字图书的版面分析方法
CN109643222B (zh) * 2018-05-29 2022-05-06 阿里巴巴(中国)有限公司 版面元素的处理方法、装置、存储介质及电子设备/终端/服务器
CN109214555B (zh) * 2018-08-13 2023-06-27 中国平安人寿保险股份有限公司 工作区域的生成方法、终端设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1750016A (zh) * 2004-09-15 2006-03-22 北京中星微电子有限公司 一种带摄像装置移动终端的光符识别处理方法
CN101770569A (zh) * 2008-12-31 2010-07-07 汉王科技股份有限公司 基于ocr的菜名识别方法
CN101833545A (zh) * 2009-03-11 2010-09-15 汉王科技股份有限公司 数字资源加工过程中的数据标引方法
CN103336961A (zh) * 2013-07-22 2013-10-02 中国科学院自动化研究所 一种交互式的自然场景文本检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186911B (zh) * 2011-12-28 2015-07-15 北大方正集团有限公司 一种处理扫描书数据的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1750016A (zh) * 2004-09-15 2006-03-22 北京中星微电子有限公司 一种带摄像装置移动终端的光符识别处理方法
CN101770569A (zh) * 2008-12-31 2010-07-07 汉王科技股份有限公司 基于ocr的菜名识别方法
CN101833545A (zh) * 2009-03-11 2010-09-15 汉王科技股份有限公司 数字资源加工过程中的数据标引方法
CN103336961A (zh) * 2013-07-22 2013-10-02 中国科学院自动化研究所 一种交互式的自然场景文本检测方法

Also Published As

Publication number Publication date
CN105373790A (zh) 2016-03-02

Similar Documents

Publication Publication Date Title
US10699111B2 (en) Page segmentation of vector graphics documents
CN110363102B (zh) 一种pdf文件的对象识别处理方法及装置
CN105373790B (zh) 版面分析方法和装置
CN105469027B (zh) 针对文档图像的水平和垂直线检测和移除
US8542926B2 (en) Script-agnostic text reflow for document images
CN107093172A (zh) 文字检测方法及***
KR101831783B1 (ko) 출력 인쇄물에 포함된 이미지 및 텍스트 인식 장치 및 그 방법
CN105046200B (zh) 基于直线检测的电子阅卷方法
CN102790841A (zh) 书籍的书脊区域中数字图像的检测和校正方法
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
US6532302B2 (en) Multiple size reductions for image segmentation
US20220415008A1 (en) Image box filtering for optical character recognition
CN111626292B (zh) 一种基于深度学习技术的楼宇指示标识的文字识别方法
US8705862B2 (en) Image processing apparatus
CN103530625A (zh) 一种基于数字图像处理的光学字符识别方法
CN108052955B (zh) 一种高精度盲文识别方法及***
CN104268545B (zh) 一种电子档版式文件中的表格区域识别与内容栅格化方法
CN102737240A (zh) 分析数字文档图像的方法
CN114821620A (zh) 基于行文本框纵向合并的文本内容提取识别方法
CN107798355A (zh) 一种基于文档图像版式自动分析与判断的方法
JP2011090578A (ja) 画像処理装置、画像処理方法及びプログラム
CN113033559A (zh) 一种基于目标检测的文本检测方法及装置、存储介质
CN108062548B (zh) 一种盲文方自适应定位方法及***
CN110298236A (zh) 一种基于深度学习的盲文图像自动识别方法和***
WO2023059876A1 (en) Systems and methods for detecting objects

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant