CN107798355B - 一种基于文档图像版式自动分析与判断的方法 - Google Patents
一种基于文档图像版式自动分析与判断的方法 Download PDFInfo
- Publication number
- CN107798355B CN107798355B CN201711143809.XA CN201711143809A CN107798355B CN 107798355 B CN107798355 B CN 107798355B CN 201711143809 A CN201711143809 A CN 201711143809A CN 107798355 B CN107798355 B CN 107798355B
- Authority
- CN
- China
- Prior art keywords
- format
- document image
- document
- character
- horizontal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种基于文档图像版式自动分析与判断的方法,包括:对图像进行预处理;对文档图像中文字区域水平方向进行自动检测;对文档图像中文字区域垂直方向进行自动检测;将文档图像中文字区域以行或列的属性为基准,并根据水平方向和垂直方向的属性检测,作出一系列的决策与分类;根据行和列在算法上的决策与分类,判断文档图像中的版式。本发明通过文字区域自动检测、算法分析、横版竖版结果判断,以达到自动化处理的要求,将结果分为横版、竖版、无法判断三类,版式判断准确无误;其中,对于特殊图像给出无法判断的结果。版式分析为下一步文字识别提供了正确的识别条件和方向,提高了文字识别的正确率,增加了结果的准确性。
Description
技术领域
本发明涉及图像识别和图像处理技术领域,尤其涉及一种基于文档图像版式自动分析与判断的方法。
背景技术
在纸质文档电子化的过程中,需要提取文档中的重要信息,该过程涉及到文字识别的技术领域,在文字识别的过程中,由于版式的不同,将决定识别的顺序不同。在文字识别前,确定文档中文字区域是属于横向排版还是竖向排版,成为文字识别中关键的步骤。
在对文档图像中文字识别的过程中,需要根据版式来选择识别顺序,若横向排版的文字被竖向识别,将会带来识别错误的结果,影响文字识别的正常使用。因此,在进行文字识别前,先对文档图像中文字的版式(横版或是竖版)作出判断,方便后续文字识别顺序,对于提高识别结果正确率等方面有着非常重要的作用。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于文档图像版式自动分析与判断的方法,该方法主要解决的技术问题是文档图像中文字区域自动检测、算法分析、横版竖版结果判断。
本发明的目的通过以下的技术方案来实现:
一种基于文档图像版式自动分析与判断的方法,包括:
A对图像进行预处理;
B对文档图像中文字区域水平方向进行自动检测;
C对文档图像中文字区域垂直方向进行自动检测;
D将文档图像中文字区域以行或列的属性为基准,并根据水平方向和垂直方向的属性检测,作出行和列在算法上的决策和分类;
E根据行和列在算法上的决策和分类,判断文档图像中的版式。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
针对各类文档图像,包括含有背景图案、文字大小不一致、中文或外文、单行多行、单列多列等,可以达到自动判断版式的功能,并将结果分为横版、竖版、无法判断三类,确保其正确率,并单独标记无法判断的部分,本发明实现文档图像版式分析的自动化处理。
附图说明
图1是基于文档图像版式自动分析与判断的方法流程图;
图2是文档图像中文字区域以行或列为基准分类中的第一类情况下文档图像;
图3是文档图像中文字区域以行或列为基准分类中的第二类情况下文档图像;
图4是文档图像中文字区域以行或列为基准分类中的第三类情况下文档图像;
图5是文档图像中文字区域以行或列为基准分类中的第四类情况下文档图像;
图6是文档图像中文字区域以行或列为基准分类中特殊情况下的文档图像;
图7是文档图像中文字区域以行或列为基准分类中不能判断情况下的文档图像。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于文档图像版式自动分析与判断的方法流程,包括:
步骤10对图像进行预处理;
步骤20对文档图像中文字区域水平方向进行自动检测;
步骤30对文档图像中文字区域垂直方向进行自动检测;
步骤40将文档图像中文字区域以行或列的属性为基准,并根据水平方向和垂直方向的属性检测,作出行和列在算法上的决策和分类;
步骤50根据行和列在算法上的决策和分类,判断文档图像中的版式。
上述步骤10中对图像进行预处理包括:对图像去背景、纠偏、去噪声、灰度化、二值化。
上述步骤20具体包括:对文档图像做水平投影,并记录文字水平方向的属性特征。
上述文字水平方向的属性特征包括:文字区域上下边界LineNum,文字行高LineHeight,最大行高maxLineHeight,最小行高minLineHeight,行高的平均值aveLineHeight,文字行的行高总和tolLineHeight,版面中内容区域高度OCRheight,所有黑色像素水平投影区域行高总和tolLine,文字间水平空白间隙占内容区域的比例LineBlankPro,文字间水平方向空白间隙的均值LineBlank,文字行占版面中内容区域的比例LinePro。
上述步骤30具体包括:对文档图像做垂直投影,并记录文字垂直方向的属性特征。
上述文字垂直方向的属性特征包括:文字区域左右边界ColumnNum,文字列宽ColumnWidth,最大列宽maxColumnWidth,最小列宽minColumnWidth,列宽的平均值aveColumnWidth,文字列的列宽总和tolColumnWidth,版面中内容区域宽度OCRwidth,所有黑色像素垂直投影区域列宽总和tolColumn,文字间垂直空白间隙占内容区域的比例ColumnBlankPro,文字间垂直方向空白间隙的均值ColumnBlank,文字列占版面中内容区域的比例ColumnPro。
上述步骤40具体包括:
将文档图像中文字区域以三行或三列为基准进行分类,共分为四类,分别对这四类进行分析与横竖版式的判断。
第一类是指,多行(即大于三行);第二类是指,多列(即大于三列);第三类是指,三行及以下;第四类是指,三列及以下。
根据步骤20和步骤30中图像水平方向和垂直方向中自动检测结果,分析其属性特征,得出如下条件与关系式:
(1)同时满足aveColumnWidth>3×aveLineHeight和maxLineHeight<3.5×minLineHeight;
(2)同时满足aveLineHeight>3×aveColumnWidth和maxColumnWidth<3.5×minColumnWidth;
(4)LinePro<ColumnPro;
(5)LinePro>ColumnPro;
(6)只有一列,且满足aveColumnWidth>3.2×aveLineHeight;
(7)有两列及以上,且满足maxColumnWidth>2×minColumnWidth或maxColumnWidth>10×maxLineHeight;
(8)有三列及以上,且满足且(maxColumnWidth-minColumnWidth)≥(maxLineHeight-minLineHeight)且LineBlankPro>ColumnBlankPro且LineBlankPro>0且ColumnBlankPro>0且LineBlank<aveLineHeight且ColumnBlank<aveColumnWidth;
(9)只有一行,且满足aveLineHeight>3.2×aveColumnWidth;
(10)有两行及以上,且满足maxLineHeight>2×minLineHeight或maxLineHeight>10×maxColumnWidth;
(11)有三行及以上,且满足且(maxColumnWidth-minColumnWidth)<(maxLineHeight-minLineHeight)且LineBlankPro<ColumnBlankPro且LineBlankPro>0且ColumnBlankPro>0且LineBlank<aveLineHeight且ColumnBlank<aveColumnWidth;
(12)只有一行,且满足abs(aveLineHeight-aveColumnWidth)<j和aveLineHeight<h,其中,j和h是两个常数,根据文档中文字的平均行高来决定;
(13)只有一列,且满足abs(aveLineHeight-aveColumnWidth)<k和aveColumnWidth<w,其中,k和w是两个常数,根据文档中文字的平均列宽来决定。
上述步骤50具体包括:根据行和列在算法上的决策和分类,得出文档图像中的版式是横版还是竖版。
对于第一类文档图像,若该文档图像中的文字投影结果满足具体步骤40中的条件(1)(6)或(1)(7),则判断该文档的版式为横版,如图2中(a);若满足条件(3)和(4),则判断该文档的版式为横版,如图2中(b);对于排列整齐的文字,即行高列宽近似相同,如图2中(c),若满足条件(8),则判断该文档的版式为横版。
对于第二类文档图像,若该文档图像中的文字投影结果满足具体步骤40中的条件(2)(9)或(2)(10),则判断该文档的版式为竖版,如图3中(a);若满足条件(3)和(5),则判断该文档的版式为竖版,如图3中(b);对于排列整齐的文字,即行高列宽近似相同,如图3中(c),若满足条件(11),则判断该文档的版式为竖版。
对于第三类文档图像,若该文档图像中的文字投影结果满足具体步骤40中的条件(1)(12),则判断该文档的版式为横版,如图4中(a);对于排列整齐的文字,即行高列宽近似相同,如图4中(b),若满足条件(8),则判断该文档的版式为横版。
对于第四类文档图像,若该文档图像中的文字投影结果满足具体步骤40中的条件(2)(13),则判断该文档的版式为竖版,如图5中(a);对于排列整齐的文字,即行高列宽近似相同,如图5中(b),若满足条件(11),则判断该文档的版式为竖版。
上述四类文档图像属于一般文档图像的情况,除此以外,会遇到一些特殊图像,如图6中(a)(b)(c)所示,该文字区域在一个框内或表格内,此时,根据需要,先去掉外边框或表格线后,进一步做一般情况下的判断。
对于依旧不能判断横竖版式的页面,例如背景画面复杂影响其投影结果或是艺术字手写字粘连不属于印刷规范格式等特例情况,给予标记,说明其不能判断,以保证所有文档图像判断的完整性,保证每一个图像的结果正确性,图7中(a)(b)(c)(d)(e)列出来部分不能判断版式的图像。
上述实施例将文档图像输出横版、竖版,对于特殊的图像,如背景画面复杂影响其投影结果或是艺术字手写字粘连不属于印刷规范格式等特例情况,会标记之,给出无法判断的结果。
上述实施例通过文字区域自动检测、算法分析、横版竖版结果判断,以达到自动化处理的要求,将结果分为横版、竖版、无法判断三类,版式判断准确无误;其中,对于特殊图像给出无法判断的结果。版式分析为下一步文字识别提供了正确的识别条件和方向,提高了文字识别的正确率,增加了结果的准确性。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (1)
1.一种基于文档图像版式自动分析与判断的方法,其特征在于,所述方法包括:
A对图像进行预处理;
B对文档图像中文字区域水平方向进行自动检测;
C对文档图像中文字区域垂直方向进行自动检测;
D将文档图像中文字区域以行或列的属性为基准,并根据水平方向和垂直方向的属性检测,作出行和列在算法上的决策和分类;
E根据行和列在算法上的决策和分类,判断文档图像中的版式;
所述步骤A中图像预处理包括对图像去背景色、纠偏、去噪声、图像灰度化、图像二值化;
所述步骤B具体包括:对文档图像做水平投影,记录文字水平方向的属性特征;所述文字水平方向的属性特征包括:文字区域上下边界、文字行高、最大行高、最小行高、行高的平均值、文字行的行高总和、版面中内容区域高度、所有黑色像素水平投影区域行高总和、文字间水平空白间隙占内容区域的比例、文字间水平方向空白间隙的均值及文字行占版面中内容区域的比例;
所述步骤C具体包括:对文档图像做垂直投影,记录文字垂直方向的属性特征;所述文字垂直方向的属性特征包括:文字区域左右边界、文字列宽、最大列宽、最小列宽、列宽的平均值、文字列的列宽总和、版面中内容区域宽度、所有黑色像素垂直投影区域列宽总和、文字间垂直空白间隙占内容区域的比例、文字间垂直方向空白间隙的均值、文字列占版面中内容区域的比例;
步骤D和步骤E中,将文档图像中文字区域以三行或三列为基准进行分类,共分为四类,分别对这四类进行分析与横竖版式的判断;
第一类是指,多行即大于三行;第二类是指,多列即大于三列;第三类是指,三行及以下;第四类是指,三列及以下;
根据步骤B和步骤C中图像水平方向和垂直方向中自动检测结果,分析其属性特征,得出如下条件与关系式:
(1)同时满足aveColumnWidth>3×aveLineHeight和maxLineHeight<3.5×minLineHeight;
(2)同时满足aveLineHeight>3×aveColumnWidth和maxColumnWidth<3.5×minColumnWidth;
(4)LinePro<ColumnPro;
(5)LinePro>ColumnPro;
(6)只有一列,且满足aveColumnWidth>3.2×aveLineHeight;
(7)有两列及以上,且满足maxColumnWidth>2×minColumnWidth或maxColumnWidth>10×maxLineHeight;
(8)有三列及以上,且满足且(maxColumnWidth-minColumnWidth)≥(maxLineHeight-minLineHeight)且LineBlankPro>ColumnBlankPro且LineBlankPro>0且ColumnBlankPro>0且LineBlank<aveLineHeight且ColumnBlank<aveColumnWidth;
(9)只有一行,且满足aveLineHeight>3.2×aveColumnWidth;
(10)有两行及以上,且满足maxLineHeight>2×minLineHeight或maxLineHeight>10×maxColumnWidth;
(11)有三行及以上,且满足且(maxColumnWidth-minColumnWidth)<(maxLineHeight-minLineHeight)且LineBlankPro<ColumnBlankPro且LineBlankPro>0且ColumnBlankPro>0且LineBlank<aveLineHeight且ColumnBlank<aveColumnWidth;
(12)只有一行,且满足abs(aveLineHeight-aveColumnWidth)<j和aveLineHeight<h,其中,j和h是两个常数,根据文档中文字的平均行高来决定;
(13)只有一列,且满足abs(aveLineHeight-aveColumnWidth)<k和aveColumnWidth<w,其中,k和w是两个常数,根据文档中文字的平均列宽来决定;
根据行和列在算法上的决策和分类,得出文档图像中的版式是横版还是竖版;
对于第一类文档图像,若该文档图像中的文字投影结果满足条件(1)(6)或(1)(7),则判断该文档的版式为横版;若满足条件(3)和(4),则判断该文档的版式为横版;对于排列整齐的文字,即行高列宽近似相同,若满足条件(8),则判断该文档的版式为横版;
对于第二类文档图像,若该文档图像中的文字投影结果满足具体步骤D中的条件(2)(9)或(2)(10),则判断该文档的版式为竖版;若满足条件(3)和(5),则判断该文档的版式为竖版;对于排列整齐的文字,即行高列宽近似相同,若满足条件(11),则判断该文档的版式为竖版;
对于第三类文档图像,若该文档图像中的文字投影结果满足条件(1)(12),则判断该文档的版式为横版;对于排列整齐的文字,即行高列宽近似相同,若满足条件(8),则判断该文档的版式为横版;
对于第四类文档图像,若该文档图像中的文字投影结果满足条件(2)(13),则判断该文档的版式为竖版;对于排列整齐的文字,即行高列宽近似相同,若满足条件(11),则判断该文档的版式为竖版。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711143809.XA CN107798355B (zh) | 2017-11-17 | 2017-11-17 | 一种基于文档图像版式自动分析与判断的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711143809.XA CN107798355B (zh) | 2017-11-17 | 2017-11-17 | 一种基于文档图像版式自动分析与判断的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107798355A CN107798355A (zh) | 2018-03-13 |
CN107798355B true CN107798355B (zh) | 2021-12-07 |
Family
ID=61535699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711143809.XA Active CN107798355B (zh) | 2017-11-17 | 2017-11-17 | 一种基于文档图像版式自动分析与判断的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107798355B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353961B (zh) * | 2020-03-12 | 2023-12-19 | 上海合合信息科技股份有限公司 | 一种文档曲面校正方法及装置 |
CN115696028A (zh) * | 2021-07-30 | 2023-02-03 | 广州视源电子科技股份有限公司 | 图像方向调整方法、装置、存储介质及电子设备 |
CN114120323A (zh) * | 2021-11-05 | 2022-03-01 | 北京量子之歌科技有限公司 | 一种支付账单的管理方法、装置、设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770575A (zh) * | 2008-12-31 | 2010-07-07 | 汉王科技股份有限公司 | 名片图像倾斜角度的测量方法和装置 |
CN101882215A (zh) * | 2009-05-25 | 2010-11-10 | 汉王科技股份有限公司 | 判断文本区域排版方向的方法 |
CN104966051A (zh) * | 2015-06-03 | 2015-10-07 | 中国科学院信息工程研究所 | 一种文档图像的版式识别方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5848186A (en) * | 1995-08-11 | 1998-12-08 | Canon Kabushiki Kaisha | Feature extraction system for identifying text within a table image |
JP2000003453A (ja) * | 1998-06-15 | 2000-01-07 | Omron Corp | 書類の方向検知方法並びに装置及び画像処理装置 |
CN101931731B (zh) * | 2009-06-26 | 2012-09-26 | 北京大学 | 一种文稿方向的检测方法和装置 |
CN102567732B (zh) * | 2011-12-28 | 2013-11-06 | 方正国际软件有限公司 | 一种文档排版类型的检测方法及*** |
CN102831421B (zh) * | 2012-08-29 | 2015-09-23 | 华东师范大学 | 一种基于标点符号的文档上下方向检测方法 |
CN104346615B (zh) * | 2013-08-08 | 2019-02-19 | 北大方正集团有限公司 | 版式文档中复合图的提取装置和提取方法 |
CN104516891B (zh) * | 2013-09-27 | 2018-05-01 | 北大方正集团有限公司 | 一种版面分析方法及*** |
-
2017
- 2017-11-17 CN CN201711143809.XA patent/CN107798355B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770575A (zh) * | 2008-12-31 | 2010-07-07 | 汉王科技股份有限公司 | 名片图像倾斜角度的测量方法和装置 |
CN101882215A (zh) * | 2009-05-25 | 2010-11-10 | 汉王科技股份有限公司 | 判断文本区域排版方向的方法 |
CN104966051A (zh) * | 2015-06-03 | 2015-10-07 | 中国科学院信息工程研究所 | 一种文档图像的版式识别方法 |
Non-Patent Citations (1)
Title |
---|
"中文版面分析与重构研究";王宇;《中国优秀硕士学位论文全文数据库·信息科技辑》;20040215;第2004年卷(第2期);第3.4节 * |
Also Published As
Publication number | Publication date |
---|---|
CN107798355A (zh) | 2018-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8494273B2 (en) | Adaptive optical character recognition on a document with distorted characters | |
EP2545495B1 (en) | Paragraph recognition in an optical character recognition (ocr) process | |
CN103034848B (zh) | 一种表单类型的识别方法 | |
JP5492205B2 (ja) | 印刷媒体ページの記事へのセグメント化 | |
US20120219220A1 (en) | Method and system for preprocessing an image for optical character recognition | |
CN114299528B (zh) | 一种针对扫描文档的信息提取和结构化方法 | |
CN107798355B (zh) | 一种基于文档图像版式自动分析与判断的方法 | |
CN109034019B (zh) | 一种基于行分割线的黄色双行车牌字符分割方法 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
JP2013084071A (ja) | 帳票認識方法および帳票認識装置 | |
CN112016481A (zh) | 基于ocr的财务报表信息检测和识别方法 | |
JP2011188465A (ja) | 原稿レイアウトの方向検出方法及び装置 | |
US8787702B1 (en) | Methods and apparatus for determining and/or modifying image orientation | |
CN116824608A (zh) | 基于目标检测技术的答题卡版面分析方法 | |
Bera et al. | Normalization of unconstrained handwritten words in terms of Slope and Slant Correction | |
US8989485B2 (en) | Detecting a junction in a text line of CJK characters | |
JP6116531B2 (ja) | 画像処理装置 | |
US20120250985A1 (en) | Context Constraints for Correcting Mis-Detection of Text Contents in Scanned Images | |
CN112329641A (zh) | 一种表格识别方法、装置、设备及可读存储介质 | |
JP5601027B2 (ja) | 画像処理装置及び画像処理プログラム | |
CN106909897B (zh) | 一种文本图像倒置快速检测方法 | |
Singh et al. | Document layout analysis for Indian newspapers using contour based symbiotic approach | |
JP4194020B2 (ja) | 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置 | |
JP4244692B2 (ja) | 文字認識装置及び文字認識プログラム | |
CN106372632B (zh) | 一种基于ocr的漏识文字自动检测的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |