CN100492403C - 文字图像分行方法和装置以及文字图像识别方法和装置 - Google Patents

文字图像分行方法和装置以及文字图像识别方法和装置 Download PDF

Info

Publication number
CN100492403C
CN100492403C CNB01140938XA CN01140938A CN100492403C CN 100492403 C CN100492403 C CN 100492403C CN B01140938X A CNB01140938X A CN B01140938XA CN 01140938 A CN01140938 A CN 01140938A CN 100492403 C CN100492403 C CN 100492403C
Authority
CN
China
Prior art keywords
image
piece
section
character
pixel distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB01140938XA
Other languages
English (en)
Other versions
CN1410943A (zh
Inventor
罗兆海
李毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to CNB01140938XA priority Critical patent/CN100492403C/zh
Priority to US10/234,367 priority patent/US7352897B2/en
Priority to JP2002277700A priority patent/JP3774690B2/ja
Publication of CN1410943A publication Critical patent/CN1410943A/zh
Application granted granted Critical
Publication of CN100492403C publication Critical patent/CN100492403C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

一种文字图像分行方法,包括以下步骤:分段步骤,将文字图像按像素分成一定宽度的并排的多个文字图像段;像素分布统计步骤,获得各个图像段的像素分布,即图像段的每个像素行中的黑色像素的数目,并获得整个图像的像素分布,即整个图像的每个像素行中的黑色像素的数目;段块形成步骤,根据像素分布统计步骤中获得的图像段的像素分布统计和整个图像的像素分布统计,将图像段拆分为段块;行图像形成步骤,用于将拆分的段块整理成行图像。根据该方法,提高了文字图像的行切分的准确性,特别是有一定噪声的文字图像的行切分的准确性,从而相应提高了文字图像的识别的准确性。

Description

文字图像分行方法和装置以及文字图像识别方法和装置
技术领域
本发明涉及一种文字图像分行方法和装置,尤其涉及文字图像识别中的分行。
背景技术
图1A表示现有的文字图像识别算法的流程。图1B是现有技术的文字图像识别装置的一个示例结构图。首先在s101文字图像行切分装置112将输入装置111输入(如通过扫描)的文字图像分行;在s102字符切分装置113将每一行中的字符切分;字符特征提取和识别装置114在s103提取切分的字符的特征,在s104进行字符匹配识别;在s105输出装置115输出识别结果。在文字图像识别的方法中,图像分行的准确程度直接影响着最终文字识别结果的准确度。
现有的文字图像分行算法的过程如图2所示。首先在步骤s201将输入的文字图像沿水平方向按一定宽度(如400个像素宽)分成多个图像段;在步骤s202分别计算并记录每个图像段中的每条400像素宽的像素行中含有的黑色像素的个数;在步骤s203根据图像段中空白像素行(黑色像素的个数为0的像素行)的位置将图像段沿垂直方向拆分成多个段块,并且记录段块的信息,例如段块的宽度、高度、位置等;在步骤s204计算段块平均高度等信息,作为进一步拆分过大段块合并过小段块的标准;在步骤s205根据段块平均高度等信息将过大段块进一步拆分;在步骤s206检查段块,将过小段块并入邻近段块;在步骤s207根据段块的位置坐标,将段块整理成为行图像。
以图3的文字图像为例。图3在宽度的方向上可以分割为两个图像段。对于第一个图像段,每行像素的黑像素统计图如图4所示,其中横坐标表示图像段中像素行,纵坐标表示相应像素行中黑像素的数目。对于第二个图像段,每行像素中的黑像素数统计如图5所示。
当使用原算法(如图2所示)的流程对图3中的文字图像进行切分时,首先利用如图4和图5所示的每个像素行的像素分布统计,根据空像素行(黑像素数为0)分别将两个段切分成若干段块。然后根据这些段块的高度计算一次平均段块高度,并以此作为标准对切分后的各个段块进行再切分。对于每段中超过平均段块高度一定范围的过大段块,根据该段的黑像素统计图中的峰-谷关系,进一步拆分该过大段块。对于每段中低于平均段块高度一定范围的过小段块,将其并入邻近的段块。然而,由于原算法只计算了一次平均段块高度,而此后对高度在一定范围内超过这个平均段块高度的过大段块进行再切分之后,也不再重新计算新的平均段块高度,这显然是不合理的。结果是对于一些本来应当继续进行切分的段块高度进行检查时于其高度达不到需要切分的标准而被当成合理的段块送入下一流程(由行图像切分字符的流程),从而引起识别错误。
使用图2所示的流程对图3进行行图像切分后,字符识别结果如下:
Figure C01140938D00051
可见,由于行切分的错误,造成原本的21行有效文本行只被切分出8条,并且,由于这些行图像的位置、尺寸都存在错误,使得识别结果非常差。
发明内容:
因此,本发明所要决的问题是,提高文字图像的行切分的准确性,特别是有一定噪声的文字图像的行切分的准确性,从而相应提高文字图像的识别的准确性。
为此,本发明提供了一种文字图像的分行方法,包括以下步骤:分段步骤,将文字图像按像素分成一定宽度的并排的多个文字图像段;像素分布统计步骤,获得各个图像段的像素分布,即图像段的每个像素行中的黑色像素的数目,并获得整个图像的像素分布,即整个图像的每个像素行中的黑色像素的数目;段块形成步骤,根据像素分布统计步骤中获得的图像段的像素分布统计和整个图像的像素分布统计,将图像段拆分为段块;行图像形成步骤,用于将拆分的段块整理成行图像。
本发明还提供了一种文字图像分行装置,其中包括:分段装置,将文字图像按像素分成一定宽度的并排的多个文字图像段;像素分布统计装置,获得各个图像段的像素分布,即图像段的每个像素行中的黑色像素的数目,并获得整个图像的像素分布,即整个图像的每个像素行中的黑色像素的数目;段块形成装置,根据像素分布统计装置获得的图像段的像素分布统计和整个图像的像素分布统计,将图像段拆分为段块;行图像形成装置,用于将拆分的段块整理成行图像。
本发明还提供了一种文字图像识别方法,其中包括以下步骤:分行步骤,将输入的文字图像按照上述的文字图像分行方法分成行图像;字符切分和识别步骤,从分行步骤得到的行图像中提取字符并识别字符。本发明还提供了一种文字图像识别装置,其中包括:上述文字图像分行装置,用于将输入的文字图像分成行图像;字符切分和识别装置,从图像分行装置得到的行图像中提取字符并识别字符。
附图说明:
图1A是现有技术的文字图像识别方法的流程图;
图1B是现有技术的文字图像识别装置的一个示例结构图;
图2是现有技术的文字图像分行算法的流程图;
图3是作为文字图像识别对象的一个文字图像实例;
图4是像素分布统计图,表示图3所示文字图像的第一段中每个像素行中黑像素分布统计结果;
图5是像素分布统计图,表示图3所示文字图像的第二段中每个像素行中黑像素分布统计结果;
图6A和6B是根据本发明的文字图像分行方法的流程图;
图6C是根据本发明的文字图像识别装置的结构图;
图6D是根据本发明的文字图像分行装置的结构图;
图7是像素分布统计图,表示对图3所示整个文字图像的每个像素行进行黑像素分布统计的结果。
具体实施方式:
下面结合附图说明本发明的实施方式。
通过对原算法的分析,可见当图像段中的噪音比较集中于某一区域时,会“遮盖”住该区域的空白像素行。如果噪音很多,还会进一步地缩小像素分布统计图中“波峰”和“波谷”之间的差距,使得对文本行位置的判断变得困难。为此,发明人提出了新的文字图像分行方法(图6A)。
如图6C所示,由文字图像输入装置601(如扫描仪等)将文字图像输入文字图像分行装置602进行文字图像的分行。字符切分装置603对行图像进行字符切分。字符特征提取和识别装置604对切分出的字符进行特征提取和识别。识别结果由输出装置605输出,用于显示、存储或文档处理等进一步处理。
文字图像分行装置602按照图6A所示的流程对文字图像进行分行。文字图像分行装置602的结构示例地表示在图6D中。
通过步骤S301至S309将文字图像段拆分成段块。
在步骤S301,分段装置611将输入的文字图像,如图3所示的文字图像,分成水平排列的多个图像段,每个段具有预定的宽度(如400个像素)。对于最后被划分的段,如果其宽度不到该预定宽度,可以算作一个段。
在步骤s302,像素分布统计装置612分别计算并记录每个图像段中的每条像素行中含有的黑色像素的个数,即每个图像段的像素分布统计,形成如图4和5中所示的像素分布统计图,其中横坐标表示像素行,纵坐标表示每个像素行中黑像素数目。
在步骤S303,像素分布统计装置612分别计算并记录整个图像中的每条像素行中含有的黑色像素的数目,即整个图像的像素分布统计,形成图7所述的像素分布统计图,其中横坐标表示整个图像的像素行,纵坐标表示每个像素行中的黑像素数目。
在步骤S304,段块形成装置613首先根据每个图像段的像素分布统计图中空白像素行(黑像素数为0的像素行)的位置,将图像段拆分成图像段块。同时记录段块信息,如段块的宽度、高度和位置等。
在步骤S305,计算所有段块的平均高度等,作为进一步拆分合并的标准。
对于一般的文字图像,一般在步骤S304不能将所有的文字行通过空白像素行分开。比如,在文字行之间经常存在“噪音”,如黑点等。因此,在步骤S306,根据段块平均高度等信息判断是否存在过大段块。对于过大段块根据该段块所在的段的像素分布统计,如用低到一定程度的“波谷”等作为拆分界线,对该过大段块进一步进行拆分,直到不能拆分为止。
在步骤S307,判断是否能根据该过大段块处的段像素分布统计对该过大段块进行成功拆分。如果拆分成功,则在步骤S309判断是否存在下一个段块,如果存在则重新计算段块平均高度,作为进一步拆分合并的标准,对下一个过大段块进行拆分。如果在步骤S307判断拆分不成功,则在步骤S308用整个图像的行像素分布统计拆分过大段块,直到不能拆分为止,然后前进到步骤S309。
通过步骤S310至S315对拆分出的段块进行进一步的拆分合并处理。
在步骤S310,用图像段的行像素统计信息拆分过大段块,直到不能拆分为止。
在步骤S311,如果判断不能成功拆分,比如由于该段块中存在较多的“噪音”而不能根据该过大段块处的图像段行像素统计信息对该过大段块进行进一步拆分,那么进行到步骤S312。在步骤S312用整个图像的行像素统计信息拆分过大段块。比如用整个图像的行像素分布统计图中低到一定程度的“波谷”等作为拆分界线,对步骤S310中不能拆分的段块进行拆分,直到不能拆分为止,然后进行到步骤S313,检查被拆分出的段块,将过小段块(即高度小到一定程度的段块)与相邻段块合并。如果在步骤S311判断能够根据图像段的行像素统计信息成功拆分过大段块,则进行到步骤S313,进行检查合并过小段块的处理。
在步骤S314,行图像形成装置614根据段块的位置将拆分出的段块整理成行图像。在步骤S315,判断是否还存在下一个未处理的段块。如果所有段块都被步骤S310至S314处理过,则对所有整理出的行图像进行后续的处理,如字符切分处理、字符识别处理等,以完成对文字图像的识别。
我们可以看到,本发明的方法的改进主要在以下两个部分:
1.引入了每个图像段和全图像的行像素分布统计。它的优点是:当“噪音”只集中于图像的某个区域时,在全图像(行方向)范围内的像素分布统计不会因为某一个区域的噪音多少而被过多地影响,从而“拉开”了“波峰”与“波谷”之间的距离,便于进一步地区分文本行之间的界线;
2.改进了行切分的流程。原来的算法只计算一次平均段块高度,而当尺寸过大段块被进一步切分后,也不再重新计算平均段块高度,这显然是不合理的。改进后的算法在切分每个过大段块之后,都重新计算一次平均段块的高度,使得对合理段块高度的判断更加准确。
使用图6所示的流程对图3进行切分后,识别结果如下:
Figure C01140938D00101
可以看到,所有的21个文本行都被正确切分了。从而由于更正确地切分文本行而直接提高了文字图像识别的准确性。
以上,结合具体实例示例性地描述了本发明,但本发明的主旨并不局限于该实例,而应当由所附的权利要求来体现和概括。
在以上实施例中,具有上述结构的文字图像识别装置是由执行程序读取的计算机实现的。该计算机包括:用于执行计算处理的CPU;在读取程序之后作为工作区域的RAM;记录介质,用于存储程序和存储用于执行对应于流程图的方法的各种数据,比如硬盘,ROM,和可拆除的盘(如软盘,CD-ROM等);键盘以及点击设备用于执行各种操作;显示器,用于显示被处理的文本;以及网络接口用于连接网络。用于操作CPU的程序可以是从所述记录介质提供的,或者是通过网络从外部设备读取的。而且,在上述实施例中,本发明是由计算机的程序执行实现的,但是该程序的部分或全部可以由硬件构成。

Claims (12)

1.一种文字图像分行方法,包括以下步骤:
分段步骤,将文字图像按像素分成一定宽度的并排的多个文字图像段;
像素分布统计步骤,获得各个图像段的像素分布,即图像段的每个像素行中的黑色像素的数目,并获得整个图像的像素分布,即整个图像的每个像素行中的黑色像素的数目;
段块形成步骤,根据像素分布统计步骤中获得的图像段的像素分布统计和整个图像的像素分布统计,将图像段拆分为段块;
行图像形成步骤,用于将拆分的段块整理成行图像。
2.根据权利要求1的文字图像分行方法,其特征在于在段块形成步骤中首先以图像段的像素分布中的空白像素行作为界线,将图像段拆分为段块。
3.根据权利要求1的文字图像分行方法,其特征在于在段块形成步骤中,获得拆分的段块的平均段块高度,来判断是否存在过大段块,并且对于过大段块,根据图像段的像素分布和整个图像的像素分布,拆分为合理的段块。
4.根据权利要求1的文字图像分行方法,其特征在于在段块形成步骤中,获得段块的平均段块高度,来判断是否存在过小段块,将过小段块与相邻段块合并。
5.根据权利要求3或4所述的文字图像分行方法,其特征在于拆分每个过大段块之后,重新计算一次段块平均高度,用于以后判断段块是否合理。
6.一种文字图像识别方法,包括以下步骤:
分行步骤,将输入的文字图像按照权利要求1的文字图像分行方法分成行图像;
字符切分和识别步骤,从分行步骤得到的行图像中提取字符并识别字符。
7.一种文字图像分行装置,包括:
分段装置,将文字图像按像素分成一定宽度的并排的多个文字图像段;
像素分布统计装置,获得各个图像段的像素分布,即图像段的每个像素行中的黑色像素的数目,并获得整个图像的像素分布,即整个图像的每个像素行中的黑色像素的数目;
段块形成装置,根据像素分布统计装置获得的图像段的像素分布统计和整个图像的像素分布统计,将图像段拆分为段块;
行图像形成装置,用于将拆分的段块整理成行图像。
8.根据权利要求7的文字图像分行装置,其特征在于段块形成装置首先以图像段的像素分布中的空白像素行作为界线,将图像段拆分为段块。
9.根据权利要求7的文字图像分行装置,其特征在于段块形成装置获得拆分的段块的平均段块高度,用于判断是否存在过大段块,并且段块形成装置根据图像段的像素分布和整个图像的像素分布,将过大段块拆分为合理的段块。
10.根据权利要求7的文字图像分行装置,其特征在于段块形成装置获得段块的平均段块高度,来判断是否存在过小段块,将过小段块与相邻段块合并。
11.根据权利要求9或10所述的文字图像分行装置,其特征在于段块形成装置在拆分每个过大段块之后,重新计算一次段块平均高度,用于以后判断段块是否合理。
12.一种文字图像识别装置,包括:
根据权利要求7的文字图像分行装置,用于将输入的文字图像分成行图像;
字符切分和识别装置,从图像分行装置得到的行图像中提取字符并识别字符。
CNB01140938XA 2001-09-27 2001-09-27 文字图像分行方法和装置以及文字图像识别方法和装置 Expired - Fee Related CN100492403C (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CNB01140938XA CN100492403C (zh) 2001-09-27 2001-09-27 文字图像分行方法和装置以及文字图像识别方法和装置
US10/234,367 US7352897B2 (en) 2001-09-27 2002-09-05 Method and means for dividing an image into character image lines, and method and apparatus for character image recognition
JP2002277700A JP3774690B2 (ja) 2001-09-27 2002-09-24 画像を文字画像行に分割する方法および装置、ならびに、文字画像認識方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB01140938XA CN100492403C (zh) 2001-09-27 2001-09-27 文字图像分行方法和装置以及文字图像识别方法和装置

Publications (2)

Publication Number Publication Date
CN1410943A CN1410943A (zh) 2003-04-16
CN100492403C true CN100492403C (zh) 2009-05-27

Family

ID=4676027

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB01140938XA Expired - Fee Related CN100492403C (zh) 2001-09-27 2001-09-27 文字图像分行方法和装置以及文字图像识别方法和装置

Country Status (3)

Country Link
US (1) US7352897B2 (zh)
JP (1) JP3774690B2 (zh)
CN (1) CN100492403C (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100940203B1 (ko) * 2003-02-18 2010-02-10 삼성전자주식회사 세그먼트 기반의 화소 처리 장치 및 그 방법
CN100354876C (zh) * 2005-04-13 2007-12-12 佳能株式会社 增强字符行图像的方法和设备
CN100347723C (zh) * 2005-07-15 2007-11-07 清华大学 基于几何代价与语义-识别代价结合的脱机手写汉字字符的切分方法
CN101251892B (zh) * 2008-03-07 2010-06-09 北大方正集团有限公司 一种字符切分方法和装置
JP4952627B2 (ja) * 2008-03-21 2012-06-13 富士通株式会社 画像処理装置、画像処理方法および画像処理プログラム
US20110044554A1 (en) * 2009-08-21 2011-02-24 Konica Minolta Systems Laboratory, Inc. Adaptive deblurring for camera-based document image processing
CN102243621A (zh) * 2010-05-11 2011-11-16 项洁 影像文本文件的活字排版方法
CN102456136B (zh) * 2010-10-29 2013-06-05 方正国际软件(北京)有限公司 一种图文切分方法及***
US8395656B1 (en) * 2011-01-24 2013-03-12 Hewlett-Packard Development Company, L.P. Methods and apparatus to direct attention in a video content display
CN105283882B (zh) * 2013-04-12 2019-12-27 诺基亚技术有限公司 用于文本输入的装置及相关联的方法
CN103559512B (zh) * 2013-11-01 2017-11-03 中国联合网络通信集团有限公司 一种文字识别输出方法及***
NO20161728A1 (en) * 2016-11-01 2018-05-02 Bja Holding As Written text transformer
CN108228553A (zh) * 2017-12-28 2018-06-29 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
CN108549896B (zh) * 2018-04-24 2020-08-04 大连民族大学 满文部件切分中删除多余候选切分行的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4992649A (en) * 1988-09-30 1991-02-12 United States Postal Service Remote video scanning automated sorting system
EP0755725B1 (de) * 1995-07-22 1998-11-04 BSR Naturstein-Aufbereitungs GmbH Anordnung zum Trennen nach der Form
CN1273542A (zh) * 1997-11-04 2000-11-15 西门子公司 识别邮件发送信息的方法和装置
EP0726540B1 (en) * 1995-02-08 2003-09-10 Kabushiki Kaisha Toshiba Apparatus and method for video coding

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2548579B2 (ja) 1987-09-19 1996-10-30 富士通株式会社 文字認識装置
JPH03252892A (ja) 1990-03-02 1991-11-12 Oki Electric Ind Co Ltd 光学式文字読取装置
US5119433A (en) * 1990-03-12 1992-06-02 International Business Machines Corporation Method and system for locating the amount field on a document
US5307422A (en) * 1991-06-25 1994-04-26 Industrial Technology Research Institute Method and system for identifying lines of text in a document
JP3020662B2 (ja) 1991-07-30 2000-03-15 沖電気工業株式会社 文字行切り出し装置及び文字認識装置
JPH0554069A (ja) 1991-08-22 1993-03-05 Ricoh Co Ltd デジタル翻訳装置
JPH07105309A (ja) 1993-10-01 1995-04-21 Fuji Facom Corp 行切出し方法
JPH07182537A (ja) * 1993-12-21 1995-07-21 Toshiba Corp 図形描画装置および図形描画方法
US5999647A (en) * 1995-04-21 1999-12-07 Matsushita Electric Industrial Co., Ltd. Character extraction apparatus for extracting character data from a text image
JP2974061B2 (ja) * 1996-11-13 1999-11-08 日本電気株式会社 パタン抽出装置
JPH1125218A (ja) 1997-07-08 1999-01-29 Oki Electric Ind Co Ltd 行切出し方法、行切出し修正方法、行切出し装置および行切出し修正装置
JP3645403B2 (ja) 1997-09-29 2005-05-11 株式会社東芝 文字読取装置および文字読取方法
JP2000298702A (ja) 1999-04-15 2000-10-24 Canon Inc 画像処理装置及びその方法、コンピュータ可読メモリ
JP2000339402A (ja) 1999-05-27 2000-12-08 Canon Inc 画像処理装置及びその方法、コンピュータ可読メモリ
JP2002056356A (ja) 2000-08-11 2002-02-20 Ricoh Co Ltd 文字認識装置、文字認識方法および記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4992649A (en) * 1988-09-30 1991-02-12 United States Postal Service Remote video scanning automated sorting system
EP0726540B1 (en) * 1995-02-08 2003-09-10 Kabushiki Kaisha Toshiba Apparatus and method for video coding
EP0755725B1 (de) * 1995-07-22 1998-11-04 BSR Naturstein-Aufbereitungs GmbH Anordnung zum Trennen nach der Form
CN1273542A (zh) * 1997-11-04 2000-11-15 西门子公司 识别邮件发送信息的方法和装置

Also Published As

Publication number Publication date
US20030086610A1 (en) 2003-05-08
CN1410943A (zh) 2003-04-16
US7352897B2 (en) 2008-04-01
JP3774690B2 (ja) 2006-05-17
JP2003150902A (ja) 2003-05-23

Similar Documents

Publication Publication Date Title
CN100492403C (zh) 文字图像分行方法和装置以及文字图像识别方法和装置
CN109635268B (zh) Pdf文件中表格信息的提取方法
WO2020140698A1 (zh) 表格数据的获取方法、装置和服务器
CN101615252B (zh) 一种自适应图像文本信息提取方法
US6741745B2 (en) Method and apparatus for formatting OCR text
CN102567300B (zh) 图片文档的处理方法及装置
US8041113B2 (en) Image processing device, image processing method, and computer program product
CN101908136B (zh) 一种表格识别处理方法及***
CN104298982A (zh) 一种文字识别方法及装置
US6711292B2 (en) Block selection of table features
JPH08293001A (ja) 画像処理装置及び光学的文字認識装置及びそれらの方法
JP2007148677A (ja) 画像処理装置、画像処理方法
CN110674811B (zh) 图像识别的方法及装置
CN112926564A (zh) 图片分析方法、***、计算机设备和计算机可读存储介质
CN108446702B (zh) 一种图像字符分割方法、装置、设备及存储介质
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN112651331A (zh) 文本表格提取方法、***、计算机设备及存储介质
CN101908382A (zh) 芯片失效的数据分类分析方法及其装置
JP2010123002A (ja) 文書画像レイアウト装置
JP3471578B2 (ja) 行方向判定装置、画像傾き検出装置及び画像傾き補正装置
CN102968638A (zh) 基于关键字光学字符识别的影像清晰度判断的方法
CN109871743B (zh) 文本数据的定位方法及装置、存储介质、终端
CN109284495B (zh) 一种对文本进行无表格线切表的方法及装置
CN115713775A (zh) 一种从文档中提取表格的方法、***和计算机设备
CN102542279A (zh) 维哈柯文文本图像的行提取方法及装置

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090527

Termination date: 20150927

EXPY Termination of patent right or utility model