CN1497502A - 图象处理方法和图象处理装置 - Google Patents

图象处理方法和图象处理装置 Download PDF

Info

Publication number
CN1497502A
CN1497502A CNA031598773A CN03159877A CN1497502A CN 1497502 A CN1497502 A CN 1497502A CN A031598773 A CNA031598773 A CN A031598773A CN 03159877 A CN03159877 A CN 03159877A CN 1497502 A CN1497502 A CN 1497502A
Authority
CN
China
Prior art keywords
image
black
black pixel
pixel piece
white
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA031598773A
Other languages
English (en)
Other versions
CN100474340C (zh
Inventor
金津知俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN1497502A publication Critical patent/CN1497502A/zh
Application granted granted Critical
Publication of CN100474340C publication Critical patent/CN100474340C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

本发明公开了通过与在白底上由黑象素构成的通常文字相同的树结构内对在黑底上由白象素构成的翻转文字(黑底白字)进行处理的图象处理方法、图象处理装置。从二值图象中回归式抽出黑象素块和白象素块,作成表示该黑象素块和白象素块的位置关系的树结构数据,使树结构数据所包含的黑象素块中的能包含翻转文字的黑象素块的内部进行黑白翻转,来作成翻转图象,并从该作成的翻转图象中抽出白象素块和黑象素块,将与该抽出的白象素块和黑象素块有关的数据追加到所述树结构数据的对应节点中。

Description

图象处理方法和图象处理装置
技术领域
本发明涉及图象处理方法和图象处理装置。
背景技术
近年来,随着信息电子化的发展,对相互转换纸文件和电子化文件的需要提高了。在对纸文件进行电子化时,不只是要简单地通过扫描仪等对纸面进行光电转换,进行图象数据化,而且最好是对应于所记载的内容,将文件图象分割成文字、记号、图、照片、表等各种不同性质的区域,使文字部分成为文字码信息,使图或线、表格成为向量数据,使照片成为图象数据,使表的内容成为结构数据,象所述的这样来针对各区域以最佳形式进行数据化。
这样,在纸文件的电子化处理中,分析写在文件图象中的内容并按照文字或图、照片、表等不同性质的部分区域来逐一处理即区域分割处理是非常重要的。
对于该区域分割处理的方法,例如提出了以下方案:将图21那样的以多值(灰色标度或彩色)读取的文件图象转换为与基于亮度差的2值图象,抽取出其中存在的所有的在轮廓上具有黑象素的象素块,根据大小等分类为文字和非文字,进而通过从存在于非文字的大的黑象素块内的白象素区域的内部回归式搜索象素,来用图16那样的分层的树结构表现象素块的状况。针对该象素块的树结构,对位于同一分层中的文字象素块进行分组化,得到文字区域,另外,根据非文字象素块的形状和周围条件得到图象或照片区域,作为构成分层的象素的组得到表区域等,通过用以上处理分割成具有各种属性的区域,能得到图22那样的区域分割结果。另外,此时,通过使各区域具有图23那样的树结构,而成为适于对文件进行逻辑结构判断的信息。
但是,在这样的区域分割处理中,在处理的结构上,抽出图21所包含的亮度翻转文字部分,即在二值图象上不是白底黑字,而是在黑底上由白象素构成的文字(翻转文字、黑底白文字)的区域并不容易。另外,比较黑白象素数,如果判断出黑象素多,则可以考虑能通过翻转象素来识别翻转文字,但得到通常文字与翻转文字的关联性是很难的,无法得到从包含其两者的文件中一并处理该文件的通常文字和翻转文字的树结构。
发明内容
为了解决所述问题,本发明的特征在于:从二值图象中回归式抽出黑象素块和白象素块,作成表示该抽出的黑象素块和白象素块的位置关系的树结构数据,对能包含树结构数据中包含的黑象素块中的翻转文字的黑象素块的内部进行黑白翻转来作成翻转图象,并从该作成的翻转图象中抽出白象素块和黑象素块,将与该抽出的白象素块和黑象素块有关的数据追加到所述树结构数据所对应的节点中。
本发明的其他的特征和优点将在以下的说明及附图中进一步明确。
附图说明
下面简要说明附图。
图1是表示实施例1的结构的框图。
图2是实现实施例1的装置结构例子的图。
图3是用来说明实施例1的区域分割处理的流程图。
图4是用来说明象素块抽出处理的流程图。
图5是用来说明黑象素的轮廓跟踪处理的流程图。
图6是用来说明翻转文字抽出处理的流程图。
图7是用来说明区域分类处理的流程图。
图8是基于轮廓跟踪的象素块抽出处理的例子。
图9是翻转文字抽出处理的例子。
图10是表示8个跟踪方向的图。
图11是用来决定跟踪方向的表。
图12是用于获得对焦点象素附加的标记的表。
图13是表示四边形的黑象素块和此外的黑象素块的例子的图。
图14A、14B、14C是表示黑象素块内部的白象素块的排列状态的图。
图15是作为区域分割处理的输入的二值图象的例子。
图16是表示象素块的树结构的例子的图。
图17是为抽出翻转文字而作成的图象的例子。
图18是表示付与了翻转文字的象素块的树结构的例子的图。
图19是包含翻转文字部分的区域分割处理结果的例子。
图20是包含翻转文字部分的区域的树结构的例子。
图21是进行区域分割的文件原稿的例子。
图22是现有的区域分割结果的例子。
图23是现有的区域树结构的例子。
具体实施方式
图1表示了本实施例的框图。
101是输入对纸文件进行光电转换生成的图象数据的输入部件,102是对输入的图象数据进行二值化或缩小、除去噪音等前处理的前处理部件,103是将图象数据分割成文字、线、图、表等的每个属性的区域的区域分割部件。并且,区域分割部件103由抽出黑象素和白象素作成象素块的树结构数据(分层结构数据)的象素块抽出部件1031、向象素块的树结构数据追加翻转文字信息的翻转象素块抽出部件1032、针对象素块的树结构数据,以属性区别对区域进行分类的区域决定部件1033构成。104是输出从图象得到的进行了区域分割的结果的信息(区域的树结构数据)的输出部件。
图2表示了实现本实施例的装置结构的概要图。扫描仪装置201执行输入部件101的光电转换动作,输入图象数据。计算机装置202执行前处理102及区域分割处理103,接受通过键盘或鼠标等指示装置203,从用户发来的动作控制。通过区域分割处理生成的数据经由内置在计算机中的硬盘等存储介质、显示器204、打印机205、网络被输出到其他的装置等。
并且,实现本实施例的计算机装置由进行实际的处理运算的CPU、读入程序,作为工作区使用的RAM、用来存储执行与后述的流程对应的处理的程序和各种数据的存储介质(硬盘、ROM、可移动盘(软盘(R)、CD-ROM等)等)、用来进行各种操作的键盘或指示装置、用来显示处理对象的文件等的显示器、用来与网络连接的网络接口等构成。由CPU执行的图象处理程序可以从所述存储介质供给,也可以经由网络从外部装置读入。并且,在本实施例中是通过在CPU中执行程序来实现的,但也可以由硬件(电气电路)构成其一部分或全部的处理。
下面,利用图3说明在本实施例中执行的图象处理步骤。
在步骤S301,用扫描仪等读取纸文件,生成图象数据,并将该图象数据输入到计算机。
在步骤S302,在前处理部件102中,将图象数据转换为适于执行后阶段的区域分割处理的二值图象。具体地说,在输入的图象数据是彩色或灰色标度等多值图象的情况下,适当地设置阈值,进行变换为黑白的2值(并且,在本实施例中,设黑象素的象素值为1,设白象素的象素值为0)的二值化处理和除去孤立点等的噪音除去处理。进而,为了高速地进行图象的区域分割处理,也可以进行将输入的图象数据的大小变更为适当的图象大小的处理(文件图象的分辨率转换)。例如,如果将图象分辨率缩小为1/2,则通过在2×2范围(如果缩小为1/4,则为4×4范围)内的象素全部为0的情况下,使之为代表象素值0,在除此以外的情况下,使象素值为1的OR缩小来进行处理。
在步骤S303,执行区域分割处理103的象素块抽出处理1031,从二值图象中回归式抽出黑象素、白象素的块,作成树形的结构。下面,利用图4的流程图详细说明该象素块抽出处理。
在步骤S401,进行从图象中抽出黑象素的8连接轮廓块的处理。在抽出了黑象素块的情况下,前进到S402,在没有抽出的情况下,前进到S408。并且,黑象素的8连接轮廓块是指通过在纵横斜的任意方向上检测接触的黑象素,跟踪黑象素集合的轮廓,而抽出的黑象素的集合(区域)。以后,将该集合称为黑象素块。并且,该黑象素块不论轮廓以外的象素的黑白,在其内部都可以有白象素的空洞。并且,对于该黑象素的轮廓跟踪方法,可以使用公知的方法,以下利用图5简单地说明该黑象素块抽出处理的概要。
在步骤S501,从左上开始顺序地线扫描(由白象素值0、黑象素值1构成的)二值图象,搜索象素值成为1的点(黑象素)。例如,以图8的801的箭头所示那样的顺序,沿线顺序进行扫描,搜索黑象素。
在步骤S502,判断是否找到了黑象素,在找到了黑象素时,将该黑象素作为开始点以及焦点Q,前进到步骤S503,开始轮廓抽出的处理。而在S502中没有找到的情况下结束。例如,在图8中,象素810成为了开始点,并且是最初的焦点Q。
在步骤S503,根据之前的跟踪方向d(从之前的象素跟踪到焦点Q的方向)和周围象素的状态,通过以图11的表所记载的顺序进行周围象素的检查,确定从焦点Q到下一个轮廓象素的跟踪方向d`。在此,跟踪方向如图10所示的那样,用N、NE、E、SE、S、SW、W、NW的8个方向表示。另外,作为例外处理,在最初的焦点Q(开始点),将之前的跟踪方向d定义为SE。图11所示的表表示了向之前的跟踪方向d检查焦点Q周围的象素的顺序n。例如,在之前的跟踪方向d是SW的情况下,从焦点Q看,从NW方向的象素开始以逆时针顺序检查周围的象素(以NW方向的象素、W方向的象素、SW方向的象素…的顺序进行检查),在找到了黑象素的时刻结束周围黑象素的检查,并将没有找到该黑象素的方向作为下一个跟踪方向d`。通过以图11所示那样的顺序进行检查,在确定了下一个跟踪方向d`时,不对在确定之前的跟踪方向d时进行过检查的象素进行检查。
在步骤S504,向焦点Q的象素附加表示是轮廓象素的标记。标记有“A”、“B”、“C”、“D”4种,在被轮廓包围的区域中,向成为象素行左端的边沿的象素附加标记A,向成为右端的边沿的象素附加标记B,向成为左右两端的边沿的象素附加标记C,向不是左右任意一方的边沿的轮廓象素附加标记D。使用图11和图12,根据之前的跟踪方向d和下一个跟踪方向d`以及现在的Q的标记值决定该标记值。
在步骤S505,将在下一个跟踪方向d`上的象素作为新的焦点Q,将跟踪方向d`代入之前的跟踪方向d。
在步骤S506,判断新的焦点Q是否与开始点相等,在相等的情况下,前进到步骤S507,如果不相等,则返回步骤S503,循环进行跟踪处理。
以图8的801为例,表示在步骤S503~506中执行的处理。首先,将开始点810作为最初的焦点Q,以图11记载的顺序,从方向SW开始检查。在此,从最初的焦点Q(810)开始,在下一个跟踪方向d`=SW(n=1)上找到了黑象素,参照图12,在向焦点Q(象素810)附加了标记“A”后,上下移动焦点Q。以下同样地循环进行,则得到附加了图8的802那样的标记的轮廓。
在步骤S507,调查在焦点Q(开始点)是否存在其他分支。在之前的跟踪方向d是NE的情况下,进行是否存在其他分支的判断,在之前的跟踪方向是NE以外的情况下,判断为不存在其他分支。在之前的跟踪方向d是NE的情况下,针对该焦点Q周围的象素,以从Q看的SE方向的象素、E方向的象素的顺序,检查是否存在黑象素,在存在了黑象素的时刻判断为存在其他分支,并在将焦点Q移动到该存在的方向d`上的同时,将跟踪方向d`代入之前的跟踪方向d,返回步骤S503。另一方面,在不存在其他分支的情况下,前进到步骤S509。
在步骤S509,将包围被附加了轮廓标记的黑象素的象素的块作为1个黑象素块进行记录。具体地说,如图8的803那样,针对每个y坐标(各象素行),将被左边沿标记“A”和右边沿标记“B”的组夹着的连续象素或单独的“C”象素作为1段,作为这些段的集合记录象素块。并且,在图8的803中,为了容易说明,将与黑象素块外接的矩形的左上点作为x坐标和y坐标的原点。适当地,将在S302中缩小了的图象的左上作为x坐标和y坐标的原点。
并且,在抽出1个象素块的处理结束后(S509的处理结束后),通过S402~S407对该抽出的象素块进行属性分类后,返回S501,从上次的开始点右邻的象素开始再次开始线扫描,搜索下一个开始点。但是,跳过对到该时刻为止得到的黑象素块的轮廓内部的象素的搜索,即,忽略与已经找出的黑象素块所具有的段重合的象素地,搜索象素值=“1”的象素。
返回图4的说明,针对在S401的处理(图5的处理)中抽出的所有的黑象素块,使用各黑象素块的形状和与各黑象素块外接的外接矩形的形状,在S402以后的处理中进行属性分类。
在步骤S402,在黑象素块的外接矩形的大小在相对于预先预想的最大文字高度及宽度而确定的阈值以下的情况下,判断为文字要素。向该黑象素附加所谓“CHAR”的属性。
在步骤S403,在黑象素块的外接矩形的大小是规定的比例以上的纵长度或横长度的情况下,附加“LINE”属性。
在步骤S404,针对黑象素块中的成为黑象素的轮廓,在判断出其形状是细斜的线形状的情况下,附加“LINE”属性。
在步骤S405,抽出存在于“CHAR”、“LINE”以外的黑象素块内部的白象素的4连接轮廓块。白象素的4连接轮廓块是指纵横连接的被白象素的轮廓包围的象素集合。以后将该集合称为白象素块。
抽出白象素块的方法是,在图5说明了的黑象素的轮廓抽出处理中翻转“0”和“1”,并且不考虑斜方向上的连接,只许可白象素在纵或横(N、E、S、W)的4个方向上的连接,而抽出轮廓。这是由于如果不这样,则在白象素的轮廓跟踪中,焦点就会跑出到成为基准的黑象素块的外部。由于这样的限制,在与图5的S503相当的处理中,不在图11、12的表中进行跟踪方向为斜方向的判断,而其他进行同样的处理。并且,代替图11、12的表,也可以准备白象素轮廓跟踪用的表,在这种情况下,由于跟踪方向只存在4个方向,所以成为非常小的表。
在步骤S406,调查黑象素的轮廓形状是否大致是四边形,如果大致是四边形,则前进到步骤S407。如果不是四边形,则判断黑象素块是“NONCHAR”。图13表示了四边形的黑象素块及四边形以外的黑象素块的例子。
在步骤S407,在从被判断为大致是四边形的黑象素块的内部抽出的白象素块的形状全部都大致是长方形,并且它们几乎没有间隙地占有了黑象素块的内部的情况下(白象素块的外接矩形相互不重叠地整齐地排列的情况),则白象素块的排列良好。然后,向内部白象素块的排列良好的黑象素块附加“TABLE”属性,另一方面,向排列不好的黑象素块附加“NONCHAR”属性。图14表示了内部白象素块的排列的例子。图14A及图14B是作为内部白象素块的排列良好而被分类为“TABLE”的黑象素块的例子,图14C是作为内部白象素块的排列不好而被分类为“NONCHAR”的黑象素块的例子。
在步骤S408,针对处于被分类为“NONCHAR”或“TABLE”的黑象素块内部的白象素块,进而以该白象素块内部为对象,进行与S401同样的黑象素块的抽出处理,并进行与S402~S407同样的分类处理。
通过该S401~S408的处理,抽出了图象内的黑象素块以及黑象素块中的白象素块,进而从“TABLE”、“NONCHAR”内部的白象素块中回归式抽出了黑象素块。
针对进行图4那样的处理而得到的黑象素块及白象素块,将存在于各象素块内部的象素块作为子节点,作成树结构。此时在树结构中,对黑象素块附加在S402~S407中分类了的属性来进行表示,对白象素块用“WHITE”属性表示。例如,对图15进行象素块抽出,则得到图16那样的具有树结构的数据。并且,在图16中,为了简化图,省略了一部分象素块的个数等,但实际上,存在许多的基于象素块的节点。在图16的树中,与“WHITE”节点对应的是所述白象素块,另外,为了简便而向树的节点附加了对应于图象全体的“WHITE”属性。即,在图16那样的树结构中,如果将“WHITE”属性考虑为背景,将其他的“CHAR”、“TABLE”、“LINE”等属性考虑为前景,则在图16的树结构中,母节点和子节点交互出现前景和背景。并且,树结构的各节点包含象素块的区域信息(段信息)和属性。
如以上说明的那样,在得到象素块的树结构后,在图3的步骤S304中,作为区域分割部件103的追加处理,针对象素块树结构中的被附加了“NONCHAR”或“TABLE”属性的黑象素块,以抽出该黑象素块中的处于黑底白字中的翻转文字为目的,进行象素块的抽出。以下,利用图6说明具体的处理例子。
在步骤S601,根据所处理的黑象素块(作为黑象素块A)的形状特征,类比推测黑象素块A中存在翻转文字的可能性。在此,在黑象素密度显著地低的情况下,即对于线骨架那样的黑象素块,判断为不包含翻转文字。并且,黑象素块密度是指在设黑象素块的全部段(图8的803所示那样的黑象素块区域)的总象素数为P时,通过{(黑象素块的全部段中象素值为1的个数)/P}求出的值。利用这样的能容易地计算出黑象素密度等的处理,在能判断出存在翻转文字的可能性显著地低的情况下,可以跳过S602~S608那样的复杂的解析处理,由此能加快处理。
在步骤S602,作成翻转了黑象素块A内部的象素的象素值(0和1)后的图象R。此时,针对构成黑象素块A的轮廓的象素,不翻转而保持象素值为1。图17表示做成图像R的例子。
另外,在使用在S302中实施了缩小的图象,进行S303的区域分割处理(象素块抽出)的情况下,在步骤S602中,从缩小前的原来图象抽出与该正在处理的黑象素块的区域对应的区域,对该抽出的区域进行象素值的(0和1)的翻转(但不翻转轮廓的象素)。对进行了该翻转的抽出区域实施OR缩小处理得到的图象就成为翻转图象R。这是因为如果不这样做,则在区域分割处理中进行了OR缩小处理的图象中,翻转文字部分变形的可能性较高。这样,在翻转了缩小前的图象后再进行缩小,能防止翻转文字部分变形或模糊。
在步骤S603,对翻转图象R的内部进行与S405同样的处理,抽出白象素的4连接轮廓块(白象素块集合B)。
在步骤S604,从在步骤S603抽出的白象素块集合B的内部,抽出黑象素块(黑象素块的8连接轮廓块)。抽出的黑象素块集合为C。
在步骤S605,抽出翻转前的黑象素块A内部的白象素块集合,将该翻转前的黑象素块A内部的白象素块集合中的具有规定以上大小的白象素块集合判断为不是翻转文字(黑底白字文字),并与在步骤604得到的黑象素块集合C进行比较,从集合C中去除在坐标上与该具有规定以上大小的白象素块重叠的黑象素块。这样地从翻转前的黑象素块A内部抽出白象素块并进行判断,能预先容易地判断出不是翻转文字的背景部分。另外,在对原来图象原样进行了OR缩小的图象内的黑象素块A中,即使有白象素块的变形,但由于从原来图象中分离出来的白象素块相互之间并不结合成一个白象素块,所以能正确地取出被判断为背景的部分(另一方面,在从对原来图象进行了翻转后再缩小的图象中抽出黑象素块的情况下,从原来图象中分离出来的白象素块有可能相互结合而成为黑象素块,因而如果原来图象的白象素背景部分与翻转文字部分接近,则有可能结合在一起,此时翻转文字部分也有可能性被排除出去,因而在步骤S605从翻转前的黑象素块A中抽出白象素块)。
图9表示了在步骤S602~S605进行的处理的例子。在S303的区域分割处理从对原来图象901在步骤302进行了OR缩小的图象中抽出的黑象素块是910的情况下,则对与该黑象素块对应的区域的原来图象进行翻转、缩小而作成的翻转图象就是920。处于黑象素块910内部的白象素块的区域912(在翻转图象920上,被抽出成为白象素块921内部的黑象素块922)在没有被明确判断为是翻转文字的情况下(例如,在比预先设定的规定大小大时,判断为不是翻转文字),因为与白象素块912在位置上重叠,所以对该黑象素块922进行排除处理。其结果是剩下了与翻转文字部分相当的黑象素块集合923。
在步骤S606,以与S402同等的判断标准(是否在规定的阈值以下),将集合C中的黑象素块分类为“CHAR”和除此以外。
在步骤S607,将“CHAR”黑象素块分为尺寸微小的和不小的。设其个数分别为N、M。
在步骤S608,将N视为因噪音造成的象素块的个数,通过与除此以外的象素块个数M进行比较,判断象素块是否是文字集合。在此,在M=0或N/M在比例T以上的情况下,认为象素块不是文字而前进到S610。除此以外的情况下,前进到S609。
在步骤S609,将“CHAR”黑象素块作为翻转文字的黑象素块,作成以白象素块为母节点的树结构,并追加到原来的黑象素块A的下面那样地更新象素块树。并且,作为母节点的白象素块可以原样使用白象素块B,也可以将与翻转文字的象素块外接那样的范围定义为白象素块。
通过这样将白象素块作为母节点,能原样保持母节点和子节点中的背景与前景交互出现那样的树结构地,将翻转文字追加成为树结构的前景。
在图15的例子中,在以1501、1502、1503的3个黑象素块为对象进行翻转文字抽出判断处理,根据噪音比等进行判断,从1501和1503中抽出翻转文字的象素块的情况下,图16的树被更新为如图18那样。此时被***的假想的白象素块除了包含翻转文字的背景那样的信息以外,与通常的“WHITE”一样。在本实施例中,写为“WHITE(R)”。
返回图3,在步骤S305,区域决定部件1033利用象素块的树结构及其分类结果,将图象分割成文字/图象/表/线等矩形的区域。并且,针对在步骤S303抽出的象素块和在步骤S304追加的象素块,由于保存有树结构的特性,所以不用区别,通过同样的处理就能进行分割。利用图7说明该象素块的分类、分区的处理。
在步骤S701,针对被分类为“CHAR”的象素块,对处于纵或横上的一定距离内的象素块进行分组。将包围该组的矩形作为各个文字区域。进而,调查在文字区域内文字串是横方向还是纵方向。例如,可以求出从区域内的各象素块到左右旁边最近的象素块的水平距离、以及到上下旁边最近的象素块的垂直距离,以它们的平均值小的作为文字串的方向。
在步骤S702,检测出“NONCHAR”象素块中的同等程度大小的在纵或横上连接的集合,对其进行分组并作为标题文字区域。
在步骤S703,抽出“NONCHAR”象素块中的轮廓内的黑象素和白象素的比小的,即黑象素密度低的,将其作为线图形区域。
在步骤S704,将对“NONCHAR”象素块中的黑密度高的大象素块或在某区域中成群的象素块进行了分组后的那部分作为灰度区域。灰度区域是指照片等***图象的区域。在灰度区域中包含“CHAR”或“LINE”的象素块的情况下,废弃各原来的区域,统一为灰度区域。
在步骤S705,将包围“LINE”象素块的矩形作为线区域。
在步骤S706,将包含“TABLE”区域的矩形作为表区域。
对所有的黑象素块进行以上处理。但是,将分组的对象作为每个存在于一个“WHITE”象素块内部的黑象素块集合。
例如,如果从图21的图象中得到了图18那样的象素块的树结构,则进而进行S701~S706的处理,确定图19那样的每个属性的区域。此时,以象素块树的结构为基础,在区域间作成图20的区域树结构。在该区域分割处理的输出结果中,保存有各区域的坐标信息以及成为自己的母节点的区域,如果存在子节点则还保存有向这些区域的连接信息。
并且,在图19中,画有斜线的文字区域是作为翻转文字被抽出的文字区域。可以根据输出结果,也可以根据是否是在图20的树结构中的处于WHITE(R)下面的文字来判断它。但是,S701~S706的处理由于不区别翻转区域地进行,所以判断算法等可以非翻转区域与翻转区域共通地使用。
如以上说明的那样,不论是翻转文字(黑底白字的文字)还是通常的文字都可以用相同的阶层树结构来进行管理。
另外,在进行把通过对纸扫描而得到的图象分割成文字或图、照片、表等不同性质的部分要素的区域分割处理时,利用与白底黑字的文字区域同样的区域抽出方法,也能抽出黑底白字的文字区域。

Claims (22)

1.一种图象处理方法,其特征在于:包括:
从二值图象中回归式抽出黑象素块和白象素块的第1象素块抽出步骤;
作成表示在所述第1象素块抽出步骤中抽出的黑象素块和白象素块的位置关系的树结构数据的树结构作成步骤;
使所述树结构数据所包含的黑象素块中的能包含翻转文字的黑象素块的内部黑白翻转,来作成翻转图象的翻转图象作成步骤;
从在所述翻转图象作成步骤中作成的翻转图象中抽出白象素块和黑象素块的第2象素块抽出步骤;和
把有关在所述第2象素块抽出步骤中抽出的白象素块和黑象素块的数据追加到所述树结构数据的对应节点中的树结构追加步骤。
2.根据权利要求1所述的图象处理方法,其特征在于:
针对在所述树结构追加步骤中追加的与白象素块和黑象素块有关的数据,把将与有关该当抽出的黑象素块的数据作为子节点而具有的白象素块有关的数据,作为所述树结构数据的该当黑白翻转的黑象素块的子节点来进行追加。
3.根据权利要求1所述的图象处理方法,其特征在于:
在所述翻转图象作成步骤中,把在所述第1象素块抽出步骤中抽出的黑象素块的轮廓保持为黑象素,而通过对其内部的象素进行黑白翻转来作成所述翻转图象。
4.根据权利要求1所述的图象处理方法,其特征在于:
还具有以下步骤:根据在所述树结构追加步骤中追加了与白象素块和黑象素块有关的数据的树结构数据,通过对黑象素块进行分组,来将所述二值图象分割成多个区域的区域分割步骤。
5.根据权利要求1所述的图象处理方法,其特征在于:
还具有以下步骤:根据在所述树结构追加步骤中追加了与白象素块和黑象素块有关的数据的树结构数据,通过对黑象素块进行分组,来作成表示多个区域的位置关系的区域树结构数据的区域树结构作成步骤。
6.根据权利要求1所述的图象处理方法,其特征在于:
所述黑象素块是指由通过黑象素的8方向轮廓追踪而得到的黑象素轮廓包围的区域,所述白象素块是指由通过白象素的4方向轮廓追踪而得到的白象素轮廓包围的区域。
7.根据权利要求1所述的图象处理方法,其特征在于:
所述二值图象是指通过对二值的原始图象进行OR缩小而得到的图象;
所述翻转图象是根据该当黑白翻转对象的黑象素块的区域和使所述原始图象黑白翻转后再进行OR缩小而得到图象来作成的。
8.根据权利要求1所述的图象处理方法,其特征在于:
在所述翻转图象作成步骤中,对所述树结构数据中包含的黑象素块中的黑象素密度低的黑象素块,不作成翻转图象。
9.根据权利要求1所述的图象处理方法,其特征在于:
在所述第2象素块抽出步骤中抽出的黑象素块是:在从所述翻转图象中抽出的多个黑象素块中,把从所述二值图象中抽出的白象素块中的具有规定以上大小的白象素块所对应的位置上的所述翻转图象中抽出的黑象素块除外,在进行了该除外之后剩余的黑象素块。
10.根据权利要求1所述的图象处理方法,其特征在于:
在所述第2象素块抽出步骤中,在从所述翻转图象中抽出的多个黑象素块中的因噪音而产生的黑象素块的比例为规定值以上时,把作为该翻转图象的作成原形的黑象素块判断为不包含翻转文字来结束处理。
11.根据权利要求7所述的图象处理方法,其特征在于:
所述二值的原始图象是通过对多值的原始图象进行二值化而变换得到的图象。
12.一种图象处理装置,其特征在于:包括:
从二值图象中回归式抽出黑象素块和白象素块的第1象素块抽出装置;
作成表示在所述第1象素块抽出步骤中抽出的黑象素块和白象素块的位置关系的树结构数据的树结构作成装置;
使所述树结构数据所包含的黑象素块中的能包含翻转文字的黑象素块的内部黑白翻转,来作成翻转图象的翻转图象作成装置;
从在所述翻转图象作成步骤中作成的翻转图象中,抽出白象素块和黑象素块的第2象素块抽出装置;和
将有关在所述第2象素块抽出步骤中抽出的白象素块和黑象素块的数据,追加到所述树结构数据的对应节点中的树结构追加装置。
13.根据权利要求12所述的图象处理装置,其特征在于:
针对在所述树结构追加步骤中追加的与白象素块和黑象素块有关的数据,把将与有关该当抽出的黑象素块的数据作为子节点而具有的白象素块有关的数据,作为所述树结构数据的该当黑白翻转的黑象素块的子节点来进行追加。
14.根据权利要求12所述的图象处理装置,其特征在于:
在所述翻转图象作成装置中,把通过所述第1象素块抽出装置抽出的黑象素块的轮廓保持为黑象素,而通过对其内部的象素进行黑白翻转来作成所述翻转图象。
15.根据权利要求12所述的图象处理装置,其特征在于:
还具有以下装置:根据利用所述树结构追加装置追加了与白象素块和黑象素块有关的数据的树结构数据,通过对黑象素块进行分组来将所述二值图象分割成多个区域的区域分割装置。
16.根据权利要求12所述的图象处理装置,其特征在于:
还具有以下装置:根据利用所述树结构追加装置追加了与白象素块和黑象素块有关的数据的树结构数据,通过对黑象素块进行分组来作成表示多个区域的位置关系的区域树结构数据的区域树结构作成装置。
17.根据权利要求12所述的图象处理装置,其特征在于:
所述黑象素块是指由通过黑象素的8方向轮廓追踪而得到的黑象素轮廓包围的区域,所述白象素块是指由通过白象素的4方向轮廓追踪而得到的白象素轮廓包围的区域。
18.根据权利要求12所述的图象处理装置,其特征在于:
所述二值图象是指通过对二值的原始图象进行OR缩小而得到的图象;
所述翻转图象是根据该当黑白翻转对象的黑象素块的区域和使所述原始图象黑白翻转后再进行OR缩小而得到图象来作成的。
19.根据权利要求12所述的图象处理装置,其特征在于:
在所述翻转图象作成装置中,对所述树结构数据中包含的黑象素块中的黑象素密度低的黑象素块,不作成翻转图象。
20.根据权利要求12所述的图象处理装置,其特征在于:
用所述第2象素块抽出装置抽出的黑象素块是:在从所述翻转图象中抽出的多个黑象素块中,把从所述二值图象中抽出的白象素块中的具有规定以上大小的白象素块所对应的位置上的所述翻转图象中抽出的黑象素块除外,在进行了该除外之后剩余的黑象素块。
21.根据权利要求12所述的图象处理装置,其特征在于:
在所述第2象素块抽出装置中,当从所述翻转图象中抽出的多个黑象素块中的因噪音产生的黑象素块的比例为规定值以上时,把作为该翻转图象的作成原形的黑象素块判断为不包含翻转文字来结束处理。
22.根据权利要求18所述的图象处理装置,其特征在于:
所述二值的原始图象是通过对多值的原始图象进行二值化而变换得到的图象。
CNB031598773A 2002-09-30 2003-09-26 图像处理方法和图像处理装置 Expired - Fee Related CN100474340C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP285580/2002 2002-09-30
JP2002285580A JP3950777B2 (ja) 2002-09-30 2002-09-30 画像処理方法、画像処理装置および画像処理プログラム

Publications (2)

Publication Number Publication Date
CN1497502A true CN1497502A (zh) 2004-05-19
CN100474340C CN100474340C (zh) 2009-04-01

Family

ID=31973399

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031598773A Expired - Fee Related CN100474340C (zh) 2002-09-30 2003-09-26 图像处理方法和图像处理装置

Country Status (5)

Country Link
US (2) US7298900B2 (zh)
EP (1) EP1403813B1 (zh)
JP (1) JP3950777B2 (zh)
CN (1) CN100474340C (zh)
DE (1) DE60331624D1 (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4409897B2 (ja) * 2003-09-19 2010-02-03 株式会社リコー 画像処理装置、画像処理方法、プログラム及び情報記録媒体
JP4111190B2 (ja) * 2004-12-24 2008-07-02 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置
JP4646797B2 (ja) * 2005-02-01 2011-03-09 キヤノン株式会社 画像処理装置及びその制御方法、プログラム
JP4618676B2 (ja) * 2005-04-28 2011-01-26 株式会社リコー 構造化文書符号の転送方法、画像処理システム、サーバ装置、プログラム及び情報記録媒体
US7697149B2 (en) * 2005-08-10 2010-04-13 Kyocera Mita Corporation System for detecting and avoiding printing of solid black areas
US7733524B2 (en) * 2006-06-06 2010-06-08 Primax Electronics Ltd. Monochromic image processing system and method for background removal according to dynamic data
JP4807879B2 (ja) * 2006-06-21 2011-11-02 株式会社バンダイナムコゲームス 入力された画像データから少なくとも1以上の認識対象画像を抽出するための画像認識装置、方法、プログラム及び情報記録媒体
JP4662066B2 (ja) * 2006-07-12 2011-03-30 株式会社リコー 画像処理装置、画像形成装置、画像配信装置、画像処理方法、プログラム及び記録媒体
JP4241774B2 (ja) * 2006-07-20 2009-03-18 カシオ計算機株式会社 画像処理装置、画像処理方法及びプログラム
US8107743B2 (en) * 2007-03-30 2012-01-31 Sharp Kabushiki Kaisha Image processing device, image processing method, and storage medium
US8068684B2 (en) 2007-05-04 2011-11-29 I.R.I.S. Compression of digital images of scanned documents
CN101551859B (zh) * 2008-03-31 2012-01-04 夏普株式会社 图像辨别装置及图像检索装置
JP5028337B2 (ja) * 2008-05-30 2012-09-19 キヤノン株式会社 画像処理装置、画像処理方法、プログラム、及び記憶媒体
JP5121591B2 (ja) 2008-06-18 2013-01-16 キヤノン株式会社 画像処理装置、画像処理装置における画像処理方法、プログラムおよびプログラムを記憶したコンピュータ可読記憶媒体
JP5121599B2 (ja) 2008-06-30 2013-01-16 キヤノン株式会社 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
US8351691B2 (en) * 2008-12-18 2013-01-08 Canon Kabushiki Kaisha Object extraction in colour compound documents
JP5538967B2 (ja) 2009-06-18 2014-07-02 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
JP2011013898A (ja) 2009-07-01 2011-01-20 Canon Inc 画像処理装置、画像処理方法、及び、プログラム
JP5511450B2 (ja) * 2010-03-16 2014-06-04 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
JP5733907B2 (ja) 2010-04-07 2015-06-10 キヤノン株式会社 画像処理装置、画像処理方法、コンピュータプログラム
KR102145722B1 (ko) 2010-04-13 2020-08-20 지이 비디오 컴프레션, 엘엘씨 샘플 영역 병합
CN106231336B (zh) 2010-04-13 2020-06-12 Ge视频压缩有限责任公司 解码器、解码方法、编码器以及编码方法
KR102282803B1 (ko) 2010-04-13 2021-07-28 지이 비디오 컴프레션, 엘엘씨 평면 간 예측
DK3301648T3 (da) 2010-04-13 2020-04-06 Ge Video Compression Llc Nedarvning i samplearraymultitræsunderinddeling
US8467606B2 (en) * 2011-08-25 2013-06-18 Eastman Kodak Company Method for segmenting a composite image
JP6236817B2 (ja) 2013-03-15 2017-11-29 株式会社リコー 画像形成装置
CN105354836B (zh) * 2015-10-14 2018-08-28 合肥安晶龙电子股份有限公司 色选方法
US9965871B1 (en) * 2016-12-30 2018-05-08 Konica Minolta Laboratory U.S.A., Inc. Multi-binarization image processing
US11501551B2 (en) * 2020-06-08 2022-11-15 Optum Services (Ireland) Limited Document processing optimization
CN117036364B (zh) * 2023-10-09 2024-01-02 全芯智造技术有限公司 图像处理方法及装置、存储介质、计算设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59142678A (ja) 1983-02-03 1984-08-15 Ricoh Co Ltd 枠認識方式
JPH0656618B2 (ja) 1986-05-20 1994-07-27 国際電信電話株式会社 画像情報の文字・図形分離方法
JPH0528317A (ja) * 1991-07-23 1993-02-05 Canon Inc 画像処理方法及び装置
JP3083673B2 (ja) * 1993-03-31 2000-09-04 株式会社東芝 像域識別装置
JP3302147B2 (ja) 1993-05-12 2002-07-15 株式会社リコー 文書画像処理方法
JP2888270B2 (ja) 1993-11-30 1999-05-10 日本ビクター株式会社 図形処理装置及びその方法
US5588072A (en) * 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
US5987171A (en) 1994-11-10 1999-11-16 Canon Kabushiki Kaisha Page analysis system
JP4077919B2 (ja) * 1998-01-30 2008-04-23 キヤノン株式会社 画像処理方法及び装置及びその記憶媒体
JP4392907B2 (ja) * 1999-07-30 2010-01-06 株式会社東芝 文字切出し方法
JP4366011B2 (ja) 2000-12-21 2009-11-18 キヤノン株式会社 文書処理装置及び方法

Also Published As

Publication number Publication date
US7298900B2 (en) 2007-11-20
US20040061883A1 (en) 2004-04-01
JP2004126648A (ja) 2004-04-22
US8155445B2 (en) 2012-04-10
DE60331624D1 (de) 2010-04-22
EP1403813A2 (en) 2004-03-31
EP1403813A3 (en) 2005-07-20
US20080080769A1 (en) 2008-04-03
EP1403813B1 (en) 2010-03-10
CN100474340C (zh) 2009-04-01
JP3950777B2 (ja) 2007-08-01

Similar Documents

Publication Publication Date Title
CN1497502A (zh) 图象处理方法和图象处理装置
JP5613073B2 (ja) 微細固有特徴生成方法およびドキュメント画像処理システム
Konidaris et al. Keyword-guided word spotting in historical printed documents using synthetic data and user feedback
Lazzara et al. Efficient multiscale Sauvola’s binarization
Shafait et al. Performance comparison of six algorithms for page segmentation
Hangarge et al. Offline handwritten script identification in document images
JPH0668301A (ja) 文字認識方法及び装置
CN104346615A (zh) 版式文档中复合图的提取装置和提取方法
CN1198238C (zh) 图象处理设备和由一个多级图象产生二进制图象的方法
CN1575477A (zh) 服装纸样的自动数字化
CN1711558A (zh) 相似图像提取装置、相似图像提取方法以及相似图像提取程序
Shafait et al. A simple and effective approach for border noise removal from document images
Ganchimeg History document image background noise and removal methods
CN1317664C (zh) 乱笔顺库建立方法及联机手写汉字识别评测***
CN1275191C (zh) 用于扩展在图象中的字符区域的设备及方法
Liang et al. A statistically based, highly accurate text-line segmentation method
Gao et al. A sequence labeling based approach for character segmentation of historical documents
Aparna et al. A complete OCR system development of Tamil magazine documents
CN1107280C (zh) 中英文表单的识别***及识别方法
Dey et al. A comparative study of margin noise removal algorithms on marnr: A margin noise dataset of document images
Elanwar et al. The ASAR 2018 Competition on physical layout analysis of scanned Arabic books (PLA-SAB 2018)
JPH09120443A (ja) 画像処理方法とその装置
Shivani Techniques of Text Detection and Recognition: A Survey
JP4587167B2 (ja) 画像処理装置及び画像処理方法
CN1581224A (zh) 二值光栅图像的矢量化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090401

Termination date: 20170926

CF01 Termination of patent right due to non-payment of annual fee